Mno ... ono zalezi ... protoze a jelikoz, i pri 1 bitu ti kazdej svepravnej HW uz loguje a hlasi opravitelny chyby, coz samo o sobe je indikace toho, ze je neco spatne.
Pokud se ti objevi "neopravitelna" chyba (tzn je to vic nez ten 1 bit) tak zalezi predevsim na systemu, kterymu ten HW chybu nareportuje, jak se k tomu postavi.
Mno a pak muzes narazit taky trebas na to, ze tam, kde mi na tom zalezi, muzu mit v RAMce udelanej RAID. Vetsi servery to bezne podporujou primo na urovni HW.
A pak jeste muzes hypoteticky s podobnema stavama pocitat prave na urovni systemu/aplikace. Takze ti nic padnout nemusi, muzes mit trebas jen zalogovanou chybu. Tyhle veci se totiz celkem bezne resej u obvodu, ktery maj bejt vystaveny nejakymu zareni nebo silnymu poli.
máš jedinečnou schopnost mít komentáře naprosto mimo.
Při chybách, které opraví a zachytí ECC tak se zvyšuje pouze counter, běžně se o tom nedozvíš a může se jednat o dost chyb. Můžeš to monitorovat, ale ne moc v reálném čase. Na hodně zatížených db serverech (60 % load na exadatě) jsou desítky oprav denně.
Je problém detekovat chyby s více než dvěma změněnými byti, systém si totiž myslí, že k žádné chybě nedošlo.
RAID v ramce? Předpokládám, že mluvíš o RASu, raid je algoritmicky něco úplně jiného, ano to je technologie podporovaná procesory určená k vyřešení problémů s nespolehlivou RAM.