"Snad každý, kdo se někdy osobně prováděl restart ve studené uličce datacentra, dokáže potvrdit, že POST u těchto serverů trvá nekonečně dlouho"
Neni to vec rychle kontroly RAM, kterou maji desktopy vetsinou vypnutu? U nas servery vzdy bootovali rychle, mozna kolem 30s nez funguje SSH a dalsich nekolik min nez bezi uplne vsechno.
SuperMicro: ne, samozřejmě kontrola RAM trvá (bývá jí tam taky podstatně víc), ale inicializuje se taky RAID a kde co, docela to trvá. V té studené uličce to člověku připadá nekonečně, naštěstí konzolu od KVM máme bokem a servery mají IPMI, takže v té uličce stojím jen než server zasunu do racku. Fyzicky k serveru musím skutečně jen při manipulaci s hardwarem.
Pokud nekdo pouziva SuperMicro tak chapu ze v te studene ulicce travi spoustu casu. Je toto pokus o troll? Mozna...
Delal jsem pro jeden cesky startup a tyto servery uz nikdy vic. Jakmile bezpecaci zacli resit certifikace tak po tom mnozstvi bugu a chybejicich fixech to byla posledni kapka. Nehlede na to ze servery v akci od dellu se velmi blizili cene za SM(cti Sado-Maso).
Pro malou firmu co ma levnou pracovni silu, hodne sluzeb na microservicy a koupi k jednomu supermicro dalsiho do vymeny to je mozna i strategie. Podobne jako treba google s levnymi PC. Ale ma to sve hranice.
25. 11. 2020, 10:44 editováno autorem komentáře
Taky mam se SM jenom spatnou zkusenost - kdyz na X8 pristupovalo lm_sensors i BMC k senzorum, tak to zrejme udelal kolizi a totalne pomatlo BMC - takze to chvili rvalo ze je to prehrate nebo umrznute, poustelo vetraky na plno - a to nejhorsi - vetraky zcela odstavilo.
Asi nejaky self-destruct mode, kdyz deska vi ze je po zaruce? :-)
My máme se SM zkušenosti i dobré i špatné. Ale stejně i Dellem a HPE.
Teda s HPE hlavně špatné, v době kdy jsme je měli tak měly zabugované firmwary kde čeho. U Dellů nám starší iDRAC zamrzal a byl nutný firmware upgrade (což je na legacy serveru s nápisem "nevypínat" docela oříšek, nakonec jsme ten software, co na něm běží, po restartu nějak zprovoznili).
Supermicra máme historicky hlavně na "levnou pracovní sílu", takže microcloudy bez raidu. To funguje dobře a startuje celkem rychle. Teď už nakupujeme i "dražší" supermicra a s těmi novými zatím nebyl problém. U starších strojů s hw raidy nám tyto občas odcházejí, ale nejen u supermicra.
3. 12. 2020, 00:15 editováno autorem komentáře
Ta rychla kontrola ram se dela i u quick bootu.
Minimalne potrebujes stahnout konfiguraci pameti z modulu, zjistit jestli je to kompatibilni se stavajici konfiguraci, nastavit casovani a inicializovat. To je naproste minimum co je nutne udelat. Mozna jeste procistit kriticke pametove lokace.
Spravne se ma nulovat vsechno a cele pameti projet rychlym testem, nicmene ve vetsine konfiguraci to lze preskocit.
Predpokladam ze BIOS vi, ze pri cteni ECC pameti z cold-bootu by dostaval jenom chyby, takze tu pameti zapisuje, ale to je otazkou par vterin (mozna to ale dela per radic, takze vzdy ta incializace jede v 1ch rezimu).
OS pri normalnim provozu necte nahodne pametove lokace - vzdy se neco prvne zapise. A alokator virtualni pameti funguje tak, ze v pripade page-fault pro oblast ktera patri do alokovaneho rozsahu to vytvori novou stranku - a vynuluje ji. Tohle se deje na nejnizsi urovni v kernelu.. takze nechapu jak a kdy by jste chtel cist fyzickou pamet, ktera nebyla dotcena.
Presne tak. OS navic muze pri bootu udelat jeste scrub pameti mimo kernel space pro jistotu - zalezi co ma clovek za OS nebo hypervisor. Tady nelze generalizovat.
Dale je treba zminit ze delat nulovani u serveru ktere maji TB pameti (coz uz je dnes bezne) a pamet funguje v omezenem rezimu pri POSTu neni uplne optimalni na rychly boot.