Ono to je blby kdyz je to proste vsude naraz aplikovany, to je moje jedina vytka, kde vsichni uzivatele/zakaznici selhali (anebo dodavatel, jestli update pushuje on sam).
Na schopnejsich platformach existuje napr. tahle featura:
takze pokud sledujete pady aplikace, vcetne backtrace, tak tohle vam umoznuje odhalit nove chyby zpetnou vazbou z produkce, bez toho, aniz byste zhodili celej svet, nebo se zblaznil z crash reportu.
Jestli jsem to dobře pochopil z diskuze výše, tak tohle se aktualizuje samo, kdy chce a nikoho se na nic neptá a asi to nejde ani ovlivnit. To je zásadní průšvih.
Spíš jsem ale narážel na to, s jakým klidem se dnes svěřují vysoké pravomoci třetím stranám, nebo se na nich vytváří závislosti, a pak se někdo hrozně diví. A nejde jen o tuhle aféru (zaplatím si za bazmek, který si může dělat v systému, co chce a nemám nad tím kontrolu) - můžu provozovat "všechno" v cloudu, můžu si všude nastavit jako DNS server 8.8.8.8, můžu si všechny javascripty na webu rovnou tahat od třetí strany, můžu kdeco podobného. Vždyť to přece funguje, nemůže se nic stát. No... evidentně může.
Uvědomte si, že jde o bezpečnostní software, který má jistá specifika. Například pokud se běží nějaký útok, potřebujete ho detekovat co nejdřív a ne si hrát s A/B testováním. Jasně, obvykle taková věc bude řešená aktualizací nějaké databáze signatur, která asi nevyvolá BSOD – ale pokud útočník objeví nějaký vektor útoku, třeba nějaké systémové volání, které ještě nemáte podchycené, asi nezbyde než vydat nový ovladač.
Druhá věc je, že i ty aktualizace musí být dostatečně robustní. Aby vám útočník ten bezpečnostní software neobešel jednoduše tak, že mu vypne nějaký feature flag.
Netvrdím, že je to zrovna tenhle případ, a nechci je obhajovat – už dlouho tvrdím, že největším nebezpečím hned po uživateli je bezpečnostní software, protože má stejné možnosti, jako OS, ale zdaleka není dělaný tak pečlivě a není pod takovým drobnohledem.
Ale dělat postupné aktualizace není vždy jednoduché ani u běžného softwaru, a ten bezpečnostní má ještě nějaká specifika navíc. Ale taky je klidně možné, že to tak v tomhle případě udělat mohli, ale prostě to tak nedělali, protože zatím neměli průšvih, který by jim ukázal, že postupný rollout se vyplatí.
Pak je tu také ten problém, že pokud ten ovladač způsobí BSOD a pak se to zacyklí při bootování, nemá ten systém šanci odeslat zprávu, že tento update se tak úplně nepovedl. Takže se to začne rolovat na další systémy. A dozvídat se o chybách z televize a sociálních médií není úplně ideální, protože tenhle kanál je překvapivě pomalý a plný šumu. Ten postupný rollout se hodí hlavně u systémů, které můžete online přímo monitorovat a rovnou to vidíte, že nějaký uzel nenaběhl, odpovídá pomalu, chybami apod.
Ten ovladač pravděpodobně nepadá hned po instalaci.
Mnohá ta zařízení ani nemusí mít přístup do internetu – aktualizace se může stáhnout na nějaký interní aktualizační server a zařízení v síti se aktualizují z něj.
Samozřejmě se bude hledat, jak se z toho poučit, aby k takové chybě příště nedošlo. Jenom bych byl opatrný s tím, že to bude jednoduché, jenom se zapne postupný rollout verze a problém bude vyřešen.
Ono bude mimochodem dost zajímavé, až se bude vědět, jak velký podíl systémů to zasáhlo. Z těch, které tohle řešení používají.
19. 7. 2024, 22:11 editováno autorem komentáře