GitLab měl pět zálohovacích mechanismů, nefungoval ani jeden

1. 2. 2017

Doba čtení: 2 minuty

Líbí se vám článek?
Podpořte redakci

Že je potřeba zálohovat, ví každý admin a snad to tuší i každý uživatel. Případ velkého výpadku služby GitLab ale ukazuje, že je potřeba zálohy řešit pořádně, koncepčně a hlavně je průběžně hlídat.

GitLab má velký výpadek, služba nefunguje a správci se snaží zachránit situaci. Výpadky se občas stávají, dokonce se i někdy stává, že si spletete server a smažete si data někde jinde. V tomto případě správce v Nizozemí omylem smazal databázi na produkčním serveru, ze kterého měla proběhnout replikace. Jedním příkazem tak služba přišla o 300 GB uživatelských dat.

Nepříjemné je to hlavně pro velké množství uživatelů, ale Git je z principu decentralizovaný, takže není problém chvíli počkat a commitovat lokálně nebo repozitář dočasně přesunout jinam.

Známý mi nedávno vyprávěl, jak se snažil dokola restartovat server, ale nedařilo se mu to. Pak k němu i dojel a skutečně to pořád nedělalo, co chtěl. Až po nějaké chvíli zjistil, že má v telefonu hromadu nepřijatých hovorů od šéfa a zákazníků. Restartoval totiž omylem produkční stroj a divil se, že ten jeho stále žije svým životem. Kdo to nezažil, není admin.

Na případu GitLab je pozoruhodný jiný fakt: totiž že měli pět různých zálohovacích mechanismů a pět z nich selhalo. Ani jeden nefungoval správně. Výsledkem je smazaná produkční databáze, ke které neexistuje snadno dostupná a dostatečně čerstvá záloha. Databáze obsahovala například hlášení chyb (issues) a merge requests. Samotné gitovské repozitáře a soubory s wiki poškozeny nebyly.

We accidentally deleted production data and might have to restore from backup. Google Doc with live notes https://t.co/EVRbHzYlk8
— GitLab.com Status (@gitlabstatus) February 1, 2017

LVM snapshoty se automaticky dělaly jen jednou za 24 hodin. Šest hodin před výpadkem byl jeden udělán manuálně.
Klasické zálohy probíhaly také jednou za 24 hodin, ale není jasné, kam byly ukládány. Zálohy na S3 jsou prázdné.
Snapshoty v Azure byly zapnuté pro NFS disky, ale už ne pro databázové úložiště.
Záloha pomocí pg_dump také selhávala, protože se omylem pouštěl PostgreSQL verze 9.2 místo správné 9.6. Proces tak potichu selhával a nikdo si toho nevšiml.
Replikační procedura byla prováděna nahodile napsanými shellovými skripty bez dokumentace.

Zároveň se objevily další problémy, jako že byly špatně zpracovány webhooky, takže pravděpodobně jsou součástí záloh a budou ztraceny a podobně. Postupně se daří staré zálohy obnovovat, ale není jasné, jak dlouho to bude trvat ani kolik toho bude nakonec ztraceno. V každém případě budou data minimálně šest hodin stará.

GitLab se rozhodl pro radikální změnu, v budoucnu poběží na Ceph clusteru a to by jej mělo činit odolnějším proti podobným problémům. Uvidíme. V každém případě to opět ukazuje na fakt, že zálohy je potřeba nejen dělat (třeba pětkrát), ale hlavně kontrolovat jejich funkčnost.

Vstoupit do diskuse (68 názorů)

Petr Krčmář

Petr Krčmář pracuje jako šéfredaktor serveru Root.cz. Studoval počítače a média, takže je rozpolcen mezi dva obory. Snaží se dělat obojí, jak nejlépe umí.

Témata:

Ano. V normálních firmách se zálohy testují, zkouší se čtenost pásek a tak podobně. Nikoliv 3x ročně, ale každý měsíc nebo i častěji (zálohy se mohou používat i v rámci běžných postupů). Ještě bych chtěl zdůraznit, že je také rozdíl mezi zálohou a archivem. Samozřejmně to nezmanená, že se nikdy nic neztratilo, ale když se něco ztratí, tak to znamená, že se něco zanedbalo a většinou nikoliv na technické části, ale třeba nikdo nedal pokyn, aby se to zálohovalo (protože to bylo určeno jen na…

Heron

Sdílet

Autor článku

Petr Krčmář

Témata:

Komerční sdělení

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budoucnost zpracování dokumentů s AI

[AKTUALIZOVÁNO 20. 11.]Black Friday spouští lavinu slev! Zjišťujeme, kde a na čem lze ušetřit i…

Krátké vlny: Odklad práva na digitální služby a Milouš Jakeš o kyberbezpečnosti

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Nová 3D tiskárna Prusa CORE One oznámena. Měl by se populární Bambu Lab začít bát?

„Nemáme na tom zájem“. Opozice znovu brzdí televizní poplatky

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Renesance, nebo návrat Vegy? Radeony RX 9000 dostanou sjednocenou AI-herní architekturu UDNA

Čeští středoškoláci očekávají vypuštění své družice na oběžnou dráhu. Má tam pálit laserem po jiných

Oznámení o osvobozených příjmech: Shrnutí povinností pro fyzické osoby

GitLab měl pět zálohovacích mechanismů, nefungoval ani jeden

Sdílet

Autor článku

Petr Krčmář

Témata:

Komerční sdělení

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budoucnost zpracování dokumentů s AI

Mohlo by vás zajímat

Postřehy z bezpečnosti: pád tržiště pro DDoS útoky

Z našich webů

[AKTUALIZOVÁNO 20. 11.]Black Friday spouští lavinu slev! Zjišťujeme, kde a na čem lze ušetřit i…

Krátké vlny: Odklad práva na digitální služby a Milouš Jakeš o kyberbezpečnosti

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Nová 3D tiskárna Prusa CORE One oznámena. Měl by se populární Bambu Lab začít bát?

„Nemáme na tom zájem“. Opozice znovu brzdí televizní poplatky

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Renesance, nebo návrat Vegy? Radeony RX 9000 dostanou sjednocenou AI-herní architekturu UDNA

Čeští středoškoláci očekávají vypuštění své družice na oběžnou dráhu. Má tam pálit laserem po jiných

Oznámení o osvobozených příjmech: Shrnutí povinností pro fyzické osoby

Dále u nás najdete

Obsah vytvořený pomocí AI vidíte každý den. Jen to nevíte

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Nevyžádané marketingové hovory přísnější zákon nevymýtil

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

Co dělat, když vám zavřou dodavatele IT služeb?

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Šlamastika kolem pozastavené výplaty důchodu

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Opatrně s kofeinovým práškem, už jedna lžička je životu nebezpečná

Je možné vyhrát nad Temu? Prodejci her se to podařilo

Osvědčené způsoby, jak snížit vysoký krevní tlak

Svařák bez alkoholu je skvělá varianta pro těhotné či abstinenty

Stow vytváří regálové systémy pro Alzu, Lidl i Rohlík

Novu nebude tvořit AI. A umělé moderátory v ČRo nečekejte

Od pokeru do dílny: Vyrábí v ní nábytek z ohýbaného betonu

Prokletí slavného spisovatele: duševní poruchy a sebevraždy

Dřívější neplodnost dnes řeší miniinvazivní operace

Deepl nově umí překládat v reálném čase řeč

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

World of Warcraft slaví 20 let a stále se hraje