Sága rodiny DBM
Nejznámější a nejrozšířenější databází z této rodiny je bezesporu Berkeley DB, počet instalací se odhaduje na 15 miliónů, což ji řadí na první místo ve světě. Ačkoliv je Berkeley DB rozhodně stará databáze s dlouhou historií a patří mezi klasické unixové on-disk hashtable databáze, je až třetím potomkem v rodině DBM databází. Historicky první databází implementující on disk hashtables, která doznala vetšího rozšíření, byla DBM.
1. DBM originál
Originální DBM byla malá, jednoduchá, víceméně bug-free databáze, která měla však jednu zcela zásadní nevýhodu – nebylo možné otevřít více než jednu databázi současně, neb to její API neumožňovalo. DBM API nebylo moc dobře navržené, přesněji řečeno toto API si zaslouží být probíráno na hodinách software engineeringu jako příklad ukazující, jak nenavrhovat API rozhraní. Autoři při jejím návrhu nepočítali s větším využitím mimo vlastní projekt. Jak historie ukázala, mýlili se.
Tato databáze moc dlouho na špici nevydržela, sem tam se na velmi krátký čas mihla jako standardní součást System V – derived Unixů. DBM ukázala však směr vývoje a byla velmi rychle nahrazená databází NDBM. Dnes se DBM databáze nepoužívá, sám jsem ani nebyl schopen vygooglovat její tarball za účelem recenze. Hodnota DBM je tedy čistě jen historická. Byla první.
2. NDBM – DBM udělaná správně
Databáze NDBM je pokračováním databáze DBM. Pokud zaslechnete zmínku o DBM, není tím myšlen DBM originál, ale právě NDBM. NDBM přinesla oproti DBM několik změn: nejdůležitější z nich bylo předělání API do srozumitelnější formy. Ačkoliv samotná NDBM již pomalu zapadla prachem a v současné době se s ndbm setkáte jen jako se standardní součástí výbavy několika komerčních Unixů – na Linuxu se snad nikdy ani nepoužívala – NDBM API přežilo bez problémů dodnes. Naprostá většina dnešních embedded databází poskytuje NDBM-kompatibilní API, a tak pokud chcete mít aplikaci přenositelnou mezi několika databázovými backendy, je vhodné i dnes použít NDBM api. Ačkoliv bývá často argumentováno, že použití nativního DB API oproti NDBM kompatibilnímu wrapperu je lepší z výkonostního hlediska, na dnešních počítačích jsem nezaznamenal žádný měřitelný rozdíl. NDBM api snadno poznáte – všechny funkce mají dbm_ prefix.
NDBM databázi poznáte stejně snadno – pro každou databázi vytváří dva soubory s koncovkou .pag a .dir. Tyto soubory jsou typu sparse (s dírama uvnitř). Největší výtka směrovaná proti ndbm se týká právě použití dvou souborů, protože to činí atomické updaty obtížnými. Dnešní databáze nejsou s ndbm kompatibilní na úrovni datových souborů, ačkoliv například gdbm obsahuje program, který umí jejich konverzi. Databáze odešla, API zůstalo. Tarball NDBM je na rozdíl od DBM nejen googlovatelný, ale i přeložitelný. Dnes bych NDBM již nikam neinstaloval.
3. Berkeley DB
Dostáváme se konečně k Berkley DB. Má nejoblíbenější databáze z rodiny DBM. Pod pojmem Berkeley DB mám na mysli klasickou 1.85/86, nikoliv tzv. novou generaci počínající verzí 2.x. Těžko uvěřit, že se tato klasika z roku 1994 používá v nezměněné formě dodnes. Má to své důvody: kód je odladěný a bugfree, API jednoduché a stabilní, BSD licence je přátelská ke komerčnímu použití, výkon je plně postačující, podobných produktů pod BSD databází je poskrovnu a není důvod ke změně fungujícího produktu. To, že je něco staré, ještě neznamená, že je to špatné. Při prohlížení historie operačních systémů BSD mne překvapilo naprosté minimum user visible změn v UNIXu za posledních 20 let. Berkeley DB1 budeme používat ještě dlouhá léta…
Berkeley DB implementuje dva druhy aplikačního rozhraní: jednak je to již výše zmíněné NDBM, jednak je to vlastní DB 1.x API. Osobně dávám přednost ndbm rozhraní, jelikož je jednoduší. DB 1 rozhraní není kompatibilní s novějšímy DB 2+, ačkoliv jméno includovaného hlavičkového souboru zůstalo stejné, což způsobuje zbytečné problémy. DB1.85 wrapper je naštěstí standardní součástí distribucí DB 2+. Verze DB 2+ také neumí načítat datové soubory z 1.x a je oproti 1.x poněkud (dost) pomalejší.
Na rozdíl od předcházejících databází z DBM rodiny umí Berkeley DB kromě on disk haštabulky také databáze typu btree a recno. Zdaleka nejpoužívanějším typem databáze jsou haštabulky, pak dlouho nic a potom btree. Databáze recno jsou v praxi v podstatě nepoužívané. Výhoda btree proti hash je ta, že prvky jsou v databázi uloženy setříděně, což je užitečné v případě, když potřebujeme záznamy v tomto pořadí procházet. Btree databáze jsou však náchylnější k poškození.
Na každém Unixu v dnešní době narazíte na nějakou verzi Berkeley DB. Nejen rodina BSD operačních systémů ji obsahuje jako standardní systémovou součást. Databáze doznala značného rozšíření i mimo platformu UNIXu, velmi často ji najdeme vestavěnou v komerčním software na platformě WinDos. Novější verze Berkeley DB2+ již není šířena pod BSD licencí a lze ji bez licenčních poplatků používat pouze v open source projektech. Výjimkou je Berkeley DB v2 volitelně obsažená v GNU libc2, která však nedovoluje v komerčních projektech používat nové možnosti verze DB 2.
4. GNU DBM
Poslední význačnou databází z DBM rodiny je GNU DBM. Jak již název napovídá, tato databáze pochází z GNU projektu. Jedná se o GNU reimplementaci NDBM. GDBM podporuje tři API, DBM – originál!, NDBM a vlastní GDBM. Pokud pracuje v NDBM kompatibilním módu, vytváří dokonce i .dir a .pag soubory, což jsou dva hardlinky. Struktura souborů je odlišná od originálního NDBM, je ale k dispozici konverzní utilita. Podobně jako Berkeley DB1, i tato databáze se už aktivně nevyvíjí. Aktivní vývoj skončil podobně jako u DB1 v roce 1994, pak následovaly pouze dvě minor bugfix verze. Vlastní API začíná prefixem gdbm_. Na rozdíl od DB1 je API mnohem bližší k ndbm, takže konverze zdrojového kódu do gdbm je velmi snadná. API obsahuje i funkci pro reorganizaci databáze – gdbm_reorganize – je však velmi pomalá.
Na rozdíl od DB1 je GDBM dnes prakticky mrtvá a figuruje jen jako legacy DB API. V mnoha standardních Linux instalacích ji již nenajdete. Vzhledem ke své pomalosti (zhruba 3× oproti DB1), k větší náchylnosti k poškození dat a vzhledem k restriktivní GPL licenci není žádný důvod pro její použití. Dnes je obvykle použita pouze v projektech, kam byla před deseti lety přidána její podpora a autorům se nechtělo engine měnit. Neuvažuji projekty nezkušených autorů v oblasti DB, jako např. GNUNET. V tomto případě autoři přidali, pravděpodobně nešťastnou náhodou, podporu pro nejpomalejší dostupné databáze – tdb, gdbm, a db3.
Tímto jsme se seznámili s databázemi z rodiny DBM. V příštím dílu si ukážeme popis ndbm a db1 API a provedeme testy výkonu a odolnosti. Tento seriál je primárně čtenář-driven. Nezapomeňte proto v diskusi přihlásit svou oblíbenou databázi do dalšího dílu.