Jak pružné jsou internetové prohledávače?

15. 2. 2000
Doba čtení: 4 minuty

Sdílet

Jak rychle zareagují na změnu na vašich stránkách? Je reakce českých fulltextů rychlejší než zahraničních? A je vůbec k něčemu dobré, používat české fulltexty?

18.1. 2000 jsme změnili design a celou strukturu firemních stránek a mě po čase napadlo podívat se, zda už o změně vědí přední české i zahraniční prohledávače. Nebudu vás napínat – z 99% nevědí a zvláště u domácích je to zarážející. 27 dní je myslím pro zmapování malinkatého českého Internetu dost.

Ale pěkně popořádku. Testování proběhlo 14.2. 2000 a hledáno bylo celkem neobvyklé heslo „4web“. A když už jsem byl v tom testování, připojuji i malý komentář k výsledkům jednotlivých serverů.

Kompas Seznam – o změně neví
Trochu nechápu, jak Kompas určuje váhu hledaného slova. Je mi divné, že vrátí na první straně výpisu pouze jednu stránku z domény www.4web.cz a ostatní jsou naše projekty, kde je 4WeB zmíněn pouze jako autor někde na konci stránky.
Kompas nalezl 7082 odkazů

Fulltext Centrum  – o změně neví
S povděkem lze kvitovat, že prvních 77 zobrazených odkazů je opravdu na stránky z domény www.4web.cz, horší už je to, že ve skutečnosti jde o pár stránek, které jsou v různých kódováních češtiny a Centrum si o nich myslí, že jde o různé dokumenty.
Centrum nalezlo 2854 odkazů

msn.atlas.cz  – o změně neví
V prvních deseti odkazech nalezl převážně stránky z domény www.4web.cz. Nechápu však, proč Atlas nemůže napsat kolik stránek našel, píše jen „nalezeno více než 300 stránek“. Chce tím snad říct, že je to něco nenormálního a že běžně s číslem nad 300 nepracuje?
Atlas nalezl více než 300 odkazů

Sherlock  – o změně neví
Stránek z domény www.4web.cz je mezi první dvacítkou minimum, zato je tam dobrá třetina nějakých statistik z proxy keší, které už dávno neexistují a oznámí pouze File Not Found.
Sherlock nalezl 561 odkazů

Najdi.to
Nalezeno 16 (slovy šestnáct) odkazů. Nevím jestli o změně ví nebo ne. Popisek totiž není brán přímo ze stránky, ale je dopisován člověkem, což musí být neuvěřitelně pracné a najdi.to se stává jakýmsi hybridem fulltextu a katalogu. Nebo to nakonec není fulltext, ale normální katalog? Měl jsem ale jasně zvoleno hledat „fulltextově (v obsahu www stránek)“, tak nevím…
najdi.to nalezlo 16 odkazů

Search.cz  – o změně neví
Na první stránce výpisu jsou pouze stránky z domény www.4web.cz, bohužel s neaktuálními odkazy.
search.cz nalezl 161 odkazů

Tolik domácí hráči. Jak vidno, žádný český robot nestačil stránky navštívit a zaregistrovat změnu. Zarážející je i ohromný rozdíl v počtu nalezených dokumentů, některé z uvedených služeb by měly vážně zauvažovat o zrušení označení „fulltextový prohledávač“.

A co zahraniční služby? Také žádná sláva, ale u nich je to ještě omluvitelné, přeci jen mají podstatně širší záběr, než jejich čeští kolegové (na druhou stranu, ale také mají podstatně jiné finanční a technologické možnosti).

Alltheweb  – o změně neví
Mezi prvními deseti nalezenými dokumenty je sice 8× nějaká brazilská firma, ale my jsme uvedeni jako první :). Zajímavostí je jistě i to, že Alltheweb má český Internet zmapován lépe než Kompas, při omezení na doménu CZ totiž nalezl 9027 dokumentů, což je ještě o dva tisíce více, než nalezl nejlepší z českých fulltextů – Kompas.
Nalezeno 19531 dokumentů

Google  – o změně neví
Opět záplava brazilských a jiných odkazů, ale opět jako první český 4WeB. Šikovné je to, že si můžu vybrat, zda chci stránku z Google keše nebo přímo z webu.
Nalezeno 1330 dokumentů

Altavista  – o změně neví
Altavista naše stránky zmiňuje mezi první třicítkou pouze jednou a to s prapůvodní adresou 4web.navrcholu.cz. Omezením na doménu .cz nalezla Altavista 18146 (!) odkazů, což se mi zdá až neuvěřitelné – je to 2,5 krát více, než nalezl Kompas a 2 krát více než nalezl Alltheweb (z pochopitelných důvodů jsem nemohl zkoumat co to vyhledávač doopravdy nalezl a věřím, že v počtu dokumentů nelhal).
Nalezeno 19960 dokumentů

Northernlight  – o změně ví!
Částečný úspěch. Northernlight podchytil na první stránce všechny tři adresy, přes které se dá dostat k obsahu www.4web.cz (4web.cz, forweb.cz a nawebu.cz) první dvě adresy měly ještě starý obsah, nawebu.cz však byla v pořádku a měla aktuální obsah.
Nalezeno 4055 dokumentů

Hotbot  – o změně neví
Opět záplava brazilských a jiných stránek a opět na první pozici český 4WeB (čím si to doména CZ zasluhuje?).
Už vím, kde vzal Atlas inspiraci při psaní „nalezeno více něž 300 stránek“ – u Hotbotu, ten píše „nalezeno více jak 1000“ – přeci jen je větší než Atlas :)
Nalezeno více než 1000 dokumentů

bitcoin_skoleni

Infoseek – o změně neví
První zmínka o českém 4webu je na 65. místě a se špatným obsahem
Nalezeno 2824 dokumentů

Co z toho všeho plyne? Na českém Internetu je podle mě stále ještě prostor pro opravdu dobrý fulltextový prohledávač, který by byl schopen indexovat stránky rychleji než konkurence – což by při dnešním stavu na trhu, neměl být až takový problém. Zatím je nejlepším „českým“ fulltextem Alltheweb a Altavista.
U zahraničních serverů je vidět, že mají opravdu napilno a nestíhají. Vývoj budu sledovat a k tématu se ještě jednou vrátíme, uvidíme kdo zareaguje nejdříve, můj osobní favorit je Alltheweb, ale vše může být nakonec jinak.

Autor článku

V roce 1998 jsem s Michalem vymyslel a založil Root.cz. Poslední článek na Roota jsem napsal v roce 2007. Teď píšu spíš na tomaskrause.cz a tvořím si bitcoinvkapse.cz.