Ďakujem za veľmi zaujímavý článok, už dlhšie som rozmýšlal, či existuje peer-to-peer vyhľadávací stroj, keď už teda existuje peer-to-peer cloud storage/Storj/. Ja som amatérsky webový vývojár, ktorému sa podarilo dostať kamarátove webstránky na prvú pozíciu. Tento článok ako aj následné experimentovanie s YaCy posúva chápanie SEO z pohľadu vyhľadávača na úplne novú úroveň. Ešte raz vďaka za článok.
Problém vidím, že se prohledá nejdříve jeden index pak další a nebude se brát v potaz relavance na základě přesných spojení. viz.
Yacy odjinud
kde v druhém linku je první spojení ale druhé už vůbec natož že by patřilo k tomu prvnímu.
Velké pozitivum vidím ale v tom že budu moct vyřadit bulvární zdroje.
To je vlastně podobná funkce jako Wayback Machine od Archive.org. To je taky opensource.
YaCy umí základní cachování webů, ve výsledcích vyhledávání je možné zobrazit si nakešovanou verzi. Ta nová "gridová" verze tuším používá jejich formát WARC na ukládání webů. Současná verze umí WARCy importovat, podoporuje taky nějaký "snapshoty", ale to nevím, co přesně znamená.
Rozsáhlostí webarchive.org asi těžko ani tento archiv neuchovává video obsah, kapacita disků je drahá každému. V čechách existuje earchiv.cz Jiřího Peterky, ten archivuje dle svého uvážení.
Pokud chceš něco podobného stačí použít doplněk SingleFile a uložit si vše co se nagenerovalo v době archivování. Pokud bude součástí video ktéré se bude spouštět až na požádání lze ho do archivu přidat ručně. Archiv je obyčejný zip. Do archivu se neukládá celý web ale to co je v keši prohlížeče, tzn. pokud používáš ublock a máš správné filtry nebudeš mít v archivu reklamní obrázky, třeba. Funguje to teda lépe než starší mhtml a třeba doplněk unMHT.
Myslím si že i tobě bude brzo disková kapacita drahá;-)
Národní knihovna má taky svůj webarchiv, tam dělá plošné i tématické "sklizně", kvůli autorskému zákonu ale kolekce nemůžou veřejně zpřístupňovat, jsou snad dostupné prezenčně ve studovně. Tahle legislativa je v USA tuším trochu jinak. NK ale používá taky sadu nástrojů z archive.org.
Osobně si schovávám weby, co jsou pro mne důležité, zdroje, které by mohly zmizet, nebo o které nechci přijít. wget -r -l 1 -np bookmarks.html
na soubor s bookmarky, některé weby selektivně celé. Videa, co stojí zato, taky (výrazně selektivněji), ty mizejí nejradši, nebo se ráda skrývají za paywall. Velikost není tak hrozná.
Linkrot je bestie. Dva roky zpátky už mám v bookmarcích mrtvou odhadem čtvrtinu zdrojů. Pět let zpátky je tam tak polovina, deset let zpátky má člověk štěstí, když existuje doména. Před pár měsíci zmizel blog.cz a s ním i kus současné české literatury a publicistiky. Nebyly tam jenom blogísky.
Možná, že domácí instance wayback machine by byla kanónem na vrabce, ale třeba stojí za ozkoušení. Ta americká umožňuje submitnout URL, kterou to zmirroruje, ale nefunguje to úplně spolehlivě.
Okýnko pro vlastní vyhledávání umí YaCy udělat na pár kliknutí. Hledat ve vlastních webech je asi v současné době jeden z nejvyužitelnějších use-casů.
Člověk si pak může vybrat, jestli bude úplný Robinson a bude YaCy používat prostě jenom jako software, nebo jestli nasdílí svůj index přes DHT s ostatními peery a tím získá i další traffic na web (těžko říct, jak mocný). U DHT transferu je na výběr, zda člověk chce index jenom vysílat, nebo přijímat, nebo obojí. U soukromého webu bych volil jenom vysílání, aby se do výsledků nepletly weby odjinud.
YaCy node jsem provozoval cca rok, prvni problem vidim v tom, ze to je v moloch v Jave, ale OK, konzumace zdroju, dejme tomu, ale nejhorsi byla rychlost vyhledavani, ktera byla vylozene spatna. Mozna dle stareho vtipu o Pentiu ze 1+1=3 je sice spatne ale rychle plati i tady, a vysledky YaCy jsou lepsi (minimalne nejsou tak zakaznicky upravovane a filtrovane nejruznejsimi GDPR) ale cekat desitky vterin na vysledek je proste zasadni nedostatek.
Jo, moloch v Javě to je, hladovej hlavně na RAM (umožňuje nastavit limity, ale těch se snadno dobere. Snaží se optimalizovat operace podle loadu stroje, ale ta Java je stejně problém). Jako proof-of-concept dobrý a zdá se osvědčilo, po 17 letech. Asi nějakej rewrite v C či čem by pomohl, P2P protokol vypadá obstojně. Uvidíme, co grid verze.
Hledání v P2P síti chvíli trvá z principu (a reload stránky s výsledky vyhledávání po zhruba 30 vteřinách dává více výsledků), výsledky se kešují na lokálním stroji, lokální vyhledávání umí být svižné, když zrovna YaCy necrawluje.
Dokonalé to není. Na některé use-casy výborné (intranet, místní weby), jako doplnění vyhledávání v Internetu (zvlášť tam, kam jiné vyhledávače nedošáhnou) obstojné, ale člověk si chvíli počká. Při vážnějším použití by se člověk nevyhl dedikovanému stroji či několika virutálům.
Kdo pamatuje astalavista.box.sk, ten měl před pár lety čerstvý refresh s placenou službou hledání v exploitech, CVE a bezpečnostních webech, postavený na privátní instanci YaCy. Na tohle použití (oborový hledač) se asi dá při pár dedikovaných strojích YaCy použít pěkně.
27. 11. 2020, 16:31 editováno autorem komentáře
Kazdy tomu hovori inac. Ak dam tej Jave 1GB RAM a ona ho pouzije tak ja tomu hovorim efektivne vyuzite zdroje. Ona sa totiz pokusa drzat co najvacsiu cast indexu v pamati aby bolo rychle to vyhladavanie. Pozeram ze je to velka vec postavena nad Lucene + Elastic + ... milion dalsich komponentov.
Ak to chcete mensie a rychlejsie staci vam Elasticsearch.
"Pozeram ze je to velka vec postavena nad Lucene + Elastic + ... milion dalsich komponentov."
Co si aspon precist clanek? Yacy neni postavena na Elasticu, ale na Solr. Solr je stejne jako Elastic postavenej na Lucene.
"Ak to chcete mensie a rychlejsie staci vam Elasticsearch."
Elastic ma webcrawler, GUI a podporu DHT?
Elastic je jen databaze. To znamena ze bez dalsich komponent je tak nak realne nepouzitelnej. Proto se taky vetsinou kombinuje s Kibanou a Logstash.
A na co vam je na indexovanie stranok kibana a logstash? Viete na co tie komponenty sluzia?
Na co vam je GUI? Vyhladavaci box mate na stranke.
Elastic ma webcrawler. Plateny a najdete aj zopar open source.
Ja som pozeral nejaku prezentaciu o architekture YACC a tam bol este Elastic takze mozno bola stara ... .