To je vlastně podobná funkce jako Wayback Machine od Archive.org. To je taky opensource.
YaCy umí základní cachování webů, ve výsledcích vyhledávání je možné zobrazit si nakešovanou verzi. Ta nová "gridová" verze tuším používá jejich formát WARC na ukládání webů. Současná verze umí WARCy importovat, podoporuje taky nějaký "snapshoty", ale to nevím, co přesně znamená.
Rozsáhlostí webarchive.org asi těžko ani tento archiv neuchovává video obsah, kapacita disků je drahá každému. V čechách existuje earchiv.cz Jiřího Peterky, ten archivuje dle svého uvážení.
Pokud chceš něco podobného stačí použít doplněk SingleFile a uložit si vše co se nagenerovalo v době archivování. Pokud bude součástí video ktéré se bude spouštět až na požádání lze ho do archivu přidat ručně. Archiv je obyčejný zip. Do archivu se neukládá celý web ale to co je v keši prohlížeče, tzn. pokud používáš ublock a máš správné filtry nebudeš mít v archivu reklamní obrázky, třeba. Funguje to teda lépe než starší mhtml a třeba doplněk unMHT.
Myslím si že i tobě bude brzo disková kapacita drahá;-)
Národní knihovna má taky svůj webarchiv, tam dělá plošné i tématické "sklizně", kvůli autorskému zákonu ale kolekce nemůžou veřejně zpřístupňovat, jsou snad dostupné prezenčně ve studovně. Tahle legislativa je v USA tuším trochu jinak. NK ale používá taky sadu nástrojů z archive.org.
Osobně si schovávám weby, co jsou pro mne důležité, zdroje, které by mohly zmizet, nebo o které nechci přijít. wget -r -l 1 -np bookmarks.html
na soubor s bookmarky, některé weby selektivně celé. Videa, co stojí zato, taky (výrazně selektivněji), ty mizejí nejradši, nebo se ráda skrývají za paywall. Velikost není tak hrozná.
Linkrot je bestie. Dva roky zpátky už mám v bookmarcích mrtvou odhadem čtvrtinu zdrojů. Pět let zpátky je tam tak polovina, deset let zpátky má člověk štěstí, když existuje doména. Před pár měsíci zmizel blog.cz a s ním i kus současné české literatury a publicistiky. Nebyly tam jenom blogísky.
Možná, že domácí instance wayback machine by byla kanónem na vrabce, ale třeba stojí za ozkoušení. Ta americká umožňuje submitnout URL, kterou to zmirroruje, ale nefunguje to úplně spolehlivě.