Diky, jsem rad ze jsem se v tom zorientoval. Tak pred 20lety jsem se vyhledavanim na internetu zabyval v diplomce. V te dobe prave vznikl vyhledavac google a ty jeho reverzni indexy, page rank atd.
Taky zkousime neco s neuronovymi sitemi a naroky takovych reseni jsou silene. Mam pocit ze stavajici digitalni pocitace jsou na hrane svych moznosti. Co ale prijde potom, az se podari ukocirovat kvantove pocitace a nevim co? Doufam ze ne matrix :)
8. 9. 2021, 10:39 editováno autorem komentáře
K praxi vyhledávání Seznamu bych rád něco doplnil.
https://i.imgur.com/qdhwgd9.jpg
https://i.imgur.com/1lZJ2xK.jpg
To je zvláštní, já takové výsledky vůbec nevidím. Na stejný dotaz dostanu skutečně relevantní odpověď.
Wow, úžasný článek, díky.
Pokud ostatním čtenářům jde taky hlava kolem z těch použitých technologií, doporučuji následující dva předměty na matfyzu (jsou tam nahrávky přednášek), které poskytují dobrý crashcourse.
BERT má maximální délku vstupu 512 tokenů a z toho plyne, že většinou nelze použít celý text dokumentu jako vstup, dokumenty bývají delší. Nějaké předzpracování dokumentu a výběr relevantních částí tedy musí proběhnout. Asi nemá smysl zabíhat do větších podrobností, protože správný výběr částí dokumentu je ovlivněn konkrétní úlohou, kterou řešíte. Dobrý postup je vyzkoušet více možností a vybrat tu nejlepší. Můžete samozřejmě také dokument rozdělit na více částí a naučit více různých modelů.
Korpus je interní a předzpracování i filtrování na něm probíhá. Asi nejdůležitější operací je výběr významné části textu dokumentu (vlastního obsahu dokumentu). V dokumentech jsou často nevýznamné části (hlavičky s odkazy, patičky s odkazy, boční lišty...), na kterých model učit nechceme, protože nejsou k dokumentu relevantní. Tohle je řešeno strojově učeným modelem.