Názor k článku Jazykové modely pro vyhledávání: naučte stroj chápat význam jazyka od Jaroslav Gratz - BERT má maximální délku vstupu 512 tokenů a...

  • Článek je starý, nové názory již nelze přidávat.
  • 12. 9. 2021 22:30

    Jaroslav Gratz

    BERT má maximální délku vstupu 512 tokenů a z toho plyne, že většinou nelze použít celý text dokumentu jako vstup, dokumenty bývají delší. Nějaké předzpracování dokumentu a výběr relevantních částí tedy musí proběhnout. Asi nemá smysl zabíhat do větších podrobností, protože správný výběr částí dokumentu je ovlivněn konkrétní úlohou, kterou řešíte. Dobrý postup je vyzkoušet více možností a vybrat tu nejlepší. Můžete samozřejmě také dokument rozdělit na více částí a naučit více různých modelů.

    Korpus je interní a předzpracování i filtrování na něm probíhá. Asi nejdůležitější operací je výběr významné části textu dokumentu (vlastního obsahu dokumentu). V dokumentech jsou často nevýznamné části (hlavičky s odkazy, patičky s odkazy, boční lišty...), na kterých model učit nechceme, protože nejsou k dokumentu relevantní. Tohle je řešeno strojově učeným modelem.