Vlákno názorů k článku Jazykové modely pro vyhledávání: naučte stroj chápat význam jazyka od comodoro - Díky za článek! Chápu, že se tam nevejdou...

  • Článek je starý, nové názory již nelze přidávat.
  • 12. 9. 2021 10:15

    comodoro

    Díky za článek! Chápu, že se tam nevejdou všechny podrobnosti, ale dvě věci mi vrtají hlavou:

    - Používáte celé články, nebo jen části s předpokládanou relevancí (např. začátky, odstavce po nadpisech)?

    - Ten korpus je předpokládám interní, proběhlo na něm nějaké předzpracování nebo filtrování?

  • 12. 9. 2021 22:30

    Jaroslav Gratz

    BERT má maximální délku vstupu 512 tokenů a z toho plyne, že většinou nelze použít celý text dokumentu jako vstup, dokumenty bývají delší. Nějaké předzpracování dokumentu a výběr relevantních částí tedy musí proběhnout. Asi nemá smysl zabíhat do větších podrobností, protože správný výběr částí dokumentu je ovlivněn konkrétní úlohou, kterou řešíte. Dobrý postup je vyzkoušet více možností a vybrat tu nejlepší. Můžete samozřejmě také dokument rozdělit na více částí a naučit více různých modelů.

    Korpus je interní a předzpracování i filtrování na něm probíhá. Asi nejdůležitější operací je výběr významné části textu dokumentu (vlastního obsahu dokumentu). V dokumentech jsou často nevýznamné části (hlavičky s odkazy, patičky s odkazy, boční lišty...), na kterých model učit nechceme, protože nejsou k dokumentu relevantní. Tohle je řešeno strojově učeným modelem.