BERT má maximální délku vstupu 512 tokenů a z toho plyne, že většinou nelze použít celý text dokumentu jako vstup, dokumenty bývají delší. Nějaké předzpracování dokumentu a výběr relevantních částí tedy musí proběhnout. Asi nemá smysl zabíhat do větších podrobností, protože správný výběr částí dokumentu je ovlivněn konkrétní úlohou, kterou řešíte. Dobrý postup je vyzkoušet více možností a vybrat tu nejlepší. Můžete samozřejmě také dokument rozdělit na více částí a naučit více různých modelů.
Korpus je interní a předzpracování i filtrování na něm probíhá. Asi nejdůležitější operací je výběr významné části textu dokumentu (vlastního obsahu dokumentu). V dokumentech jsou často nevýznamné části (hlavičky s odkazy, patičky s odkazy, boční lišty...), na kterých model učit nechceme, protože nejsou k dokumentu relevantní. Tohle je řešeno strojově učeným modelem.