Vlákno názorů k článku Jazykové modely pro vyhledávání: naučte stroj chápat význam jazyka od comodoro - Díky za článek! Chápu, že se tam nevejdou...

Článek je starý, nové názory již nelze přidávat.

12. 9. 2021 10:15

comodoro

Díky za článek! Chápu, že se tam nevejdou všechny podrobnosti, ale dvě věci mi vrtají hlavou:

- Používáte celé články, nebo jen části s předpokládanou relevancí (např. začátky, odstavce po nadpisech)?

- Ten korpus je předpokládám interní, proběhlo na něm nějaké předzpracování nebo filtrování?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 9. 2021 22:30

Jaroslav Gratz

BERT má maximální délku vstupu 512 tokenů a z toho plyne, že většinou nelze použít celý text dokumentu jako vstup, dokumenty bývají delší. Nějaké předzpracování dokumentu a výběr relevantních částí tedy musí proběhnout. Asi nemá smysl zabíhat do větších podrobností, protože správný výběr částí dokumentu je ovlivněn konkrétní úlohou, kterou řešíte. Dobrý postup je vyzkoušet více možností a vybrat tu nejlepší. Můžete samozřejmě také dokument rozdělit na více částí a naučit více různých modelů.

Korpus je interní a předzpracování i filtrování na něm probíhá. Asi nejdůležitější operací je výběr významné části textu dokumentu (vlastního obsahu dokumentu). V dokumentech jsou často nevýznamné části (hlavičky s odkazy, patičky s odkazy, boční lišty...), na kterých model učit nechceme, protože nejsou k dokumentu relevantní. Tohle je řešeno strojově učeným modelem.

Zprávičky

CESNET otestoval přenos 400 Gb/s na 846 kilometrů pomocí QSFP-DD transceiverů

Valve Steam Link funguje s Raspberry Pi 3 až 5

Intel představil Arc B580 a B570, grafické karty Battlemage s GPU Xe2

Vlákno názorů k článku Jazykové modely pro vyhledávání: naučte stroj chápat význam jazyka od comodoro - Díky za článek! Chápu, že se tam nevejdou...

Zprávičky

CESNET otestoval přenos 400 Gb/s na 846 kilometrů pomocí QSFP-DD transceiverů

Valve Steam Link funguje s Raspberry Pi 3 až 5

Intel představil Arc B580 a B570, grafické karty Battlemage s GPU Xe2

Dále u nás najdete

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Sledují vás přes HDMI? Útok využívá elektromagnetické záření

Notebook Asus ExpertBook P5: Pracant s výborným displejem

Šestka nad čtyřkou? Zastaralé. Čtyřka nad šestkou!

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Mapy.cz oficiálně placené. Dáte za ně 249 Kč, verze zdarma bude mít tato omezení

Placené Mapy.cz jsou tady

O bonusy u VZP můžete papírově žádat už jen týden

Regulace youtuberů a influencerů? Zeptali jsme se právníků

Stojíme na rozcestí, kde jde o víc než o procenta emisních cílů

Zakázkový krejčí džíny podceňoval. Nyní je prodává za tisíce

Smart home na vzestupu, české domácnosti jsou čím dál chytřejší

Blíží se kvantová bouře, která přepíše pravidla šifrování

Správa firemního IT vybavení poháněná AI

elementary OS 8 je desktopový operační systém podobný macOS

Co máte v uších? Chytré audio se veze na úspěšné vlně

V obchodech už běžně uklízejí roboti, sami to zatím nezvládnou

Poplach kvůli evidenci youtuberů. Co se reálně děje?

Kyberbezpečnost bude nákladná. Proč NÚKIB tvrdí opak?

Přehled změn v sociálním pojištění OSVČ v roce 2025