Vlákno názorů k článku
Začal sběr českých vět pro projekt Common Voice od y, - V prvni rade vzdavam hold vasemu usili. Nicmene...

  • Článek je starý, nové názory již nelze přidávat.
  • 27. 2. 2018 14:31

    y, (neregistrovaný)

    V prvni rade vzdavam hold vasemu usili. Nicmene se bojim, ze budete plytvat usilim na necem, co nebude tak uzitecne, jak si predstavujete. Nikde jsem naprikal nenasel zmineno, jak podle vas vypadaji vhodne vety. Vhodnost s ohledem na ASR muze mit uplne jina meritka.
    Druha vec pak je samozrejme samotny fakt, ze shromazdujete ctenou rec. Uznavam, ze pro cestinu neexistuje zadny volne dostupny recovy korpus a tedy zda se, ze cokoliv je lepsi nez nic. Ja o tom nejsem uplne presvedcen, ale v soucasne dobe vam nedokazu nabidnout vhodnejsi variantu. Vhodnejsi by byly nahravky z nejakeho voice-chatu a podobne. Ale nechci byt negativni, i se ctenym korpusem jde udelat radu zajimavych veci a pripadne se odrazit potom ke komplikovanejsim vecem.
    Kdyz uz tedy vybirate vety na cteny korpus, tak se jich snazte mit co nejvic aby to nedopadlo jako v anglicky verzi, kdy cetli nejakych 7000 vet dokola, takze kazda veta byla ctena nekolikrat, navic ty vety pak nacpali do dev a eval sady. Chce to co nejvetsi variabilitu a to, jestli se vam lidsky ty vety libi uz neni zase az tak dulezite. Samozrejme ze ta veta nesmi vypadat jak klingonsky vyhlaseni valky nebo byt na celou stranku. Dulezita je potom normalizace textu pro trenovani. Radu veci jsem psal i Michaelovi Henretty, ale nevim, jestli to padlo na urodnou pudu.

  • 27. 2. 2018 15:41

    Michal Vašíček (neregistrovaný)

    V prvé řadě je nutno říct, že všechny věty sice schvalujeme (resp. schvaluju, zatím nikdo jiný přístup nemá), ale kromě nějakých drobných korekcí (mezera navíc, přebývající znaky kvůli chybě cherry pickingu, ...) je nijak neupravuju.

    Výsledkem bude čtený korpus, protože kvůli licenci, pod kterou půjde ven (CC0) je prakticky nemožné získat třeba právě nahrávky z voice-chatů. Určitě ne v nutném množství.

    Věty budeme sbírat jak to jen půjde, ale je zase potřeba udržet rozumný počet vět, resp. je zbytečné nasbírat 50000 vět, když je nebude mít kdo číst (čeština má mnohem méně mluvčích než AJ). Zatím máme necelé dva tisíce a rozhodně nehodláme přestávat, já sám mám ještě pár připravených materiálů, které projdu a pošlu. Hodlám ale spustit sběr hlasu během několika týdnů, protože než se z těch pár tisíc vět namluví každá aspoň jednou, budeme mít nejspíš dalších pár tisíc.