Hlavní navigace

Názor ke zprávičce Začal sběr českých vět pro projekt Common Voice od y, - V prvni rade vzdavam hold vasemu usili. Nicmene...

  • Aktualita je stará, nové názory již nelze přidávat.
  • 27. 2. 2018 14:31

    y, (neregistrovaný)

    V prvni rade vzdavam hold vasemu usili. Nicmene se bojim, ze budete plytvat usilim na necem, co nebude tak uzitecne, jak si predstavujete. Nikde jsem naprikal nenasel zmineno, jak podle vas vypadaji vhodne vety. Vhodnost s ohledem na ASR muze mit uplne jina meritka.
    Druha vec pak je samozrejme samotny fakt, ze shromazdujete ctenou rec. Uznavam, ze pro cestinu neexistuje zadny volne dostupny recovy korpus a tedy zda se, ze cokoliv je lepsi nez nic. Ja o tom nejsem uplne presvedcen, ale v soucasne dobe vam nedokazu nabidnout vhodnejsi variantu. Vhodnejsi by byly nahravky z nejakeho voice-chatu a podobne. Ale nechci byt negativni, i se ctenym korpusem jde udelat radu zajimavych veci a pripadne se odrazit potom ke komplikovanejsim vecem.
    Kdyz uz tedy vybirate vety na cteny korpus, tak se jich snazte mit co nejvic aby to nedopadlo jako v anglicky verzi, kdy cetli nejakych 7000 vet dokola, takze kazda veta byla ctena nekolikrat, navic ty vety pak nacpali do dev a eval sady. Chce to co nejvetsi variabilitu a to, jestli se vam lidsky ty vety libi uz neni zase az tak dulezite. Samozrejme ze ta veta nesmi vypadat jak klingonsky vyhlaseni valky nebo byt na celou stranku. Dulezita je potom normalizace textu pro trenovani. Radu veci jsem psal i Michaelovi Henretty, ale nevim, jestli to padlo na urodnou pudu.