V prvé řadě je nutno říct, že všechny věty sice schvalujeme (resp. schvaluju, zatím nikdo jiný přístup nemá), ale kromě nějakých drobných korekcí (mezera navíc, přebývající znaky kvůli chybě cherry pickingu, ...) je nijak neupravuju.
Výsledkem bude čtený korpus, protože kvůli licenci, pod kterou půjde ven (CC0) je prakticky nemožné získat třeba právě nahrávky z voice-chatů. Určitě ne v nutném množství.
Věty budeme sbírat jak to jen půjde, ale je zase potřeba udržet rozumný počet vět, resp. je zbytečné nasbírat 50000 vět, když je nebude mít kdo číst (čeština má mnohem méně mluvčích než AJ). Zatím máme necelé dva tisíce a rozhodně nehodláme přestávat, já sám mám ještě pár připravených materiálů, které projdu a pošlu. Hodlám ale spustit sběr hlasu během několika týdnů, protože než se z těch pár tisíc vět namluví každá aspoň jednou, budeme mít nejspíš dalších pár tisíc.