Vlákno názorů k článku
Apple představil malé jazykové modely, vhodné do telefonu od martinpoljak - Sice chápu, že vše není jen o počtu...

26. 4. 2024 16:28

martinpoljak

Sice chápu, že vše není jen o počtu parametrů, ale pokud "OpenELM je natrénováno s 270 milióny až 3 miliardami parametrů" a "GPT-3 z roku 2020 pak měl 175 miliard parametrů", vzhledem k tomu, že i ChatGPT 3.5 je pro vážnou práci prakticky nepoužitelný by mě zajímalo, co přesně si od OpenELM Apple slibuje. Má poskytovat nějaké funkce, kde to nevadí?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 4. 2024 16:58

Jakub Štech

Na nějakou složitější představivost to není ale na zpracování dat jsou skvělé, obzvlášť pokud se vejdou do GPU/NPU kvůli rychlosti. Například extrakce tabulkových dat z volně psaného textu, OCR, context-aware klasifikace obsahu (textu i obrazu) atd.

Moderní malé modely (7B) jsou překvapivě schopné a někde úplně jinde než jejich pradávní (před rokem :-) stejně velcí předchůdci. Hodně se pokročilo v alokaci parametrů, klasické staré modely (llama) měly většinu "inertních", tj. bez velkého vlivu na výsledný vektor, a to jak v embedding maticích tak v neuronových. Dnešní 8B llama3 ve všech metrikách překonává loňskou 70B llama2.

Největší volně dostupné modely (mixtral, databricks a pod.) s nějakými 130-140 miliardami parametrů budou zanedlouho prohrávat souboje s modely desetkrát menšími.

Zprávičky