Sice chápu, že vše není jen o počtu parametrů, ale pokud "OpenELM je natrénováno s 270 milióny až 3 miliardami parametrů" a "GPT-3 z roku 2020 pak měl 175 miliard parametrů", vzhledem k tomu, že i ChatGPT 3.5 je pro vážnou práci prakticky nepoužitelný by mě zajímalo, co přesně si od OpenELM Apple slibuje. Má poskytovat nějaké funkce, kde to nevadí?
Na nějakou složitější představivost to není ale na zpracování dat jsou skvělé, obzvlášť pokud se vejdou do GPU/NPU kvůli rychlosti. Například extrakce tabulkových dat z volně psaného textu, OCR, context-aware klasifikace obsahu (textu i obrazu) atd.
Moderní malé modely (7B) jsou překvapivě schopné a někde úplně jinde než jejich pradávní (před rokem :-) stejně velcí předchůdci. Hodně se pokročilo v alokaci parametrů, klasické staré modely (llama) měly většinu "inertních", tj. bez velkého vlivu na výsledný vektor, a to jak v embedding maticích tak v neuronových. Dnešní 8B llama3 ve všech metrikách překonává loňskou 70B llama2.
Největší volně dostupné modely (mixtral, databricks a pod.) s nějakými 130-140 miliardami parametrů budou zanedlouho prohrávat souboje s modely desetkrát menšími.