Názor k článku
Apple představil malé jazykové modely, vhodné do telefonu od Jakub Štech - Na nějakou složitější představivost to není ale na...

  • Článek je starý, nové názory již nelze přidávat.
  • 26. 4. 2024 16:58

    Jakub Štech

    Na nějakou složitější představivost to není ale na zpracování dat jsou skvělé, obzvlášť pokud se vejdou do GPU/NPU kvůli rychlosti. Například extrakce tabulkových dat z volně psaného textu, OCR, context-aware klasifikace obsahu (textu i obrazu) atd.

    Moderní malé modely (7B) jsou překvapivě schopné a někde úplně jinde než jejich pradávní (před rokem :-) stejně velcí předchůdci. Hodně se pokročilo v alokaci parametrů, klasické staré modely (llama) měly většinu "inertních", tj. bez velkého vlivu na výsledný vektor, a to jak v embedding maticích tak v neuronových. Dnešní 8B llama3 ve všech metrikách překonává loňskou 70B llama2.

    Největší volně dostupné modely (mixtral, databricks a pod.) s nějakými 130-140 miliardami parametrů budou zanedlouho prohrávat souboje s modely desetkrát menšími.