Velkých jazykových modelů (LLM) je v současnosti k dispozici velké množství. Otázkou však zůstává, který LLM dává nejlepší odpovědi. Proto Large Model Systems Organization (LMSys) přišla s platformou pro souboje různých LLM.
Uživatelé z internetu položí libovolný dotaz dvěma anonymním náhodně vybraným LLM a vyberou, která odpověď je lepší. Případně můžete výsledek označit jako remízu, nebo mohou být obě stejně špatné. Po ohodnocení se dozvíte, které LLM odpovídaly. Výsledky se vyhodnocují pomocí Elo. V současnosti má nejlepší skóre ChatGPT-4.
(zdroj: arstechnica)