Nový test FrontierMath AI nezvládá

15. 11. 2024

V červenci jsme informovali, že umělá inteligence Google si celkem dobře vedla v Mezinárodní matematické olympiádě. Například v testu GSM-8k dosahují LLM běžně 96% úspěšnosti. Společnost EpochAI vyvinula nový matematický test pro AI s názvem FrontierMath na který jsou současné LLM krátké. Claude a Gemini vyřešily jen 2 % úkolů, o1 a GPT jen 1 %.

Úlohy nejsou ze zřejmých důvodů veřejné, ale na obrázku vidíte tři příklady. Zadání na olympiádě většinou vyžadují kreativní přístup, nevyžadují však speciální znalosti a nejsou příliš komplexní. Úlohy FrontierMath vyžadují kreativní přístup, jsou velmi komplexní a vyžadují speciální znalosti.

LLM jsou často trénované na jednoduchých úlohách, které pak řeší s velkou úspěšností. Proto by mohlo vypadat, že LLM zvládnou i obecné a složité úlohy, se kterými se ještě nesetkaly. Test FrontierMath ukazuje, že tomu tak není. Více detailů najdete v článku.

(zdroj: arstechnica)