Nový test FrontierMath AI nezvládá

Sdílet

Matematika Autor: Depositphotos

V červenci jsme informovali, že umělá inteligence Google si celkem dobře vedla v Mezinárodní matematické olympiádě. Například v testu GSM-8k dosahují LLM běžně 96% úspěšnosti.  Společnost EpochAI vyvinula nový matematický test pro AI s názvem FrontierMath na který jsou současné LLM krátké. Claude a Gemini vyřešily jen 2 % úkolů, o1 a GPT jen 1 %.

Úlohy nejsou ze zřejmých důvodů veřejné, ale na obrázku vidíte tři příklady. Zadání na olympiádě většinou vyžadují kreativní přístup, nevyžadují však speciální znalosti a nejsou příliš komplexní. Úlohy FrontierMath vyžadují kreativní přístup, jsou velmi komplexní a vyžadují speciální znalosti.

LLM jsou často trénované na jednoduchých úlohách, které pak řeší s velkou úspěšností. Proto by mohlo vypadat, že LLM zvládnou i obecné a složité úlohy, se kterými se ještě nesetkaly. Test FrontierMath ukazuje, že tomu tak není. Více detailů najdete v článku.

(zdroj: arstechnica)

Autor: Epoch AI
Našli jste v článku chybu?

Autor zprávičky

První linux nainstaloval kolem roku 1994 a u něj zůstal. Později vystudoval fyziku a získal doktorát.