Výzkumníci ze Stanfordu Berkeley zkoumali odpovědi na sérii stejných otázek GPT-3.5 a GPT-4 v březnu a v červnu letošního roku. Výsledky se mezi březnem a červnem překvapivě hodně měnily. Například na otázku, jestli je 17077 prvočíslo (je), odpovídalo GPT-4 v březnu s 98% úspěšností, ale v červnu jen s 2%. Naopak tomu bylo s GPT-3.5. V březnu úspěšnost 7 %, ale v červnu 87 %.
Výzkumníci v závěru varují, že LLM (large language model) v průběhu času velmi mění odpovědi a bylo by dobré kvalitu odpovědí systematicky sledovat. Výsledky jsou dostupné na GitHubu. Více detailů naleznete v článku [PDF].
(zdroj: slashdot)