To uz v podstate jde: https://pdos.csail.mit.edu/archive/scigen/ Akorat by se to muselo zdokonalit, aby se tam nejak dalo zadat tema prace a par hlavnich zdroju nebo klicovych slov. Ale mam pocit, ze tam jsou ke stazeni zdrojaky, takze si to muze kazdy upravit.
BTW, tady si muzete precist muj posledni white paper: https://yadi.sk/i/_ToSxNna3RUg8P Zda se, ze se mi opravdu povedl.
Tak jestli si clovek musel precist 500 clanku a pak ho z toho zkouseli na testu, tak je celkem pravdepodobne, ze s vyjimkou par lidi s neuveritelnou pameti, si toho u testu uz moc nepamatoval, zatimco AI si to asi vsechno naflakala na disk. AI pak vygeneruje spravne odpovedi podle nejakeho klasifikacniho algoritmu a vypoctu pravdepodobnosti, zatimco clovek, ktery tomu pri cteni rozumel v mire odpovidajici jeho IQ, oboru jeho znalosti, pocasi a stupne vyspalosti...., v tom naflaka spoustu chyb podle toho, jak ma blbou pamet.
Clovece, asi nebude. Sprti, co ve skole meli od soudruzky same jednicky, dneska kolikrat delaji skladnika nebo prodavacku. Trojkari obcas udelali vysokou skolu. Vysoce inteligentni deti casto maji spatny prospech, protoze skola pro obycejne smrtelniky je pro ne nudna a nemotivujici - po prerazeni na tvrdsi solu, kde se po nich chce pouziti mozku, najednou maji prospech dobry.
Jsou lidi, co si pamatuji skoro vsechno nebo naopak skoro nic a v obou skupinach jsou lidi vysoce inteligentni nebo uplne blbi. Ostatne se povida, ze sam Einstein ve skole moc nevynikal. Nudila ho a dost mozna uz pracoval na svych prvnich matematickych teoriich, ktere by jeho ucitele nikdy nepochopili.
Ampere byl pry clovek tragicky roztrzity, ktery pri vyuce utiral tabuli kapesnik a domu odchazel s hadrem na tabuli v kapse.
Cili pokud existuje urcita korelace, tak opravdu jen urcita a nejde na ni spolehat.
To, ze lide s IQ a nejakym vzdelanim maji obvykle i jakousi pamet, muze byt dano ciste vzdelavacim modelem, ktery od zaku vyzaduje stejnakost a genie s blbou pameti (zejmena na to, co je vubec nezajima) s klidem vyradi jako defektni, vhodne k zametani ulic. Tak by patrne skoncil Einstein, kdyby mel tu smulu, ze by se narodil v Ceskoslovensku.
A z ceho te zkousej ve skole? Z toho jestli tomu rozumis? Nebo z toho jestli si to pamatujes? Na vsech urovnich skolstvi (nejen) v CR te zkousej z pameti. A na stejnym principu je zalozena i spousta soutezi. Tudiz dneska AI cloveka vpohode porazi, protoze je dostatek vykonu na vyhodnoceni statisticky nejlepsi odpovedi v rozumnym case - z exaktne vsech "naucenych" dat. Pricemz clovek muze vyhodnocovat tak maximalne data zapamatovana, kterych bude proti tomuhle promile.
Jenze zadna AI ve skutecnosti nicemu nerozumi, nezna vyznam.
BTW: Mozna bych nekde ve sklepe vytah i puvodni elisu, bylo to par radku v basicu, a velice "inteligentne" to reagovalo na (temer) libovolny dotaz. Pred nejakejma 30 lety. Spousta lidi nebyla schopna poznat, jestli na druhy strane sedi clovek.
Jednou jsme museli delat jakejsi referat do politiky. Tak jsem otevrel textovy editor, posadil jsem spoluzaka ke knize s instrukcemi, ze ma vzdycky precist vetu, pak preskocit nekolik stran, precist dalsi vetu a tak dale dokud ten referat nebude dost dlouhy. Pak jsem to vytisknul na jehlickove tiskarne (jina tehdy nebyla), vsechno velkyma pismenama (ta komunisticka tiskarna jiny pismena neumela) bez hacku a carek (ty taky neumela) a vsechno byl jeden odstavec. Bylo toho asi 15 stranek. Nevyhodili me. Stejne to nikdo necetl, ani s nejvetsim sebezaprenim nebylo mozne precist vic jak 2 vety a na konci druhe uz si nikdo nepamatoval o cem byla ta predchozi :-). Ale bylo to spravne dlouhe :-).
Tam maji CAPTCHA s pekne rafinovanymi otazkami. Ne jako tady na rootu:
" Z důvodu plevelení spamujícími roboty prosím ještě zodpovězte dvě otázky; první: jste policista nebo úředník? (použijte nejkratší možný zápor):"
"Druhá otázka: kolik nohou (číslovka) má dohromady pět policajtů (přičemž dle zákona o policii nesmí být žádný policista jednonohý nebo beznohý):"
Ale ten generator tam nenachazim. Asi jim to shora zakazali a ted to pouzivaji pro sepisovani zakonu.
Super bulvární titulek, ale doporučuju podívat se na ten originální článek z EMNLP'16: http://www.aclweb.org/anthology/D/D16/D16-1264.pdf
"We assess human performance on SQuAD’s development and test sets. Recall that each of the questions in these sets has at least three answers. To eval uate human performance, we treat the second answer to each question as the human prediction, and keep the other answers as ground truth answers. The resulting human performance score on the test set is 77.0% for the exact match metric, and 86.8% for F1."
Nějak to s těmi 82% nesedí (ani jedna z těch dvou metrik).
Takže tři MTurk anotátoři označili odpověď, jeden z nich byl pak porovnaný s těmi dvěma ostatními. Ale jinak žádná quality control těch anotací, což je na Mechanical Turk naprostá nutnost. Autor se na tuhle otázku při talku tehdy nějak vykrucoval.
Ten dataset už ale kritizovali jiní, viz např. "Sugawara and Aizawa (2016) analyzed this dataset and found that only 6.2% of questions require causal reasoning, 1.2% logical reasoning, and 0% analogy" ( http://aclweb.org/anthology/W16-6001 ).
Takže žádná porážka člověka v pochopení textu se nekoná. Na to jsou tady těžší tasky než Question Answering na wikipedii, kde odpověď je přímo v textu. Např. Winograd Scheme challenges, Argument Reasoning Comprehension Task, nebo tasky na nadcházejícím Workshop on Representation Learning for NLP.