AI je dobrý sluha běžného uživatele: v čem nám pomůže?

15. 12. 2023
Doba čtení: 6 minut

Sdílet

 Autor: PCWorld s využitím DALL-E
Systémy postavené na strojovém učení možná jednoho dne ovládnou svět a zotročí lidstvo, nicméně to nebudou ty, které nám budou vylepšovat fotky a plánovat výlety na dovolené.

Předem se omlouvám všem, kteří už jsou přesyceni dvoupísmennou zkratkou začínající na A a končící na I. Rád bych se ještě dnes krátce zastavil u aspektu, který mi vrtá hlavou už nějakých téměř 15 let od chvíle, kdy jsem se shodou okolností vyskytl na grafické konferenci na FAV ZČU (viz můj dobový článek), primárně s cílem převzít si od Igora Staňka z Nvidie na trvalou zápůjčku 182W GeForce GTX 260 (to byla ta věc s výkonem 477 GFLOPS, jejíž pozici na trhu dnes odpovídá 320W GeForce RTX 4080 s výkonem 48 800 GFLOPS – ano, letí to, 100× tolik výkonu za 15 let) a sekundárně okouknout, co to vlastně ti vědci v začínající éře GPGPU / Cg / CUDA páchají.

Nějakou dobu poté jsem se jen tak letmo probíral různými pracemi na toto téma. Byly to zajímavé věci, tehdejší vývojáři vymýšleli algoritmy, jak obraz upscalovat, jak strojově z 2D fotky udělat 3D model, jak to či ono optimalizovat či naopak datově vytěžit, ač to vypadá, že tam nic není. Ještě to nebyla úplně éra strojového učení, ostatně CUDA byla relativně nová a ještě ne-moc schopná věc, ale jak následný vývoj ukázal, Jen-Hsun Huang s kolegy udělali trefu do černého a strojové učení poháněné zejména GPU čipy prostě vládne světu. A právě ona kombinace brutálně rostoucího výkonu hardwaru, stále lepších a lepších schopností sw vrstev a obecné dostupnosti různých podpůrných řešení dává vývojářům standardních aplikací a v současnosti či dohledné době do rukou nástroje, které změní svět k lepšímu i těm největším odpůrcům AI.

Dnes tedy pomiňme negativní žehrání na AI, kterého jsem se dopustil minulý týden a pojďme se podívat, co se nám výhledově nabízí.

Skyrim s realtime pokecem skrze ChatGPT a konec renderování ve prospěch generování

Léta letoucí tvrdím, že hře lze odpustit prakticky libovolný průšvih, pokud dokáže vtáhnout atmosférou. A to, co naznačuje kombinace legendárního Skyrimu s ChatGPT, ilustruje, kam vše míří.

Sama Nvidia ústy svých zástupců hlásá, že jednoho dne jejich technologie DLSS bude možná „renderovat“ celou hru. DLSS začala s omezenými možnostmi AI upscalingu poháněného tenzorovými jádry v GPU. Postupem verzí přidala i dopočítávání chybějících snímků a její schopnosti jsou stále lepší a lepší. Zdá se tedy logické, že jednoho dne budou stačit jen obecné pokyny ze strany enginu hry, co se chce zobrazit a GPU nebude muset renderovat skrze klasickou rasterizační/raytraycingovou pipeline a vše prostě svým strojovým učením rovnou vyšvihne v potřebném rozlišení, počtu fps a kvalitě.

Jakkoli to zní naprosto šíleně, tato cesta je přesně tou věcí, která naprosto radikálně mění význam testování nových generací GPU. Proč se trápit výkonem ve 4k, když Nvidia DLSS či AMD FSR či Intel XeSS bude jednoho dne umět takřka stejně kvalitní obraz vyšvihnout ze strojově-naučených úprav FullHD renderingu. Nejenže toto bude cesta ke zvýšení celkové vnímané kvality uživatelem, ale i cesta pro delší morální životnost dané generace herních konzolí či grafických karet. Ano, nebude to objektivně věrná realita klasického renderingu, ale koho to zajímá? Pokud bude hra renderovaná v 1080/20fps pomocí AI povýšená na 4k/60fps z 95 % věrná renderingu v této vyšší kvalitě, pak se už není o čem bavit, je vyřešeno. Toto vše již všichni hlavní výrobci GPU servírují svým uživatelům v ovladačích.

Upscaling, denoising a kolorování fotek

Totéž můžeme logicky vztáhnout i na jinak než renderingem získané scény. Nejde jen o v současnosti existující kolorizace a „zdetailnění“ veřejných fotografií, třeba Alberta Einsteina či Woodrowa Wilsona. Jde o to, aby i běžný uživatel dostal jednoduchý, ideálně bezplatný nástroj, kterým si bude moc vylepšit k více současnému obrazu staré rodinné fotografie. Domnívám se, že ač éra komunismu byla poměrně frustrující, tak nebyla vždy tak frustrující, jak to ukazují dobové černobílé fotografie. Právě ona nebarevnost v kontrastu s Kodachromovými diapozitivy z USA či západního Německa je aspektem, který vykresluje východ depresivněji (než jak depresivní byl) a západ hezčeji (než jaký skutečně byl).

Máme již dnes nástroje od Adobe, máme Topaz AI. Máme i projekt GIMP Machine Learning a jakkoli zatím výstupy z něj jsou spíše komické, v oblasti upscalingu a denoisingu skýtá tato cesta jasný a obrovský potenciál. A jsme v open-source světě už na jejím počátku.

Pucování zvuku a pohyblivých obrázků

Možná žádný takový záznam doma nemáte. Nebo možná ano. Nějakou starou VHS-C kazetku s mizerným obrazem i zvukem, již degradujícími barvami toho 30 let starého záznamu. A možná tuhle věc přitom stačí jen zdigitalizovat a prohnat nějakým nástrojem, který srovná barvy, dodá detaily a vyčistí zvuk, včetně vyčištění od zvuku motorků kamery a dodání chybějící dynamiky.

Já některé takové záznamy mám, například když jsme před necelým čtvrt stoletím jen tak z legrace s kamarádem ze ZŠ nahráli pár krátkých videí s už tehdy stařičkou S-VHS kamerou Panasonic. Tyhle záznamy jsme zdigitalizovali, v roce 2000 ještě do MPEG-1, v roce 2001 pak do half-PAL Xvidu a čekají na další technologický skok.

Ale možná to nemusí ani být starý analogový záznam, jen obyčejné video v 640×480 30fps M-JPEGu z pozdějších cca 6Mpix kompaktů či 320×240 15fps z dřívějších digiťáčků z doby před 20 lety. I zde může správně naučený systém pomoci dodat záznamům zpět kousek reality, který tehdejší snímací čipy a elektronika neuměly. Nijak přitom nepopře pány Nyquista a Shannona, on ten strojově naučený systém prostě přidá něco navíc, co v původním záznamu není.

Dovolím si tvrdit, že takových záznamů už má skoro každý hromady a hromady. Dokonce si vzpomínám právě na onu dobu po příchodu GPGPU a CUDA, kdy Nvidia propagovala nějaký nástroj vylepšující videa (na jazyk se mi dere Badaboom, ale to snad sloužilo jen pro konverzi videí přes GPU – už je to prostě příliš dávno, nevzpomenu si).

AI v profi fotoaparátech

Predikce je součástí autofocusových systémů celé dekády. Ale strojově učený počítač v moderní bezzrcadlovce, to může být zcela jiný kalibr. Olympus – tedy pardon, myslím OMDS – tyto věci již implementuje a není jediný. Tam, kde vždy platilo, že nejsofistikovanější autofocus algoritmy má Canon + Nikon, dnes přicházejí na scénu další a další hráči. A nebude to platit jen ve fullframe či sf bezzrcadlovkách, platí to stonásobně pro smartphony.

Pomocníčci programátorů

Když popustíme uzdu fantasii, lze si představit, že jednoho dne by strojově naučený pomocník mohl třeba v projektu Wine zajišťovat řešení většiny triviálních chyb. Nedejbože ale, aby došlo i k nasazení AI v hledání optimalizací částí kódů typu souborových systémů, CPU schedulerů, síťových vrstev a kdo ví čeho všeho. Ale co když do tohoto bodu dojdeme a jednoho dne nějaký dílčí subsystém Linuxu bude v podobě od AI lepší než od jakéhokoli vývojáře? To dnes možná zní jako sci-fi a důkazem budiž, že do mainstreamu ještě neprobublaly žádné články, analýzy, komentáře na toto téma, nicméně optimalizace jsou segmentem, který si o AI vysloveně koleduje, podobně jako hledání softwarových chyb.

ict ve školství 24

Nejen negativa

Ano, opravdu nechci, aby za mě jednoho dne AI systémy rozhodovaly vše. Nechci, aby rozhodovaly, co nakoupíme, co budeme jíst, jakou teplotu chceme v obýváku, na co chceme koukat v TV, kudy chceme jet z bodu A do bodu B. Od toho je krůček k tomu nechat AI rozhodovat, koho pojmeme za životního partnera či partnerku. Jak pravil Dabney Coleman v porevolučním dabingu Wargames: ponecháme si velení zde, kam samozřejmě patří.

Zkrátka a dobře. Bojím se negativního vlivu všudypřítomných pomocníčků tam, kde budou člověku ubírat z jeho používání mozku. Ale těším se na pomocníčky, které mi umožní vytrhávat zpět z minulosti nekvalitních záznamů do technicky kvalitnější současnosti vzpomínky statické či pohyblivé, na členy rodiny, na události, na dovolené či oslavy Vánoc apod. lépe než bych toho kdy byl já nějakou mechanickou prací s ne-AI nástrojem. AI zde berte jako všeobjímající buzzword označující nástroje nové generace, kde jejich sofistikovanost nevznikla klávesnicí programátorů, ale vlastním procesem učení se z velkých balíků dat. Je to logický další krok ve vývoji softwaru a pokud si to nenecháme přerůst přes hlavu, budou AI systémy (nebo chcete-li systémy strojového učení) velmi příjemnými pomocníky.

Autor článku

Příznivec open-source rád píšící i o ne-IT tématech. Odpůrce softwarových patentů a omezování občanských svobod ve prospěch korporací.