Firma Google vyvíjí software, který umí sám popisovat obsah obrázků
Výzkumník firmy Oriol Vinyals předvedl veřejnosti, jak umělá inteligence na bázi neuronových sítí, obsažená v jeho experimentálním softwaru, umí samostatně detekovat, klasifikovat a popisovat objekty a situace, které jsou obsaženy i ve složitějších obrazových scénách.
Většina z nás asi zná situaci, kdy chceme zpracovat nějaké rodinné fotografie nebo fotografie z cest a pokud v nich nechceme mít chaos, potřebujeme je patřičně roztřídit a popsat. Pak následují hodiny a dny úmorné práce, kdy si fotografie prohlížíme, přiřazujeme k nim popisky a tagy a třídíme je. Tato práce vyžaduje značné úsilí i tehdy, pokud máme k dispozici software na zpracování obrázkových galerií.
Firma Google ale vyvíjí software, nazvaný prozatímně Neural Image Caption (NIC), který tyto procedury zvládne ve většině sám. Dokonce umí z obrázků “vytáhnout” nejen pojmenování konkrétních objektů, ale také někdy dokáže správně pojmenovat i souvislosti a dění na scéně. Výsledkem tak mohou být například věty jako: “Skupina mladých lidí hraje frisbee”. Nebo “Stádo slonů táhne přes suchou zatravněnou plochu”. Či “Dvě pizzy se nacházejí na sporáku”. Úspěšnost softwaru se momentálně pohybuje kolem 60%. Lidský standard je přitom kolem 70%.
To však není nic divného, pokud si uvědomíme, jak algoritmy založené na umělých neuronových sítích pracují a jak velmi dlouho je třeba je “trénovat”, aby se nedopouštěly chyb. V každém případě tedy musejí výstupy daného programu stále ještě kontrolovat lidé. To ale není zásadní problém, když si uvědomíme, jak fungují některé systémy pro automatické rozeznávání písma a slov (RECAPTCHA), jejichž funkce je a musí být v masovém měřítku korigována uživateli na internetu. Úspěšnost neuronových sítí stoupá souběžně s tím, jaké porce dat už mohly v historii zkonzumovat a jak se tedy mohly ze svých chyb poučit.
Výzkumníci vyšli z postupů používaných ve strojovém překladu, nazvaných rekurentní neuronové sítě (anglická zkratka RNN). V rámci softwaru pro automatický popis obrázků se však navíc objevil další postup na bázi tzv. konvoluční neuronové sítě (CNN). Pracují zde vlastně dvě neuronové sítě. Jedna převádí obsah obrázku do formy matematické reprezentace. Druhá pro příslušný matematický konglomerát nachází vhodný popis v přirozeném jazyce. I když je tento software zatím jen ve vývojovém stadiu, výzkumníci již uvažují o tom, jak dosavadní výsledky uplatnit v oblasti vyhledávání obrázků nebo při pomoci zrakově handicapovaným lidem, kterým by aplikace automaticky sdělovala, co se děje kolem nich. Vojenské nebo bezpečnostní aplikace jsou samozřejmě nasnadě.
Zdroje: Google Research Blog, MIT Technology Review, BBC, New York Times, PC World, Techspot, GMA News
Více z pořadu
E-shop Českého rozhlasu
Kdo jste vy? Klára, nebo učitel?
Tereza Kostková, moderátorka ČRo Dvojka


Jak Klára obrátila všechno vzhůru nohama
Knížka režiséra a herce Jakuba Nvoty v překladu Terezy Kostkové předkládá malým i velkým čtenářům dialogy malé Kláry a učitele o světě, který se dá vnímat docela jinak, než jak se píše v učebnicích.