Ak sa živíte tvorbou webu, určite ste už narazili na klasickú dilemu: ako optimalizovať obrázky pre vyhľadávače? Alt text, title atribút, názvy súborov – to všetko poznáme. Ale čo ak vám poviem, že aj napriek všetkým pokrokom v umelej inteligencii, Google Images stále občas "klame" alebo aspoň pôsobí zmätene, najmä pokiaľ ide o rozdiel medzi tým, ako AI chápe text a ako obraz?
Predstavte si to: do Googlu zadáte "lyžiar" a potom "lyžovanie". Čo očakávate? Pri textovom vyhľadávaní uvidíte markantný rozdiel – pri "lyžiarovi" sú to profily športovcov, biografie, zatiaľ čo pri "lyžovaní" sú to techniky, strediská, tipy. Ale pri obrázkoch? S veľkou pravdepodobnosťou uvidíte veľmi podobné (ak nie takmer identické) obrázky: osobu na lyžiach v pohybe zo svahu. Prečo?
Ako ľudia vnímame svet primárne zrakom. Stačí nám zlomok sekundy na to, aby sme z obrazu vyčítali celý "román" informácií – emócie, kontext, súvislosti, spomienky. Je to intuitívne a mimoverbálne. Slovo je len naším pokusom tento "román" opísať, často neúplne a s rizikom skreslenia.
A tu je kameň úrazu pre AI:
Algoritmy pre textové vyhľadávanie (NLP – Natural Language Processing) excelujú v sémantike. Jazyk má totiž explicitnú štruktúru:
AI sa učí tieto jasné rozdiely z miliárd textových dát. Vie, že obsah o "lyžiarovi" bude pravdepodobne o profiloch, zatiaľ čo obsah o "lyžovaní" o technikách.
Napriek tomu, že AI dokáže v obrázkoch rozpoznať neuveriteľné veci (tváre, objekty, emócie, pozície), pri vyhľadávaní sa stále príliš spolieha na textový kontext od autora obrázku.
Aj keď sa AI neustále zlepšuje a smeruje k multimodálnemu chápaniu (kde bude text aj obraz spracúvaný spoločne a AI bude schopná validaovať obsah), momentálne je pre webárov kľúčové:
Budúcnosť vyhľadávania pre ľudí je nepochybne vizuálna. Sme dátovo preťažení textom a vizuály (vrátane videí) dokážu preniesť obrovské množstvo informácií oveľa efektívnejšie a prirodzenejšie. Ako webári, je našou úlohou nielen tvoriť krásne weby, ale aj rozumieť týmto nuansám AI, aby sme zabezpečili, že náš obsah bude nájdený a pochopený v stále vizuálnejšom svete.
Až zaregistrujeme, že sa obrázkové vyhľadávanie pre "lyžiar" a "lyžovanie" patrične odlišuje, budeme vedieť, že AI spravila ďalší veľký krok vpred vo svojom "pochopení románu" v obrazoch. A to bude pre nás všetkých skvelá správa.