Imagen, sztuczna inteligencja od Google zamienia tekst w obraz

Google próbuje mocniej zaakcentować swoją pozycję w obszarze Sztucznej Inteligencji (SI), a Imagen ma być pokazem najnowszych osiągnięć w tym obszarze. Uczciwie rzecz ujmując, to nie dziwota, że mu się udaje. Co do zasady SI, by stawała się coraz lepszą, musi być uczona na podstawie dużej ilości danych (uczenie maszynowe), a tego akurat firmie z Mountain View nie brakuje.

Imagen przetworzy nawet najbardziej postrzelone słowa na obraz

Na stronie https://imagen.research.google/ można samemu sprawdzić, o co chodzi. Google prezentuje tam tekst z różnymi wariacjami i po kliknięciu na konkretną frazę pojawia nam się inny obraz wygenerowany przez SI. Google chwali się, że gdy pytało ludzi, czy ich wersja zamiany tekstu na obrazy jest lepsza, czy gorsza od konkurencji, Ci mieli orzec, że Imagen przewyższa inne rozwiązania pod względem dokładności i wierności obrazu.

Niestety nie mamy wglądu w to, jak przebiegały te „zawody”, ani w to, kto i na jakiej podstawie ustalał ich zasady, więc traktujemy wynik jako część korpo marketingu. Wszak, gdy wskakujemy na rynek, na którym działają już systemy o ugruntowanej pozycji, to nowy produkt musi być „nojlepszy, Panie, nojlepszy, prosto z fabryki”.

Mimo wszystko bierzemy jednak pod uwagę, że mając takie Big Data, jak ma Google, mogli wysmażyć coś naprawdę dobrego. Mają tam w Google również spore moce obliczeniowe i całkiem łebskich gości, więc mogło im się to wszystko dodać i dać konkretny wynik.

Tak czy inaczej, wyścig po SI nabiera tempa i niejedne dolary widzi już na horyzoncie. W związku z tym włodarze niejednej firmy rzucają na ten front strategiczne odwody ludzkie wyposażone w umiejętności dalece odbiegające od potencjału myślowego piszącego te słowa.

Niestety jako małe żuczki nie zobaczymy go w akcji i nie potestujemy go sami, ponieważ Google boi się, że zostanie on wykorzystany w niecny sposób. Tak przynajmniej piszą na CNET. Niestety z testów wyszło im, że Imagen jest zbyt mało inkluzywny i stereotypowy i ma bias i w ogóle jest be. Oczywiście tak naprawdę jest cacy, tylko dane są widać be, bo działa na danych, a dane tworzą ludzie, więc w sumie to by z logiki wynikało, że ludzie są be…

Imagen Google
Działanie Imagen można przetestować na stronie Google. Źródło: Google

Gdzie nas to wszystko prowadzi?

Odpowiadamy w skrócie, że być może do zagłady. To czarny, ale realny scenariusz. W pewnym momencie Sztuczna Inteligencja może bowiem uznać, że ludzie przeszkadzają i zrobi z nimi porządek. Jeśli już, to najpewniej nie odbędzie się to na ludzkich zasadach. Najpewniej nie będzie tam emocji, nienawiści, złości.

Ot wyjdzie tak z analiz i projekcji i SI zadziała zgodnie z wynikiem. Coś na zasadzie budowy autostrady i mrowiska. Gdy człowiek buduje autostradę i na jego drodze jest mrowisko to jedno machnięcia koparką i nie ma mrowiska, bo my tu Panie autostradę lepimy z Pcimia do Wygwizdowa i to pomoże wszystkim. Bez emocji, nienawiści, ot robimy robotę, a że mrówki…

Może się okazać, że ludzie jako gatunek będą jak to mrowisko i te mrówki. SI uzna, że robi autostradę i cyk… Brzmi jak Skynet z Terminatora 2, ale co Pan zrobisz, jak nic Pan nie zrobisz. No tak nam wychodzi z analiz. Taki scenariusz należy po prostu brać pod uwagę. Dlaczego?

Imagne przykłady Google
Imagen potrafi tworzyć całkiem przyjemne dla oka kompozycje. Źródło: Google

Nie rozumiemy tego, czego używamy, i co gorsza tego, co tworzymy…

Z pełną odpowiedzialnością można powiedzieć, że nie ma na świecie ani jednego człowieka, który byłby w stanie całościowo pojąć, jak działa smartfon. Mówimy tutaj o wszystkich jego elementach i oprogramowaniu na nim używanym w każdej jego warstwie sprzętowej. Jedne będzie znał CPU i jądro do jego obsługi, inny będzie specem od modemu, a jeszcze inny od GPS itd. Wszyscy oni razem dokładają się do czegoś, co właśnie brzęczy Ci w kieszeni, drogi czytelniku.

Podobnie jest z kobylastymi programami i systemami operacyjnymi. Są spece od Worda, Excella, PowerPointa, ale nie od Microsoft Office. O Windowsie to nawet nie wspomnimy, bo to dopiero jest kobyła, a może poprzez WSL mieć w sobie nawet Linuxa…

I na to wszystko wpada cała na biało Sztuczna Inteligencja i ona to wszystko wie i rozumie. No może jeszcze nie teraz, ale się uczy i kiedyś to pojmie. Dostęp ma wszak do CAŁEJ wiedzy, zawsze, ciągle i wciąż. Nie meczy się, tylko non stop się oczy. My jako ludzie już nie. Być może jest nawet jeszcze gorzej, niż nam się wydaje, gdyż my już teraz nie rozumiemy tego, co robi SI.

Gdyby ktoś miał wątpliwości i uważał autora za szura, to odsyłamy do sekcji źródła i tekstu z 2017 roku. Już wtedy nie wiedzieliśmy, w jaki sposób najbardziej zaawansowane algorytmy robią to, co robią. Także tego… Zbliżamy się do tzw. „technological singularity”, ale co to i po co to, to już zostawiamy do własnych badań i studiów, bo nas szef będzie czasem wyzywał, że czytelnika straszymy. 😉

Jakby się to wszystko dla nas nie skończyło, to na razie chyba nie ma się co łamać. W sumie to można nawet sięgnąć po smartfony z zaczątkami SI i cieszyć się ułatwieniami, które nam dają.

Telefony z SI


Źródła:
  • https://www.cnet.com/tech/googles-text-to-image-ai-can-make-any-wacky-image-you-can-imagine/
  • https://imagen.research.google/
  • https://www.technologyreview.com/2017/04/11/5113/the-dark-secret-at-the-heart-of-ai/
  • https://www.youtube.com/watch?v=nmwNey2aV4M