Czym jest Sora?
Wyobrażacie sobie latającego psa, który ściga się po niebie z myśliwcami F-16? Ja też nie, ale Sora, najnowsze dzieło OpenAI, zwizualizuje Wam to w 1-minutowym filmie. I nie będzie to pokracznie niepokojąca animacja z rave’ującymi Harrym Potterem i Voldemortem, jakich pełno na TikToku.
To będzie złożone, realistyczne wideo, adekwatne do podanego opisu, gdzie modele ruszają się zgodnie ze swoją unikalną specyfiką; kot będzie poruszać się jak kot, a dorosły pies inaczej niż szczeniak. To będzie wideo z realistycznie odwzorowaną grą świateł, z właściwą interpretacją przestrzeni dzielących przyczyny od skutków. Jest to możliwe, gdyż Sora, jak twierdzą twórcy z OpenAI: „rozumie, w jaki sposób rzeczy istnieją w świecie fizycznym”.
OpenAI przekonuje, że model rozumie język na tyle doskonale, żeby dokładnie interpretować opis, który ma przetworzyć na wideo. Jest to możliwe dzięki ogromnej bazie danych, na której Sora została wytrenowana. Jak to wygląda w praktyce? Wygenerowane filmy wraz z promptami zobaczycie na poniższym filmie, który pochodzi z oficjalnego kanału OpenAI na YouTube: