Sora od OpenAI: co warto wiedzieć o rewolucyjnym generatorze wideo na podstawie tekstu?

Jeszcze nie podnieśliśmy z podłogi szczęk, które opadły nam w zetknięciu z możliwościami oferowanymi przez ChatGPT, tymczasem OpenAI szykuje się do wypuszczenia kolejnego rewolucyjnego narzędzia. Sora, bo tak się ono nazywa, potrafi generować wideo na podstawie tekstowych promptów. I trzeba przyznać, że jest w tym przerażająco dobre.

Czym jest Sora?

Wyobrażacie sobie latającego psa, który ściga się po niebie z myśliwcami F-16? Ja też nie, ale Sora, najnowsze dzieło OpenAI, zwizualizuje Wam to w 1-minutowym filmie. I nie będzie to pokracznie niepokojąca animacja z rave’ującymi Harrym Potterem i Voldemortem, jakich pełno na TikToku.

To będzie złożone, realistyczne wideo, adekwatne do podanego opisu, gdzie modele ruszają się zgodnie ze swoją unikalną specyfiką; kot będzie poruszać się jak kot, a dorosły pies inaczej niż szczeniak. To będzie wideo z realistycznie odwzorowaną grą świateł, z właściwą interpretacją przestrzeni dzielących przyczyny od skutków. Jest to możliwe, gdyż Sora, jak twierdzą twórcy z OpenAI: „rozumie, w jaki sposób rzeczy istnieją w świecie fizycznym”.

OpenAI przekonuje, że model rozumie język na tyle doskonale, żeby dokładnie interpretować opis, który ma przetworzyć na wideo. Jest to możliwe dzięki ogromnej bazie danych, na której Sora została wytrenowana. Jak to wygląda w praktyce? Wygenerowane filmy wraz z promptami zobaczycie na poniższym filmie, który pochodzi z oficjalnego kanału OpenAI na YouTube:

Jakie są słabe strony Sora?

Chociaż już na początku istnienia narzędzia jakość tworzonych filmów jest naprawdę wysoka, Sora – podobnie jak ChatGPT – ma swoje bolączki i słabe strony. Jedną z nich są problemy z dokładnym symulowaniem fizyki w bardziej złożonych scenach. Jako przykład OpenAI wskazuje hipotetyczny film z ciasteczkiem, gdzie po ugryzieniu ciastka może po nim nie pozostać ślad ugryzienia.

Ponadto modelowi Sora zdarza się mylić lewą stronę z prawą. Miewa również trudności z podążaniem za trajektorią kamery określoną w opisie.

OpenAI

Kiedy Sora będzie dostępna?

W tym momencie nie wiadomo, kiedy model Sora trafi do rąk użytkowników. Na razie OpenAI poinformowało, że Sora jest dostępna wąskiemu gronu ekspertów, którzy mają za zadanie ocenić ryzyko związane z udostępnieniem modelu, a także zidentyfikować potencjalne problemu pokroju dezinformacji, stronniczości i treści nienawistnych.

Ponadto Sora trafiła również do rąk niektórych twórców, na przykład wybranych artystów wizualnych i filmowców. Ich rolą jest przetestowanie narzędzia i podzielenie się opiniami na temat tego, jak można byłoby ulepszyć platformę i sprawić, aby była bardziej użyteczna.

Czy Sora będzie darmowa?

Na to pytanie również trudno odpowiedzieć, aczkolwiek jeśli miałbym strzelać, powiedziałbym, że będzie dostępna w ramach płatnego ChatGPT4, podobnie jak generator obrazków DALL-E, tyle że tutaj liczba promptów jeszcze bardziej ograniczona. To są jednak tylko moje przypuszczenia, czas pokaże, na ile zbieżne z rzeczywistymi planami OpenAI.