OpenAI ogłosiło uruchomienie Sora, narzędzia, które może przekształcić tekst w wideo trwające do jednej minuty. Chociaż Sora wciąż znajduje się na etapie badań i nie została jeszcze dodana do oferty firmy, to zapowiedź ta stanowi znaczący krok naprzód w dziedzinie generatywnej AI.
Konkurencja nie śpi
Nie tylko OpenAI eksploruje ten obszar. Inne firmy, takie jak Meta, Google i Runway, również ogłosiły lub wprowadziły na rynek własne silniki tekst-na-wideo.
Na przykład Meta wprowadziło Make-A-Video, system AI umożliwiający tworzenie krótkich, wysokiej jakości klipów wideo z podanych tekstów.
Te innowacje otwierają nowe możliwości dla twórców i artystów, dając narzędzia do szybkiego i łatwego tworzenia nowych treści.
Sora – jak to działa?
Sora wykorzystuje model dyfuzji do generowania złożonych scen z wieloma postaciami, konkretnymi rodzajami ruchu oraz dokładnymi szczegółami przedmiotu i tła. Co ważne, Sora potrafi zrozumieć niuanse podanych wskazówek oraz sposób, w jaki różne obiekty zachowują się w fizycznym świecie.
Inną innowacją jest generowanie całego wideo za jednym razem, zamiast tworzenia go klatka po klatce. To rozwiązanie ma na celu uniknięcie problemów, z którymi borykały się inne modele, takie jak utrzymanie spójności postaci, nawet gdy tymczasowo znika z pola widzenia.
Bezpieczeństwo i etyka na pierwszym planie
OpenAI podkreśla, że na razie nie planuje szerokiego udostępnienia Sory, ponieważ kontynuuje pracę nad szeregiem kwestii związanych z bezpieczeństwem, w tym wysiłkami na rzecz zmniejszenia dezinformacji, treści pełnych nienawiści i stronniczości, a także wyraźnego oznaczania wyników jako generowanych przez AI.
Ta ostrożność jest odzwierciedleniem szerszej debaty na temat etyki i bezpieczeństwa w AI, co widać na przykład w inicjatywach takich jak dobrowolne zobowiązania do znakowania wodnego treści generowanych przez AI, ogłoszone przez firmy AI w odpowiedzi na apel Białego Domu.
Perspektywy i dalsze kroki
Sora jest obecnie dostępna dla “red teamerów” do oceny potencjalnych zagrożeń i szkód, co jest standardową praktyką w rozwoju bezpiecznych technologii AI.
OpenAI udostępnia również dostęp do narzędzia wybranym artystom wizualnym, projektantom i filmowcom, aby zebrać opinie na temat tego, jak model może być najbardziej pomocny dla profesjonalistów twórczych.
To podejście, polegające na wczesnym dzieleniu się postępami badawczymi i zbieraniu opinii z zewnątrz, ma na celu lepsze zrozumienie potencjalnych zastosowań i wyzwań związanych z Sora, zanim narzędzie zostanie szerzej udostępnione.
W kontekście szybkiego rozwoju technologii AI, Sora stanowi obiecujący krok naprzód w generatywnym tworzeniu treści wideo.