OpenAI запустила модель Sora 2, яка може створювати реалістичні відео та аудіо
Sora 2 є фізично точнішою, реалістичнішою, керованішою. Вона здатна виконувати складні інструкції, що охоплюють кілька кадрів, точно зберігаючи стан світу
Про це інформує OpenAI.
Перша версія Sora, представлена у лютому 2024 року, стала тим самим проривом для відео, яким GPT-1 був для тексту — уперше з’явилось відчуття, що генерація відео справді працює. Модель навчилася базовим "інстинктам", зокрема сталій поведінці об’єктів, лише завдяки масштабуванню обчислень.
Тепер команда перейшла до наступного етапу — Sora 2, яку самі розробники називають "моментом GPT-3.5 для відео". Вона здатна на те, що раніше вважалося практично неможливим для генеративних моделей:
"Олімпійські гімнастичні трюки, задні сальто на дошці для сновбордингу з коректною фізикою, або потрійні оберти кішки, яка тримається за штори".
Головне вдосконалення — модель припинила "обманювати" фізику, як це робили попередні системи. Якщо раніше м’яч у баскетболі міг просто телепортуватися в кільце, то тепер — "якщо гравець промахується, м’яч відскакує від щита". Тобто Sora 2 навчилася моделювати не тільки успіхи, а й невдачі — критично важлива риса для реалістичного симульованого світу.
Також модель генерує не лише відео, а й аудіо — з реалістичними фоновими шумами, мовленням і звуковими ефектами. А ще вона вміє вбудовувати реальних людей або об’єкти у згенеровані сцени: достатньо показати їй відео людини, і вона перенесе її у будь-яке середовище з точним відтворенням зовнішності та голосу.
Розробники визнають, що система ще далека від досконалості, але впевнені, що подальше масштабування моделей на відеоданих поступово наближає ШІ до справжнього розуміння реальності.
"Відеомоделі стають дуже вдосконаленими, і дуже швидко. Універсальні симулятори світу та роботизовані агенти фундаментально змінять суспільство та прискорять шлях людського прогресу. Sora 2 є значним прогресом у досягненні цієї мети. Відповідно до місії OpenAI, важливо, щоб людство отримувало користь від цих моделей у міру їх розробки. Ми вважаємо, що Sora принесе багато радості, креативності та зв'язку зі світом", - зазначає команда OpenAI.
- 18 вересня вчені розробили новий інструмент ШІ, що прогнозуватиме виникнення понад 1 тис. хвороб.
- 27 вересня Мінцифра та ElevenLabs оголосили, що впроваджують голосову підтримку в державних сервісах України.
- Актуальне
- Важливе