Команда Kling AI представила масштабное обновление своей платформы — единую модель VIDEO 3.0. В отличие от предыдущих версий, которые разделяли задачи, новая архитектура объединяет генерацию видео из текста, изображений, работу с референсами и редактирование в рамках одного «движка». Основной фокус — на увеличении длительности, согласованности элементов и контроле над нарративом без необходимости сложного монтажа.
Модель генерирует видео длиной до 15 секунд с гибкой настройкой продолжительности и по заявлению разработчиков, это позволяет укладывать в один ролик полноценные сцены с развитием, а не просто короткие клипы. Новая функция Multi-Shot анализирует описание сцены и автоматически выстраивает её из нескольких кадров: меняет ракурсы, планы (например, общий, диалог, крупный план) и следует кинематографическим паттернам, что должно избавить авторов от ручного склеивания сцен.
Также новая модель позволяет «закрепить» внешность героя или предмета через одно или несколько изображений или даже короткое видео (3–8 секунд). После этого модель сохраняет его черты на протяжении всего ролика, несмотря на движение камеры или смену действий. Более того, дополнительно загрузить аудиодорожку с речью, чтобы наделить персонажа конкретным голосом. В целом аудиосопровождение теперь поддерживает привязку реплик к конкретным персонажам в сценах с несколькими героями. Добавлена поддержка нескольких языков (китайский, английский, японский, корейский, испанский) и диалектов, а также возможность смешивать языки в одном диалоге с синхронизацией артикуляции.
Как отмечает Kling AI, обновление построено на полностью переработанной мультимодальной архитектуре, где данные разных типов (текст, изображение, звук, видео) обрабатываются в едином контуре, что позволяет точнее интерпретировать сложные запросы и обеспечивать согласованность выходных данных. Сейчас ранний доступ к VIDEO 3.0 и VIDEO 3.0 Omni открыт для пользователей подписки Ultra. Для остальных тарифов релиз намечен на ближайшее время.
Kling AI явно нацеливается на сегмент создателей, которым важна не только визуальная качество, но и целостность истории — от сценария до звука. Увеличение длины роликов до 15 секунд и встроенные инструменты контроля ставят сервис в прямую конкуренцию с такими решениями, как Google Veo, где также делается ставка на длинные и связные сцены.
Как вы думаете, насколько подобные системы для рядового пользователя, если основная цель быстро создавать простые клипы для соцсетей? Или это всё же инструмент для более профессионального производства контента? Делитесь в комментариях.

