Вебмастерская

Вышла LongCat-Video — нейросеть создаёт длинные видео по тексту, изображению и продолжает ролики


											
							Вышла LongCat-Video — нейросеть создаёт длинные видео по тексту, изображению и продолжает ролики

Команда LongCat из Meituan представила новую открытую видеомодель LongCat-Video — мощную архитектуру с 13,6 млрд параметров, которая умеет генерировать видео из текста, изображений и продолжать уже существующие ролики.

Главная особенность — генерация длинных видео. LongCat-Video способна создавать многоминутные ролики 720p/30fps, сохраняя связность сцен, цветовую стабильность и детализацию — без деградации, которая обычно появляется при длинной генерации. Postium собрал ключевые детали.


											
							Вышла LongCat-Video — нейросеть создаёт длинные видео по тексту, изображению и продолжает ролики


											
							Вышла LongCat-Video — нейросеть создаёт длинные видео по тексту, изображению и продолжает ролики

Что умеет нейросеть LongCat-Video

LongCat-Video — это единая архитектура, совмещающая три задачи:

  1. Text-to-Video — создание роликов на основе текстового описания.
  2. Image-to-Video — «оживление» статичных изображений.
  3. Video-Continuation — продолжение видео, включая интерактивное продление по новым промптам.

Раньше такие задачи решались разными моделями, но здесь они объединены в одну — что упрощает использование и делает результат более цельным.

https://postium.ru/wp-content/uploads/2025/10/TrcxgjWP3Ax1jrOx.mp4

Как работает ИИ-модель LongCat-Video

  1. Архитектура DiT (Diffusion Transformer). Модель построена на плотной (dense) архитектуре без «смеси экспертов» (MoE). Это делает её стабильнее и предсказуемее при длинной генерации.
  2. Обучение на продолжении видео. В отличие от многих конкурентов, LongCat-Video изначально обучалась на задачах Video Continuation. Благодаря этому она уверенно справляется с длинными роликами — не теряя связность кадров, не «дрейфуя» по цвету и не размывая детали.
  3. Быстрая генерация. Используется Coarse-to-Fine pipeline — сначала грубая версия видео, затем уточнение деталей. Плюс Block Sparse Attention, оптимизирующий память и ускоряющий инференс на высоком разрешении. Результат — 189 кадров 720p за 142 секунды на GPU H800 (примерно 16 шагов диффузии с Flash Attention 3).
  4. Повышение качества через RLHF. Обучение шло с подкреплением по методу GRPO (Generalized Rank Preference Optimization) — тому же, что использовался в BLIP3o-NEXT. Это форма RLHF, которая помогает модели выбирать визуально более реалистичные и «человеческие» результаты.

Почему это важно? LongCat-Video приближает открытые модели к уровню коммерческих генераторов вроде Runway Gen-3, Pika и Kling AI.

https://postium.ru/wp-content/uploads/2025/10/ssstwitter.com_1761514069062.mp4

По качеству и стабильности она уже догоняет лидера опенсорса WAN 2.2, но выигрывает в компактности (13,6B против 28B у WAN) и универсальности — одна модель вместо трёх.

Это также важный шаг в сторону «world models» — нейросетей, способных понимать динамику окружающего мира, а не просто строить кадры по описанию. До LongCat-Video в открытом сегменте видеогенерации доминировали WAN 2.2 (от ByteDance) и VideoCrafter 2, но обе ограничены короткими клипами и требуют отдельных моделей под разные задачи.

Доступность: Модель полностью открыта и бесплатна:

  • Лицензия: MIT.
  • Исходный код и веса: на GitHub и Hugging Face.
  • Поддержка фреймворков: PyTorch, FlashAttention 2/3, xFormers.
  • Примеры использования: готовые скрипты для генерации по тексту, изображению и продолжения видео.

Итог: LongCat-Video выводит опенсорс-видеогенерацию на новый уровень — одна модель создаёт и продолжает длинные ролики без потери качества. Это шаг к «world models» — нейросетям, которые понимают динамику мира, а не просто строят кадры по описанию.

Ранее Tencent запустила нейросеть Hunyuan World 1.1 для создания 3D-сцен.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: .

Тэги Нейросети

Источник

Читайте также:  Midjourney запустила генератор видео — теперь картинки можно «оживить»

Вам также может понравиться...

Добавить комментарий