美團發布LongCat-Video視頻生成模型，支持5分鐘級連貫輸出

2026-01-28 黃金

【美團發布LongCat-Video視頻生成模型，支持5分鐘級連貫輸出】

文章圖片

【TechWeb】10月27日消息，美團 LongCat 團隊正式發布 LongCat-Video 視頻生成模型，該模型支持文生視頻、圖生視頻及視頻續寫。美團強調， LongCat-Video 可穩定輸出5分鐘級別的長視頻，且無質量損失。
據介紹，在文生視頻方面，LongCat-Video可生成 720p、30fps 高清視頻，能精準解析文本中物體、人物、場景、風格等細節指令，語義理解與視覺呈現能力達開源 SOTA 級別。
圖生視頻，LongCat-Video嚴格保留參考圖像的主體屬性、背景關系與整體風格，動態過程符合物理規律，支持詳細指令、簡潔描述、空指令等多類型輸入，內容一致性與動態自然度表現優異。
視頻續寫是LongCat Video的核心差異化能力，可基于多幀條件幀續接視頻內容，為長視頻生成提供原生技術支撐。
另外，依托視頻續寫任務預訓練、Block-Causual Attention 機制和 GRPO 后訓練， LongCat-Video 可穩定輸出5分鐘級別的長視頻。
模型結合塊稀疏注意力（BSA）與條件 token 緩存機制，大幅降低長視頻推理冗余 —— 即便處理 93 幀及以上長序列，仍能兼顧效率與生成質量穩定，打破長視頻生成 “時長與質量不可兼得” 的瓶頸。
美團發布的數據顯示，通過全面的評估顯示， LongCat-Video 通用性能優秀，綜合能力躋身開源 SOTA：
136 億參數的視頻生成基座模型，在文生視頻、圖生視頻兩大核心任務中，綜合性能均達到當前開源領域 SOTA 級別；
通過文本-視頻對齊、視覺質量、運動質量、整體質量四大維度評估，其性能在文本對齊度、運動連貫性等關鍵指標上展現顯著優勢；
在 VBench 等公開基準測試中， LongCat-Video 在參評模型中整體表現優異。

推薦閱讀

上一篇：夸克撞上的不止豆包

下一篇：網友評分9.3的 MatePad Mini，會成為新的小平板神機嗎？