美團發布LongCat-Video視頻生成模型,支持5分鐘級連貫輸出

【美團發布LongCat-Video視頻生成模型,支持5分鐘級連貫輸出】美團發布LongCat-Video視頻生成模型,支持5分鐘級連貫輸出

文章圖片

美團發布LongCat-Video視頻生成模型,支持5分鐘級連貫輸出

【TechWeb】10月27日消息 , 美團 LongCat 團隊正式發布 LongCat-Video 視頻生成模型 , 該模型支持文生視頻、圖生視頻及視頻續寫 。 美團強調 , LongCat-Video 可穩定輸出5分鐘級別的長視頻 , 且無質量損失 。
據介紹 , 在文生視頻方面 ,LongCat-Video可生成 720p、30fps 高清視頻 , 能精準解析文本中物體、人物、場景、風格等細節指令 , 語義理解與視覺呈現能力達開源 SOTA 級別 。
圖生視頻 ,LongCat-Video嚴格保留參考圖像的主體屬性、背景關系與整體風格 , 動態過程符合物理規律 , 支持詳細指令、簡潔描述、空指令等多類型輸入 , 內容一致性與動態自然度表現優異 。
視頻續寫是LongCat Video的核心差異化能力 , 可基于多幀條件幀續接視頻內容 , 為長視頻生成提供原生技術支撐 。
另外 , 依托視頻續寫任務預訓練、Block-Causual Attention 機制和 GRPO 后訓練 , LongCat-Video 可穩定輸出5分鐘級別的長視頻 。
模型結合塊稀疏注意力(BSA)與條件 token 緩存機制 , 大幅降低長視頻推理冗余 —— 即便處理 93 幀及以上長序列 , 仍能兼顧效率與生成質量穩定 , 打破長視頻生成 “時長與質量不可兼得” 的瓶頸 。
美團發布的數據顯示 , 通過全面的評估顯示 , LongCat-Video 通用性能優秀 , 綜合能力躋身開源 SOTA:
136 億參數的視頻生成基座模型 , 在文生視頻、圖生視頻兩大核心任務中 , 綜合性能均達到當前開源領域 SOTA 級別;
通過文本-視頻對齊、視覺質量、運動質量、整體質量四大維度評估 , 其性能在文本對齊度、運動連貫性等關鍵指標上展現顯著優勢;
在 VBench 等公開基準測試中 , LongCat-Video 在參評模型中整體表現優異 。

    推薦閱讀