今天打開抖音的我，已經分不清現實了

2026-05-09 抖音 ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

別的不說了，差友們！馬上就要過年了，差評君先送請兩位咱們硬件部的同事，米羅和二狗來給大家跳個舞吧。

Ok 言歸正傳，今天我上班時刷的各種工作群摸魚群里，基本都在討論字節整的這個新模型。
原因無他，就是因為這玩意做出來的視頻效果實在是太好了。
甭管是生成美少女來和你打招呼。
by 虛妄抖音

還是讓兩個老頭開始在屋子里大打出手都不在話下。
by 夜故事抖音

還可以丟張咱們同事江江的照片給它，讓 Seedance 2.0 直接給我們生成一段天氣預報的口播畫面出來。
沒錯，這整條里面的聲音也是 AI 直接生成出來的，整個視頻里的各種音效細節可以說是全給對上了。
再或者是直接丟張數學題給它，讓 AI 來手寫答案。
太狠了字節，整個視頻里，不管是人物的一致性，還是動作的流暢性還是音頻的適配性，相比過去的視頻生成模型都有了斷崖式的提升。
工作了一天刷了一天抖音的我，已經快要分不清什么是真，什么是假的了。
不過這，還不是最讓差評君感興趣的。
素材來源于網絡

真正讓我好奇的是，為什么這次的新模型這么強？
在簡單的體驗后，差評君發現這一方面是它的模型本身能力確實夠頂。
和其他常見的視頻模型一樣，只要隨便給它一段話， Seedance 2.0 就能給你生成一段質量尚可的視頻。
在上海的東方明珠塔下，生成東方明珠塔用激光攻擊蜜雪冰城雪王的視頻，雪王不斷躲避激光，場面十分混亂

看起來好像平平無奇，但是咱們仔細看就會發現，這個視頻里，出現了不只一個鏡頭。
短短五秒鐘的視頻，鏡頭切換了四次。
先遠景看東方明珠塔變形發光，再懟臉給雪王表情，再回到全景展示攻擊。節奏跟得上、邏輯能閉環，整個段落不光好懂，甚至挺有情緒。
沒錯， Seedance 2.0 做出來的視頻自帶分鏡。
經常喜歡用 AI 做視頻的差友們都知道，在過去，大多數 AI 模型做出來的視頻，基本上就是主打“一鏡到底” 。你給它寫一段提示詞，它還給你一段幾乎固定定機位的畫面。
即使有些模型有分鏡吧，但他們做出來的分鏡也可能不夠有靈魂，變得非常奇怪。
某另外一個視頻模型用相同提示詞做的畫面，基本都是站樁輸出

就比如上面這個視頻，這畫面好看嗎，咱們先拋開它沒識別出雪王的形象不談，光論這個視頻質量本身，確實是算不上差的。
但是這視頻耐看嗎？那還真不好說。
一個視頻想要能引人注意，那剪輯的節奏就是一個非常非常重要的環境。
過去的 AI 想要做成剛才那樣的畫面，可能需要咱們預先構思每個分鏡和分鏡之間是如何切換的。
然后用 AI 抽卡，生成一堆一堆的關鍵幀，接著再在這些關鍵幀和關鍵幀之間抽卡，才能得到成噸的素材。
然后再通過人類剪輯師的發力，才能把這些成噸的素材，給變成一段好看的視頻。
這一套流程下來，這就讓不少想玩視頻生成的新手心生畏懼了。
但這一切問題在 Seedance 2.0 這里，幾乎被徹底解決了。
可以明顯的看到，字節在分鏡上下了不少功夫。

在不用用戶特意去描述怎么分鏡的情況下，自動就把分鏡的活給包圓了。
整個應該鏡頭應該怎么切才好看給你整的明明白白，幾乎是把過去半個小時的工作量給壓縮成了一句話。
而且它同時還是個配樂大師，做出來的視頻里，該有的音效全都有。
不管是光之巨人和怪獸大戰時的嘶吼聲。
還是在夜之城飆車時的引擎轟鳴聲。
都可以非常精髓的還原到位。。。
甚至于你還可以直接在提示詞里寫清楚，你想要在這個視頻里聽到 AI 說什么話，就連音色也可以通過自己上傳聲音來制定。
另一方面，字節的產品設計也整的很牛 X 。
如果說過去的 AI 視頻工具用起來還有各種各樣的門檻和困難的話，那么這次新發布的 Seedance 2.0 就是把這些門檻都給鏟飛了。
現在，普通人都能很方便的用 AI ，來做出各種華麗的畫面了。

所以為什么我要給這個模型這么高的評價？不只是因為它能出好畫面，而是因為它真的在認真做“產品” 。
即使是零基礎小白也不用害怕，這可能是目前最適合新手來玩的視頻生成大模型了。
它的邏輯非常清爽，打開即夢（jimeng.jianying.com）在最底下選擇“視頻生成” ，在邊上把生成視頻的模式給切換成“全能參考” ，或者是“首尾幀” 之后，就可以用上最新的 Seedance 2.0 模型。

如果這里你找不到 Seedance 2.0 這個選項的話，那可能就是這個號沒有被內測到，可以用小云雀 App 試試，或者過段時間等火山引擎發布了Seedance 2.0 API ，就能在更多平臺和APP里用到了。
沒有會員也沒關系，每天靠著簽到的積分也可以先白嫖體驗一下，如果覺得好用再充也來得及。
OK 咱們回到主題，首尾幀這個模式就不用多說，也是咱們的老朋友了，既能貼上頭尾兩張圖片來控制 AI 的發揮，也能只貼一張開頭的圖片來讓 AI 自己天馬行空，還可以什么都不貼，打字就能直接得到我們想要的畫面了。

而另外一個“全能參考” 模式就有意思了，過去咱們用 AI 做視頻，遇到的最大問題是什么？
對我來說，這個最大的問題可能就是“不會形容”了。
有時候腦子里明明知道自己想要什么畫面，但是在打字的時候卻經常寫不出來。
可一但提示詞寫得太抽象，那模型就給你瞎編，可寫得太具體，又像在拼題。經常是提示詞寫到懷疑人生，還是生不出想要的質感。
而這個“全能參考” 模式就能在很大程度上避開這個問題。
在這個模式下，你可以同時從圖片、視頻、音頻和文本這四個維度來描述你想要得到的畫面。
就比如開頭的跳舞小視頻，我只需要同時上傳米羅和二狗兩位同事的照片，然后再配上一段舞蹈的視頻一起給它，就能很輕松的整出來，也能基本保證人物的面部輪廓在生成的視頻中不會崩潰。
這樣一來，我就不需要描述具體舞蹈的姿勢，也不需要描述我需要什么音樂，甚至連人物穿什么衣服都不用說，就可以直接搞出一條舞蹈視頻。

當然，想給他們換衣服也很簡單，改個提示詞就行了。。。
為了保護差友的雙眼（為了不被打），我決定來點馬賽克

在這次 Seedance 2.0 里，這個參考模式最多支持同時輸入 9 張圖片， 3 個視頻，3 個音頻（但是加起來不能超過 12 個文件）
我們可以在這個 12 個素材里任意發揮，來得到我們想要的畫面，基本等于是可以傻瓜式來操作了。
說實話，它的整個產品的設計邏輯其實讓我想到了另一款字節的 App —— 豆包。
這是在那產品的思路在做大模型。
不管是剪輯分鏡的快速生成，還是音頻畫面的同步輸出，再或者是方便創作的參考模式。
這三個功能的目的都很明確，希望能夠降低 AI 視頻生成的門檻。
下賽季你來單防詹姆斯

我很喜歡這樣的產品，但到最后，話又要說回來了：
技術進步從來不是單向的狂歡。
隨著 AI 生成視頻的門檻越來越低，分不清 AI 視頻的人，也會越來越多。
過去大家會說“眼見為實” ，會說“視頻是不能 P 的” 。
但現在隨著 AI 這一路往前奔騰進步的態勢， P 個視頻已經是輕輕松松的了。
像咱們這樣天天和 AI 打交道，看新聞的人或許能分的出來，但是我們身邊的老人孩子呢？
咱們編輯部就有個小伙伴，下午出于好玩的心態。做了一段“他自己在送外賣”的視頻，結果發到家族群里之后，他媽就當真了。
嚇的他趕緊解釋，自己沒被開除，這是 AI 做的視頻，就怕下一秒直接被家長的奪命連環 call 來拷打。

看著阿姨在群里著急的樣子，差評君其實笑不出來。
因為我們突然意識到，這道橫亙在現實和詐騙之間的防火墻，其實非常脆弱。
不過好在，字節好像自己也意識到了這個問題。
在今天晚上我真人照片來做嘗試的時候，就遇到了好幾次被屏蔽的情況。

當然這個屏蔽情況算不上穩定啊，但是能有這種“自我約束”的意識，總歸是個好苗頭。
因為技術跑得太快時，總會有人被落在后面，而那些人往往是我們最親近的長輩。
但是別忘了，我們能認得出這些 AI 生成的視頻，不是因為我們特殊，而是因為我們接觸的早，有了抗性。
在這種情況下，我們掌握的不只是一個創作工具，更是一種沉甸甸的責任感。
【今天打開抖音的我，已經分不清現實了】也希望未來的 AI 視頻，能幫我們延伸想象力的邊界，而不是磨滅掉那些最基本的真實。

推薦閱讀

上一篇：蘋果iPhone 18 Pro帶節奏，三星Galaxy S27要復活可變光圈？

下一篇：索尼宣布全面停產藍光錄像機：藍光硬件時代結束！