今天打開抖音的我,已經分不清現實了

今天打開抖音的我,已經分不清現實了

文章圖片

今天打開抖音的我,已經分不清現實了

文章圖片

今天打開抖音的我,已經分不清現實了

文章圖片

今天打開抖音的我,已經分不清現實了

文章圖片

今天打開抖音的我,已經分不清現實了

文章圖片

今天打開抖音的我,已經分不清現實了

文章圖片

今天打開抖音的我,已經分不清現實了

文章圖片

今天打開抖音的我,已經分不清現實了

文章圖片

今天打開抖音的我,已經分不清現實了

文章圖片



別的不說了 , 差友們!馬上就要過年了 , 差評君先送請兩位咱們硬件部的同事 , 米羅和二狗來給大家跳個舞吧 。

Ok 言歸正傳 , 今天我上班時刷的各種工作群摸魚群里 , 基本都在討論字節整的這個新模型 。
原因無他 , 就是因為這玩意做出來的視頻效果實在是太好了 。
甭管是生成美少女來和你打招呼 。
by 虛妄 抖音

還是讓兩個老頭開始在屋子里大打出手都不在話下 。
by 夜故事 抖音

還可以丟張咱們同事江江的照片給它 , 讓 Seedance 2.0 直接給我們生成一段天氣預報的口播畫面出來 。
沒錯 , 這整條里面的聲音也是 AI 直接生成出來的 , 整個視頻里的各種音效細節可以說是全給對上了 。
再或者是直接丟張數學題給它 , 讓 AI 來手寫答案 。
太狠了字節 , 整個視頻里 , 不管是人物的一致性 , 還是動作的流暢性還是音頻的適配性 , 相比過去的視頻生成模型都有了斷崖式的提升 。
工作了一天刷了一天抖音的我 , 已經快要分不清什么是真 , 什么是假的了 。
不過這 , 還不是最讓差評君感興趣的 。
素材來源于網絡

真正讓我好奇的是 , 為什么這次的新模型這么強?
在簡單的體驗后 , 差評君發現這一方面是它的模型本身能力確實夠頂 。
和其他常見的視頻模型一樣 , 只要隨便給它一段話 , Seedance 2.0 就能給你生成一段質量尚可的視頻 。
在上海的東方明珠塔下 , 生成東方明珠塔用激光攻擊蜜雪冰城雪王的視頻 , 雪王不斷躲避激光 , 場面十分混亂

看起來好像平平無奇 , 但是咱們仔細看就會發現 , 這個視頻里 , 出現了不只一個鏡頭 。
短短五秒鐘的視頻 , 鏡頭切換了四次 。
先遠景看東方明珠塔變形發光 , 再懟臉給雪王表情 , 再回到全景展示攻擊 。 節奏跟得上、邏輯能閉環 , 整個段落不光好懂 , 甚至挺有情緒 。
沒錯 , Seedance 2.0 做出來的視頻自帶分鏡 。
經常喜歡用 AI 做視頻的差友們都知道 , 在過去 , 大多數 AI 模型做出來的視頻 , 基本上就是主打“一鏡到底” 。 你給它寫一段提示詞 , 它還給你一段幾乎固定定機位的畫面 。
即使有些模型有分鏡吧 , 但他們做出來的分鏡也可能不夠有靈魂 , 變得非常奇怪 。
某另外一個視頻模型用相同提示詞做的畫面 , 基本都是站樁輸出

就比如上面這個視頻 , 這畫面好看嗎 , 咱們先拋開它沒識別出雪王的形象不談 , 光論這個視頻質量本身 , 確實是算不上差的 。
但是這視頻耐看嗎?那還真不好說 。
一個視頻想要能引人注意 , 那剪輯的節奏就是一個非常非常重要的環境 。
過去的 AI 想要做成剛才那樣的畫面 , 可能需要咱們預先構思每個分鏡和分鏡之間是如何切換的 。
然后用 AI 抽卡 , 生成一堆一堆的關鍵幀 , 接著再在這些關鍵幀和關鍵幀之間抽卡 , 才能得到成噸的素材 。
然后再通過人類剪輯師的發力 , 才能把這些成噸的素材 , 給變成一段好看的視頻 。
這一套流程下來 , 這就讓不少想玩視頻生成的新手心生畏懼了 。
但這一切問題在 Seedance 2.0 這里 , 幾乎被徹底解決了 。
可以明顯的看到 , 字節在分鏡上下了不少功夫 。

在不用用戶特意去描述怎么分鏡的情況下 , 自動就把分鏡的活給包圓了 。
整個應該鏡頭應該怎么切才好看給你整的明明白白 , 幾乎是把過去半個小時的工作量給壓縮成了一句話 。
而且它同時還是個配樂大師 , 做出來的視頻里 , 該有的音效全都有 。
不管是光之巨人和怪獸大戰時的嘶吼聲 。
還是在夜之城飆車時的引擎轟鳴聲 。
都可以非常精髓的還原到位 。。。
甚至于你還可以直接在提示詞里寫清楚 , 你想要在這個視頻里聽到 AI 說什么話 , 就連音色也可以通過自己上傳聲音來制定 。
另一方面 , 字節的產品設計也整的很牛 X 。
如果說過去的 AI 視頻工具用起來還有各種各樣的門檻和困難的話 , 那么這次新發布的 Seedance 2.0 就是把這些門檻都給鏟飛了 。
現在 , 普通人都能很方便的用 AI ,來做出各種華麗的畫面了 。

所以為什么我要給這個模型這么高的評價?不只是因為它能出好畫面 , 而是因為它真的在認真做“產品” 。
即使是零基礎小白也不用害怕 , 這可能是目前最適合新手來玩的視頻生成大模型了 。
它的邏輯非常清爽 , 打開即夢(jimeng.jianying.com)在最底下選擇“視頻生成” , 在邊上把生成視頻的模式給切換成“全能參考” , 或者是“首尾幀” 之后 , 就可以用上最新的 Seedance 2.0 模型 。


如果這里你找不到 Seedance 2.0 這個選項的話 , 那可能就是這個號沒有被內測到 , 可以用小云雀 App 試試 , 或者過段時間等火山引擎發布了Seedance 2.0 API , 就能在更多平臺和APP里用到了 。
沒有會員也沒關系 , 每天靠著簽到的積分也可以先白嫖體驗一下 , 如果覺得好用再充也來得及 。
OK 咱們回到主題 , 首尾幀這個模式就不用多說 , 也是咱們的老朋友了 , 既能貼上頭尾兩張圖片來控制 AI 的發揮 , 也能只貼一張開頭的圖片來讓 AI 自己天馬行空 , 還可以什么都不貼 , 打字就能直接得到我們想要的畫面了 。

而另外一個“全能參考” 模式就有意思了 , 過去咱們用 AI 做視頻 , 遇到的最大問題是什么?
對我來說 , 這個最大的問題可能就是“不會形容”了 。
有時候腦子里明明知道自己想要什么畫面 , 但是在打字的時候卻經常寫不出來 。
可一但提示詞寫得太抽象 , 那模型就給你瞎編 , 可寫得太具體 , 又像在拼題 。 經常是提示詞寫到懷疑人生 , 還是生不出想要的質感 。
而這個“全能參考” 模式就能在很大程度上避開這個問題 。
在這個模式下 , 你可以同時從圖片、視頻、音頻和文本這四個維度來描述你想要得到的畫面 。
就比如開頭的跳舞小視頻 , 我只需要同時上傳米羅和二狗兩位同事的照片 , 然后再配上一段舞蹈的視頻一起給它 , 就能很輕松的整出來 , 也能基本保證人物的面部輪廓在生成的視頻中不會崩潰 。
這樣一來 , 我就不需要描述具體舞蹈的姿勢 , 也不需要描述我需要什么音樂 , 甚至連人物穿什么衣服都不用說 , 就可以直接搞出一條舞蹈視頻 。

當然 , 想給他們換衣服也很簡單 , 改個提示詞就行了 。。。
為了保護差友的雙眼(為了不被打) , 我決定來點馬賽克

在這次 Seedance 2.0 里 , 這個參考模式最多支持同時輸入 9 張圖片 , 3 個視頻 ,3 個音頻(但是加起來不能超過 12 個文件)
我們可以在這個 12 個素材里任意發揮 , 來得到我們想要的畫面 , 基本等于是可以傻瓜式來操作了 。
說實話 , 它的整個產品的設計邏輯其實讓我想到了另一款字節的 App —— 豆包 。
這是在那產品的思路在做大模型 。
不管是剪輯分鏡的快速生成 , 還是音頻畫面的同步輸出 , 再或者是方便創作的參考模式 。
這三個功能的目的都很明確 , 希望能夠降低 AI 視頻生成的門檻 。
下賽季你來單防詹姆斯

我很喜歡這樣的產品 , 但到最后 , 話又要說回來了:
技術進步從來不是單向的狂歡 。
隨著 AI 生成視頻的門檻越來越低 , 分不清 AI 視頻的人 , 也會越來越多 。
過去大家會說“眼見為實” , 會說“視頻是不能 P 的” 。
但現在隨著 AI 這一路往前奔騰進步的態勢 , P 個視頻已經是輕輕松松的了 。
像咱們這樣天天和 AI 打交道 , 看新聞的人或許能分的出來 , 但是我們身邊的老人孩子呢?
咱們編輯部就有個小伙伴 , 下午出于好玩的心態 。 做了一段“他自己在送外賣”的視頻 , 結果發到家族群里之后 , 他媽就當真了 。
嚇的他趕緊解釋 , 自己沒被開除 , 這是 AI 做的視頻 , 就怕下一秒直接被家長的奪命連環 call 來拷打 。

看著阿姨在群里著急的樣子 , 差評君其實笑不出來 。
因為我們突然意識到 , 這道橫亙在現實和詐騙之間的防火墻 , 其實非常脆弱 。
不過好在 , 字節好像自己也意識到了這個問題 。
在今天晚上我真人照片來做嘗試的時候 , 就遇到了好幾次被屏蔽的情況 。

當然這個屏蔽情況算不上穩定啊 , 但是能有這種“自我約束”的意識 , 總歸是個好苗頭 。
因為技術跑得太快時 , 總會有人被落在后面 , 而那些人往往是我們最親近的長輩 。
但是別忘了 , 我們能認得出這些 AI 生成的視頻 , 不是因為我們特殊 , 而是因為我們接觸的早 , 有了抗性 。
在這種情況下 , 我們掌握的不只是一個創作工具 , 更是一種沉甸甸的責任感 。
【今天打開抖音的我,已經分不清現實了】也希望未來的 AI 視頻 , 能幫我們延伸想象力的邊界 , 而不是磨滅掉那些最基本的真實 。

    推薦閱讀