今天我可是懷揣著超級大驚喜來找你們了,你一直心心念念、望眼欲穿的免費開源視頻模型,它真的來啦!而且還是騰訊重磅上線的混元視頻生成大模型,最最關(guān)鍵、最最讓人激動的是 —— 它開源了!重要的事兒說三遍,開源了!開源了!開源了!此刻,啥也別說了,點贊、收藏、關(guān)注這一波操作必須安排上,咱這就一起上手,好好探個究竟。
要知道,它剛發(fā)布不久,為了讓咱能更順暢地駕馭這個 “寶藏”,官方不僅給出了寫提示詞的 3 個實用公式,還貼心到了。就怕咱犯懶,直接把景別、光線、相機(jī)運動這些常用術(shù)語都做成了現(xiàn)成的標(biāo)簽,咱動動手指點一點、選一選就行,上手難度直線下降,這也太香了吧!
咱先來瞅瞅它常規(guī)的視頻模型指標(biāo),拿運動效果開刀。嘿,直接給強(qiáng)度拉滿,來個兩人打架的場景,好家伙!那動作幅度大得超乎想象,可畫面居然基本流暢,人物動作行云流水,還嚴(yán)絲合縫地遵循著物理規(guī)律,一點兒不違和。再加點碼、上個強(qiáng)度試試,哪怕場景里擺上兩面鏡子,整個畫面也沒崩,人物走鏡子迷宮,照樣穩(wěn)穩(wěn)當(dāng)當(dāng),雖說跳舞場景偶爾會有點小瑕疵,但這表現(xiàn)力已經(jīng)強(qiáng)到讓人咋舌了,甚至還能在一個鏡頭里實現(xiàn)兩種不同動作,讓人物先捂嘴、再舉手,指哪打哪,精準(zhǔn)得很吶!
質(zhì)感這塊更是一絕。雖說咱沒特意強(qiáng)調(diào)要電影質(zhì)感,可它呈現(xiàn)出來的畫面,隨便截一幀都自帶大片范兒,景深、光圈、色調(diào)配合得恰到好處,電影感滿滿。不過深入把玩一番,我發(fā)現(xiàn)它最拿手的還是真實質(zhì)感,走紀(jì)錄片風(fēng)格。就說生成個小鹿在森林漫步的畫面吧,加上自然光的描述,你瞧那小鹿的毛發(fā),根根分明,隨著步伐一顫一顫的,活靈活現(xiàn);再整一個羚羊出鏡,配上點應(yīng)景的背景音樂,好家伙,瞬間《動物世界》那味兒就有了,素材這不就輕松拿捏了嘛!
它還有兩大 “獨門絕技”,堪稱王炸。首當(dāng)其沖的就是超級語義理解能力。我從《老人與?!防镎艘欢涡≌f片段當(dāng)提示詞,這要擱一般的視頻模型,估計早就懵圈、畫面崩塌了,但混元可不一樣,精準(zhǔn)捕捉文字里的氛圍、意境,呈現(xiàn)出來的畫面跟原著貼合得嚴(yán)嚴(yán)實實,還巧妙地安排了剪切點,鏡頭組合堪稱完美。再拿一段毫無場景描述的臺詞測試,咱人類都得琢磨半天、腦補(bǔ)一堆畫面,沒想到混元跟咱心有靈犀,精準(zhǔn)還原出兩個男人聊天、劇場、下坡這些元素,手持鏡頭的抖動感都模仿得惟妙惟肖,這語義理解能力,我必須給打漢語十級!
另一大絕技是鏡頭組合。提示詞寫復(fù)雜點兒,它能自動分析,給你安排兩個鏡頭來精準(zhǔn)傳達(dá)信息;要是你想親自掌控,直接寫明個鏡頭、第二個鏡頭的要求,它立馬奉上風(fēng)格一致的鏡頭組,簡直太懂咱心思了。
這么厲害的模型,騰訊在 huggingface 和 GitHub 上都大方開源了模型權(quán)重、推理代碼、模型算法等一整套完整內(nèi)容,想搞二次開發(fā)、大展拳腳的朋友,趕緊去 GitHub 主頁瞅一瞅;要是單純圖個使用方便、體驗感好,那就直奔騰訊元寶官方頁面。