大模型開(kāi)源,“卷”到了視頻領(lǐng)域,。
2月25日晚,,阿里巴巴宣布全面開(kāi)源旗下視頻生成模型萬(wàn)相2.1模型。據(jù)介紹,,通義萬(wàn)相2.1模型基于Apache2.0協(xié)議,,14B和1.3B兩個(gè)參數(shù)規(guī)格的全部推理代碼和權(quán)重全部開(kāi)源,同時(shí)支持文生視頻和圖生視頻任務(wù),,全球開(kāi)發(fā)者可在Github,、HuggingFace和魔搭社區(qū)下載體驗(yàn)。
通義萬(wàn)相是阿里云通義系列AI繪畫創(chuàng)作大模型,,可輔助人類進(jìn)行圖片創(chuàng)作,,于2023年7月7日正式上線,。在2024年9月19日的阿里云棲大會(huì)上,阿里發(fā)布了通義萬(wàn)相視頻生成大模型,。該模型可以生成影視級(jí)高清視頻,,而且更能聽(tīng)懂中國(guó)話,被外界稱為“最懂中國(guó)風(fēng)”的視頻大模型,。
值得注意的是,,就在今年1月初,通義萬(wàn)相視頻生成模型宣布重磅升級(jí)至2.1版,,模型整體性能大幅提升,,尤其是在處理復(fù)雜運(yùn)動(dòng)、還原真實(shí)物理規(guī)律,、提升電影質(zhì)感及優(yōu)化指令遵循方面取得了顯著進(jìn)展,。通義萬(wàn)相2.1推出后,憑借著優(yōu)秀的表現(xiàn),,在權(quán)威評(píng)測(cè)榜單VBench中登上榜首,。
據(jù)了解,VBench是視頻生成領(lǐng)域的權(quán)威評(píng)測(cè)集,,它一共有16個(gè)評(píng)分維度,,從整體一致性、動(dòng)作流暢度,、畫面穩(wěn)定性等方面對(duì)模型進(jìn)行全方位評(píng)估,。VBench榜單顯示,通義萬(wàn)相在運(yùn)動(dòng)幅度,、多對(duì)象生成,、空間關(guān)系等關(guān)鍵能力上拿下最高分,并以總分84.7%的成績(jī)斬獲第一,。這意味著,,通義萬(wàn)相是國(guó)內(nèi)乃至全球視頻生成模型的領(lǐng)跑者。
具體阿里通義團(tuán)隊(duì)介紹,,通義萬(wàn)相2.1模型在圖像生成和視頻生成兩大能力上均有顯著提升,。在視頻生成方面,通過(guò)自研的高效VAE和DiT架構(gòu),,增強(qiáng)了時(shí)空上下文建模能力,,可支持無(wú)限長(zhǎng)1080P視頻的高效編解碼,并在文字視頻生成上實(shí)現(xiàn)了突破,,成為首個(gè)支持中文文字生成能力,、且同時(shí)支持中英文文字特效生成的視頻生成模型,可滿足廣告設(shè)計(jì),、短視頻等領(lǐng)域的創(chuàng)作需求,。
根據(jù)阿里展示的案例,當(dāng)用戶輸入:“以紅色新年宣紙為背景,,出現(xiàn)一滴水墨,,暈染墨汁緩緩暈染開(kāi)來(lái)。文字的筆畫邊緣模糊且自然,,隨著暈染的進(jìn)行,,水墨在紙上呈現(xiàn)‘福’字,,墨色從深到淺過(guò)渡,,呈現(xiàn)出獨(dú)特的東方韻味。背景高級(jí)簡(jiǎn)潔,,雜志攝影感”的指令時(shí),,通義萬(wàn)相2.1模型可以根據(jù)要求,輸出具有中國(guó)特色及濃郁的新年風(fēng)格的視頻素材,,富有東方韻味,。
由于“最懂中國(guó)風(fēng)”,通義萬(wàn)相模型在蛇年春晚上也發(fā)揮了重要作用,。例如,,在春晚每年的保留節(jié)目《難忘今宵》中,舞臺(tái)背景中變身為絢麗花燈的城市地標(biāo),,正是由通義萬(wàn)相圖像編輯模型Wanx-ACE生成,。另外,在莫文蔚與毛不易合唱的《歲月里的花》節(jié)目中,,阿里通義萬(wàn)相利用圖像風(fēng)格化和首尾幀視頻生成技術(shù),,生成了沉浸式的油畫風(fēng)舞美效果,為觀眾呈現(xiàn)了一場(chǎng)絢麗的視覺(jué)盛宴,。
業(yè)內(nèi)人士分析稱,,2024年春節(jié)前后,OpenAI憑借Sora在視頻生成領(lǐng)域引發(fā)熱潮,,讓視頻生成成為各大AI廠商競(jìng)相追逐的焦點(diǎn),。而2025年春節(jié),阿里通義萬(wàn)相則展示了視頻生成技術(shù)令人矚目的顯著進(jìn)步,,引領(lǐng)著視頻大模型領(lǐng)域繼續(xù)飛速向前發(fā)展,。
當(dāng)前,DeepSeek正以開(kāi)放的姿態(tài)參與重構(gòu)全球AI生態(tài)格局,,并給大模型開(kāi)源社區(qū)注入了極強(qiáng)的信心與動(dòng)力,。2月24日,DeepSeek正式啟動(dòng)“開(kāi)源周”,,連續(xù)5天每天開(kāi)源一個(gè)代碼庫(kù),,吸引了全球開(kāi)發(fā)者極大關(guān)注,。在開(kāi)源公告中,DeepSeek還表示,,自己只是探索通用人工智能的小公司,,作為開(kāi)源社區(qū)的一部分,每分享一行代碼,,都會(huì)成為加速AI行業(yè)發(fā)展的集體動(dòng)力,。
在DeepSeek的帶動(dòng)下,越來(lái)越多的AI廠商開(kāi)始擁抱開(kāi)源,。阿里巴巴此次開(kāi)源旗下視頻生成模型萬(wàn)相2.1模型,,標(biāo)志著開(kāi)源的范圍正從大語(yǔ)言模型領(lǐng)域擴(kuò)展至圖像、視頻等多模態(tài)大模型領(lǐng)域,,有助于打破技術(shù)壁壘,,讓更多的開(kāi)發(fā)者和研究人員能夠共同參與到AI創(chuàng)新的進(jìn)程中來(lái)。
校對(duì):王朝全