春節(jié)前,國內(nèi)大模型迎來一波密集更新,。
1月20日上午,MiniMax海螺上線了語音功能,同日下午,,字節(jié)豆包上線實時語音大模型。1月20日晚,,DeepSeek發(fā)布了DeepSeek-R1模型,,一個多小時后,月之暗面Kimi就推出k1.5多模態(tài)思考模型,,兩家都稱新模型性能對標(biāo)OpenAI o1正式版,。
以上更新既包括追趕OpenAI o1系列推理模型,又包括追趕OpenAI的實時語音功能,。 1月21日,,騰訊則開源了混元3D生成大模型2.0,指向另一個方向3D生成大模型,,面向游戲,、具身智能等領(lǐng)域的大模型應(yīng)用,。同一天,一直強(qiáng)調(diào)應(yīng)用的百度開啟“自由畫布”應(yīng)用的公測,,百度副總裁王穎透露,,百度文庫AI功能MAU(月活躍用戶)已突破9000萬。更新的同時,,一些大模型企業(yè)透露了后續(xù)迭代方向,。這些大模型企業(yè)年初釋放的信號可能指明了今年大模型領(lǐng)域的競爭方向。
拉近與OpenAI的差距
一名國內(nèi)頭部大模型廠商研發(fā)人員看過Kimi k1.5和DeepSeek-R1的報告后,,告訴第一財經(jīng)記者,,這兩個模型更新與OpenAI o1系列的長思維鏈推理方向大致一致,但技術(shù)方案可能不完全相同,,畢竟OpenAI沒有詳細(xì)透露o1的做法,。這類模型的迭代要點還在于技術(shù)指標(biāo)提升,不在于功能開發(fā),。
當(dāng)前,,并非所有國內(nèi)頭部大模型廠商都已經(jīng)追趕上o1的能力,但最新更新的兩個模型在一些能力上追上了o1,。月之暗面稱,,在long-CoT(長鏈思維)模式下,Kimi k1.5的數(shù)學(xué),、代碼,、多模態(tài)推理能力達(dá)到長思考SOTA(某領(lǐng)域性能最優(yōu)、最先進(jìn))模型o1正式版的水平,,這是OpenAI之外的公司首次實現(xiàn)o1正式版的多模態(tài)推理性能,。Kimi是在去年11月發(fā)布k0-math數(shù)學(xué)模型、12月發(fā)布k1視覺思考模型后再一次更新k系列模型,。
DeepSeek則表示,,DeepSeek-R1在數(shù)學(xué)、代碼,、自然語言推理等任務(wù)上的性能比肩o1正式版,,且該模型的API服務(wù)定價為每百萬tokens輸入 1元(緩存命中)、每百萬tokens 輸出16元,,遠(yuǎn)低于o1的55元,、438元。
相對閉源的OpenAI o1,,這兩家大模型公司對新模型的態(tài)度相對開放,。Kimi首次公開了模型訓(xùn)練技術(shù)報告,DeepSeek-R1上線API接口的同時也開源了模型權(quán)重,。從發(fā)布時間看,,國內(nèi)大模型公司與OpenAI的技術(shù)差距可能縮短至1個多月,。當(dāng)?shù)貢r間2024年12月18日,OpenAI推出了正式版o1模型,,取代了去年9月發(fā)布的預(yù)覽版o1-preview,,目前距離o1正式版發(fā)布只有1個多月時間。
一些學(xué)術(shù)界人士認(rèn)為,,新推出的模型代表了業(yè)界先進(jìn)水平。加利福尼亞大學(xué)伯克利分校教授Alex Dimakis表示,,跟他交流過的多數(shù)AI研究人員都對DeepSeek-R1的性能感到有些震驚,,DeepSeek似乎是奔赴OpenAI最初使命的“最佳人選”,其他公司需要迎頭趕上,?!拔覀兩钤谶@樣一個時代,一家非美國公司正在讓OpenAI的初衷得以延續(xù),,即做真正開放,、為所有人賦能的前沿研究。DeepSeek-R1可能是第一個展示了RL(強(qiáng)化學(xué)習(xí))飛輪可發(fā)揮作用且能帶來持續(xù)增長的OSS(開源軟件)項目,?!庇ミ_(dá)高級研究科學(xué)家Jim Fan表示。
發(fā)布新模型的同時,,月之暗面透露了下一步迭代方向,,稱Kimi會繼續(xù)升級k系列強(qiáng)化學(xué)習(xí)模型,帶來更多模態(tài),、更多領(lǐng)域的能力和更強(qiáng)的通用能力,。
語音方面,OpenAI去年5月發(fā)布可實時語音交互的4o模型,,9月向ChatGPT訂閱用戶開放高級語音模式,。MiniMax和字節(jié)豆包的語音功能上線距離OpenAI開放高級語音模式則是近4個月時間。
尋找新方向
1月21日下午,,騰訊混元開源了3D生成大模型2.0版本,,該大模型支持文生、圖生3D的能力,,混元同時上線了3D內(nèi)容AI創(chuàng)作平臺混元3D AI創(chuàng)作引擎,。
與OpenAI等大模型廠商在大語言模型領(lǐng)域推進(jìn)長思維鏈推理、多模態(tài)交互的方向不同,,3D生成大模型針對的是3D資產(chǎn)生成,,面向游戲制作、電商廣告,、工業(yè)制造,、具身智能等領(lǐng)域,,騰訊等企業(yè)正在探索這個方向。據(jù)介紹,,混元3D生成能力已用于騰訊內(nèi)部游戲業(yè)務(wù),,可讓3D資產(chǎn)制作時間成本由5~10天級別下降至分鐘級,同時也用于騰訊地圖的3D導(dǎo)航車標(biāo)自定義,。
3D生成大模型應(yīng)用后續(xù)可能還會擴(kuò)大,。此前記者了解到,游戲美術(shù)領(lǐng)域AI生成2D資產(chǎn)的技術(shù)較成熟,,3D技術(shù)還需要進(jìn)一步成熟,。就AI在游戲領(lǐng)域的實際使用情況,騰訊游戲在研項目制作人王智剛告訴記者,,他負(fù)責(zé)的項目在提高AI于制作管線中的滲透率,,使用AI輔助后,制作一個游戲圖標(biāo)的時間已從一兩天降到幾十秒,,成本從幾百元降到幾分錢,,目前2D環(huán)節(jié)原畫都會用AI生圖,3D生成大模型技術(shù)也在提升3D資產(chǎn)制作效率,。目前3D生成大模型技術(shù)可以應(yīng)用到休閑游戲,,但他判斷,隨著技術(shù)優(yōu)化,,用于偏寫實的游戲項目后續(xù)也將可行,。
騰訊混元3D負(fù)責(zé)人郭春超則介紹,很多具身智能機(jī)器人團(tuán)隊已經(jīng)找到混元,,希望獲得接口來生成機(jī)器人仿真環(huán)境中的3D資產(chǎn),,也有一些自動駕駛公司希望用3D生成大模型來生成數(shù)據(jù)。
從技術(shù)可提升空間看,,郭春超表示,,業(yè)界有關(guān)于大語言模型Scaling Law(縮放定律)是否失效的討論,但3D領(lǐng)域距離Scaling Law觸碰天花板還有很遠(yuǎn),,原因在于3D領(lǐng)域數(shù)據(jù)量不多,,可能只是千萬tokens級別,而文本領(lǐng)域的數(shù)據(jù)是T(千億)級別,,圖片是百億量級,。
不過,3D生成大模型領(lǐng)域也存在挑戰(zhàn),。郭春超告訴記者,,最大的技術(shù)挑戰(zhàn)在于數(shù)據(jù)量不足。從成熟度看,,3D和視頻大模型還沒有到達(dá)充分的拐點,,仍處于前半賽程,。
“就3D大模型技術(shù)發(fā)展的最終形態(tài),業(yè)界分歧非常大,,包括世界模型是什么也沒有明確的定義,,目前主要流派包括Sora純視頻生成、谷歌Genie 2可交互視頻生成,、World Lab世界模型等,,各種流派各有優(yōu)缺點?!?郭春超表示,,關(guān)于3D生成大模型下一步往什么方向迭代,團(tuán)隊一直在思考,,方向包括從生成3D人物或物體延伸到生成3D場景等,,但至于一年后是何種形態(tài),,目前還難以預(yù)料,。