4月24日,繼Skywork-R1V首次成功實(shí)現(xiàn)“強(qiáng)文本推理能力向視覺模態(tài)的遷移”之后,昆侖萬維正式開源多模態(tài)推理模型的全新升級(jí)版本——Skywork-R1V 2.0(以下簡(jiǎn)稱“R1V 2.0”) ,。
Skywork-R1V 2.0是當(dāng)前最均衡兼顧視覺與文本推理能力的開源多模態(tài)模型,,該多模態(tài)模型在高考理科難題的深度推理與通用任務(wù)場(chǎng)景中均表現(xiàn)優(yōu)異,真正實(shí)現(xiàn)多模態(tài)大模型的“深度+廣度”統(tǒng)一,。
據(jù)介紹,,在多個(gè)權(quán)威基準(zhǔn)測(cè)試中,R1V 2.0相較于R1V 1.0在文本與視覺推理任務(wù)中均實(shí)現(xiàn)顯著躍升,。無論是專業(yè)領(lǐng)域任務(wù),,如數(shù)學(xué)推理、編程競(jìng)賽,、科學(xué)分析,,還是通用任務(wù),,如創(chuàng)意寫作與開放式問答,,R1V 2.0都呈現(xiàn)出極具競(jìng)爭(zhēng)力的表現(xiàn),。
為實(shí)現(xiàn)多模態(tài)大模型在“深度推理”與“通用能力”之間的最佳平衡,,R1V 2.0引入了全新的“多模態(tài)獎(jiǎng)勵(lì)模型Skywork-VL Reward”及“規(guī)則驅(qū)動(dòng)的混合強(qiáng)化訓(xùn)練機(jī)制”。既可為通用視覺語言模型(VLM)提供高質(zhì)量獎(jiǎng)勵(lì)信號(hào),,又能精準(zhǔn)評(píng)估多模態(tài)推理模型長(zhǎng)序列輸出的整體質(zhì)量,,同時(shí)也可以作為并行線上推理最優(yōu)答案選擇的利器。這種能力使得Skywork-VL Reward模型在多模態(tài)強(qiáng)化學(xué)習(xí)任務(wù)中具有廣泛的適用性,,促進(jìn)了多模態(tài)模型的協(xié)同發(fā)展,。
同時(shí),R1V 2.0引入MPO(Mixed Preference Optimization,,混合偏好優(yōu)化)機(jī)制,,在偏好訓(xùn)練中充分發(fā)揮Skywork-VL Reward獎(jiǎng)勵(lì)模型的指導(dǎo)作用。
在通用任務(wù)訓(xùn)練階段,,R1V 2.0借助Skywork-VL Reward提供的偏好信號(hào),,引導(dǎo)模型進(jìn)行偏好一致性優(yōu)化,從而確保模型在多任務(wù),、多領(lǐng)域下具備良好的通用適應(yīng)能力。
在訓(xùn)練深度推理能力時(shí),,R1V 2.0采用基于規(guī)則的群體相對(duì)策略優(yōu)化GRPO(Group Relative Policy Optimization)方法,。該策略通過同組候選響應(yīng)之間的相對(duì)獎(jiǎng)勵(lì)比較,引導(dǎo)模型學(xué)會(huì)更精準(zhǔn)的選擇和推理路徑,。
昆侖萬維表示,,R1V 2.0的誕生,不僅推動(dòng)了開源多模態(tài)大模型在能力邊界上的突破,,更為多模態(tài)智能體的搭建提供了新的基座模型,。
公司將繼續(xù)秉持“開源、開放,、共創(chuàng)”的理念,,持續(xù)推出領(lǐng)先的大模型與數(shù)據(jù)集,賦能開發(fā)者,、推動(dòng)行業(yè)協(xié)同創(chuàng)新,,加速通用人工智能(AGI)的實(shí)現(xiàn)進(jìn)程。(燕云)
校對(duì):王朝全