4月29日凌晨,,阿里巴巴宣布推出新一代通義千問(wèn)模型Qwen3(千問(wèn)3)并進(jìn)行開(kāi)源。阿里云方面表示,,千問(wèn)3是國(guó)內(nèi)首個(gè)“混合推理模型”,,將“快思考”與“慢思考”集成進(jìn)同一個(gè)模型,參數(shù)量?jī)H為DeepSeek-R1的1/3,,成本大幅下降,,并在ChatBot Arena等榜單中性能全面超越R1、OpenAI-o1等全球頂尖模型,,登頂全球最強(qiáng)開(kāi)源模型,。知情人士對(duì)記者表示,這是今年上半年阿里云最核心的技術(shù)產(chǎn)品發(fā)布,。
具體來(lái)看,,通義千問(wèn)官方發(fā)布的技術(shù)博客顯示,千問(wèn)3采用混合專家(MoE)架構(gòu),,總參數(shù)量235B,,激活僅需22B。預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T ,,并在后訓(xùn)練階段多輪強(qiáng)化學(xué)習(xí),。同時(shí)將非思考模式無(wú)縫整合到思考模型中,對(duì)簡(jiǎn)單需求可“快思考”,,低算力“秒回”答案,,對(duì)復(fù)雜問(wèn)題可多步驟“深度思考”,兩種模式的結(jié)合增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的“思考預(yù)算”控制能力,。
阿里云方面表示,,性能大幅提升的同時(shí),千問(wèn)3的部署成本大幅下降,,僅需4張H20即可部署千問(wèn)3滿血版,,顯存占用僅為DeepSeek-R1的三分之一,。
目前,千問(wèn)3已開(kāi)源了2款30B,、235B的MoE模型,,以及0.6B、1.7B,、4B,、8B、14B,、32B等6款密集模型,,阿里云透露,千問(wèn)3的30B參數(shù)MoE模型實(shí)現(xiàn)了10倍以上的模型性能杠桿提升,,僅激活3B就能實(shí)現(xiàn)上代Qwen2.5-32B模型性能,。所有千問(wèn)3模型都是混合推理模型,API可按需設(shè)置“思考預(yù)算”(即預(yù)期最大深度思考的tokens數(shù)量),,靈活滿足AI應(yīng)用和不同場(chǎng)景對(duì)性能和成本的多樣需求,。
開(kāi)源后,用戶可在魔搭社區(qū),、HuggingFace等平臺(tái)下載模型并商用,,也可以通過(guò)阿里云百煉調(diào)用千問(wèn)3的API服務(wù)。個(gè)人用戶可通過(guò)通義APP體驗(yàn)千問(wèn)3,,記者了解到,,夸克也即將全線接入千問(wèn)3。
未來(lái),,千問(wèn)3將通過(guò)優(yōu)化模型架構(gòu)和訓(xùn)練方法等提升模型,,以實(shí)現(xiàn)幾個(gè)關(guān)鍵目標(biāo):擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小,、延長(zhǎng)上下文長(zhǎng)度,、拓寬模態(tài)范圍,并利用環(huán)境反饋推進(jìn)強(qiáng)化學(xué)習(xí)以進(jìn)行長(zhǎng)周期推理,。通義千問(wèn)團(tuán)隊(duì)在技術(shù)博客中表示,,“Qwen3 代表了我們?cè)谕ㄍㄓ萌斯ぶ悄埽ˋGI)和超級(jí)人工智能(ASI)旅程中的一個(gè)重要里程碑。我們認(rèn)為,,我們正從專注于訓(xùn)練模型的時(shí)代過(guò)渡到以訓(xùn)練 Agent 為中心的時(shí)代,。”