騰訊自研 AI 大模型混元 2.0 發(fā)布:總參數(shù) 406B,復(fù)雜推理場景綜合表現(xiàn)“穩(wěn)居國內(nèi)第一梯隊”
IT之家 12 月 5 日消息,騰訊自研 AI 大模型混元 2.0(Tencent HY 2.0)今日正式發(fā)布,包括 Tencent HY 2.0 Think 和 Tencent HY 2.0 Instruct。
騰訊表示,HY 2.0 采用混合專家(MoE)架構(gòu),總參數(shù) 406B,激活參數(shù) 32B,支持 256K 上下文窗口,推理能力與效率“居國內(nèi)頂尖行列”,且在文本創(chuàng)作與復(fù)雜指令遵循等實用場景上表現(xiàn)突出。
相比上一版本(Hunyuan-T1-20250822)模型,HY 2.0 Think 顯著改進了預(yù)訓(xùn)練數(shù)據(jù)和強化學(xué)習(xí)策略,在數(shù)學(xué)、科學(xué)、代碼、指令遵循等復(fù)雜推理場景的綜合表現(xiàn)“穩(wěn)居國內(nèi)第一梯隊”,泛化性大幅提升。
數(shù)學(xué)科學(xué)知識推理:騰訊混元使用高質(zhì)量數(shù)據(jù)進行 Large Rollout 強化學(xué)習(xí),使得 HY 2.0 Think 推理能力大幅增強,在國際數(shù)學(xué)奧林匹克競賽(IMO-AnswerBench)和哈佛 MIT 數(shù)學(xué)競賽(HMMT2025)等權(quán)威測試中取得一流成績。結(jié)合預(yù)訓(xùn)練數(shù)據(jù)的進步,模型在極度考驗知識水平的 Humanity's Last Exam(HLE)和泛化性的 ARC AGI 等任務(wù)上也大幅進步。
指令遵循與長文多輪能力:騰訊混元通過重要性采樣修正緩解了訓(xùn)練和推理不一致問題,實現(xiàn)了長窗口 RL 的高效穩(wěn)定訓(xùn)練。同時,騰訊混元通過多樣化可驗證的任務(wù)沙盒,以及基于打分準則的強化學(xué)習(xí),顯著提升了 HY 2.0 Think 在 Multi Challenge 等指令遵循和多輪任務(wù)的效果。
代碼與智能體能力:騰訊混元構(gòu)建了規(guī);目沈炞C環(huán)境及高質(zhì)量合成數(shù)據(jù),極大增強了模型在 Agentic Coding 及復(fù)雜工具調(diào)用場景下的落地能力,在 SWE-bench Verified 及 Tau2-Bench 等面向真實應(yīng)用場景的智能體任務(wù)上實現(xiàn)了躍升。
效率方面,HY 2.0 Think 引入了精細的長度懲罰策略,平衡思維鏈的效率和效果,避免模型堆砌廢話,實現(xiàn)了計算資源的更有效分配。對照各模型在 IMO-AnswerBench、HMMT2025、ARC-AGI、HLE 這四個權(quán)威推理任務(wù)上的表現(xiàn)及其 token 消耗,可以看到 HY 2.0 Think 在取得類似的準確率下消耗更少的 tokens,單位 token 的智能密度處于“業(yè)界領(lǐng)先水平”。
基于 RLVR+RLHF 雙階段的強化學(xué)習(xí)策略,HY 2.0 的輸出“質(zhì)感”顯著進步,在文本創(chuàng)作、前端開發(fā)、指令遵循等實用場景上展現(xiàn)了差異化優(yōu)勢。
與上一個版本的模型相比,HY 2.0 在指令遵循方面準確率提升明顯:
IT之家從騰訊混元公告獲悉,作為騰訊自研的通用大模型,HY 2.0 仍在持續(xù)進化中,接下來會在代碼、智能體、個性化風(fēng)格、長程記憶等方向迭代,全面提升模型在實際應(yīng)用場景中的表現(xiàn),相關(guān)技術(shù)和模型也將會通過開源的形式向社區(qū)開放。
目前,HY 2.0 已經(jīng)率先在元寶和 ima 等騰訊原生 AI 應(yīng)用接入,并在騰訊云上線 API,用戶可直接體驗或接入部署。
0人