北理工團(tuán)隊(duì)在大語(yǔ)言模型輕量化、價(jià)值觀(guān)對(duì)齊和推理優(yōu)化及應(yīng)用方面取得重要進(jìn)展
發(fā)布日期:2026-04-17 供稿:計(jì)算機(jī)學(xué)院 宋大偉 攝影:計(jì)算機(jī)學(xué)院
編輯:林婷 審核:周連景 閱讀次數(shù):

近日,北京理工大學(xué)計(jì)算機(jī)學(xué)院宋大為教授團(tuán)隊(duì)大語(yǔ)言模型蒸餾、價(jià)值觀(guān)對(duì)齊、檢索增強(qiáng)和推理優(yōu)化、以及機(jī)器翻譯和情感分析等下游應(yīng)用方面取得一系列重要進(jìn)展,繼2025年獲頂級(jí)國(guó)際會(huì)議ACL2025(CCF-A類(lèi))“杰出論文獎(jiǎng)”之后,又有4篇論文被ACL2026接收。
ACL(Annual Meeting of the Association for Computational Linguistics)是人工智能、計(jì)算語(yǔ)言學(xué)及自然語(yǔ)言處理相關(guān)領(lǐng)域的CCF A類(lèi)頂級(jí)國(guó)際學(xué)術(shù)會(huì)議。ACL2025于2025年7月27日至8月1日在奧地利維也納召開(kāi),團(tuán)隊(duì)博士生張辰的論文“Towards the Law of Capacity Gap in Distilling Language Models”獲得“杰出論文獎(jiǎng)”。該論文首次提出了大模型蒸餾的教師-學(xué)生容量差異定律,揭示了對(duì)于給定規(guī)模的學(xué)生模型,其最優(yōu)教師模型規(guī)模與學(xué)生規(guī)模之間近似呈線(xiàn)性比例關(guān)系,通過(guò)應(yīng)用該定律蒸餾出的3B模型,在標(biāo)準(zhǔn)基準(zhǔn)上性能優(yōu)于當(dāng)時(shí)的同規(guī)模基線(xiàn)模型,建立了新的計(jì)算-性能帕累托前沿。論文鏈接:https://aclanthology.org/2025.acl-long.1097.pdf

ACL2026將于7月2日至7月7日在美國(guó)加利福尼亞洲圣迭戈舉辦,本次會(huì)議main conference錄用率為19%,findings的錄用率為18%。團(tuán)隊(duì)碩士畢業(yè)生李澤林、博士生田炎智(與計(jì)算機(jī)學(xué)院郭宇航博士共同指導(dǎo))、隨藝和孟令昂的4篇論文被錄用。錄用論文工作簡(jiǎn)介如下。
論文1:Reward Alignment Optimization: A Direct Point-wise Alignment Approach(Main)
作者:Zelin Li,Jia Leng,Dawei Song,Yangen Hu
論文概述:本論文針對(duì)大語(yǔ)言模型價(jià)值觀(guān)直接對(duì)齊算法核心問(wèn)題,提出RAO(Reward Alignment Optimization)方法,引入一致通用前綴將歸一化項(xiàng)轉(zhuǎn)化成可計(jì)算項(xiàng),無(wú)需引入額外計(jì)算和有偏估計(jì)即可實(shí)現(xiàn)逐點(diǎn)對(duì)齊優(yōu)化。RAO利用顯式獎(jiǎng)勵(lì)模型對(duì)回復(fù)進(jìn)行標(biāo)注,通過(guò)逐點(diǎn)MSE損失將獎(jiǎng)勵(lì)信息直接蒸餾到策略模型中,充分利用跨提示詞的獎(jiǎng)勵(lì)信息,并且解耦了傳統(tǒng)對(duì)齊目標(biāo)。實(shí)驗(yàn)表明,RAO在多個(gè)代表性基座大模型上全面超越DPO、SimPO、RLHF等基線(xiàn)。
論文代碼:https://github.com/Vespertinus9/RAO

論文2:Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation (Main)
作者:Yanzhi Tian,Cunxiang Wang,Zeming Liu,Heyan Huang,Wenbo Yu,Dawei Song,Jie Tang,Yuhang Guo
論文概述:本工作針對(duì)傳統(tǒng)機(jī)器翻譯指標(biāo)(如BLEU)以及LLM-as-a-Judge難以準(zhǔn)確評(píng)估非直譯領(lǐng)域機(jī)器翻譯質(zhì)量的問(wèn)題,提出了支持調(diào)用搜索工具的Agent-as-a-Judge評(píng)估框架RATE。該框架通過(guò)一個(gè)執(zhí)行自我反思循環(huán)的核心智能體,根據(jù)待評(píng)估翻譯特點(diǎn)選擇性地調(diào)用3個(gè)子智能體:搜索智能體、評(píng)估智能體和比較智能體,構(gòu)建了首個(gè)針對(duì)非直譯領(lǐng)域翻譯質(zhì)量評(píng)估的meta-evaluation數(shù)據(jù)集MENT。實(shí)驗(yàn)結(jié)果表示,RATE在非直譯領(lǐng)域翻譯質(zhì)量評(píng)估中有更高的準(zhǔn)確性。
論文鏈接:https://arxiv.org/abs/2601.07338
代碼鏈接:https://github.com/BITHLP/RATE

論文3:Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning(Findings)
作者:Yi Sui, Chaozhuo Li, Dawei Song
論文概述:針對(duì)大模型在長(zhǎng)鏈?zhǔn)酵评碇衅毡榇嬖诘摹斑^(guò)度推理”與效率低下問(wèn)題,提出了STACK框架,從細(xì)粒度的“狀態(tài)感知”視角出發(fā),通過(guò)引入基于局部信息熵的猶豫狀態(tài)檢測(cè),在不確定性較高時(shí)觸發(fā)知識(shí)引導(dǎo)的對(duì)比解碼以糾正推理方向,在高置信但冗長(zhǎng)時(shí)采用自提示壓縮以去除冗余,同時(shí)結(jié)合基于答案分布收斂的信息增益早停機(jī)制,避免無(wú)效的重復(fù)驗(yàn)證步驟。實(shí)驗(yàn)結(jié)果表明,STACK在多個(gè)數(shù)學(xué)推理基準(zhǔn)上顯著優(yōu)于現(xiàn)有方法,實(shí)現(xiàn)了準(zhǔn)確性與效率之間的更優(yōu)平衡。
論文鏈接:https://arxiv.org/abs/2604.09150

論文4:Beyond Polarity: Continuous Affect-Enhanced Multimodal Aspect-Based Sentiment Classification (Findings)
作者:Ling-Ang Meng, Tianyu Zhao, Dawei Song, Jingxu Cao, Youhui Zuo
論文概述:現(xiàn)有方面級(jí)多模態(tài)情感分析(MABSA)方法多依賴(lài)離散情感極性與通用視覺(jué)特征表示,導(dǎo)致在復(fù)雜語(yǔ)境下的情感推理能力受限。本文基于心理學(xué)中的 Valence–Arousal–Dominance(VAD)情感空間提出VADE框架,將情感建模拓展為連續(xù)情感驅(qū)動(dòng)的多模態(tài)推理機(jī)制。通過(guò)構(gòu)建情感增強(qiáng)數(shù)據(jù)集對(duì)CLIP視覺(jué)編碼器進(jìn)行微調(diào),提升了視覺(jué)模態(tài)對(duì)情感線(xiàn)索的表達(dá)能力,并聯(lián)合建模文本、圖像與連續(xù)情感特征,實(shí)現(xiàn)精細(xì)化情感推理。實(shí)驗(yàn)結(jié)果表明,VADE在系列基準(zhǔn)數(shù)據(jù)集上優(yōu)于現(xiàn)有方法,驗(yàn)證了連續(xù)情感建模與基于情感感知的視覺(jué)表示的有效性。
代碼鏈接:https://github.com/Maydayflower/VADE

附個(gè)人簡(jiǎn)介:
宋大為,教授,主要研究方向包括量子認(rèn)知計(jì)算、情感計(jì)算、大語(yǔ)言模型、信息檢索等,先后主持歐盟、英國(guó)和中國(guó)等國(guó)家級(jí)課題近20項(xiàng),已發(fā)表學(xué)術(shù)論文270余篇,獲得IBM創(chuàng)新成就獎(jiǎng)、ACM SIGIR ICTIR2011最佳論文獎(jiǎng)、ECIR2011最佳短論文獎(jiǎng)、ACM SIGIR ICTIR2019最佳論文提名獎(jiǎng)、NLPCC2022最佳論文獎(jiǎng)、ACL2025杰出論文獎(jiǎng)等。
郭宇航,博士,主要研究方向?yàn)樽匀徽Z(yǔ)言處理,包括大語(yǔ)言模型智能體、語(yǔ)音與圖像機(jī)器翻譯、多模態(tài)信息處理、模型編輯等。主持國(guó)家自然科學(xué)基金青年項(xiàng)目,參與多項(xiàng)國(guó)家重點(diǎn)研發(fā)和國(guó)自然聯(lián)合基金項(xiàng)目。獲國(guó)際機(jī)器翻譯評(píng)測(cè)第一名3次,在A(yíng)AAI、ACL等頂級(jí)會(huì)議發(fā)表多篇論文。
分享到:
