美高梅赌场app-澳门美高梅娱乐银河a-大发代理加盟

首頁(yè)/科研成果

北理工團(tuán)隊(duì)在大語(yǔ)言模型輕量化、價(jià)值觀(guān)對(duì)齊和推理優(yōu)化及應(yīng)用方面取得重要進(jìn)展

發(fā)布日期：2026-04-17 供稿：計(jì)算機(jī)學(xué)院宋大偉攝影：計(jì)算機(jī)學(xué)院

編輯：林婷審核：周連景閱讀次數(shù)：

近日，北京理工大學(xué)計(jì)算機(jī)學(xué)院宋大為教授團(tuán)隊(duì)大語(yǔ)言模型蒸餾、價(jià)值觀(guān)對(duì)齊、檢索增強(qiáng)和推理優(yōu)化、以及機(jī)器翻譯和情感分析等下游應(yīng)用方面取得一系列重要進(jìn)展，繼2025年獲頂級(jí)國(guó)際會(huì)議ACL2025（CCF-A類(lèi)）“杰出論文獎(jiǎng)”之后，又有4篇論文被ACL2026接收。

ACL（Annual Meeting of the Association for Computational Linguistics）是人工智能、計(jì)算語(yǔ)言學(xué)及自然語(yǔ)言處理相關(guān)領(lǐng)域的CCF A類(lèi)頂級(jí)國(guó)際學(xué)術(shù)會(huì)議。ACL2025于2025年7月27日至8月1日在奧地利維也納召開(kāi)，團(tuán)隊(duì)博士生張辰的論文“Towards the Law of Capacity Gap in Distilling Language Models”獲得“杰出論文獎(jiǎng)”。該論文首次提出了大模型蒸餾的教師-學(xué)生容量差異定律，揭示了對(duì)于給定規(guī)模的學(xué)生模型，其最優(yōu)教師模型規(guī)模與學(xué)生規(guī)模之間近似呈線(xiàn)性比例關(guān)系，通過(guò)應(yīng)用該定律蒸餾出的3B模型，在標(biāo)準(zhǔn)基準(zhǔn)上性能優(yōu)于當(dāng)時(shí)的同規(guī)模基線(xiàn)模型，建立了新的計(jì)算-性能帕累托前沿。論文鏈接：https://aclanthology.org/2025.acl-long.1097.pdf

ACL2026將于7月2日至7月7日在美國(guó)加利福尼亞洲圣迭戈舉辦，本次會(huì)議main conference錄用率為19%，findings的錄用率為18%。團(tuán)隊(duì)碩士畢業(yè)生李澤林、博士生田炎智（與計(jì)算機(jī)學(xué)院郭宇航博士共同指導(dǎo)）、隨藝和孟令昂的4篇論文被錄用。錄用論文工作簡(jiǎn)介如下。

論文1：Reward Alignment Optimization: A Direct Point-wise Alignment Approach（Main）

作者：Zelin Li，Jia Leng，Dawei Song，Yangen Hu

論文概述：本論文針對(duì)大語(yǔ)言模型價(jià)值觀(guān)直接對(duì)齊算法核心問(wèn)題，提出RAO（Reward Alignment Optimization）方法，引入一致通用前綴將歸一化項(xiàng)轉(zhuǎn)化成可計(jì)算項(xiàng)，無(wú)需引入額外計(jì)算和有偏估計(jì)即可實(shí)現(xiàn)逐點(diǎn)對(duì)齊優(yōu)化。RAO利用顯式獎(jiǎng)勵(lì)模型對(duì)回復(fù)進(jìn)行標(biāo)注，通過(guò)逐點(diǎn)MSE損失將獎(jiǎng)勵(lì)信息直接蒸餾到策略模型中，充分利用跨提示詞的獎(jiǎng)勵(lì)信息，并且解耦了傳統(tǒng)對(duì)齊目標(biāo)。實(shí)驗(yàn)表明，RAO在多個(gè)代表性基座大模型上全面超越DPO、SimPO、RLHF等基線(xiàn)。

論文代碼：https://github.com/Vespertinus9/RAO

論文2：Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation （Main）

作者：Yanzhi Tian，Cunxiang Wang，Zeming Liu，Heyan Huang，Wenbo Yu，Dawei Song，Jie Tang，Yuhang Guo

論文概述：本工作針對(duì)傳統(tǒng)機(jī)器翻譯指標(biāo)（如BLEU）以及LLM-as-a-Judge難以準(zhǔn)確評(píng)估非直譯領(lǐng)域機(jī)器翻譯質(zhì)量的問(wèn)題，提出了支持調(diào)用搜索工具的Agent-as-a-Judge評(píng)估框架RATE。該框架通過(guò)一個(gè)執(zhí)行自我反思循環(huán)的核心智能體，根據(jù)待評(píng)估翻譯特點(diǎn)選擇性地調(diào)用3個(gè)子智能體：搜索智能體、評(píng)估智能體和比較智能體，構(gòu)建了首個(gè)針對(duì)非直譯領(lǐng)域翻譯質(zhì)量評(píng)估的meta-evaluation數(shù)據(jù)集MENT。實(shí)驗(yàn)結(jié)果表示，RATE在非直譯領(lǐng)域翻譯質(zhì)量評(píng)估中有更高的準(zhǔn)確性。

論文鏈接：https://arxiv.org/abs/2601.07338

代碼鏈接：https://github.com/BITHLP/RATE

論文3：Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning（Findings）

作者：Yi Sui, Chaozhuo Li, Dawei Song

論文概述：針對(duì)大模型在長(zhǎng)鏈?zhǔn)酵评碇衅毡榇嬖诘摹斑^(guò)度推理”與效率低下問(wèn)題，提出了STACK框架，從細(xì)粒度的“狀態(tài)感知”視角出發(fā)，通過(guò)引入基于局部信息熵的猶豫狀態(tài)檢測(cè)，在不確定性較高時(shí)觸發(fā)知識(shí)引導(dǎo)的對(duì)比解碼以糾正推理方向，在高置信但冗長(zhǎng)時(shí)采用自提示壓縮以去除冗余，同時(shí)結(jié)合基于答案分布收斂的信息增益早停機(jī)制，避免無(wú)效的重復(fù)驗(yàn)證步驟。實(shí)驗(yàn)結(jié)果表明，STACK在多個(gè)數(shù)學(xué)推理基準(zhǔn)上顯著優(yōu)于現(xiàn)有方法，實(shí)現(xiàn)了準(zhǔn)確性與效率之間的更優(yōu)平衡。

論文鏈接：https://arxiv.org/abs/2604.09150

論文4：Beyond Polarity: Continuous Affect-Enhanced Multimodal Aspect-Based Sentiment Classification （Findings）

作者：Ling-Ang Meng, Tianyu Zhao, Dawei Song, Jingxu Cao, Youhui Zuo

論文概述：現(xiàn)有方面級(jí)多模態(tài)情感分析（MABSA）方法多依賴(lài)離散情感極性與通用視覺(jué)特征表示，導(dǎo)致在復(fù)雜語(yǔ)境下的情感推理能力受限。本文基于心理學(xué)中的 Valence–Arousal–Dominance（VAD）情感空間提出VADE框架，將情感建模拓展為連續(xù)情感驅(qū)動(dòng)的多模態(tài)推理機(jī)制。通過(guò)構(gòu)建情感增強(qiáng)數(shù)據(jù)集對(duì)CLIP視覺(jué)編碼器進(jìn)行微調(diào)，提升了視覺(jué)模態(tài)對(duì)情感線(xiàn)索的表達(dá)能力，并聯(lián)合建模文本、圖像與連續(xù)情感特征，實(shí)現(xiàn)精細(xì)化情感推理。實(shí)驗(yàn)結(jié)果表明，VADE在系列基準(zhǔn)數(shù)據(jù)集上優(yōu)于現(xiàn)有方法，驗(yàn)證了連續(xù)情感建模與基于情感感知的視覺(jué)表示的有效性。

代碼鏈接：https://github.com/Maydayflower/VADE

附個(gè)人簡(jiǎn)介：

宋大為，教授，主要研究方向包括量子認(rèn)知計(jì)算、情感計(jì)算、大語(yǔ)言模型、信息檢索等，先后主持歐盟、英國(guó)和中國(guó)等國(guó)家級(jí)課題近20項(xiàng)，已發(fā)表學(xué)術(shù)論文270余篇，獲得IBM創(chuàng)新成就獎(jiǎng)、ACM SIGIR ICTIR2011最佳論文獎(jiǎng)、ECIR2011最佳短論文獎(jiǎng)、ACM SIGIR ICTIR2019最佳論文提名獎(jiǎng)、NLPCC2022最佳論文獎(jiǎng)、ACL2025杰出論文獎(jiǎng)等。

郭宇航，博士，主要研究方向?yàn)樽匀徽Z(yǔ)言處理，包括大語(yǔ)言模型智能體、語(yǔ)音與圖像機(jī)器翻譯、多模態(tài)信息處理、模型編輯等。主持國(guó)家自然科學(xué)基金青年項(xiàng)目，參與多項(xiàng)國(guó)家重點(diǎn)研發(fā)和國(guó)自然聯(lián)合基金項(xiàng)目。獲國(guó)際機(jī)器翻譯評(píng)測(cè)第一名3次，在A(yíng)AAI、ACL等頂級(jí)會(huì)議發(fā)表多篇論文。

最新新聞