2025年上半年,中央民族大学国家语言资源监测与研究民族语言中心共12篇论文被IJCAI、ACL、NLPCC、CCL等人工智能领域顶级会议接收,研究主题覆盖古籍大模型、低资源语言建模、大模型安全防御、机器翻译、文本摘要、立场分析、知识探针等多个前沿领域。被录用论文的简介如下:
1.
论文标题:
WenyanGPT: A Large Language Model for Classical Chinese Tasks
作者列表:姚欣宇,王梦笛,陈波,赵小兵
录用情况:IJCAI-2025(CCF-A类会议)
论文简介:
古汉语作为中国文化的重要载体,在文化传承与研究中具有不可替代的作用。然而,当前主流的自然语言处理模型主要针对现代汉语优化,对文言文的处理能力存在明显不足。为此,本文提出了一种古汉语语言处理的综合解决方案。基于Llama3-Chinese-8B模型,通过继续预训练和指令微调,我们构建了专门面向古汉语任务的大语言模型——WenyanGPT。同时,我们构建了古汉语任务评估基准WenyanBENCH。在WenyanBENCH上的实验表明,WenyanGPT在多种文言文任务上的表现均显著优于现有先进的大语言模型。我们已将模型及模型的训练数据、指令微调数据以及评估基准数据集公开。
资源链接:
指令微调数据
https://github.com/Wenyanmuc/WenyanGPT
WenyanBench
https://github.com/Wenyanmuc/WenyanBENCH
WenyanGPT
https://huggingface.co/Wenyanmuc/WenyanGPT
预训练数据
https://huggingface.co/datasets/Wenyanmuc/WenyanGPT
2.
论文标题:
Enhancing Cross-Lingual Transfer through Reversible Transliteration: A Huffman-Based Approach for Low-Resource Languages
作者列表:庄文浩,孙媛,赵小兵
录用情况:ACL-2025(CCF-A类会议)
论文简介:
随着大语言模型(LLMs)在日益多样化和广泛的多语言语料库上进行训练,它们展现出了跨语言迁移能力。然而,这些能力往往无法有效扩展到低资源语言,特别是那些使用非拉丁文字的语言。虽然将低资源语言转写为拉丁文字提供了一个自然的解决方案,但目前缺乏将转写集成到LLMs训练和部署中的综合框架。本文采用实用性方法,创新性地将字符转写与哈夫曼编码相结合,设计了一个完整的转写框架。我们提出的框架具有以下优势:1) 压缩:减少低资源语言内容的存储需求,文件大小最多可减少50%,token数量可减少50-80%。2) 准确性:保证从转写文本到源语言的100%无损转换。3) 效率:消除了对低资源语言词汇扩展的需求,提高了训练和推理效率。4) 可扩展性:该框架可以扩展到其他低资源语言。我们在多个下游任务中验证了框架的有效性,包括文本分类、机器阅读理解和机器翻译。实验结果表明,我们的方法显著增强了模型处理低资源语言的能力,同时保持了在高资源语言上的性能。
资源链接:
https://github.com/CMLI-NLP/HuffmanTranslit
3.
论文标题:
TSCheater: Generating High-Quality Tibetan Adversarial Texts via Visual Similarity
作者列表:曹玺,格桑曲宗,孙媛,群诺,尼玛扎西
录用情况:ICASSP-2025(CCF-B类会议)
论文简介:
基于深度神经网络的语言模型易受到文本对抗攻击。文本对抗攻击研究大多集中于诸如英文这类的富资源语言,藏文作为一种跨境语言,由于其古籍文献丰富以及语言战略重要而逐渐受到研究。目前,藏文对抗文本生成方法较少且未充分考虑藏文文本特征、高估了生成的对抗文本的质量。在本研究中,我们提出并开源了一个全覆盖的藏文音节视觉相似性数据库 TSVSDB,一种简单而有效的藏文对抗文本生成方法 TSCheater,以及第一个藏文对抗鲁棒性评估基准 AdvTS。TSCheater 考虑了藏文编码特征以及视觉相似的音节可能具有相似语义的特点。该方法还可以迁移至其他元音附标文字,例如天城文。我们利用 TSVSDB 来生成替换候选项,并采用基于贪心算法的评分机制来确定替换顺序。之后,我们在八个受害语言模型上实施该方法。实验表明,TSCheater 在攻击有效性、扰动幅度、语义相似性、视觉相似性和人类接受度等方面优于现存方法。最后,我们构建了 AdvTS,该基准由现存方法生成并经过人工校对。包含低资源跨境语言的语言模型的对抗鲁棒性在人工智能安全和国家安全中发挥着至关重要的作用,因此我们呼吁对此给予更多关注。
资源链接:
https://github.com/metaphors/TSAttack
4.
论文标题:
Fine-grained Inappropriate Speech Detection Based on Momentum Contrastive Learning
作者列表:李心怡,颜岩,陈波,鲍薇,赵小兵
录用情况:NLPCC-2025(CCF-C类会议)
论文简介:
随着网络交流内容的复杂化,细粒度不当言论检测在内容审核中的重要性日益凸显。针对类别界限模糊与样本分布不均等挑战,本文提出一种基于动量对比学习的检测模型MoCoBERT。该模型融合BERT预训练语言模型与动量对比学习机制,通过构建语义正负样本对,优化文本表示的判别性;引入Focal Loss与特征Mixup的混合损失策略,提升少样本类别的识别能力;同时借助多目标学习框架增强模型鲁棒性。本文构建了包含92,048条标注样本的中文细粒度不当言论数据集CFGIS,在此数据集上的实验结果表明,MoCoBERT在多个评估指标上均显著优于现有基线模型。
资源链接:
https://github.com/Yy0206/MoCoBert
5.
论文标题:
DiSG: A Discourse Structure-aware Multi-Stage Approach for Long Tibetan Text Summarization
作者列表:王怡文,郝雁蓉,陈波,徐洋,赵小兵
录用情况:NLPCC-2025(CCF-C类会议)
论文简介:
现有的文本摘要方法大多针对短文本设计,而在处理长篇文档时,尤其是在藏语等低资源语言中,这些方法往往难以取得理想效果。为解决这一难题,我们提出了一种名为 DiSG 的新型摘要框架。DiSG 是一个基于预训练语言模型的生成式摘要框架,其核心优势在于能够感知篇章结构,并通过分阶段的处理过程,高效地从长文本中提取关键信息并生成高质量摘要。实验结果表明,在 TiLTS数据集上,DiSG 在 ROUGE-L 指标上较最佳基线模型提升了 2.73 个百分点,充分证明了其在生成连贯且完整的摘要方面具有显著优势。
6.
论文标题:
TibLex:一种基于拉丁编码的藏文词表优化策略
作者列表:更尕多杰,孙媛
录用情况:CCL-2025(国内顶级会议)
论文简介:
预训练语言模型通过大规模无监督学习在多任务场景展现卓越性能,但其研究多集中于中英文等高资源语言。藏语等低资源语言因数据稀缺及形态复杂(黏着语特性、音节结构多样),导致主流子词分词方法存在语义割裂与形态失配问题,制约模型训练效率与表征质量。为此,本文提出基于拉丁化编码的藏文扩展分词策略TibLex(Tibetan Latinization-based Extended Tokenizer)该方法通过将输入文本进行编码转写,将每个藏文音节根据其字形或发音转换为一个短序列,然后基于编码文本使用子词分词构建词汇表。实验表明,TibLex相较主流分词器具有双重优势:(1) 通过拉丁化降维处理,使词表不规则组合减少15\%,输入序列长度平均缩短36.10\%,显著提升计算效率。(2)音译分词器可将同音异形字编码为相同音译序列并输出一致的分词结果,从而实现对同音错别字的鲁棒性处理。与此同时,基于TibLex训练的预训练模型在下游任务中保持竞争力,验证了该方法在低资源语言场景的有效性。本工作为解决形态复杂语言的分词瓶颈提供了新范式,其编码框架可扩展至蒙古文、梵文等文字系统,为跨语言NLP研究提供技术支撑。
7.
论文题目:
Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要
作者列表:巩鑫,闫晓东,常浩远,田金超
录用情况:CCL-2025(国内顶级会议)
论文摘要:
为了解决现有单一文本特征生成的藏文摘要质量较低的问题,提出了一种基于TiLamb的多模态生成式文本摘要模型——Ti-MISO。该模型采用ViT(Vision Transformer)模型从图像中提取视觉特征,同时利用预训练微调的TiLamb(Tibetan Large Language Model Base)模型提取藏文文本特征,再通过跨模态交叉注意力机制实现图文特征深层次融合,最终将融合的特征送入模型,借助束搜索算法平衡生成质量更高的摘要。为验证方法有效性,与基于相同语料的其他四种模型进行了对比实验。实验结果表明,Ti-MISO在ROUGE-1、ROUGE-2、ROUGE-L和BLEU四项评价指标上均取得最佳成绩,显示出模型在融合视觉与语言信息、提升摘要质量方面的显著优势。此外,通过一系列消融实验进一步验证了采用ViT模型进行图像特征提取及交叉注意力融合策略的重要性。加入图像信息后采用交叉注意力机制进行特征融合,使融合后的特征保留更多关键信息,帮助模型更加精确地捕捉重点,从而生成的摘要在概括性和可读性上都有明显提升。
8.
论文标题:
目标自适应的可解释立场检测:新任务及大模型实验
作者列表:蓝伊,王子豪,陈波,赵小兵
录用情况:CCL-2025(国内顶级会议)
论文简介:
传统立场检测通常假设目标已知,且仅输出立场类别(支持,反对,中立),难以应对目标不确定、立场判断需要有具体依据的情形。为此,论文提出目标自适应的可解释立场检测新任务,定义模型的输出为目标、观点和立场标签。具体地,构建了首个中文高质量立场检测数据集,并设计多维评估标准;评估了多种大语言模型的基线性能。实验发现:DeepSeek-V3在目标识别与立场分类表现最优,GPT-4o在观点生成上领先;大语言模型在目标明确时具备较强目标自适应能力,但处理存在反讽现象的输入时性能下降。
资源链接:
https://github.com/Cassieyy1102/TAISD
9.
论文标题:
基于思维链和知识迁移的多语言问答推理研究
作者列表:罗健,孙媛
录用情况:CCL-2025(国内顶级会议)
论文简介:
大模型如ChatGPT显著提高了机器对自然语言的理解能力,其中,问答推理任务在推动语言理解能力和人机交互智能化方面具有重要意义,但目前仍面临诸多挑战。本文针对现有大模型资源消耗大、小模型推理能力弱,低资源语言推理能力受限等问题,提出了融合思维链和微调技术的方法,通过Human-Thinking提示策略优化大模型推理能力,并借助大模型指令微调提升小模型推理性能,引入多角色协作机制进一步优化推理步骤质量。通过跨语言思维链提示方法,利用高资源语言知识弥补低资源语言不足,采用双通道机制和投票打分机制整合不同语言推理知识,提升模型在低资源语言的推理表现。实验结果表明,本文方法能有效提升小型模型在多语言问答推理的能力。
10.
论文标题:
基于提示探针的大模型知识掌握能力评测
作者列表:王淳昱,陈波,徐洋,赵小兵
录用情况:CCL-2025(国内顶级会议)
论文简介:
大语言模型在知识密集型任务中的表现高度依赖其内化知识的覆盖面和掌握程度。然而,当前缺乏系统化、细粒度的评测方法以刻画模型对不同类别知识的掌握能力。为此,本文提出一种基于提示探针的方法,系统评估大语言模型在常识性知识、事实性知识和专业领域知识方面的掌握情况。首先构建了一个高质量的知识探针评测数据集KPE-Pro (Knowledge Probing&Evaluation for Proficiency)。然后设计提示模板对多个主流大语言模型进行系统评测。评测结果表明,大语言模型在常识性知识方面表现较好,ERNIE X1模型取得整体最好成绩;在事实性知识上,大语言模型的表现较弱,轻量模型的知识掌握能力明显不足。
资源链接:
https://github.com/cyuu313/KPE-Pro
11.
论文标题:
基于多样性数据重组增强的藏汉神经机器翻译
作者列表:薛嘉怡,陈锦明,陈波,鲍薇,赵小兵
录用情况:CCL-2025(国内顶级会议)
论文简介:
高资源语言的神经机器翻译虽已取得显著进展,但低资源语言面临更严重的平行数据不足的问题。为此,提出一种面向藏汉神经机器翻译的多样性数据重组增强方法(DiRec)。该方法利用大语言模型的双向语言能力,对已有藏汉平行数据进行成分重组、句型重组和风格重组三种数据重组,经过两轮质量自动筛选后得到多样性增强数据。实验结果表明,相较于基线模型,DiRec在藏汉机器翻译的实验中,泛化能力提升4.83个百分点,BLEU提高0.55,chrF++提高0.20。最后分析了不同数据重组方式对翻译模型性能的影响。
资源链接:
github.com/breezebinbin/DiRec
12.
论文标题:
基于古汉语大语言模型的多任务学习探究
作者列表:姚欣宇,王梦笛,高原,高歌,陈波,赵小兵
录用情况:CCL-2025(国内顶级会议)
论文简介:
随着大语言模型在多任务学习中展现强大泛化能力,其在低资源古汉语场景的应用价值亟待探索。本文基于LLaMA3-Chinese-8B利用21GB高质量古汉语语料进行增量预训练,接着进行十项任务微调(包括句读、词性标注、命名实体识别(NER)、事件识别、翻译、词语解释、反向词典、历史人物知识、诗歌赏析、诗歌生成),设计了单任务微调和双任务组合微调两种策略,通过55组实验量化了任务之间的正增益与负增益,首次系统揭示了古汉语多任务学习中的增益关系。实验结果表明,不同任务之间存在协同效应与任务干扰效应,并且具有不对称性。基础类古汉语任务之间表现出更强的协同效应,相比之下,翻译类和生成类任务之间协同效应表现较弱。同时,受双任务设定的影响,不同古汉语任务的稳定性存在明显差异。