近日,“国际多语种智能信息处理会议IMLIP2024”在北京举行。此次会议由中国人工智能学会(CAAI)主办,CAAI多语种智能信息处理专委会、北京理工大学承办,新疆大学教授、中国工程院院士吾守尔·斯拉木教授任大会指导主席,欧洲人文和自然科学院外籍院士、清华大学孙茂松教授任大会主席,CAAI多语种智能信息处理专委会秘书长、北京理工大学张华平教授任大会程序委员会主席。
多语种智能信息处理是人工智能应用的核心领域,在铸牢中华民族共同体意识和构建人类命运共同体背景下,具有格外重要的意义。本次大会以人工智能时代国家通用语言文字、我国民族语言文字、“一带一路”沿线国家语言和世界其他语言的资源构建、智能处理、模型应用和智慧教育为主题,设置7个专业论坛,吸引10多个国家和地区的400多位专家学者参加。
大会开幕式上,北京理工大学副校长汪本聪教授,CAAI理事长戴琼海院士,CAAI多语种智能信息处理专委会名誉主席吾守尔·斯拉木院士,CAAI多语种智能信息处理专委会主任、清华大学孙茂松教授,教育部语言文字应用研究所副所长王敏研究员分别致辞。
关注东盟低资源语言
多年来东盟稳居我国第一大贸易伙伴地位,重要性日益凸显。东盟语言信息处理论坛围绕语料建设、机器翻译、文字检测三方面呈现学术成果。
广东外语外贸大学丘心颖教授着重探讨了在短语语料库构建、跨语言词对齐学习以及信息处理技术在语言教学中的创新方法;大连理工大学黄德根教授提出稠密结构的基础大模型结合MoE混合专家模型的思路,以提升东盟语种与中文、英语之间的翻译性能;桂林电子科技大学文益民教授提出对语言中变音符号特征的提取方法,以提高越南语文字检测与识别准确率;广东外语外贸大学蒋盛益教授提出了4种印尼语文本语法纠错方法。
关注大模型多民族语料资源
少数民族语言资源建设和多民族语言场景大模型性能与安全测评,对铸牢中华民族共同体意识、推动各民族文化传承保护具有重要意义。多语种语言资源建设与测评论坛聚焦多语种语料资源与模型公共评测分享学术进展。
新华社媒体融合生产技术与系统国家重点实验室蔡津津在报告中指出,应对生成式人工智能带来的风险挑战,主流媒体应在智能媒体时代发挥主导作用,开辟全媒体生产传播主阵地,贡献语料资源和评测能力;中央民族大学国家语言资源监测与研究民族语言中心副主任孙媛教授介绍了实验室多语言大模型TiLamb,从数据构建、语言能力激活、检索增强、安全对齐等角度分享了提高低资源语言大模型能力的经验和路径;来自该中心的陈波副教授介绍了实验室在大模型多语种基础能力和安全评测方面的工作,尤其在少数民族语言场景中,多数模型都存在一定程度安全隐患,未来将持续补全评测数据、优化评测方法。
关注蒙古语智能信息处理
蒙古语既是蒙古国官方语言,也是我国600多万蒙古族同胞的母语,蒙古语语言智能处理研究有助于促进汉蒙间交流合作。蒙古语信息处理论坛围绕蒙古语大模型建设和应用进行学术分享。
内蒙古自治区地方语言文字研究应用中心主任阿拉坦巴根那介绍了“石榴籽e起来”少数民族语言文字数智化应用系列实践和运行效果;内蒙古大学研究员刘瑞介绍了在蒙古语、汉语、英语等多语种场景下如何基于深度学习和大语言模型创新方法解决相关关键技术问题;内蒙古大学副教授张晖带来了团队研发的蒙古语大模型,分享了研发过程中数据收集预处理、模型架构设计、训练策略优化等经验。
关注AI赋能国际中文教育
国际中文教育事业是教育强国建设的重要组成部分,是提升国家文化软实力、增进文明交流互鉴的重要途径,国际中文教育分论坛围绕AI赋能教育工具与教育方法展开学术讨论。
首都师范大学原副校长周建设教授强调,AI技术能显著提升中文教育的个性化与效率;清华大学李娟子教授分享了国产自研大语言模型如何赋能教学工作;广东外语外贸大学王治敏教授基于儿童语料库,探讨了数字人风格生成及语言文化数字化的应用前景;广州优谷朗读创始人吕全总经理从产业角度分享了语言文化数字化的实践与创新。
关注法语智能语言处理路径
今年中法在人工智能领域开展密切交流合作,并在人工智能方面达成十点共识。法语信息处理论坛围绕法语资源和语言处理技术成果进行学术分享。
法国国家科学研究中心Damon Mayaffre教授分享了一种在自然语言处理中提高大模型可解释性的方法,可以自动提取关键段落,并形成机器可解释人类可理解的语义单元;法国国家可持续发展研究所 Nicolas Turenne 副教授分享了自然灾害跨模态预警系统的开发经验及关键技术;北京语言大学王秀丽教授聚焦多语种翻译中重要的篇章衔接问题,介绍了汉法篇章衔接标注小型语料库和法汉共时书面语中不同体裁的篇章衔接方式;中山大学缪君副教授分享了人机协作在翻译学中的创新实践研究。
文章来源:公众号“新华融媒”