2021年11月27日-28日,“第十八届中国少数民族语言文字信息处理学术研讨会”以腾讯会议的直播形式在线召开。本届会议由中国中文信息学会、中文信息学会少数民族语言文字信息处理专委会主办,中央民族大学国家语言资源监测与研究少数民族语言中心承办。中国少数民族语言文字信息处理学术研讨会是我国规模最大、学术水平最高的民族语言文字信息处理领域的学术会议。会议自筹备以来,得到全国各地专家学者的积极响应,共有1190人注册本次会议,是历届“少数民族语言文字信息处理学术研讨会”注册人数最多的一次会议。
会议由中央民族大学赵小兵教授主持,中国中文信息学会副理事长那顺乌日图教授、民族语言文字信息处理专委会主任吐尔根·依不拉音教授开幕式致辞,两位教授介绍了大会筹备过程,并表达了加强构建中华民族共同体意识,提升学术研究服务国家需求的指导思路。大会邀请了中国工程院院士、新疆大学吾守尔·斯拉木教授,欧洲科学院外籍院士、清华大学孙茂松教授,中国人工智能学会及计算机学会会士、中科院自动化所宗成庆研究员,北京大学计算语言学研究所副所长穗志方教授,华为诺亚方舟实验室语音语义首席科学家刘群教授,中科院计算机网络信息中心副主任、中科院科学数据总中心主任周园春研究员等国内知名学者做大会特邀报告。同时,面向青年学者举行了7场27篇学术论文专题报告和交流。
吾守尔·斯拉木院士的大会报告《自然语言智能处理新需求、新机遇》介绍了混合智能处理关键共性技术,即脑机融合原理及技术、知识计算引擎技术、跨媒体分析推理技术、大数据驱动学习技术、自然语言理解技术等最新进展及应用需求。
吾守尔·斯拉木院士《自然语言智能处理新需求、新机遇》
孙茂松教授的大会报告《关于大模型的初步考量》分享了以BERT和GPT3为代表的大规模预训练语言模型,提出基于深度学习的自然语言处理正沿着“极大数据、极大模型、极大算力”的轨道一路奋进。
孙茂松教授《关于大模型的初步考量》
宗成庆研究员《面向自然语言理解的神经编解码》介绍了其研究团队近年来围绕“不同分布式表示方法的神经编解码表现如何”“能否从神经影像数据中重构语言信息”等问题开展的部分探索工作,并对该研究方向未来的发展给予初步的展望。
宗成庆研究员《面向自然语言理解的神经编解码》
穗志方教授《自然语言处理评测中的问题与对策》报告指出现有NLP评测在科学性和客观性上暴露出的一系列问题,以及不适当的评测对NLP技术进步的限制。通过分析NLP评测的现状和存在的问题,提出对NLP评测的设想与展望。
穗志方教授《自然语言处理评测中的问题与对策》
刘群教授《神经网络自然语言处理模型的词例切分方法》报告阐释了基于神经网络的自然语言处理方法中面临的由于封闭词表所导致的集外词问题,介绍了解决这一问题常见的技术及 ACL2021最佳论文所提出的一种通用的词表规模最优化技术VOLT。
刘群教授《神经网络自然语言处理模型的词例切分方法》
周园春研究员《科学数据出版与开放共享》报告分享了作为开放科学的关键组成部分之一的开放研究数据对增强科学研究的自纠错能力,提升研究透明度和可验证性上发挥的重要作用。报告就科学数据出版与开放共享的政策、理念与实践进行探讨。
周园春研究员《科学数据出版与开放共享》
大会报告内容详实,现场讨论气氛热烈,体现了各位学者在学术理论和技术前沿创新方面的深厚造诣,引发注册和与会代表的热情参与和讨论。会议搭建了极佳的学术交流与沟通平台,会议参与者以中青年学者居多,新生力量正在发挥越来越重要的作用。
11月28日上午,大会举行了“第二届少数民族语言分词技术评测工作进行学术交流和专题讨论”,公布了本次评测组织流程和评测结果,评测冠军分享了技术经验。
民族语言文字信息处理专委会主任吐尔根·依不拉音教授在闭幕式致辞中指出,两天的会议报告、研讨和交流的时间虽然短暂,但成功的达到了交流成果、沟通感情、推动我国少数民族语言信息处理技术发展的预期目的。各界学者齐聚一堂,研讨气氛融洽而热烈,感情在学术传承中交流,学术在真情沟通中弘扬。
出席会议的部分专家学者截影