为促进国内各民族语言文字信息处理技术的学术研究,加强同行间的学术交流与合作,中国中文信息学会少数民族语言文字信息处理专业委员会定于2021年10月15日至17日在北京市举办“第十八届全国少数民族语言文字信息处理学术研讨会”。
在本届会议上,将举办第二届少数民族语言分词技术评测。本次活动是在国家语委、国家民委等少数民族语文信息化事业的主管部委领导下,由中国中文信息学会主导,中央民族大学、清华大学、西藏大学联合发起,旨在推进少数民族语言智能信息处理技术的发展与交流。保障评测活动的“公开、透明、公平、公正”,是本活动的重要特征。
少数民族语言文本的分词处理和中文分词一样是语言信息处理的基础性工作,是语言机器翻译、智能检索、自然语言理解与处理等智能信息应用的前提。民族文字分词系统的好坏将直接影响以该民族语言文本分词系统为基础的智能处理系统性能的优劣。因此,民族语言文本分词系统的评测是推动民族语言智能技术发展的重要手段,保障其权威性和公平性尤为重要。
本次评测的组织信息如下:
评测主办机构:
中国中文信息学会
中国中文信息学会少数民族语言文字信息处理专业委员会
评测组织单位:
中央民族大学
清华大学
西藏大学
评测资源提供单位:
中央民族大学
清华大学
西藏大学
本次评测的具体事项如下:
1.任务描述
评测对象是蒙古文、维吾尔文、藏文三个语种的自动分词核心技术。我们将为各个评测项目的参评单位提供相应的语料,训练语料和测试语料为由新闻、经济、法律、娱乐等各领域组成的综合语料,具体设置如表1所示。
表1 少数民族语言分词评测项目表
序号 |
项目代号 |
项目名称 |
语种 |
训练语料 |
测试语料 |
语料领域 |
1 |
MO |
蒙古文分词 |
蒙古文 |
6.5w |
2w |
综合领域 |
2 |
UY |
维吾尔文分词 |
维吾尔文 |
6.5w |
2w |
综合领域 |
3 |
TI |
藏文分词 |
藏文 |
2.5w |
2w |
综合领域 |
评测使用正确率(Precision),召回率(Recall)和F值来评价各个参评单位的分词结果。
以机构、集体或个人名义均可报名参评。所有参评单位应向少数民族语言分词技术评测委员会提交一篇技术报告,技术报告需详细介绍参评系统所使用的技术。技术报告大致应包括以下内容:
1) 引言:(略);
2) 系统:详细介绍参评系统采用的技术;
3) 数据:详细介绍所使用的数据及对数据所进行的处理;
4) 实验:详细介绍参加评测的实验过程、实验参数和实验结果,并对结果进行分析;
5) 总结:(略)。
2.报名办法
评测官网:http://pingce.muc.edu.cn/
参加评测的单位请登录评测官网进行注册报名,训练集与数据集会按照评测日程定时开放,请及时在官网下载。参评结果将在第十八届少数民族语言信息处理学术研讨会(10月17日)上予以匿名公布(只公开公布前三名的机构或个人信息),并在会上进行经验交流。相关信息我们也会及时在评测官网、公众号等多个平台公布,请及时关注。
3.评测日程
2021年6月16日,发布评测任务,接受评测报名。
2021年7月30日,评测报名截止。
2021年8月10日,开放评测训练数据集,参评单位可在官网下载。
2021年9月15日,开放评测测试数据集,参评单位可在官网下载。注意:自测试集下载之时,系统将启动倒计时,2小时内必须上传测试结果,过时上传系统关闭,请各参评单位合理安排当天时间。
2021年9月30日,在官网公布测评结果。
2021年10月17日,在第十八届全国少数民族语言文字信息处理学术研讨会上公布前三名,并颁发荣誉证书,同时邀请前三名介绍系统及经验。
如有任何关于本次评测的问题,请发邮件至:hdxygao@163.com。