中国人工智能学会多语种专委会拟召开多语种数据智能测评论坛

作者:时间:2023-09-17点击数:

2023年10月20日至23日,第四届数据智能与知识服务研讨会将在武汉召开。本届研讨会的主题是“通用AI与数据智能”,旨在探讨大模型时代下数据智能领域的新发展趋势和新的落地应用。为促进多语种智能信息处理研究,加强产学研交流与合作,中国人工智能学会多语种智能信息处理专委会举办“多语种数据智能”分论坛,围绕多语种数据“共享”和“评测”两个主题,开展多语种数据集发布多语种图像描述生成评测两个任务。录用论文将以专刊形式发表在Data Intelligence 期刊 (该刊为Ei和ESCI检索期刊,2022年影响因子3.9)及《中国科学数据(中英文网络版)》(该刊为“中国科技论文统计源期刊(又称中国科技核心期刊)”、“中国科学引文数据库(CSCD)核心库来源期刊”)。


多语种数据集发布

为推动人工智能多语种优质数据资源的持续汇聚、传播共享、评测服务、技术交流、国际合作与可持续发展,人工智能学会多语种智能信息处理专业委员会联合Data Intelligence 期刊、《中国科学数据(中英文网络版)与国家基础学科公共科学数据中心推出多语种智能信息处理数据专题,现面向广大专家学者征集多语种智能信息处理数据集专题数据论文所有发表后的数据论文及相关数据集将遵循(CC-BY 4.0)协议在线开放共享,力争打造具有国际影响力的人工智能多语种数据集,提升我国多语种智能信息领域的国际影响力,共同推动多语种智能信息处理研究的进步。

投稿截稿时间:2023年10月18日

一、征稿主题

本专题面向多语种智能信息处理领域,征集科研过程中产生的原始数据资源,或通过对已有的数据进行系统化地收集、整理和再加工后形成的数据产品,使得其他使用者能便捷地发现、获取、理解和再分析利用,且可在科研论文及相关科研成果中引用。征集的主题数据集内容包括但不限于:

(1)多语种词法分析数据集

(2)多语种机器翻译数据集

(3)多语种知识本体数据集

(4)多语种阅读理解数据集

(5)多语种文本生成数据集

(6)多语种信息抽取数据集

(7)多语种情感分析数据集

(8)多语种机器同传数据集

(9)多语种对话数据集

(10)多语种语音识别数据集

(11)多语种语音合成数据集

(12)多语种跨模态数据集

(13)多语种数据集综述

(14)评测理论与方法研究

二、投稿说明

1. 投稿前应先准备好数据集,明确数据产权关系,确保论文描述内容与数据集的一致性。数据集作者可与论文作者不一致。数据集与论文均将在评审过程中开放评议。

2. 参与者应在截止日期前将数据论文(中文)及数据集打包发送至:muc_nmlr_nlp@163.com,评审收录会议论文在会后依照期刊要求改写并发布。

编辑部联系方式:010-58812762,csdata@cnic.cn


特邀执行主编:

赵小兵,教授,中央民族大学

特邀执行副主编:

周园春,研究员,中国科学院计算机网络信息中心

张华平,副教授,北京理工大学

专刊责任编辑:

孙媛,教授,中央民族大学

陈波,副教授,中央民族大学

李琳,副教授,青海师范大学


多语种图像描述生成评测

图像描述生成任务(Image Captioning)旨在生成描述图像的自然语言,该任务涉及到自然语言处理和计算机视觉两个领域多方面的研究问题。近年来受到学术界和工业界的广泛关注,也出现了一些有价值的应用。随着深度学习技术的发展,端到端图像描述生成系统的表现有了大幅度提升。目前图像描述生成任务的公开数据集多为英语和汉语,为了推动多语种图像描述生成研究的发展,我们汇集整理了蒙古语、藏语和维吾尔语三个语种的图像描述生成数据集,开展本次多语种图像描述生成评测任务,聚焦该任务涉及到的前沿问题,进一步推动多语种智能信息处理研究的发展。

评测官网:http://mleval.cn/pic2text/

官方邮箱:muc_nmlr_nlp@163.com

一、任务介绍

图像描述生成任务的目的是为给定图像自动生成高质量的描述文本。本评测任务分为三个子任务,分别为蒙古语、藏语和维吾尔语的图像描述任务。

子任务1:蒙语图像描述生成

子任务2:藏语图像描述生成

子任务3:维语图像描述生成

参赛者可以根据自己的研究兴趣,参与一个或多个子任务。本评测任务要求各位参赛者在现有评测系统基础上针对给定的测试集,研发新的自动评测算法,该评测算法要求在测试集上所得评测结果尽可能地与人工评测结果一致(给定一张图片生成一个描述)。我们将为参与者提供任务所需数据集和评价方法,并采用客观的评价指标结果作为提交算法的最终成绩。

本次评测任务所用数据集来自图像描述生成任务的公开数据集Flickr8k,采用机器翻译结合人工校对的方式,我们开发了蒙语、藏语和维吾尔语的Flickr8k数据集。数据集发布后请各位参赛者自行登陆官网下载并查阅。

二、报名方式

以机构、团体或个人名义均可报名参加,有意向的参赛者可通过官网报名入口填写相关信息进行报名。完成后将论文(中文版)送至官方邮箱,审收录会议论文在会照期刊要求改写并发布。

三、奖励设置

本次评测将评选出一、二、三等奖,奖池共计 30000元人民币。

1. 一等奖 1 名,每队奖金 8000 -10000元

2. 二等奖 2 名,每队奖金 5000 元

3. 三等奖 3 ~ 4 名,每队奖金 3000 元

说明:参与上半年评测任务的获奖队伍将获得参赛鼓励奖金,欢迎并鼓励继续参加比赛,大笔奖金将根据最终评测结果发放。

赞助商:上海蜜度信息技术有限公司

四、评测赛程

时间(2023年)

事项

9月1日-10月10日

比赛结果提交时间(可重复提交)

10月15日

比赛结果公布

10月18日

每个语种前3名提交评测报告

10月20日- 23日

评测研讨会(第四届数据智能与知识服务研讨会)

五、组织者

– 赵小兵(中央民族大学)

– 李  琳(青海师范大学)

– 陈  波(中央民族大学)

– 孙  媛(中央民族大学)

– 何中军(百度)

– 周园春(中国科学院计算机网络信息中心)

– 张华平(北京理工大学)

六、联系人

– 高  璐(中央民族大学)

– 崔璐明(青海师范大学)

– 高 歌(中央民族大学) 21400169 @muc.edu.cn

– 刘宇轩(中央民族大学)



版权所有©2008-2014 国家语言资源监测与研究少数民族语言中心

地址:北京市海淀区中关村南大街27号中央民族大学理工楼516室(100081)

电话:010-68932421-8016 传真:010-68930880