主办单位:中国中文信息学会
会议时间:2024 年 6 月 18-19 日
会议地点:北京·昆泰酒店
承办专委:中国中文信息学会少数民族语言文字信息专委会
专委会主任:尼玛扎西 院士
会议时间:2024 年 6 月 19 日 8:30-12:30 am
报告一:大数据驱动的民族语言大模型:关键技术与应用展望
报告人:王昊奋教授(同济大学)
内容简介:大语言模型的技术发展正逐渐走向领域落地的深水区,提示工程、知识和检索增强、多模态具身等核心手段的出现为大数据时代带来了全新的技术变革,本次报告将从关键技术、落地范式、以及应用发展等角度对大数据驱动的增强大语言模型技术进行梳理,并结合民族语言的特殊性,从数据、模型、治理等角度分析民族语言大模型落地实践中的挑战和机遇。
报告二:多语言大模型的原理与应用
报告人:车万翔教授(哈尔滨工业大学)
内容简介:世界上现有近 7000 种语言,除少数语言外,绝大部分语言仅存在少量甚至不存在任何标注数据。多语言大模型将不同语言符号统一表示在相同的语义向量空间内,从而达到同时处理多种自然语言语言的目的。对于自然语言处理模型在小语种,尤其是在资源稀缺语言(Low-resource Languages)上的快速部署具有重要的意义。本报告重点介绍多语言大模型的发展历史,基本原理及应用方式,接着介绍我们在该方向所做的部分研究工作,主要包括基于多语言大模型的思维链、对话语言理解等。
报告三:大语言模型如何学习新语言?
报告人:冯岩松副教授(北京大学)
内容简介:大语言模型惊人的语言理解和知识运用能力在英语、汉语等资源丰富的语种上体现的淋漓尽致,而对那些受关注较少、可用语料有限的低资源语种而言,大语言模型的表现并不尽如人意。本次报告将从有限资源收集与利用、语言知识运用、模型能力融合等几个方面讨论在大模型时代如何促进低资源语种智能信息处理的相关研究。
一、尼玛扎西
中国工程院院士、工学博士、教授、博士生导师
长期从事语言智能和自然语言处理研究与工程应用。担任藏语智能信息处理及应用国家重点实验室副主任,兼任教育部计算机类专业教学指导委员会委员、第八届教育部科学技术委员会委员、中国中文信息学会民族语言文字信息专业委员会主任、中国语文现代化学会民族语文现代化专委会副主任、国际计算机学会(ACM)中国理事会成都分会副主席、全国信息技术标准化技术委员会第三届字符集与编码分技术委员会委员(SAC/TC28/SC2)、全国语言与术语标准化技术委员会(SAC/TC62)委员。
现任教育部语信司、国家民委教育司与中央民族大学共建“国家语言资源监测与研究民族语言中心”(中央民族大学国家安全研究院语言信息安全研究中心)主任;北京市第十五届人大代表。兼任国家语委第二届全国语言文字标准化技术委员会委员;全国信息技术标准化技术委员会第四届字符集与编码分技术委员会(SAC/TC28/SC2)委员;中国语文现代化学会民族语文专委会主任;中国人工智能学会多语种智能专委会副主任;中国中文信息学会民族专委会副主任等。
现任西藏大学信息科学技术学院教授,中国中文信息学会民族专委会秘书长。主持国家自然基金等国家和省部级项目 9 项,参与 12 项;作为主要成员制定 3 项藏文信息处理国家标准,研制 38 种基于国际标准藏文字库;组织编译著作(教材)23 本,发表论文 40 多篇。获“全国师德标兵”称号、“国家科学进步二等奖”、“西藏自治区科学技术一等奖”、“青海省科技进步一等奖”、 国家级教学成果奖二等奖等 26 项科研、教学奖。
同济大学百人计划。长期在一线人工智能公司担任 CTO 之职,是全球最大的中文开放知识图谱联盟 OpenKG 发起人之一。负责参与多项国家级 AI 相关项目,发表 100 余篇 AI 领域高水平论文,被引用次数达到 3600 余次,H-index 达到 29。他构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”;所构建的智能客服机器人已累计服务用户超过 10 亿人次。目前,他担任中国计算机学会术语工委副主任,SIGKG 主席,上海秘书长,自然语言处理专委会秘书长,中国中文信息学会理事,语言与知识计算专委会副秘书长,上海市计算机学会自然语言处理专委会副主任,上海交通大学 AI 校友会秘书长等社会职位。
现任哈尔滨工业大学计算学部长聘,人工智能研究院副院长,社会计算与信息检索研究中心副主任。教育部青年长江学者,黑龙江省“龙江学者”青年学者,斯坦福大学访问学者。现任中国中文信息学会理事、计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;中国计算机学会高级会员、曾任 YOCSEF 哈尔滨主席(2016-2017 年度)。在 ACL、EMNLP、AAAI、IJCAI 等国内外高水平期刊和会议上发表学术论文 200 余篇,其中 AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用 1 万余次(Google Scholar 数据),H-index 值为 53。
现任中央民族大学国家语言资源监测与研究民族语言中心副主任,北京市青年英才,中国语文现代化学会少数民族语言现代化专委会秘书长,中国中文信息学会少数民族语言专委会常务理事。主要研究领域为民族语言信息处理技术和基础模型。主持国家自然科学基金、国家社科基金等多项课题,在国内外学术期刊会议上发表论文 90 余篇,发明专利 10 项。发布了藏文大语言模型 TiLamb 以及 TiBERT、TiKEM、MiLMo 等民族语言预训练模型。构建并开放了 TibetanQA、TiKG-30K 等多个民族语言数据集。
现任中国科学院新疆理化技术研究所多语种信息技术研究室副主任,新疆民族语音语言信息处理重点实验室副主任。主持或负责国家自然科学基金、国家重点研发计划、新疆维吾尔自治区重大科技专项等国家及省部级项目 22 项,入选新疆“天山英才”青年科技拔尖人才项目、中国科学院青促会优秀会员等多项人才计划。自 2007 年起从事多语言智能信息处理技术研究,主要研究方向为多语言机器翻译、多模态内容理解等,发表学术论文 107 篇(第一/通讯作者论文 58 篇;SCI/EI 论文 57 篇),获得授权发明专利 8 项、软件著作权 51 项,参与制定国家标准 1 项,地方标准 3 项,培养研究生 50 余名;科研成果获得省部级科技进步一等奖 1 项,2022 获数字中国创新大赛全国总决赛二等奖。
主要研究方向为大数据、人工智能、非线性电路与系统、超大规模集成电路的版图设计、现代控制理论及其应用等。现任电子科技大学信息与软件工程学院副教授,公安部信息安全等级保护高级测评师,四川省大数据中心大数据标准化技术委员会委员。2018 年 5 月-2020 年 1月,选派到四川省经济和信息化厅大数据产业推进处,任职副处长。致力于医工结合,与华西、省医院等合作研究 AI+医学图像;与华体等上市公司建立联合实验室,共同推进图像工程与智能视频的产业化;长期与西藏大学联合研究,突破藏汉、汉藏机器翻译关键技术;主持/参研国家自然科学基金 8 项、国家重点研发 2 项等。2016 年,获电子科技大学第八届教学成果二等奖;2018 年,获西藏自治区科学技术奖一等奖。近几年担任多个学术刊物(如 IEEE Transactions on Neural Networks and Learning Systems、Neural Networks、Neurocomputing 等)的审稿人与国际学术会议的 Co-chair,在国内外学术刊物发表论文 127 篇,其中 SCI 检索 87 篇;获软件著作权 12项,授权国家发明专利 18 项,出版 5 部著作。
北京大学王选计算机研究所副教授,主要研究方向包括自然语言处理、法律人工智能。担任 ACL Rolling Review 高级执行编委,自然语言处理领域重要国际会议 ACL、EMNLP、NAACL、EACL 等的高级领域主席或领域主席。相关研究成果发表在 ACL、EMNLP、NAACL、TPAMI、AIJ 等自然语言处理领域顶级会议及期刊上。承担多项国家自然科学基金,科技部 863 计划和重点研发项目课题。