中心概况

“国家语言资源监测与研究少数民族语言中心”由国家教育部语信司、国家民委教科司、国家新闻出版总署报刊司及中央民族大学共同创建。机构设立在中央民族大学中国少数民族语言文字信息化工程研究中心。中心主要任务是对少数民族语言资源进行收集、整理、建库、加工和处理;对少数民族语言资源实行动态监测与研究,并将监测研究结果以信息报送、决策建议方式提交国家语委或面向社会公开发布,为国家民族语言政策的制定和调整提供参考;同时开展民族语言的网络舆情分析、民族语言国情调查与和谐研究、民汉双语教育研究,以及少数民族语言文字信息处理与规范标准建设,为民族语言文字研究的信息化应用提供必要的技术支撑。

一、工作回顾

中心自2008年成立以来,在科学研究、高新技术创新和集成方面产生了一系列创新性成果,取得了较好的社会效益,在国内外同行中独具特色。2008-2013年少数民族语言分中心的研究目标主要围绕四项基本任务展开:一是藏、维教育教材、报纸、网络等动态流通语料库与知识库建设及其用字用词调查(2010-2013年《中国语言生活状况报告》;国家语委委托项目“少数民族地区双语教育教材语料库建设”;国家自然科学基金项目“藏语语义本体的概念识别和上下位关系获取技术研究”;二是进行了少数民族语言国情调查(教育部委托项目“少数民族聚居区语言生活现状调查及对策研究”)、濒危语言研究及民族语言文字相关国家各类项目立项及成果的现状调研,以及中国少数民族语言文字网络资源状况调研并形成相关的调研报告(国家社科基金项目“中国少数民族语言互联网络发展状况的研究”);三是进行阿拉伯体系文字(包括维吾尔文、哈萨克文、柯尔克孜文、察合台文、撒拉文五种文字)和彝文的字符采集、标注及输入方案的研究(国家“十一五”重大科研课题“中华字库”工程);四是开展少数民族语言资源监测及舆情分析研究,构建少数民族语言资源管理与服务共享平台(国家科技支撑重点项目“少数民族语言文字信息处理共性关键技术研究与示范应用---藏语/维吾尔语语言资源监测关键技术研究与示范应用”;国家自然科学基金重点项目“跨语言社会舆情分析基础理论与关键技术研究”)。经过十年的建设,中心和分基地(新疆师范大学的维吾尔语文基地,西北民族大学的藏语文基地,新疆大学的哈萨克、柯尔克孜文基地,呼和浩特民族学院的蒙古语文基地和内蒙古师范大学的蒙古文大数据研究基地)共同协作,较好地完成了上述任务,取得了一系列阶段性成果:

1、完成了9项藏维文词法分析相关标准和规范的制定,包括信息处理用现代藏语词类及标记集、信息处理用现代维吾尔语词类标注标记规范、信息处理用现代维吾尔词干类标注标记规范、藏语常用词规范、维吾尔词常用词规范等;

2、针对民族语言监测任务,研究完成了12项分析报告和1项语言监测关键技术报告,包括小学藏语文新课标教材用词调查、现代维吾尔网站用词调查报告、藏维语言资源监测平台技术报告等;

3、针对蒙、藏、维三种民族语言的报纸网络媒体基础文本语料构建了基于Unicode国际标准编码的少数民族(蒙、藏、维)语言的2009-2013年时段内报刊、网站媒体的动态流通语料库及相关软件;

4、对藏语、维吾尔语进行语言资源监测,建立语言资源管理与监测平台。

中心自2008年成立以来承担的研究课题和研究内容与少数民族语言监测研究及应用密切相关,包括蒙、藏、维、哈、彝等民族语言信息处理相关的基础语料库、知识库构建,编码转换、分词技术等基础信息处理技术研究,以及跨语言社会舆情分析研究等。已承担国家科技支撑计划项目1项、国家自然科学基金重点课题等4项、国家社科基金项目1项、国家新闻出版“十一五”重大科研项目1项、国家语委等省部级重点项目4项、国家语委和国家民委等省部级一般项目3项、教育部新世纪人才计划2人、北京市英才计划1人、国家“985”课题和“211”课题及其他各类课题多项;获国家发明专利3项(其中2项在公示期)、软件著作权11项;省部级科研奖励一等奖2项、二等奖1项,发表学术论文99篇,其中核刊发表18篇,被SCI或EI检索44篇,出版学术专著或教材13部,主办全国性学术会议3次,开发并完成成果转化的软件系统13项等。中心承担的国家级和省部级课题中已结题验收的主要包括:

1、国家科技支撑计划重点项目《少数民族语言文字信息处理共性关键技术研究与示范应用---藏语/维吾尔语语言资源监测关键技术研究与示范应用》(2009BAH41B00,2009.10-2012.10);

2、国家自然科学基金《基于动态流通语料库的汉语基本词汇特征曲线跟踪及自动提取方法研究》(60063008,2005.1-2008.12);

3、国家语委委托项目《国家语言资源监测与研究中心少数民族分中心少数民族语言支撑服务》(批准经费65万元,2012.1-2014.12);

4、国家语委科研项目《蒙古文编码转换系统》(MZ115-72,2009.1-2012.12);

5、国家语委科研项目《藏文分词标准评测系统研究》(MZ115-94,2010.1-2012.6);

6、国家民委科研项目《藏、维文网络敏感信息自动发现和预警技术研究》(10ZY07,2010.1-2012.12)。

为促进研发成果向产业化成果转型,扩大实际应用范围,中心在实际应用部署过程中采用分布式应用部署的设计思想,与民族院校合作,设立分研究基地。中心分别于2009年4月与新疆师范大学合作共建“维吾尔语言研究基地”、2009年6月与西北民族大学合作共建“藏语言研究基地”、2010年9月与新疆大学合作共建“哈萨克、柯尔克孜语文研究基地”、2014年4月与呼和浩特民族学院合作共建“蒙古语文研究基地”、2018年6月与内蒙古师范大学合作共建“蒙古文大数据研究基地”。

四个分研究基地作为区域性数据中心,在中央民族大学设立全局性数据中心,将分散的数据予以集中化管理,有效避免的少数民族信息化处理过程中数据格式的不规范,以统一的应用服务平台形式向全社会提供数据服务与技术支撑。研究并产出的全部软件系统、语料库、动态流通词汇库以及相关技术规范均已在国家语言资源监测与研究少数民族语言中心(中央民族大学)、国家语言资源监测与研究少数民族语言中心藏语言研究基地(西北民族大学)、国家语言资源监测与研究少数民族语言中心维吾尔语言研究基地(新疆师范大学)、国家语言资源监测与研究少数民族语言中心哈萨克、柯尔克孜语文研究基地(新疆大学)实际应用部署,并已实现每年向全社会发布上一年度的全年数据。2010年度至2012年度的统计结果均以“中国语言状况报告”的形式向全社会公开发布并出版,在全社会范围内取得了众多专家学者的极大认可。

二、建设现状

经过十年的建设,中心在学科建设、科研队伍培养、基础设施完善等方面均取得了一定成绩。

目前,中心已形成以“计算语言学”交叉学科为特色,具有“计算语言学”及“计算机软件与理论”硕、博士培养资格,以及跨学科、不同院系交叉、融合的研究团队。团队职称学历分布合理、理论基础扎实、实践经验丰富,现在的固定研究人员中包括计算科学与技术、语言学学科教授5名,副教授7名,讲师5名,聘用兼职研究人员3人,研究人员中具有博士学位的教师10名。有足够的科研实力承担国家大型科研项目,进行创新性理论和应用研究。

中心现建有“国家语言资源监测与研究少数民族语言中心实验室”和“自然语言处理研究室”两个实验室。实验室现有总面积210多平方米,设备总价值达120万元,包括服务器集群(3台)、网络交换机(3台)、磁盘阵列和个人计算机(36台)等,具备了良好的实验条件,为少数民族语言智能信息处理和计算语言学科学研究与人才培养提供了条件支持。

中心承担的在研课题主要包括:

1、国家新闻出版重大科技工程项目“中华字库”《少数民族现行文字搜集整理与字库制作—彝文字符收集与整理》(0610-1041BJNF2328/19,2011.8-2015.12);

2、国家自然科学基金重点项目《跨语言社会舆情分析基础理论与关键技术研究》(61331013,2014.1-2018.12);

3、国家自然科学青年基金项目《藏语语义本体的概念识别和上下位关系获取技术研究》(61103161,2012.1-2014.12);

4、国家自然科学青年基金项目《基于藏文网络动态流通语料库的语义文本分类技术研究》(6130901,2014.1-2016.12);

5、国家社会科学青年基金项目《中国少数民族语言互联网络发展状况的研究》(11CYY016,2011.7-2013.12);

6、国家语委重点项目《少数民族地区双语教育教材语料库建设》(WT125-11,2012.1 -2014.12);

7、国家语委重点项目《少数民族聚居区语言生活现状调查及对策研究》(WT125-31,2013.1-2015.12);

8、中央民族大学重大孵化项目《民族类院校校园突发事件应急处理技术研究》(1112KYZD05,2011.6-2014.6);

三、中长期建设目标

中心成立十年来,得到了相关部委主管部门和学校的大力支持,成为中央民族大学“985三期”“211三期”重点资助建设的子课题,取得了丰硕成果,社会影响力不断提升,逐步确立了中央民族大学在中国少数民族语言监测研究领域的核心地位。

2014至2020年,中心将继续坚持以科学发展观为指导,按照成为少数民族语言文字及民族政策、民族和谐等相关政策制定的智库和信息库的建设方向,响应“充实力量、提高质量、增强能力、服务国家”的总体要求,结合国家需求和社会需求,充分发挥中央民族大学在民族语言研究和双语教育研究方面的优势,采用计算语言学的研究方法,推动少数民族语言监测和研究的发展。加强学科建设、开展学术交流,为国家语言文字事业提供战略与对策的咨询服务,为语言生活监测、管理以及语言服务提供智力支持,为国家语言文字事业的基础资源建设提供科研支撑,全面服务于国家语言文字事业的改革与发展。尽快将中心建设成为具有“民族特色、国际水平”的国家语委科研基地及国家级重点实验室。


版权所有©2008-2014 国家语言资源监测与研究少数民族语言中心

地址:北京市海淀区中关村南大街27号中央民族大学理工楼516室(100081)

电话:010-68932421-8016 传真:010-68930880