中文信息学会白硕:自然语言处理与人工智能

作者:时间:2015-03-25点击数:

白硕

白硕

新浪科技讯 北京时间3月22日下午消息,“新智能时代论坛”今日下午在北京机械工业出版社举行。中国中文信息学会常务理事白硕应邀在会上做主题演讲,演讲题目为《自然语言处理与人工智能》。

以下为白硕演讲内容:

说到实现各种各样的智能系统,大家都认为善解人意应该是一个最起码的条件,而这个条件都绕不过去,一个重要的桥梁就是语言,拿语言说事,这个很多了,刚才讲的图灵测试,实际上就是要通过这个对话,语言来判断隐藏在不可金的位置到底是人还是机器。

还有中文屋子,大家如果关心智能问题的话也都会比较熟悉,一个屋子的人不懂中文,只懂英文,执行特定的符号,把搬来搬去,最后是把英文翻译成中文,会问有没有人懂这个东西。从亚里士多德到布尔,实际是从20世纪初有一个重要的语言学转向,就是从哲学,拍脑袋的思辨到针对文本。看我们的理解,我们的定义,什么时候出现了问题。语言学里面也有人思考,语言和概念,就是脑子里面的关系,这里是不是一一对应的,就有人举例子,今天看到杨老师讲“孝”,英文到现在没有对应的翻译。蒙古人关于马的词汇好几十种,爱斯基摩人对雪的词汇也有好几十种,我们不生活在马和雪的世界的人就很少。是语言造就了概念,还是概念造就了语言,不是一一对应的。干活的角度看到各种办法和计划,助手和机器人退出来,有各种搜索和数据库在精准化,拿语言去搜,也有各种的过去就有推理机,智能机,一直在延续,虽然进展不大,但是中间都绕不开一个问题,语言到底是怎么回事,这是我们真正搞自然语言理解,搞自然语言处理的人必须面对的这样一个东西。我们说要善解人意,人意在哪,藏在符号怪阵背后,上面最表层的,通过文字的方式表现的,可能是通过语音的方式表现的,电子输入的方式表现的。看到有词法和句法和语意,这是语言学界标准的层次的划分,我们现在看中间的虚线,涉及到一点点的句法,大部分的下部分,以虚线为界,上面的认为是浅层,虚线之下的认为是深层。这讲的是语言学知识的浅层和深层,浅层的这种语言模型见效很快,门槛很低,基本上可以摆脱语言学家,工程师自己可以玩,有数据就可以玩,或者是标注,找一些中专生就可以玩。然后是深层的,有一些地方说不清楚的,众说纷纭的,但是浅层解决不了的问题,最终要通过深层来解决,还有一档节目音乐会说话,不论是按照什么标准,很多的标准,音乐会是应该占优势的,但是恰恰这档节目说的是音乐会说话,到了深层的句法和语意,甚至到语用是一个隐喻,只有到了这个层次反作用回去才发现正确的是什么。我们也看到了大家对深度学习充满了期待,但是学习的度深和浅,跟学习对象这个层次的浅和深是两个概念。如果是在模型停留在浅层,就是把深度学习用到极致也有局限。

但是深层这个东西就复杂了,因为咱们讲证据,浅层的东西大家都看得见,深层有很多是看不见的,看不见就是各说各的话,就是没有一个统一的标准一样的,所以这个东西就比较难搞,这是我们看到的一个现状。仁义,是不是跟语言有关系,看到很多例子,很多评论第一反应中文博大精深,中文不一样,英语很好的方法到中文就不行,有的就说我们比别人更懂中文。即使是知识图谱也出中文知识图谱,这个知识图谱到底是知识层面的还是语言层面的,这件事情都好象有了商量了,这说明了什么,我们还停留在我们对母语的认识和对这个人类共同的语言机制的认识,还没有统一起来,中间有巨大的鸿沟,一般是三个阶段,第一阶段,碰见这些例子,都认为这是习惯用法,根本没有规律的,我们也不关心这个,我们的指标很好看,就完了吗?实际的问题没有解决。

第二个阶段说有规律,我们的母语是特殊,使用特殊的东西把这个问题解决了,是有一个阶段,但是很有限,真正的能够进到最后的阶段的人很少,很少。又熟悉了母语的特殊性,同时又知道这个世界上关于语言共性普适的进展,而且研究起来的,这种人太少了,而且这种人跟我们的交流太少了,所以我们不知道,经常有说法,基于规则的统计是傻子,基于统计的系统是疯子,规则不能覆盖的地方表现极其糟糕。基于统计的,因为是很多现在只能做到浅层,深层的不知道怎么做,只能做到浅层,有局限,又不知道自己的局限在哪,就出现了明明不知道的,没有自知之明了,大家一看就知道是笑话,但是他敢拿出来说。正对角的还有两个,一个是浅层的基于规则的,比如英语的词法的,词根的变换,还原等,有限,浅层的是可以做一点的,也油水不多的,深层的又基于统计的,是有的,但是深层的本身是有一个资源建设的这样一个积累在里面的,如果没有资源建设,深层是无从谈起的,你有统计,又要有料的积累,双重资源的积累是瓶颈,通过瓶颈往前走的不多,但这是正确的路。

我感觉到一个不好的现象,厚此薄彼,我们看到各类专业的领域专家是很受尊敬的,唯独语言学家不受尊重,不仅很多和自然语言相关的大型的项目里面语言学家的参与度很不够,就连谷歌,诺维和乔布斯之间的争论是很不友好的,语言学里面有很多宝贝,但是外面的人不认识,认识不到。为什么还能这么火呢,我认为这里面一个是说还在吃,我起的名叫规模红利,我的规模非常大的时候,即使是浅层,我也能做出很好的效果来,为一些浅层就就了的应用提供很好的支持,所以会有这样的现象。但是另一方面,深层的玩法没有大的突破,要想抄底,别人不做,你来做,总要有一些瓷器活,但是这个瓷器活不行的。我想对目前这个主流的经营统计的浅层的处理,有两点我认为是需要高度肯定的,第一是解决了一个非良定义的人工定义的问题,就是说人知道这个边界在哪,但是没有数学公式把这个边界写出来,而且是相关的,不同的环境是浮动的,对这样的东西,使用统计学习的方式来获取领域知识,这是正面的,我认为这个方向是对的。

第二,是把符号的根基,不可再分的符号,代表了什么,这件事情映射,或者是根基置在网络空间上,说个简单的例子,关于在哪的问题,跟他的地图联系起来了,关于跟哪个人怎么样的问题,跟你的通讯录联系起来了,跟你的社交网络的帐号联系起来了,天气的问题,甚至是车次的问题,跟相应的这样一些服务联系起来了。这个是一个最重要的,高度肯定的一点。但是底下讲了,这是不够的,对语言学领域的这个知识到底长什么样,如果不知道长什么样就想学习,或者说随便传一个长什么样,然后就学习,这个效果差得很远,很少有人真的去关注语言学知识真往深了走到底长什么样。

深层的,没有什么,躲着后面,没有什么东西硬标准区看,能够拎出来的,或者说你可以画一样,他可以画另一样,大家的画法不一样,要解决共同面对的问题是明确的,一个是地规的深度,一个是相关的距离的宽度,相距越远还相关,这个地规的越深,越难处理,只要这两个有所突破,相信不管是画了一个什么样子,这个样子肯定是某种程度上反映了深层。我个人研究的兴趣,包括语言学知识长什么样,就是刚才所问题,利用这个东西做语言知识的自动报警,这个有很多的花样,可以加站,加技术器,可以把规则编译成RNN,和自动的机理是非常的接近,这个领域是值得过渡关注的。

自然语言作为知识表直接进行模式的推理和检索,是我带着学生做的方向,个人在语言学方向也有一些研究的兴趣。

语言从三个角度和AI是有贡献的,是一个自然的交互界面,善解人意绕不开这个界面,本身是一个知识,怎么学习,怎么表示,一般的怎么学习和怎么表示是其中之一,有共性的。是一个窗口,对语言的反应,我们是可以侧面了解内部发生的推理和表示。我提两个不指望,第一个是做了语言处理的,不指望AI在天上掉下语言处理的馅饼,还是靠自己认识语言,真正的在这个语言上做文章,而不要再其他的地方做文章,其他的地方没有出路。

第二个不指望是不指望语言处理的这个方向,如果突破了的话,对AI会导致什么样的飞跃,或者是什么东西,这也是不现实的,因为这个东西就是刚才说的,一个之一,就是一个边角的东西,虽然很重要,虽然躲不开,但是对那边没有太大的影响,那边该怎么研究就怎么研究。看到各种大脑计划,大脑计划的外写能力都离不开自然语言的处理能力,但是我们可以分几个类型,最后一个类型是最难,刚才说的高考是属于第三个层面的,到最后一个层面就是应用题,谁能了我觉得很令人佩服,如果做了是对语言下一层的东西掌握了。举一个应用题,是期权培训教材里面一个考题,自然语言理解怎么样处理这样一个题,通过什么方式入手来处理,这里面有计算和分析,还有价值取向,要赚钱,在这里面隐含了如何才是赚钱的,这是投资的一个逻辑。搞大脑计划,一般都是一个非常庞大的团队,我们也把各种不同的团队工作类型和他们的优点罗列了一下,会进行大规模的标注和训练,非线性领域的锻炼和开发,都种进行综合,这个做出来会很震撼,很酷,小团队也有优势,可以比较轻灵,特定领域,限用领域作出应用。

也有一种方式,游侠,不可能大规模的推开业务,只会做一些核心技术,特别是顶层的建模,这个语言学知识到底长什么样,决定了后续的学习手段加上之后到底能够走多远,这个东西我想一个项目立项之时,这个思路就已经定了,后面再做超不过局限,而这个游侠方式可以在这个地方走得更远。自然语言的关键问题还没有解决,应用方面取得一些进展不是偶然的,有其走得对的地方。突破的钥匙是掌握在语言学家或者是通晓语言学成果的人手里。最要害的试金石是两个地规协调,远距相关,深层的处理能力有标志性的进步,我们认为后面有很多机会,不仅大脑计划有机会,游侠模式也有机会,统计走不下去的地方,规则抄底的机会也是存在的。最后说关联,虽然我是这样的题目,结论是自然语言处理和人工智能并没有强关联,而自然语言处理可以为人工智能的进步做一点点贡献,但是比较微弱的。谢谢。

转自:http://tech.sina.com.cn/it/2015-03-22/doc-iavxeafs2005282.shtml

版权所有©2008-2014 国家语言资源监测与研究少数民族语言中心

地址:北京市海淀区中关村南大街27号中央民族大学理工楼516室(100081)

电话:010-68932421-8016 传真:010-68930880