赵小兵:语言与智能

作者:时间:2019-06-13点击数:

2019年6月3日晚,北京大学国际战略研究院举办第37次“北阁论衡”系列讲座。中央民族大学信息工程学院教授、中国语文现代化学会常任理事赵小兵以“语言与智能”为题对自然语言处理的历史、现状与未来进行了深入浅出的阐释。本次讲座由北京大学国际战略研究院副院长、北京大学国际关系学院副院长归泳涛主持。


讲座从语言与自然语言处理、人工智能与深度学习、挑战与未来,以及机构目前的工作四个方面展开。


首先,赵小兵教授以“语言与自然语言处理”展开话题,介绍自然语言处理如何作为人的自然语言与计算机的机器语言之间的沟通桥梁,通过理解、转换和生成,使计算机与人的语言完成对接。赵教授以机器翻译为例介绍其三个发展阶段:(1)上世纪80年代基于语法规则;(2)上世纪90年代基于统计(SMT)方法;(3)2010年后基于神经网络(NMT)。其中神经网络模式是目前主流。受益于计算机性能的大幅提升,该模型摆脱了“输入——切分——翻译——调序”的传统模式,致力于通过容量高达百万甚至千万双语句对的庞大语料库,直接建立起源语言与目标语言的映射关系。该方法目前已走出实验室,其成果已经为市场所接受。

786F

紧接着,赵小兵教授从“深度学习”的角度进一步评析了人工智能目前的发展成果与局限。人工智能的发展也大体出现了三次高潮:(1)20世纪中叶:规则推理阶段;(2)20世纪80年代:机器学习阶段;(3)21世纪初:深度学习阶段。目前,人工智能在“感知”领域有所突破,但在“认知”领域仍步履艰难。深度学习的本质是“归纳”。基于多重非线性变换的神经网络结构,机器已经可以从现象(例如文本、语音、图像)中对数据的标识进行抽象和学习,在规则明确的领域甚至做得比人类更出色,但却不能进行演绎推理,也做不到像人一样去理解语言背后的内容。例如机器可以从海量图片中提取“猫”的向量特征并识别出“猫”,但如果输入“四条腿,有胡须”却无法建构“猫”的形象。再例如机器可以回答美国总统是谁,却不能回答美国总统昨晚为什么睡不着觉。因此,深度学习不是人工智能的唯一,而只是人工智能实现人类智能的一种手段。运用机器模拟人类学习行为仍然任重而道远。


在第三部分,赵小兵教授引用比尔·盖茨所说的:“语言理解是人工智能领域皇冠上的明珠”进一步与大家探讨人工智能面临的挑战与未来。赵教授指出,由于尚未能做到语言认知,当前自然语言处理的性能取决于训练数据的质量。但考虑到语言的多样性、歧义性与对背景知识的依赖性,一方面,基于相关统计的数据驱动方法面临着鲁棒性(robust)差,经不起干扰的困境,因此难以避免“一百个谎言变成真理”的现象。另一方面,像人类一样进行“小样本学习”是自然语言处理的另一个难点。因此,人工智能目前还无法达到人类水平。人工智能的未来在推理,未来机器理解的发展趋势在于统计与推理结合,归纳与演绎融合。


最后,赵小兵教授介绍了所在机构正在承担的重点课题与工作,包括少数民族语言分词技术测评、跨语言社会舆情基础理论与关键技术研究、中国少数民族语言使用国情地图构建及国情分析(1949-2017)、少数民族语言使用国情数据库建设、蒙汉双语刑事判决文书知识图谱建设、藏汉跨语言旅游领域信息抽取及知识库建设、藏汉跨语言文本剽窃检测研究等。她还介绍,下一步工作将涵盖我国少数民族语言及部分“一带一路”沿线国家语言机器翻译、跨语言海外舆情分析与预警平台、多语言语义知识库等项目。这些工作基于自然语言处理前沿技术,将服务国家重大决策,进一步推动我国语言与智能领域的创新与发展。


版权所有©2008-2014 国家语言资源监测与研究少数民族语言中心

地址:北京市海淀区中关村南大街27号中央民族大学理工楼516室(100081)

电话:010-68932421-8016 传真:010-68930880