用自然的方式做自然语言处理--序言
进入人工智能领域两年多了,一直在做自然语言处理和知识图谱相关的工作,正好赶上了大规模预训练语言模型崛起的时代,只是一直觉得这个思路似乎不那么自然,我们的语言模型,本质上还是一个大的拟合方程,这与人类自己理解语言的方式完全不同。
一直觉得深度学习更适合去发现未知的规律,像商品推荐、下围棋这样的事情,人类自己也无法准确解释其背后的原因,这种情况下,通过海量的数据,超级复杂的深度神经网络来拟合出其中的规律,反而会对人类进一步去寻找这些表象背后的真实原因更有帮助。
而对于自然语言来说,这是一个每个人都能理解,都能说清楚的事情,是有明确的规则在里面的,这样的事情,用深度学习这样的黑盒模型去拟合,导致了其结果的不可解释性。语法规则的数量十分庞大,各种特例、特殊规则,有很多,这也就导致了,为了准确的拟合出自然语言的效果,我们所需要的参数量也越来越多,也许终有一天,量变会引起质变,我们的模型的大到真的能够拟合出人的神经系统,也能实现了真正意义上的理解自然语言。
而在当下,也许我们可以尝试下另外的思路,不是从大脑的生理结构去模拟一个人工神经网络出来,而是按照人类的逻辑思维模式让机器去处理人类的语言。
语言是语法规则和知识的合集。
当然,这只是语言的表现形式,本质上,我认为语言是一种工具,是人类传递记载信息的工具。人们借助约定俗成的语法规则,通过声音,文字,图像等不同类型信号,传递自己的思想,表达内心的感情,记录观察到的现象。想要听懂人类的语言,自然就要了解人类语言的语法规则,学习人类世界的知识。
语言是语法规则的合集,这很好理解,很多时候,我们甚至把语言学等同于语法规则研究,然而大自然的语言仿写,现实中很多时候,想要正确的理解一句话,没有知识,也是不行的。
比如,“中国足球谁都打不过”和“中国乒乓球谁都打不过”,从语法规则上看,结构是完全一样的,但是所表达的意思却完全不同,然而对于大部分中国人来说,这两句话都不会产生歧义,因为大部分国人对这里面包含的两个知识点都有着痛彻的领悟。
其实人们一直在尝试在自然语言处理中引入知识,之前也有的论文证明了Bert中包含了许多常识。人类的知识的数量就更加庞大了,想要把这些知识也预存在模型中,这所需的参数量,就更加难以想象了。另一种思路就是引入已有的知识库,把知识作为外部特征整合进模型中。
因此,我们认为,想要机器能够听懂人话大自然的语言仿写,实现跟人类的正常交流,语法规则和知识库是必不可少的两大要素。而这个系列所要讲述的,就是如何自然地,可解释地把语法规则和知识库应用到自然语言处理中去。
以上为陆作网整理发布,希望对大家有所帮助!
- 上一篇: 有名的归隐田园诗句集合3篇
- 下一篇: 归来倚仗自叹息 看完那些背串词的课文,会背也要被带歪了