当前位置 :主页 > 家电 >
靠这个“谱”让机器会思考-千龙网?中国首都网
来源:http://www.jobsforknox.com 作者: * 发表时间 : 2018-01-24 20:34 * 浏览 :

假如说波士顿能源的翻跟头是在帮机器人锻炼筋骨,那么知识图谱的“绘制;则是在试图“发明;一个能运行的机器人大脑。

“目前,还不能做到让机器理解人的语言。;中国迷信院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri,还是会做诗的小冰,亦或是会“悬丝诊脉;的沃森,它们并不真正明白自己在做什么、为什么这么做。

让机器学会思考,要靠“谱;。这个“谱;被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成可以支撑类脑推理的知识库。

为了在国内构建一个对知识图谱的全新产学配合模式,知识图谱研究会日前召开,来自高校院所的研究人员与工业团队共商打造寰球化的知识图谱体系,建立世界当先的人工智能基本设施的开拓性工作,香港六跟合开奖成果直播

技术原理:把文本转化成知识

“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。;孙乐举例说。比方说到“姚明;,人会想到他是前美职篮球员、“小巨人;、中锋等,而“上海;会让人想到东方明珠、繁华都市等含意。但对机器来说,仅仅说“姚明是上海人;,它不能和人类一样清楚其背地的含意。机器理解文本,首先就需要懂得背景知识。

那如何将文本转化成知识呢?

“借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技能。;孙乐说,目前比较盛行的是应用“三元组;的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以跟上海造成出生地的关系,可以和美职篮构功效率关系,还可以和2.26米构成身高关系。

“如果这些关系足够完善,机器就具备了理解语言的基础。;孙乐说。那么如何让机器领有这样的“理解力;呢?

“上世纪六十年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统名目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究局部的玛格丽特·玛斯特曼在1961年应用Semantic Network来建模世界知识,这些都可被看作是知识图谱的前身。;孙乐说。

随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作。

“这里包括主观知识,香港正版,比喻社交网站上人们对某个产品的态度是爱好还是不喜好;场景知识,比如在某个特定场景中应该怎么做;语言知识,例如各种语语言法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让打算机明白。;孙乐阐明,从这些初步的分类中就能感想到知识的海量,更别说那些高品位的科学知识了。

构建方法:从手工劳动到自动抽取

“2010年之后,维基百科开始尝试‘众包’的方式,每个人都能够贡献知识。;孙乐说,这让知识图谱的积累速度大大增加,后续百度百科、互动百科等也采取了类似的知识收集方式,发动民众使得“积沙;这个环节的时间大大缩短、效力大大增加,无数的知识从四面八方赶来,迅速汇聚,只待“成塔;。

面对如此大量的数据,或者说“文本;,知识图谱的构建工作造作不能再手工劳动,“让机器自动抽取结构化的知识,自动天生‘三元组’。;孙乐说,学术界和产业界开发出了不同的构架、系统,可能自动或半自动地从文本中天活力器可识别的知识。

孙乐的演示课件中,有一张活跃的图画,一大摞文件纸吃进去,电脑立即转化为“知识;,但事实远不那么简单。主动抽取结构化数据在不同行业还不同一的打算。在“百度常识图谱;的先容中这样写道:对提交至知识图谱的数据转换为遵照Schema的实体对象,并进行统一的数据荡涤、对齐、融合、关联等知识盘算,实现图谱的构建。“然而大家发现,基于维基百科,构造化半结构化数据挖掘出来的知识图谱仍是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。;孙乐说,例如谷歌的Knowledge Vault,以及美国国家标准与技巧研讨院主办的TAC-KBP评测,也都在推进从文本中抽取知识的技术。

在权威的“知识库自动构建国际评测;中,从文本中抽取知识被分解为实体发明、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所—搜狗结合团队获得综合机能指标第3名,事件抽取单项指标第1名的好成绩。

“我国在这一范畴能够和国际水平比肩。;孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获取算法,基于多源知识监督的关系抽取算法等,大幅度降落了文本知识抽取工具构建模型的成本,并提升了性能。

终纵目的:将人类知识全体结构化

《圣经·旧约》记载,人类联合起来兴建渴望能通往天堂的高塔——“巴别塔;,而今,创造AI的人类正在建造这样一座“巴别塔;,帮助人工智能企及人类智能。

自动的做法让知识量开端形成规模,达到了可能支持实际应用的量级。“然而这种转化,还远远未到达人类的知识程度。;孙乐说,何况人类的知识始终在增添、更新,始终在动态变革,懂得也应当与时俱进地体当初机器“脑;中。

“因而知识图谱不会是一个静止的状态,而是要构成一个循环,这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念。;孙乐说。

资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;百度百科记录词条数1000万个,百度搜寻中利用了联想搜索功能。

“在医学领域、人物关系等特定领域,也有专门的常识图谱。;孙乐介绍,Kinships描写人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学范围描述了医学概念之间的联系,135个实体,49种关联,6800个事实。

“这是一幅充满美好前景的宏伟蓝图。;孙乐说,知识图谱的终纵目的是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。

只管令业内满意的“真正理解语言的体系;还远未出现,目前的“巴别塔;还只是在基础层面,但相关的运用已经显示出广阔的远景。例如,在百度百科输入“冷冻电镜;,右竖条的关系将浮现“施一公;,输入“撒币;,将直接在搜查项中呈现“王思聪;等相关项。其中蕴含着机器对人类用意的理解。

“知识图谱的应用波及到众多行业,尤其是知识密集型行业,目前关注度比拟高的领域:医疗、金融、法律、电商、智能家电等。;孙乐介绍,基于信息、知识和智能造成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,一直迭代,就可以一直发生更加丰富的知识图谱,更加智能的应用。(记者 张佳星)

相干的主题文章: 相关的主题文章: