您当前的位置 :首页 > 黄金 > 内容
科学家正构建堪称AI“巴别塔”的知识图谱
2019-10-09 13:40:32 来源:笔山兴革网  作者:
关注笔山兴革网
微博
Qzone

“知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。”孙乐介绍,基于信息、知识和智能形成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。

为了在国内构建一个关于知识图谱的全新产学合作模式,知识图谱研讨会日前召开,来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系,建立世界领先的人工智能基础设施的开拓性工作。

国际在线消息(记者 马晓叶):日前,《中国新歌声》应邀赴台举办音乐交流活动时受到携带“台独”旗帜和标语的人有组织的冲击。对此,国台办新闻发言人马晓光在例行发布会上表示,两岸关系交流30年来,虽有波澜,但是交流合作是无法阻挡的历史趋势:“ 今年是两岸开启交流30年,30年的两岸关系发展历程充分说明,虽然有种种曲折和波澜,但是要交流、要合作是绝大多数,包括绝大多数台湾同胞在内的两岸民众的共同愿望,是阻挡不了的历史趋势。”

那如何将文本转化成知识呢?

资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;百度百科记录词条数1000万个,百度搜索中应用了联想搜索功能。

“因此知识图谱不会是一个静止的状态,而是要形成一个循环,这也是美国卡耐基梅隆大学等地方提出来的NeverEndingLearning(学无止境)的概念。”孙乐说。

“什么?偷东西的!”

17日12时30分左右,雅安市汉源县富林西城派出所接到群众报警称汉源湖上有一滑翔伞坠入湖中,伞上还有人!接警后,民警迅速赶到湖边联系了海事局,一同开着快艇抵达着落点,将坠湖男子救起。

释放积极信号

《圣经·旧约》记载,人类联合起来兴建希望能通往天堂的高塔——“巴别塔”,而今,创造AI的人类正在建造这样一座“巴别塔”,帮助人工智能企及人类智能。

流程编辑:孙昱杰

在杨晓培探索的古装工业化体系中,人才则是最为核心的生产力。

构建方式:从手工劳动到自动抽取

由广汽本田主办的首次汽车行业内公开实车测试挑战赛——雅阁锐混动极限挑战赛东北线日前开赛,8组媒体选手齐聚哈尔滨,挑战一箱油超长续航里程,以实测方式体验新雅阁锐混动电动行驶模式、混合动力行驶模式、发动机行驶模式这三种驾驶模式下的动力和油耗表现,探索新雅阁锐混动的“节油”极限。

“如果这些关系足够完善,机器就具备了理解语言的基础。”孙乐说。那么如何让机器拥有这样的“理解力”呢?

“根要往下生,花要向上开”,花朵越是鲜艳,果实越是饱满,就越需要根系深入沃土,汲取养分。“八八战略”是在实践中产生的,又经历了实践的检验,最终成功指导实践,是坚持实事求是这一党的思想路线的成果。在全面建成小康社会决胜阶段、中国特色社会主义进入新时代的关键时期,任何一项决策部署都要秉承实事求是的思想路线,体现求真务实。

“这里包括主观知识,比如社交网站上人们对某个产品的态度是喜欢还是不喜欢;场景知识,比如在某个特定场景中应该怎么做;语言知识,例如各种语言语法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让计算机明白。”孙乐解释,从这些初步的分类中就能感受到知识的海量,更别说那些高层次的科学知识了。

“目前,还不能做到让机器理解人的语言。”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri,还是会做诗的小冰,亦或是会“悬丝诊脉”的沃森,它们并不真正明白自己在做什么、为什么这么做。

新华社/欧新

生产线上忙碌的机器人大大减少了人工的使用 摄影:孙清

这要从民国三年(1914年)四月十五日直隶省行政公署“邮寄张裕酿酒公司”的一份公函说起。这份公函的收件人为“考查南洋商务、筹办内地开埠事宜张”,也即民国元年被大总统委以考查南洋商务、筹办内地开埠事宜重任的张裕公司创始人张弼士先生。公函第一段称:“迳复者。实业司案呈,接准尊处函开,前因山海关外距城十余里之吴家岭官荒山场,颇宜种植,拟领该处地段,暂行试种果品,以开风气而辟利源。业于本年二月间,面旨贵司详陈,当蒙允为提倡,一切实深寅感。现经派代表前往实行勘丈,以凭呈报启办。惟该地是否全系官荒、有无居民侵种,自应由该县(注:临榆县)先行派书清查,手续方为完善……”

“这是一幅充满美好前景的宏伟蓝图。”孙乐说,知识图谱的最终目标是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。

投稿邮箱:jfjbwx@163.com;

五矿发展股份有限公司

孙乐的演示课件中,有一张生动的图画,一大摞文件纸吃进去,电脑马上转化为“知识”,但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“百度知识图谱”的介绍中这样写道:对提交至知识图谱的数据转换为遵循Schema的实体对象,并进行统一的数据清洗、对齐、融合、关联等知识计算,完成图谱的构建。“但是大家发现,基于维基百科,结构化半结构化数据挖掘出来的知识图谱还是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说,例如谷歌的KnowledgeVault,以及美国国家标准与技术研究院主办的TAC-KBP评测,也都在推进从文本中抽取知识的技术。

终极目标:将人类知识全部结构化

【政策】今年的政府工作报告提出,继续提高退休人员基本养老金,确保按时足额发放。城乡居民医保财政补助由每人每年420元提高到450元。

在权威的“知识库自动构建国际评测”中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所—搜狗联合团队获得综合性能指标第3名,事件抽取单项指标第1名的好成绩。

据俄新社6月22日报道,斯卢茨基接受记者当日采访时说道:“欧盟正被赶入死胡同。在最近三年中,欧洲的损失未必会比俄罗斯所遭受的损失少。

3小时内降雨量将达100毫米以上,或者已达100毫米以上且降雨可能持续。

分析人士说,美国中西部地区即将出现的高温天气可能对农作物生长造成损害,这一消息助推玉米和大豆期价上涨。

英媒称,中国共产党告诫党员要坚持马克思列宁主义,不要相信“鬼神”。这是它根除迷信行为的最新努力。

河南省气象台预计,今天全省多云,大部地区最高气温在30℃或以上,在干热中结束5月。

战备建设局局长孟凡清说:“我们坚持高端政治站位,坚决贯彻党委意图,注重科学有力指导,立起从严治训导向,努力当好党委首长的参谋智囊,高标准完成新年度军事训练任务。”

新华社南宁5月10日电 10日,广西壮族自治区桂林市中级人民法院公开开庭审理了犯罪嫌疑人黄艳兰贪污违法所得没收申请一案。该案系2018“天网”专项行动重点案件。桂林市人民检察院派员出庭支持申请,利害关系人均委托诉讼代理人到庭参加诉讼。

“2010年之后,维基百科开始尝试‘众包’的方式,每个人都能够贡献知识。”孙乐说,这让知识图谱的积累速度大大增加,后续百度百科、互动百科等也采取了类似的知识搜集方式,发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加,无数的知识从四面八方赶来,迅速集聚,只待“成塔”。

本公司董事会及全体董事保证本公告内容不存在任何虚假记载、误导性陈述或者重大遗漏并对其内容的真实性、准确性和完整性承担个别及连带责任。

“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。”孙乐举例说。比如说到“姚明”,人会想到他是前美职篮球员、“小巨人”、中锋等,而“上海”会让人想到东方明珠、繁华都市等含义。但对于机器来说,仅仅说“姚明是上海人”,它不能和人类一样明白其背后的含义。机器理解文本,首先就需要了解背景知识。

尽管令业内满意的“真正理解语言的系统”还远未出现,目前的“巴别塔”还只是在基础层面,但相关的应用已经显示出广阔的前景。例如,在百度百科输入“冷冻电镜”,右竖条的关联将出现“施一公”,输入“撒币”,将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。

新华社照片,外代,2018年4月11日

图2FY-3B气象卫星沙尘监测示意图像2016年4月22日13:05(北京时)

面对如此大量的数据,或者说“文本”,知识图谱的构建工作自然不能再手工劳动,“让机器自动抽取结构化的知识,自动生成‘三元组’。”孙乐说,学术界和产业界开发出了不同的构架、体系,能够自动或半自动地从文本中生成机器可识别的知识。

“在医学领域、人物关系等特定领域,也有专门的知识图谱。”孙乐介绍,Kinships描述人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学领域描述了医学概念之间的联系,135个实体,49种关系,6800个事实。

“上世纪六十年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用SemanticNetwork来建模世界知识,这些都可被看作是知识图谱的前身。”孙乐说。

“我国在这一领域可以和国际水平比肩。”孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获取算法,基于多源知识监督的关系抽取算法等,大幅度降低了文本知识抽取工具构建模型的成本,并提升了性能。

技术原理:把文本转化成知识

如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨,那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑。

自动的做法让知识量开始形成规模,达到了能够支持实际应用的量级。“但是这种转化,还远远未达到人类的知识水平。”孙乐说,何况人类的知识一直在增加、更新,一直在动态变化,理解也应该与时俱进地体现在机器“脑”中。

让机器学会思考,要靠“谱”。这个“谱”被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成能够支撑类脑推理的知识库。

随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作。

“借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技术。”孙乐说,目前比较流行的是使用“三元组”的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以和上海构成出生地的关系,可以和美职篮构成效力关系,还可以和2.26米构成身高关系。

本报记者张佳星

在中华人民共和国成立68周年国庆以及中秋佳节到来之际,远在欧洲的克罗地亚,一座古罗马时期的古老竞技场近日进行了点亮中国红活动,同中国人民一起庆祝中国国庆。

上一篇:[11](外代二线)足球——德甲联赛:莱比锡平多特蒙德
下一篇:工银瑞信基金管理有限公司工银瑞信优势品牌定期开放灵活配置混合