您当前的位置: 宝莲灯论坛73233 > 宝莲灯论坛73233 >
  • 阿里巴巴AAAI 18论文CoLink:学问图谱实体链接无监
  •   发布时间: 2019-05-23   

  学问图谱上的实体链接问题定义为:其输入包罗一个源学问图谱和一个方针学问图谱。其输出为一个实体链接对换集,暗示从源图谱中链接到方针图谱中的实体对。

  CoLink 利用两个的模子:一个基于属性的模子和一个基于关系的模子。基于属性的模子和基于关系的模子都是二元分类器,决定两个实体能否能链接起来。它们能够基于任何机械进修或式算法。因而,只需学问图谱材料中包含属性和关系,那就能够将 CoLink 使用于该学问图谱的实体链接问题上。

  我们正在本论文中提出了 CoLink,一种用于实体消息链接问题的通用型无监视框架。CoLink 利用了一种能同时操做两个模子(基于属性的模子和基于关系的模子)的协同锻炼算法,而且能以无监视进修的体例迭代式地让两个模子相互互相加强。我们还提出利用「序列到序列」进修做为基于属性的模子很是无效,这种方式能将属性对齐难题当做机械翻译问题处置。我们将 CoLink 使用到了将企业收集中的员工映照到他们的领英(LinkedIn)小我材料的实体消息链接使命上。尝试成果表白 CoLink 正在 F1 分数上的表示跨越之前最佳的无监视方式的 20% 以上。

  我们将 CoLink 使用到链接社交收集的不异用户的使命上,此中我们试图将企业收集中的员工和他们的领英小我材料链接起来。我们进一步比力了 CoLink 和之前最佳的无监视方式。尝试成果表白 CoLink 正在 F1 分数上的表示总体上能跨越之前最佳的无监视方式的 20%。我们的贡献总结如下:

  第二,分歧子学问图谱的实体属性凡是有很是分歧的定义体例和格局,这使得属性对齐(attribute alignment)很是坚苦。

  将几个子学问图谱上的统一实体消息链接正在一路(也被称为用户身份链接(UIL)问题)对良多使用而言都至关主要。实体链接问题有两大次要难点。

  基于属性的模子通过考虑实体的属性来预测链接的实体对。它能够利用任何分类算法。正在这篇论文中,我们测验考试了两种分歧的机械进修算法:「序列到序列」和支撑向量机(SVM)。

  基于关系的模子仅利用实体关系来预测链接实体对。只按照关系来寻找两个收集中划一结点的问题凡是被称为收集对齐问题。

  我们按照之前的工做,利用已链接属性值配对锻炼了「序列到序列」收集。可是,我们不是利用收集预测输出序列,而是正在 CoLink 中利用所进修到的「序列到序列」收集来进行二元分类。起首,我们利用该收集求出对于一对属性婚配的概率。然后,我们选择一个婚配概率阈值,跨越该阈值的实体对被认为是有链接的。

  该协同锻炼算法的启动需要一个已链接实体对形成的小型种子集。获取种子集的一种简单间接的方式是按照人工设想的法则来生成,我们称之为种子法则。这些种子法则能够考虑来自方针学问图谱的以下现实:

  图 3 给出了分歧阈值的比力环境。利用更严酷的阈值(更小的百分数)会获得更高的精度和相对更低的召回率。我们正在本使命当选择的阈值是 95%。

  以下为阿里巴巴 AI Lab 取微软研究院、伊利诺伊大学厄巴纳-喷鼻槟分校的合做论文解读。

  SVM 等保守的分类算法也能够用正在基于属性的模子中。分歧于只需要正例锻炼样本(已链接配对)的「序列到序列」方式,SVM 还需要负例。由于用户配对空间很是大,所以正例正在整个空间中现实上很是稀少。正在每次结合锻炼迭代中,给定已链接配对,我们还会选择划一数量的随机实体对做为负例。

  正在两个子学问图谱之间链接实体需要细心比对两个子图谱中的实体属性,好比名称、职位、等。因而,属性值的对齐对实体链接问题而言至关主要。可是,保守的字符串类似度函数有两个不脚之处:

  原题目:阿里巴巴AAAI 18论文CoLink:学问图谱实体链接无监视进修框架 雷锋网 AI 科技评

  虽然机械进修算法曾经正在实体链接问题上获得了普遍的使用,但锻炼数据的标注工做并不简单。起首,寻找已链接实体消息配对是极其耗时的,由于这需要搜刮所有子学问图谱以及细心评估大量候选配对。别的这个工做还需要人类标注者具有普遍的范畴学问。其次,因为现私的缘由,并非所有学问图谱的实体数据都能够供给给人类标注者,特别是当这些材料来自小我社交收集或企业内部收集时。

  基于关系的模子能够利用任何基于关系的收集对齐模子。由于本文的沉点是协同锻炼算法和「序列到序列」的基于属性的模子,所以我们正在本论文中利用了一种简单的式模子,该模子基于一个假设:若是两个来自分歧收集的实体都具有大量互相联系关系的已链接实体,那么这两个实体很可能也是链接的。

  正在这篇论文中,我们提出了一种用于实体链接问题的通用型无监视框架 CoLink。学问图谱中的实体数据能够天然地划分为两个的角度的特征:属性和关系,这完满契合协同锻炼(co-training)算法的要求。

  因为属性有分歧的变化形式,所以保守的字符串类似度方式正在处置属性对齐方面表示很差。因为属性对齐雷同于机械翻译问题,所以我们采用了「序列到序列」方式。缩略语、缩写、同义词以至现式链接都可被视为翻译的特殊环境。

  更进一步,我们正在 CoLink 的基于属性的模子的实现中利用了「序列到序列」进修算法,这为分歧实体收集之间的属性对齐供给了一种通用方式。我们没有将属性对齐当成字符串类似度比力而进行处置,而是试图将一种「言语」(一种特定气概的收集)的属性值「翻译」成另一种「言语」。缩略语、缩写、同义词以至现式对应关系都可被视为翻译的特殊环境。我们选择「序列到序列」算法的缘由是其曾经表示出了正在机械翻译使命上的无效性。具体而言,「序列到序列」方式有两种可用于 CoLink 的劣势。起首,它几乎无需手动提取特征就能从动获得词层面的映照和序列层面的映照。其次,它只需要正例(已对齐的属性对)做为锻炼数据,这能减轻采样负例的工做。

  我们采用了 Sutskever, Vinyals, and Le (2014) 提出的「序列到序列」收集布局。该收集由两部门形成:序列编码器和序列解码器。编码器息争码器都利用了深度长短期回忆(LSTM)架构。编码器深度 LSTM 会读取输入序列并求出每个词的暗示向量。然后这些向量会被送入一个留意层(attention layer),从而获得一个考虑了输出词的输入序列的全体暗示。然后解码器深度 LSTM 的躲藏形态会进一步被送入一个全毗连层(其输出包含词汇库大小的维度消息),进而预测输出词。

  我们选择了一个实正在数据集来评估 CoLink,它包含两个社交收集。此中一个社交收集是领英,另一个收集是一个企业内部用户收集。

  雷锋网 AI 科技评论按:阿里巴巴有11 篇论文被 AAAI 2018录用,别离来自机械智能手艺尝试室、营业平台事业部、阿里妈妈事业部、人工智能尝试室、云零售事业部,此中有 5 位做者受邀正在从会做 Oral&Spotlight 形式演讲,还有 1 位做者携两篇论文正在从会以 Poster 形式做演讲。论文内容涉及匹敌进修、神经收集、提高轻量收集机能的锻炼框架、机械翻译、聊器人、无监视进修框架、极限低比特神经收集等手艺标的目的。

  这个协同锻炼算法不会点窜之前的迭代中生成的已链接配对。因而由之前的迭代引入的误差不会正在后面获得修复。这种算法的一种替代方案是正在协同锻炼之后进行一次最终点窜。即利用该协同进修过程所获得的最终模子来沉构 S。

  我们最早将属性对齐问题建模为机械翻译。我们利用「序列到序列」方式做为基于属性的模子的根本,这几乎无需提取特征就能实现很好的泛化。

  我们的尝试比力了 CoLink 取当前最佳的无监视方式。我们还研究了种子法则和链接概率阈值的选择,以更好地舆解它们对链接成果的可能影响体例。

  我们通过将关系特征和属性特征分隔而利用了协同锻炼。基于属性的模子和基于关系的模子都能正在每次迭代中找到新配对然后加强相互。图 2 给出了每个模子所获得的已链接配对的统计环境。正在这项使命中,基于属性的模子生成的配对比基于关系的模子多,这是由于我们没有完整的领英关系数据。我们爬取了公开的领英小我材料中的「人们还看了」列表,这只能为每位用户供给不到 10 个关系。

  我们尝试中的「序列到序列」收集由一个带留意收集的深度 LSTM 编码器和一个深度 LSTM 解码器形成。编码器深度 LSTM 息争码器深度 LSTM 都有 2 个层叠的 LSTM,由于我们发觉对于实体链接使命而言,跨越 2 层的编码器或解码器不克不及再带来更多提拔。每个 LSTM 的轮回单位大小为 512。每个词正在被送入编码器息争码器之前都起首会被转换成一个 512 维的嵌入向量。「序列到序列」模子的锻炼时间取决于锻炼数据的规模。平均而言,利用一个 Tesla K40 GPU,让模子正在 10 万个属性配对上完成锻炼需要 30 分钟。

  我们建立了一个候选实体对过滤器,它能移除大量不成能链接的实体对。该候选项过滤器考虑了以部属性。

  将分歧子学问图谱上的统一实体消息链接起来(也被称为用户身份链接(UIL)问题)凡是能获得对该实体的更好和更深度的理解,这凡是又能进一步获得更好的贸易智能。

  通过利用「序列到序列」方式,CoLink 能够处置利用保守字符串类似度函数难以对付的属性对齐问题。表 3 给出了一些选择出的该当是对齐的属性示例以及来自分歧方式的类似度分数(全都位于 [0,1] 区间中)。正在「序列到序列」的帮帮下,几乎无需提取特征,就能够轻松地将这种方式使用于其它实体婚配使命。

  我们最早将协同锻炼算法用正在了学问图谱实体链接的问题上。因为实体收集中的实体属性和实体关系是天然分隔的,这使得协同锻炼是一种完满且无成本的处理方案。

  CoLink 框架基于如算法 1 所示的协同锻炼算法。我们正在该框架中定义两个分歧的模子:一个基于属性的模子 tt 和一个基于关系的模子 frel。这两个模子城市进行二元分类预测,将一组给定实体对分类为正例(链接的)或负例(非链接的)。该协同锻炼算法以迭代的体例不竭加强这两个模子。正在每一次协同锻炼迭代过程中,两个模子城市利用已链接配对集 S 进行再锻炼。然后利用这两个模子生成的高质量的已链接配对会被归并到 S 中以用于下一次迭代,曲到 S 。正在最起头时,需要一个初始的已链接配对集(简称种子集)来启动这个协同锻炼过程,这个调集能够通过一组种子法则生成。按照模子所用的算法,基于属性的模子和基于关系的模子的锻炼可能会需要负例。算法 1 中没有给出采样负例的过程。

  我们进行了大量尝试,比力了我们提出的方式和之前最佳的无监视方式,列举了分歧的设置和模子,成果表了然我们提出的处理方案的无效性。

  相关链接:



友情链接: 万森娱乐平台 足球盘口赔率 nba澳门盘口 怎么看澳门盘口 皇冠走地赔率

Copyright 2018-2019 宝莲灯论坛73233 版权所有 未经授权,严禁转载,违者将被追究法律责任。