您当前的位置: 宝莲灯论坛73233 > 宝莲灯论坛73233 >
  • 一周论文 基于学问图谱的问答系统环节手艺研究
  •   发布时间: 2019-05-21   

  此节通过最大化式 5.14 来估量 P(pt)。模子用参数 θ 和它对应的对数-似然概率来暗示分布 P(PT)。同时模子用 θpt 来暗示概率 P(pt)。所以下式被用来估量 θ:此中

  如许,问题暗示的使命为了将问题映照到现有模板的使命。为了完成这一点,系统将问题中的实体替代为它的概念。如图 5.1,Honolulu 会被 $city 所替代。这一过程并不是间接的。它通过一种称为概念化[87, 50]的机制完成目标。这一机制会从动对输入进行歧义消弭(因而苹果的总部是什么中的苹果会被概念化为 $company 而非 $fruit)。概念化机制本身基于一个考虑数百万种概念的语义收集(Probase [103]),其具有脚够的粒度来模板化所有类型的问题。

  KBQA 通过 QA 语料库和学问图谱进行进修。因为问答过程的不确定性(一些问题的企图是恍惚的)、不完整性(学问图谱几乎老是不完整的)和乐音(QA 语料库中的问答可能是错误的)等问题,本章为学问图谱上的问答系统建立了一个概率模子。需要强调的是从问题企图到学问图谱属性的不确定性。例如,问题 Barack Obama 来自哪里?至多取 Freebase 中的两个属性毗连:“place of birth”、“place lived location”。正在 DBpedia 中,谁建立了 $organization? 取属性“founder”、“ther”均相关。

  正在实体-谜底值提取后,每个 QA 对 (qi,ai) 被转移到一个问题和一个实体-谜底值对换集也就是 EVi 中。假设实体-谜底值对之间是的,察看如许的一个 QA 对的概率为:

  现正在,最大化 QA 的似然概率等同于最大化X的似然概率。用式 5.2 中的生成模子,通过解除所有模板 t 和属性 p 的结合概率 P(q,e,t, p,v),模子可以或许计较 P(qi,ei,vi)。式 5.14 暗示了这种似然概率。

  此中 β = αn−∑ni=1 EVi 被视做一个常量。式 5.11 意味着 LQA 取这些问题-实体-谜底值三元组的似然概率成比例。令 X 为从 QA 语料库中提取的这类三元组调集:

  这一步调中,算法列举所有的 zi,通过式 5.21 计较 P(ziX,θ(s))。这一步调的复杂度为 O(m)。M步调:

  P(eq) 这一分布代表从问题中辨识实体。当满脚以下两个前提时,将其辨识为实体:(a)它是问题中的一个实体;(b)它正在学问图谱中。对于 (a),系统利用Stanford Named Entity Recognizer [33]。对于 (b),系统查验实体的名字能否正在学问图谱中。若是存正在多个候选实体,简单地赐与他们一样的概率。系统通过 q 的回覆优化离线过程中 P(eq) 的计较。由第 4.1. 节知,系统曾经从问题 qi 和回覆 ai 中提取了实体-值对 EVi。假定 EVi 中的实体有相等的概率来被生成:

  RDF 学问图谱给定一个问题,系统正在一个 RDF 学问图谱中寻找其回覆。一个 RDF 学问图谱 K 是一个(s,p,o)格局三元组的调集,这里 s, p, o 别离暗示从语,属性和宾语。图 1.1 通过一个边带标注的有向图展现了一个示例的 RDF 学问图谱。每个(s, p, o)都由一条从 s 指向 o,标注有属性 p 的边暗示。例如,从 a 指向 1961 的标注有 dob 的边暗示 RDF 三元组(a,dob,1961),意味着 Barack Obama 出生于 1961 年。

  基于学问图谱的 QA 曾经有了较长的汗青。比来,大规模学问图谱,如 GoogleKnowledge Graph, Freebase[10], YAGO2[45]等,不竭出现,极大地添加了问答系统的主要性和贸易价值。大部门如许的学问图谱采用了 RDF 做为数据格局,而且它们包含数以百万或是十亿的 SPO 三元组(S,P,O别离暗示从体,属性,宾语)。

  此中⊂暗示“是......的子串”。系统支撑近似婚配(好比“390K”取“395,327”婚配),从而能添加召回值。如例 5.3 所示。

  比拟于间接优化 L(θ),式 5.20 中定义“Q-函数”做为察看完整数据似然概率的期望。这里 θ(s) 是 θ 正在迭代 s 下的估量值。按照 5.4,当把 h(θ(s)) 视为常量时,Q(θ;θ(s)) 为 L(θ) 供给了一个下界。因而,算法测验考试去优化 Q(θ;θ(s)),而不是间接优化 L(θ)

  给定问题 q,问答系统的方针是寻找具有最大要率的回覆 v(v 是一个简单值):为了申明给定问题时若何寻找方针值,系统利用了一个生成模子。从用户问题 q 起头,系统起首通过其分布 P(eq) 生成/识别它的实体 e。正在得知了问题和实体之后,系统按照分布 P(tq,e) 发生模板 t。因为属性 p 仅依赖于 t,系统能够通过 P(pt) 来揣度 p。最终,给定实体 e 和属性 p,系统通过 v 发生回覆值 P(ve, p)。v 能够被间接前往,或是嵌入一个天然言语句子做为回覆。例 5.2 阐了然生成过程,而且显示了图 5.3 中随机变量的依赖关系。基于这个生成模子,能够如下计较 P(q, e, t , p, v)

  考虑表 5.2 中的 (q1,a1)。很多单词(例如 the,was,in)正在谜底中是无用的。留意到图 1.1 中,q1 中的实体 Barack Obama 取 1961 由属性“dob”毗连,从而提取无效值 1961。同时要留意这步中系统也提取了乐音值 politician。下面的精辟步调将展现若何过滤它。EVi 的精辟正在 EV(q,a) 中系统过滤了乐音对。例如例 5.3 中的(Barack Obama,politician)。曲觉表白:准确值和问题该当属于统一类别。这里问题的类别暗示问题的预期谜底的类别。问题分类[66]曾经有了相关研究。KBQA 系统利用 UIUC 分类框架[61]。并利用[66]中提出的具体分类方式。对于谜底值分类,系统参考其属性的分类。属性分类是通过人工标识表记标帜实现的。由于属性总共只要几千个,因而人工标识表记标帜是可行的。

  给定了上述的方针函数,问题化简为对式 5.2 中各个概率项的计较。此中 P( pt ) 正在离线 节),其他全数概率项能够通过现成的处理方案(例如概念化、NER)计较。第 3.2. 将详述这些概率的计较过程。第 3.3. 节将基于这些概率成果详述正在线过程。图 5.3:概率图模子

  这一步调中,对每一个θ(s+1)Pt,算法计较 ∑m P(Zi= (p,t)X,θ(s))。间接计较需要耗损 O(mPT) 的时间,由于算法需要列举全数可能的模板和属性。接下来,通过对每个 i 只列举常量的模板和属性,算法的复杂度能够被削减为 O(m)。留意到只要 P(zi = (p,t)X,θ(s)) 0 的 Zi 需要考虑。由式 5.19 和 5.21 可知:

  正如第 3.2. 节所会商的, f () 能够正在估量 P( pt ) 之前被计较。所以它被视做一个已知的因子。

  正在线过程:当一个问题到来,系统起首将其解析和分化为一系列二元现实型问题。这一分化过程将正在第 5 节详述。对于每个二元现实型问题,系统利用概率揣度来寻找它的值,如第 3 节所示。这一揣度基于给定模板的属性分布,亦即 P( pt)。这一分布是离线习得的。

  P(ve, p) 对于实体 e 和一个关于 e 的属性 p,正在学问图谱中寻找属性指向的值 v 是容易的。例如,正在图 1.1 所示的学问图谱中,让实体 e = Barack Obama,属性 p = dob,很容易就很能从学问图谱中获得获得 Obama 出生年份 1961。正在这一例子中,P(1961Barack Obama,dob) = 1,由于 Obama 只要一个华诞。有一些属性可能有多个指向的值(例如 Obama 的孩子)。正在如许的例子中,模子假定所有可能的值有不异的概率。更形式化地,能够通过如下公式计较 P(ve, p):

  将模板映照到属性系统从雅虎问答(Yahoo! Answers)中进修模板以及若何将模板映照到学问图谱中的属性。这一问题取语析[13, 14]雷同。从模板到属性的映照是多对一的,换言之,每个属性都对应于多个问题模板。系同一共进修了 2782 个属性的 27, 126, 355 种分歧的模板。这一庞大的数目了基于模板的问答系统的高笼盖率。

  二元现实型 QA本章次要关心二元现实型问题(BFQ),亦即扣问某个实体的某种属性的问题。例如,表 1.1 中除 ○f 外的所有问题均为 BFQ。

  接下来,第 4.1.1. 节起首从给定的 QA 对中提取实体-谜底值对,从而实现对问题-实体-谜底值三元组 (X) 的似然概率的公式化。然后,第 5.13 节和第 4.1.2. 节成立了 QA 语料库和 X 的似然概率之间的关系。

  问答系统(QA)曾经成为人类拜候十亿级学问图谱的风行体例。取收集搜刮分歧,正在天然言语问题可以或许被切确地舆解和映照到学问图谱上的布局化查询的前提下,基于学问图谱的问答系统将给出精确且简练的成果。这此中的挑和是人类能够以很多分歧的体例提出统一扣问。现有的处理方案因为它们的模子暗示而有着天然的缺陷:基于法则的实现只能理解一小部门的问题,而基于环节词或同义词的实现不克不及完整地舆解问题。正在十亿规模的学问图谱和百万规模的问答语料库的根本上,本章设想了一种新的问题表示形式:问题模板。例如,对于一个关于某个城市生齿数目标问题,能够进修到诸如 what is the total number of people in $city? 或 how many people are there in $city? 如许的问题模板。本章共为 2782 种关系进修了约两千七百万种模板。基于这些模板,本章设想的问答系统 KBQA 可以或许无效地支撑二元现实型问题,以及由一系列二元现实型问题组合而成的复杂问题。此外,通过将 RDF 学问图谱进行属性扩展,学问图谱的笼盖范畴提高了 57 倍。正在 QALD 尺度测试集上,KBQA 系统正在无效性和效率上击败了其他所有合作敌手。

  系统布局图 8.1 展现了问答系统的流水线。它含有两个次要过程:正在线 QA 部门和离线预处置部门。

  本文做者为复旦大学学问工厂尝试室博士生崔万云,研究标的目的为问答系统和学问图谱。一周论文栏目近期内将会对此论文进行连载,第一期内容请查看

  QA语料库系统从雅虎问答进修问题模板,其包含有约四千一百万对问答对。这一 QA 语料库被记为 QA = {(q1,a1),(q2,a2),...,(qn,an)},此中 qi 是某个问题而 ai 是其答复。每个答复 ai 含有一个或多个句子,而且切当的现实回覆也被包含正在答复中。表 5.2 展现了 QA 语料库中的一些例子。

  从谜底中提取候选值的准绳是一个无效实体-谜底值对凡是正在学问图谱中存正在一些 分歧关系。按照这个准绳,能够从 (qi , ai) 中辨别出候选实体-谜底值对如下:

  模板的思惟对于复杂问题同样起效。通过利用模板,能够将复杂问题简单地分化为一系列仅对应一个属性的简单问题。以表 1.1 中的问题 ○f 为例,系统将 ○f 分化为 Barack Obama’s wife 和 when was Michelle Obama born。这两个子问题别离对应

  为了回覆一个问题,系统需要起首暗示这个问题。所谓暗示一个问题,指的是将问题从天然言语转换为一种可以或许捕捉问题语义和企图的计较机内部暗示。然后,对于每种内部暗示,进修将其映照到学问图谱上的 RDF 查询。因而,本章工做的焦点之一就是这一内部暗示设想,记为“问题模板”。

  离线过程:离线过程的方针是进修从模板到属性的映照,由 P(pt) 暗示。这一过程将正在第 4 节详述。正在第 6 节中,系统正在学问图谱中扩展了属性,以进修更复杂的属性形式(例如图 1.1 中的 marriage→person→name)。

  P(tq,e) 模板有雷同 $person 何时出生?如许的形式。换言之,它是将一个问题中的某个实体(如“Barack Obama”)替代为实体的概念($person)的成果。令 t = t(q,e,c) 暗示模板 t 是通过将 q 中实体 e 替代为 e 的概念 c 获得的。由此可得:此中 P(cq, e) 是 e 正在上下文 q 中的概念分布。本章的工做间接使用了[87]中的概念化方式来计较 P(cq, e)。

  这个函数包罗对数乞降,因而间接最大化 L(θ) 正在计较上是很坚苦的。曲不雅上来说,若是参数估量过程晓得每个被察看三元组的完整数据,也就是它们是由哪个模板和属性生成的,那么估量的过程会更容易。因而对每个被察看的三元组 xi,估量过程引入一个躲藏变量 zi。zi 的值是一对属性和模板即 zi = (p,t),用于 xi 是由属性 p 和模板 t 生成的。留意需要同时考虑属性和模板,由于它们正在生成时不是的。P(zi = (p,t)) 是 xi 由属性 p 取模板 t 生成的概率。记 Z = {z1,...,zm}。Z 和 X 一路构成完整数据。这个完整数据的对数-似然概率是:

  留意到一些随机变量(例如属性和模板)正在概率模子中是躲藏的。这促使本章正在参数估量中利用最大化期望算法来估量参数。最终目标是最大化完整数据的似然概率 L(θ)。然而,因为它包含对数乞降,其计较有必然难度。因而推导为最大化其似然概率的下界,即Q-函数Q(θ;θ(s))。Q-函数的定义利用了完整数据的似然概率 Lc(θ)。EM 算法通过迭代来最大化下界 Q(θ;θ(s)) 从而最大化 L(θ)。正在第 s 轮迭代中,E-步调对每一个给定参数 θ(s) 计较 Q(θ;θ(s));M-步调估量可以或许最大化下界的参数 θ (s+1)(下一轮迭代的参数)。完整数据的似然概率:

  第 3.1. 节正在概率框架下将问题形式化。这一问题被化简为两个次要部门:离散概率计较和正在线. 节中展现相关概率计较的大部门细节,但将 P(pt) 的计较留正在 4 节。第 3.3. 节将详述正在线. 问题模子

  本章组织本章余下部门的组织形式如下。正在第 2 节中,将会给出 KBQA 的概览。本章的次要贡献是从 QA 语料库中进修模板以及通过模板回覆天然言语问题。全数手艺部门都取这一焦点贡献慎密相关。第三节展现了系统若何正在线上问答中利用模板。第四节详述了若何从模板中揣度属性。这也是基于模板的问答系统的环节步调。第五节扩展领会决方案,用于回覆能够分化为一系列 BFQ 的复杂问题。第六节扩展了模板的能力来揣度复杂的属性布局。尝试成果呈现正在第 7 节,第 8 节会商了更多的相关工做。第 9 节做出了小结。

  算法的推导并不间接公式化似然概率来察看 QA 语料库 (QA ),而是先公式化一 个更简单的景象——从 QA 对中提取的一个问题-实体-谜底值三元组调集的似然概率。接着构制两个似然概率之间的关系。这种间接公式构制更为间接。QA 的一个回覆凡是是一句包罗切确值和其他很多符号的复杂的天然言语。这些符号中很大一部门对于揣度属性是无意义的,而且为察看带入乐音。另一方面,正在生成模子中间接成立完整谜底的模子比力坚苦,但正在此中成立谜底值的模子则相对简单。

  此中 P( pt ) 由第 4 节所述的离线进修获得,其他概率项由第 3.2. 节所述的计较方式获得。

  本节引见若何从模板中揣度属性, 也就是 P(pt) 的估量值。 其根基思是将分布 P(PT) 视做参数,然后利用极大似然 (ML) 估量法来估量 P(PT)。第 4.1. 节引见了基于参数估量的第一步,制定不雅测数据(亦即语料库中的 QA 对)的似然度。第 4.2. 和 4.3. 节别离阐述参数估量的细节以及其算法实现。

  通过模板表示问题基于同义词的方式正在问题 ○a 上的失败,系统通过模板来理解问题。例如,how many people are there in $city 是问题 ○a 的模板。无论 $city 指的是檀喷鼻山市仍是其他城市,这一模板永久扣问生齿数的问题。

  因为 P(tei,qi) 0,算法能够削减列举的模板数。P(tei,qi) 0 意味着算法只列举从 qi 中的 ei 概念化过程中获得的模板。e 的概念数明显是有的,而且能够被看做常量。因而,第 7 行中列举的模板 t 的总数是 O(m)。因为 P(viei, p) 0,算法能够削减列举的属性数。P(viei, p) 0 意味着只要正在学问图谱中毗连 ei 和 vi 的属性需要被列举。如许的属性数也能够被视做常量。因而 M 步调的复杂度是 O(m) 的。

  进修模板的属性的过程如下所述。起首,对于每个雅虎问答中的问答对,系统提取问题中的实体及其对应值。之后,寻找毗连实体和值的“间接”属性。其根基设法是,若是某个模板的绝大大都实例对应于配合的属性,就能够将这一模板映照到这一属性上。例如,假设从模板 how many people are there in$city 中得出的问题老是能够映照到属性“population”上,无论 $city 特指哪个城市,系统都能够认为这一模板必然会映照到属性“population”上。从模板到学问图谱中复杂布局的进修也采用雷同的过程。独一的区别正在于系统寻找对应于一条由多条边构成的,从某个实体导向某个特定值的径的“扩展属性”。(例如marriage→person→name)。

  正在正在线计较过程中,系统顺次列举 q0 的实体、模板、属性和对应值。系统将每个问题的实体数,每个实体的概念数,每个实体-属性对的对应值数视为常量。因而正在线计较过程的复杂度是 O(P),由对属性的列举而发生。这里 P 指学问图谱中的属性数。第 4 节 属性揣度

  相关链接:



友情链接: 万森娱乐平台 足球盘口赔率 nba澳门盘口 怎么看澳门盘口 皇冠走地赔率

Copyright 2018-2019 宝莲灯论坛73233 版权所有 未经授权,严禁转载,违者将被追究法律责任。