命名实体的消歧

文章目录

定义

命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体
确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧

任务

基于聚类的实体消歧

把所有实体指称项按其指向的目标实体进行聚类
每一个实体指称项对应到一个单独的类别

基本思路

同一指称项具有近似的上下文
利用聚类算法进行消歧

核心问题

选取何种特征对于指称项进行表示,通常可以选择以下几种特征:
1.词袋模型(Bagga et al., COLING, 1998)
利用待消歧实体周边的词来构造向量
利用向量空间模型来计算两个实体指称项的相似度,进行聚类

2.语义特征(Pederson et al., CLITP, 2005)
词袋模型,没有考虑词的语义信息
利用SVD分解挖掘词的语义信息
利用词袋和浅层语义特征,共同来表示指称项,利用余弦相似度来计算两个指称项的相似度

3.社会化网络(Bekkerman et al., WWW, 2005)
不同的人具有不同的社会关系
MJ, Pippen, Buckley, Ewing, Kobe等的社会化关联信息所表 现出来的网页链接特征,对网页进行聚类,从而实现网页内的人名聚类消歧。

4.维基百科的知识(Han and Zhao, CIKM, 2009)
Wikipedia中相关实体具有链接关系
这种链接关系反映条目之间的语义相关度
用实体上下文的维基条目对于实体进行向量表示
利用维基条目之间的相关度计算指称项之间的相似度(解决 数据稀疏问题)

5.多源异构语义知识融合(Han and Zhao, ACL, 2010)
多源异构知识的表示框架:语义图
等同概念识别
概念连接
同时捕捉显式语义知识和结构化语义知识
语义图的边(显式语义知识)——建模了所有从知识源中直接抽取出的 概念之间的显式语义关联
语义图的结构(结构化语义知识)——建模了概念之间的隐藏语义关联
语义图中语义知识的挖掘和融合算法
计算原则:“如果一个概念的邻居概念与另一个概念存在语义关联,则这 个概念也与另一个概念存在语义关联”
语义关联在图中的传递性

挑战

消歧目标难以确定
缺乏实体的显式表示

基于链接的实体消歧

将实体指称项与目标实体列表中的对应实体进行链接实现消歧
任务
给定实体指称项和它所在的文本,将其链接到给定知识库中的相应 实体上

主要步骤:

1.候选实体的发现
给定实体指称项,链接系统根据知识、规则等信息找到实体指称项的候选实体

2.候选实体的链接
系统根据指称项和候选实体之间的相似度等特征,选择实体指称项的目标实体

如:
迈克尔乔丹是有名的篮球运动员 为 实体指称项文本
找到候选实体如下:
1.迈克尔乔丹(篮球运动员)
2.迈克尔乔丹(教授)
3.迈克尔杰克逊(歌手)
通过与1链接就完成了正确的实体链接

如何根据实体指称项找出候选实体?
可以根据百科的信息
可以利用上下文信息

如何进行行实体链接?

基本方法
计算实体指称项和候选实体的相似度,选择相似度最大的候选实体
单一实体链接
BOW模型 (Honnibal TAC 2009, Bikel TAC 2009)
加入候选实体的类别特征(Bunescu et al., EACL 2006)
加入候选实体的流行度等特征(Han et al., ACL 2011)
协同实体链接
利用实体之间类别的共现特征(Cucerzan, EMNLP 2007)
利用实体之间链接关系(Kulkarni et al., KDD 2009)
利用同一篇文档中不同实体之间存在的语义关联特征(Han et al., SIGIR 2011)

基于词袋模型计算相似度:
将实体指称项上下文文本与候选实体上下文文本表示成词袋子向量 形式,通过计算向量间的夹角确定指称项与候选实体相似度,系统选择相似度最大的候选实体进行链接

    原文作者:sty945
    原文地址: https://blog.csdn.net/sty945/article/details/94744164
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞