上海论文网提供毕业论文和发表论文,专业服务20年。

面向关系抽取的分层特征增强与预训练网络探讨

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:35263
  • 论文编号:
  • 日期:2025-05-31
  • 来源:上海论文网

计算机论文哪里有?本文主要面向关系抽取的分层特征增强与预训练网络进行深入研究。本文首先概述了关系抽取的研究背景和重要性,进而详细梳理了当前的关系抽取技术,特别是远程监督的降噪技术和长尾关系抽取技术。


第一章绪论

1.2国内外研究现状

1.2.1基于降噪问题的研究

为了克服数据集的局限性并优化关系抽取过程,Mintz等人提出了远程监督方法[15]。其通过对齐知识库中的信息与非结构化文本,自动创建并标注数据集中。远程监督的基础假设是,如果知识库中的两个实体存在关系,那么所有提及这两个实体的句子都表达了对应关系。因此,在数据集构建过程中,所有提及两个实体的句子都会被收集到一个句子包(Bag)中,并为这个包分配一个关系标签。然而,这一假设的严格性导致了数据集中不可避免地包含了噪声,也就是说,一些并不真正反映实体关系的句子也被错误地归入了对应的句子包。

在尝试解决远程监督的噪声和长尾关系问题的尝试中,有研究人员提出了基于特征的方法,其中比较主流的有主题模型[18]和基于模式相关性[11]的模型。主题模型是在机器学习和自然语言处理等领域用来在一系列文档中发现抽象主题的一种统计模型,即从句子d中抽取出关系t,具体来说,这些模型以隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)为基础,通过获取文本模式与关系之间的依赖来提高最终效果。Yao等人在2011年提出了LDA的三种变形[18]:Rel-LDA,Rel-LDA1和Type-LDA,其中Rel-LDA利用了句子中的实体名称和依存路径作为特征,对关系三元组进行聚类,从而得到不同关系的集合。基于模式相关性的模型更为直接地判断模式是否表达了目标关系,在不改变原始假设的情况下减少远程监督生成的错误标签的数量。如黄蓓静等人提出了基于句子模式聚类和模式评分对远程监督训练数据集进行降噪的方法,得到了噪声更少的数据集[19]。然而,特征工程往往需要人工介入,专家们会根据经验和领域知识来选择和构造特征。

第三章基于分层语义特征提取的关系抽取方法

3.1分层语义特征抽取网络

本章提出的HSRE网络具体结构如图3-1所示。网络主体结构包括3个部分:词嵌入模块,即网络输入部分;分层语义编码模块,采用BERT模型作为编码器;句子编码器,采用PCNN。句子首先输入嵌入层,产生词嵌入特征向量。词嵌入特征向量送入BERT编码器,并按语义级别逐层输出,得到单词级特征向量、句法级特征向量和语义级特征向量。随后,将单词级特征向量送入PCNN卷积层做卷积,强化局部感受野。然后,将PCNN卷积结果送入特征融合对齐层,首先计算与句法级特征向量的响应,引入句法级别的鉴别性特征,响应值再与语义级特征向量对齐,引入语义级鉴别性特征,产生精确语义特征。最后,将精确语义特征句子级注意力,产生精确的包表示,并送入关系分类层产生关系预测标签。

传统的全监督方法高度依赖于人工标记数据来训练关系抽取器。然而,这种方法的痛点在于人工标注数据的高成本和时间消耗。因此,学术界一直在探索能够大规模自动标注数据的新技术,以寻求更高效的数据获取途径。其中,远程监督关系抽取技术成为了一种备受瞩目的创新方法。远程监督关系抽取技术的核心思想是,如果一对实体在知识库中存在某种关系,那么可以假设所有包含这对实体的句子都表达了这种关系。通过远程对齐知识库,可以实现对样本的自动标注,从而迅速积累大量的训练数据[15]。这一技术的出现,为关系抽取任务提供了更为便捷的数据来源。然而,远程监督技术虽然能够快速生成可训练数据,但其过强的假设也导致了数据噪声的问题。为了缓解这一问题,过去的方法引入了多示例学习的策略。具体来说,MIL将具有相同实体对的句子组织成包,以包为单位分配远程监督标签。在包内,通过运用句子级注意力机制,增强符合包标签的句子的权重,同时抑制那些不符合包标签的句子[21]。多示例学习在一定程度上缓解了数据噪声问题,然而还有一些问题始终困扰着远程监督关系抽取方法。

第五章基于虫群网络与类型层次树的关系抽取方法

5.1虫群网络与类型层次树网络


SERE的具体结构如图5-1所示。句子以包为单位送入SERE网络后,首先经过联合嵌入层,产生段落嵌入;随后,段落嵌入被送入BERT编码器产生关系表示,编码器中设置虫群网络,包括设置在编码层之间的词导向关系调整模块,和设置在编码层之中的寄生虫模块;另一方面,编码器在各层WORM后输出的不同语义级别的类型表示,会被送入实体分类模块产生约束表示,通过图卷积网络建立实体类型之间的数据联系;最后,约束表示与关系表示一起送入关系分类层,产生关系分数。

计算机论文参考

5.2实验结果与分析

5.2.1实验参数设置

为了与其他方法公平比较,本文采用了DSRE领域中常用的12层BERT-base模型作为句子编码器,具体参数来自pytorch开源库函数提供的bert-base-uncased预训练模型。图卷积编码器采用了图卷积神经网络。其他具体的超参数设置可以见表5-1。

5.2.2对比实验与分析

为了对本文所提出的SERE方法进行评估,本节将其与当前最新的基准模型进行了比较:PCNN+ATT[21]是基础的选择性注意力模型;+HATT[30]采用了层次注意力机制,是长尾关系抽取领域的基础模型;Cora方法[69]在HATT的基础上,以层次特征增强注意力过程;CGRE方法[33]提出了约束图模型,以实体约束串联关系,在本文实验中使用了其公开模型中的表现最优的BERT作为编码器;PARE方法[63]利用联合编码方法,加强了包内数据共享;DSRE-VAE方法[70]使用外部知识库增强关系表示。

计算机论文怎么写

第六章主要结论与展望

6.1主要结论

在大数据浪潮下,各行各业面临的数据量激增,如何迅速准确地从海量网络数据中提炼关键信息成为行业挑战。关系抽取技术因其能高效地从非结构化文本中转化出结构化信息,备受研究者瞩目。而由于全监督技术需要耗费昂贵的人工成本,能够自动对齐知识库以标注训练数据的远程监督技术,在实际应用中受到了更加广泛的认可。然而,在降低训练成本的同时,远程监督也带来了两大挑战:噪声和长尾关系。远程监督的基本假设为,当两个实体在知识库中存在关系,则认为所有提及该实体对的句子都表达了这一关系。然而,过强的假设导致了错误标注问题,为数据集带来了显著的噪声。此外,数据集常表现出长尾现象的关系分布,即大部分关系只拥有极小一部分的训练样本,这些关系被称为长尾关系,常面临数据、知识稀缺问题。

(1)传统远程监督关系抽取技术很难处理复杂语境的噪声与语义微妙差异。尽管引入外部知识增强句子表征的方法有所尝试,但这些方法常忽略外部知识与数据集的不兼容,尤其在使用预训练语言模型时,模型可能过度依赖外部知识,忽视上下文逻辑。本文创新性地融合了分段卷积神经网络与BERT模型,构建了一种分层语义特征提取技术。该方法结合了BERT的深层语义理解与分段卷积网络的局部精确捕捉能力,通过特征融合对齐层将两者优势整合至句子表示空间,显著提升了句子表征的精确度与关系识别的性能。实验结果显示,所提方法优于主流的使用了外部知识的方法,在NYT-10m数据集上的AUC达到60.0。

(2)在远程监督关系抽取任务中,一种普遍采用的降噪策略是将包含特定实体对的句子组织成包,随后在包内应用注意力机制,以此促进多示例学习并减轻噪声的影响。然而,传统注意力机制因其固有的倾向性,往往偏向于某些样本,导致大量正确标注的实例被忽视,同时,不同级别注意力机制的孤立运作也限制了数据的有效利用。为克服上述局限,本文提出了一种创新的远程监督关系抽取方法,该方法聚焦于多级特征表示的对齐。具体而言,我们结合了BERT预训练模型的强大能力,不仅提取了单词级别的特征,还深入到了句法和语义层面,形成了全面的特征表示。此外,我们提出了片段级注意力机制,该机制能够精确捕捉句子中富含特定语义的连续片段,进一步细化了文本信息的处理。通过这种多级特征表示与精细对齐的结合,我们的方法能够更全面地捕捉文本中的多层次语义信息,并深入挖掘这些层级之间的内在联系。实验结果显示,所提方法优于主流的多级降噪方法,在NYT-10m数据集上的AUC达到60.0。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!