论文辅导网提供毕业论文和发SCI表论文辅导和论文润色服务25年。

基于深度学习的中文专利层级分类技术探讨

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:38555
  • 论文编号:
  • 日期:2025-03-25
  • 来源:上海论文网

计算机论文哪里有?本文主要解决IPC主分类号确定的问题,例如根据IPC主分类号将专利审查任务分配到合适领域的审查员,以及在专利快速预审中生成专利分类号;在其他应用场景下,有时还需要专利进行多标签分类;例如专利的主题与产品的生产和制作工艺都有关联,那么此专利可以被分到各个适当的类别里[25]。

第一章绪论

1.2国内外研究现状

1.2.1传统的专利分类方法

专利分类是指按照一定的标准或体系对专利文献进行分类,以便于检索、分析和管理,这一领域在国内外都有广泛的研究。传统的专利分类方法分为基于规则的方法和基于机器学习的方法。

基于规则的专利分类方法包括关键词匹配法和规则集合法;关键词匹配是根据文本中出现的特定关键词或短语对专利文本进行分类;规则集合法是由领域专家定义的一系列规则,这些规则基于语法、语义或文本结构,用于分类专利文本。基于机器学习的专利分类方法主要有支持向量机(SVM)、K-近邻、朴素贝叶斯、决策树和随机森林等。支持向量机分类法基于寻找样品数据特征表示的超平面,用此超平面作为界限区分各样本类别,但核函数选择缺乏通用标准,因此在应对大型专利数据时分类能力受限。K-近邻(K-Nearest Neighbors,KNN)分类方法的原理是凭借着专利文本在特征空间内相距远近决定待分类专利文本的类型,它既能解决二元分类也能满足多元分类需求,但KNN分类方法容易受到噪声数据和不相关特征的影响,数据中存在错误样本,会导致分类准确率下降。朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的简单高效的分类算法,它的基本假设是特征之间相互独立(朴素性),即给定类别的情况下,特征之间的条件概率相互独立,计算给定特征条件下每个类别的后验概率,并选择具有最高后验概率的类别作为预测结果。这个假设简化了计算,使得朴素贝叶斯算法易于实现和高效运行;与此同时,在实际情况中,这种假设并不总是成立,特别是当特征之间存在相关性时,如专利等复杂文本的情况下,朴素贝叶斯算法的性能会受到影响。

计算机论文怎么写

第三章基于局部特征与全局特征融合的专利层级分类方法

3.1现有专利分类问题分析

3.1.1现有专利分类架构问题分析

在IPC系统中,专利文献应按自上至下的层次结构依次划分,包括五大层级,最低层级为小组层级,依次向上层级分别为大组、小类、大类和部层级[34]。所以,中文专利分类问题是一个多层级分类问题。当前,针对此类复杂的多层级分类问题,现有技术方案一般采用平行分类方法与分步治理技术。

在处理专利分类时,平行分类方法通常将所有的类别视为一个整体,不考虑其层次结构,而把这些类别看作是独立的平行类别。目前的方法往往直接将中文专利样本归入N类中。例如5个数据样本类别分别为B01D1/22、B01D1、B01D、B01和B,平行分类方法将这5个样本当做互相独立的样本,而没有考虑类别之间的层次性。然而,当面临大量数据的时候,因为样本的不均衡性和数据偏移的问题,此种方式可能导致分类结果质量下降,所以更适合用于对小型数据集和样本均匀分布的情况下的分类。因此,把专利层级的分类问题看做是一个平行分类问题并不合理,同时忽视了不同类别间的关联关系,这也是不可取的。

采用“分步治理技术”的方法可以把整体划分成若干个局部,并进行相应处理。在中文专利分类问题中,分步治理技术为先将专利分类到较高的层级,然后对所分类层级中的样本继续进行细化分类。但分步治理技术会导致错误传播问题,当专利在较高层级就分类错误后,较低层级的分类也将受到影响,特别是多层级分类中,错误传播问题尤为严重[34]。

第四章基于改进RoBERTa模型的专利层级分类方法

4.1现有专利分类问题分析

RoBERTa相比BERT在训练数据集、动态掩码和训练方式上具有较大的改进,这些改进使得RoBERTa在各种自然语言处理任务中通常表现更优[46]。因此,在中文专利文本的层级分类任务中,选择RoBERTa模型作为本文的基础模型,用于解决静态词向量无法动态表示中文专利词语的问题,以提高模型对中文专利文本的语义特征的表达能力。

现有中文专利分类模型在解决专利细分层级任务时存在性能大幅降低问题,导致该问题的原因是中文专利细分层级上专利文本相似性过高。为了克服这个问题,引入知识图谱来扩展专利文本的语义表达。从知识图谱中挑选出优质的信息,作为专利文本的补充特征,以帮助模型理解专利文本。首先需要对中文专利文本进行关键词的提取,然后通过此关键词来抽取知识图谱中的优质信息,即对关键词进行扩展,将扩展后的关键词添加至原始中文专利文本中,以增加模型对中文专利文本语义的准确提取,提高模型在中文专利细分层级上的分类性能。

计算机论文参考

4.2基于关键词扩展特征的中文专利层级分类模型

4.2.1特征扩展技术

本文通过提取专利文本的特征,并利用通用知识图谱匹配相应的实体属性知识来对中文专利文本特征进行扩展,以丰富专利文本的特征。考虑到全文扩展会增加计算成本和带来数据维度增加等问题,选择将重点放在关键词上,因为关键词最能够代表中文专利文本中的核心内容。

提取关键词的算法包括有监督学习算法和无监督学习算法两种。有监督学习算法将其视为二分类问题,首先从文本中提取一些词,然后标注这些词是否为关键词,最后使用标注好的文本训练分类模型。然而,由于专利文本通常不包含关键词,因此这种方法需要大量的人力和时间成本。因此,常用的是无监督学习算法,其中包括基于文本统计信息的TF-IDF[6]和基于词图模型的TextRank[47]算法。

TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的常用加权技术,用于评估一个词语对于一个文档集合中某个文档的重要程度[48]。TF-IDF结合了两个核心概念:词频(Term Frequency,TF)和逆文档频率(InverseDocument Frequency,IDF)。词频表示某个词在文档中出现的频率,直观来说,一个词在文档中出现的次数越多,它在该文档中的重要性就越高。TF可以简单地用词频(单词在文档中出现的次数)除以文档中所有单词的总数来计算,通常会进行归一化以防止文档长度的影响。逆文档频率用于衡量一个词的普遍重要性。如果一个词在很多文档中都出现,它可能是一个常见词,对文档的区分作用不大。IDF的计算方式是将整个文档集合的文档总数除以包含该词的文档数(加1,防止分母为零),然后取对数。

第五章结论与展望

5.2展望

专利作为知识产权制度的重要组成部分,在全球范围内对创新和经济发展起着关键作用。随着科技的迅猛进步和全球化的加深,专利制度面临着新的挑战和机遇。专利制度首要面临的问题是日益增长的专利申请量对于知识产权工作者的挑战,这其中对于专利如何有效的管理和利用成为重中之重,而专利分类则可以帮助有效管理和利用专利信息,促进技术创新和经济发展[53]。通过对专利进行分类,可以将大量的专利文献按照技术领域、技术特征、应用领域等进行组织,使得用户可以更快速、准确地检索到所需的专利信息。因此,如何快速的对专利进行分类成为当前所需解决的重要问题。现有专利体系中,一般通过专利审查人员对专利的IPC分类号进行确定,然后根据专利的IPC分类号派发到各个科室,进行领域内的审查。不过随着人工智能的快速发展,专利的分类工作也逐步转化为深度学习分类算法加人工复核的方式[54]。因此,针对目前中文专利分类问题进行研究,在本文提出的中文专利层级分类模型的基础上,进一步提出两种新的专利分类方法,并经实验证明这两种方法均可改善专利分类性能,提高专利分类的适用范围,但还需进一步完善。

(1)为了提高中文专利文件分类的效果,计划在未来扩大试验数据的范围,增加标签的数量,并持续更新专利信息,通过每年新增的专利数据来对模型进行训练,以使模型适应新的专利分类需求。

(2)本文主要解决IPC主分类号确定的问题,例如根据IPC主分类号将专利审查任务分配到合适领域的审查员,以及在专利快速预审中生成专利分类号;在其他应用场景下,有时还需要专利进行多标签分类;例如专利的主题与产品的生产和制作工艺都有关联,那么此专利可以被分到各个适当的类别里[25]。专利的单标签分类和多标签分类是不同任务,所以,在未来的研究过程中,在层次结构上加入多标签的分类任务,从而提升模型的适用范围。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!