上海论文网提供毕业论文和发表论文,专业服务20年。

基于深度学习的 人体行为识别探讨

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:33252
  • 论文编号:
  • 日期:2025-09-28
  • 来源:上海论文网

计算机论文哪里有?本文基于预训练图像基础模型,探索两种高效的图像域迁移方法,在保持与视频模型性能相当的同时提升训练效率。

第一章 绪论

1.2 国内外研究现状

人体行为识别的关键在于如何进行有效的特征提取。从这个角度看,该领域的研究方法大致可以分为两类,如图1-4所示。一类是依赖于专家精心设计的手工特征的传统方法[9],另一类则是基于深度学习构建端到端识别模型的方法[10]。前者需要大量的专业知识来设计相关特征,但在大数据的环境下显得极为耗时耗力;而后者主要利用特征提取网络,特别是卷积神经网络(CNN)的应用,显著弥补了传统方法的不足。

1.2.1 传统行为识别方法

传统行为识别方法中的手工特征工程遵循知识驱动的特征构造范式,其技术流程主要包含四个核心环节:首先通过多模态传感设备(加速度计、陀螺仪、音频采集器及视觉传感器等)获取原始行为数据;其次基于领域知识构建特征表示体系,在时域(均值/方差)、频域(FFT能量谱)及时频域(小波系数)等维度人工设计特征模板,并通过特征选择算法(如mR MR)筛选区分度最高的特征子集,以优化特征空间的信息维度;随后采用经典机器学习模型(支持向量机、朴素贝叶斯分类器、随机森林等)建立特征与行为类别之间的映射关系;最终通过交叉验证等方法进行模型优化,在保证分类准确率的同时控制过拟合风险。该范式高度依赖专家经验,特征设计过程需反复迭代验证。

第三章 基于双语义监督和时序提示重参数化的CLIP迁移模型

3.1 引言

以大规模开放词汇图像文本对为数据驱动的对比语言-图像预训练模型(CLIP),最近在各种图像下游任务表现出令人印象深刻的“零样本”泛化能力,使得一直为“图像预训练然后微调”范式所主导的众多模型在标准视频基准上表现出令人鼓舞的性能。然而,随着模型的增长,针对特定任务的完全微调自适应策略在训练和存储方面变得困难。为了克服上述缺点,受NLP领域中被称为参数高效迁移学习的研究方向的启发[53],一种更经济和实用的方法[54,55]被引入计算机视觉中以实现高效的图像到视频领域的知识迁移。目标是仅仅微调引入的额外模块的少量参数,同时冻结大型预训练模型以将图像级表示适应至视频级表示,此种做法不仅能最大限度地保留预训练模型学习到的多样性知识,还能获得令人满意的性能。然而,现有的方法大部分侧重迁移适用于图像任务的预训练图像模型和适用于视频任务的预训练视频模型[56,57,58],而对于将预训练的图像模型适用于视频任务的跨领域探索较少,其关键难点在于图像模型本就缺乏时间推理能力。

针对上述问题,本章提出采用额外的模块将CLIP的图像级表示重建为视频级表示的关键在于对视觉中时序信息的有效建模以及为自然语言监督提供更强有力的语义约束,以此达到最小化视觉和文本跨模态间表征差距的目的。具体而言,在视觉分支,受语言模型重参数化方法[59,60]有效性的启发,本章提出一种时序提示重参数编码器,代替提示向量直接学习的做法,通过对提示嵌入实施重参数化,旨在使得提示不受冻结的CLIP图像编码器中固定参数的限制,而是与之建立依赖关系,从而能够针对特定领域学习到更具概括性的表示。最后,重参数化的提示与输入嵌入拼接共同经CLIP强大空间语义的引导,以实现逐层时空学习。其中自定义的时序提示通过捕获帧间的长序列依赖关系以及每帧与其它所有帧的帧间交流信息以进行时序建模。

第四章 基于注意力头重分配和时空调制器的图像迁移模型

4.1 引言

基于Transformer的大型预训练图像模型大多遵循“先经预训练初始化后完全微调”的范式,在计算机视觉领域取得了令人瞩目的成就,而将图像模型中丰富的空间语义知识迁移并适应至视频域的做法也正成为处理视频识别任务的典范。由于针对目标任务将参数量巨大且有着出色迁移性的图像基础模型进行全面微调的方式不仅效率低下甚至完全没有必要。因此,最近的研究焦点正向参数高效的图像到视频的迁移学习方向转变。然而,现有的微调策略大多基于模型的中部或后验结构,缺乏对预训练参数反向传播时所占用的大量内存空间的关注。

计算机论文参考

4.2 模型框架设计

计算机论文怎么写

本章设计的模型架构如图4-2所示。首先展示了基于并行分支的整体框架,其次针对ViT分支和STMA分支中的单个模块进行对比介绍。可以看出,每个STMA块均具有统一的组成部分。之后,对STMA块中时空调制器模块中的详细内容进行描述,有关其具体计算过程见后续章节。

第五章 总结与展望

5.1 总结

基于视频的人体行为识别旨在使得智能程序能够模拟人类的感知系统识别给定视频中发生的人类行为以及人与物体间的交互关系。相较于图像识别任务,捕获视频帧间的时间相关依赖性是模型编码的重中之重。随着对序列数据进行全局建模的Transformer网络在自然语言处理领域中被引入,基于Transformer架构的Vision Transformer(ViT)因其出色的可扩展性和迁移性在各种图像和视频下游任务中表现出极其优越的性能,计算机视觉领域的发展也因此迎来了质的飞跃。而基于ViT架构将预训练图像模型中的强大语义信息迁移至视频领域是人体行为识别的经典范式,但为适应视频任务中特定的数据集,而采取完全微调模型的策略因存在效率低下、易过拟合甚至参数灾难性遗忘等问题不得不使研究者重新思考是否有必要对预训练图像模型进行全面微调,以及是否存在更加行之有效的替代方案能够将图像预训练模型迁移至视频域的同时兼具与视频模型相当的性能优势。

针对上述问题,本文基于预训练图像基础模型、采用高效微调且仅更新少量额外参数的策略来突破技术瓶颈,主要的研究工作内容如下:

(1)提出一种基于双语义监督和时序提示重参数化的CLIP迁移模型

本文以不破坏原始预训练参数为前提,提出了一种将CLIP适应于视频领域以实现高效识别的新颖方法。通过引入时序提示并利用轻量级重参数化编码器为缺乏时间线索的预训练图像模型实现推理视频动态内容的愿景。另外,通过预定义中文标签词典使得模型在中英文语义的共同监督下能够提取到更具时序性的视频表示。该方法仅需少量样本即可适配新任务,大幅降低了部署成本,且其特有的中英文标签联合监督能力特别适合跨国领域场景,而卓越的少样本学习性能则能有效解决工业数据标注的稀缺难题。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!