基于多维度学习数据集和多重特征选择融合驱动的学生成绩预测

论文价格：150
用途：硕士毕业论文 Master Thesis
作者：上海论文网
点击次数：1
论文字数：33525
论文编号：
日期：2025-01-07
来源：上海论文网

TAGS:

计算机论文哪里有？本文完善在线学习数据集，在有效性验证的基础上对重要特征进行实验与实证的结合分析，并进一步构建了多维度学习数据集，利用基于SMAC框架贝叶斯优化的LSTM网络来预测分析学生成绩。

第1章绪论

1.2国内外研究现状

教育数据挖掘是数据挖掘中的一项重要应用，也是近几年逐渐热门的话题，旨在使用数据挖掘来分析学生各种行为，促进教育环境中的发现，以改善学习和教学环境。在教育数据挖掘中，通常从分析方法、学业成果预测、行为预测和留存率预测四个方面来展开研究。关于学习成果预测的研究侧重于学生的总体评价，如期末成绩、评价结果和期末分数。目前，学生成绩在高校往往被认为最能反映学生学习成果的表现之一，因此预测学生成绩成为该领域中重要的研究方向。通常，学生在线学习情况等教育数据通常作为学生在线学习行为指标放入模型以预测学生期末表现。其中，也有少数研究关注学生典型进步的早期预测和聚类任务[8]。除了寻找具有更高精度和有效性的通用预测算法外，寻找对成绩有显著贡献的可靠有效的特征是另一项挑战[9]。

1.2.1学生学习数据集的特征及分类研究现状

在先前的研究中，模型所考虑的特征往往不同，一些研究人员对这些特征进行了分类。Yağcı[10]总结了所查阅的文章，并发现其中至少使用了14种特征。AbuSaa等人[11]通过回顾36项研究，确定了9类影响学生成绩的因素，其中最常用的4类是学生以前的成绩和课堂表现、学生的在线学习（e-learning）活动、学生的人口统计学特征和学生的社会信息。Francis和Babu[12]也将影响学生成绩的特征分为四类，即人口特征、学业特征、行为特征和额外特征。

第3章基于多维度在线学习数据集的学生成绩预测

3.1多维度在线学习数据集

3.1.1学生学习数据集分析

目前，国外研究所提供的学生学习数据集较国内更多，部分特征未必适合国内的教育环境（比如学生个人信息）。而目前国内具有规模的学习数据集很少，其原因在与：（1）个人隐私和伦理问题：学生个人信息采集具有一定困难，所以高校学生数据更多的作为研究对象；（2）数据采集困难：由于采集方式不同导致统一且完整的数据难构建，往往会伴随数据稀疏性相关问题[17]；（3）国内在线学习数据少：在线学习及混合式教学的学习模式直到近几年才开始推广，特别是疫情的爆发，近几年传统的教学模式还是主流。

由于本文使用的特征和重要特征的研究结果与其他研究不同，因此将与其他数据集进行比较。本文先收集了目前主流的和其他研究中所使用的学生学习数据集，这些数据集有不同类别的特征，根据本研究的规则对这些数据集中的特征进行分类，包括人口统计信息、学习行为和校园属性。无法分类的特征被归类为“其他”。考虑到研究的实验环境不同，本文将其他一些对最终预测目标有间接影响的学生成绩归入“学习行为”类别。

第4章多重特征选择融合与LSTM驱动的学生成绩预测

4.1混合教学模式下多维度学习数据集的设计与构建

在定位所需补充特征和确定课堂评价指标的过程中，通过分析不同和同一视角的课堂教学评价工具之间的侧重点，自主研发适合本研究的课堂评价工具。综合学生信息采集问题，在课后完成对学生关于课堂评价数据的采集。通过学术讨论，向相关研究领域的专家征询对此课堂教学质量评估体系的建议，并根据该评估体系整体构架的适切性、每个维度描述的合适度与清晰度、维度不同水平描述的合适度与清晰度等给出反馈意见。经过多论探讨与修改后，问卷内容拟定完成。

研究选择了某一门采取混合教学的英语类课程（课程C）的学生作为研究对象。在原有在线数据集特征的基础上，加入线下学习行为特征Point_i,j和Ans_WX，如表4-1所示。相对于其他数据集，这进一步扩大了数据集中的特征类别和特征数量，提供了更多维度的变量描述。

4.2多重特征选择融合方法

随着更多的特征带入，特征维度变得较高。原始数据集中可能存在的荣誉特征可能会导致“维度灾难”，消耗检测模型在训练中的资源，使得模型过拟合。因此，要对学生学习行为特征进行筛选，保留特征空间中最重要的特征。

4.2.1特征选择方法

（1）Relief-F

Relief是为二分类问题设计的，其扩展变体Relief-F[93]能够处理多分类问题。Reflief-F根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。假定数据集D中的样本来Y个类别。对示例xi，若它属于第k类（k∈{1,2,...,Y}），则Relief-F先在第k类的样本中寻找xi的最近示例xi,nh，称为“猜中近邻”（near-hit），然后在第k类之外的每个类中找到一个xi的最近邻示例作为“猜错近邻”（near-miss），记为xi,l,nn（l=1,2,...,Y;l≠k）。于是，相关统计量对应于属性j的如公式4-1所示：

（2）XGBoost

XGBoost是GBRT演变而来，相比之下有着更高的运算效率。通过对目标函数进行二次泰勒展开和加入正则化，降低了树的复杂度，缓解过拟合。作为嵌入法中的一种，XGBoost通过计算增益得到特征重要性值，基于二次泰勒展开后的目标函数如公式4-2所示，在对目标函数的分裂过程中利用贪心算法来得到最佳分割点。

第5章总结与展望

5.2展望

在数字化改革和混合教学模式推广的背景下，本文完善在线学习数据集，在有效性验证的基础上对重要特征进行实验与实证的结合分析，并进一步构建了多维度学习数据集，利用基于SMAC框架贝叶斯优化的LSTM网络来预测分析学生成绩。虽然文本所涉部分方法和所提出的框架模型在一定程度上以提高了分类精度，在数据集构建的方面也取得一定进展，但是仍然有诸多不足之处需要进行改进，主要如下：

（1）收集更多不同的课程数据，以建立一个规模更大、更全面的学生学习数据集。

（2）提高模型在其他由多种类型课程组成的数据集上的预测性能和通用性。在本文中，数据集选自COVID-19疫情期间的两门类似课程，由于课程之间存在差异，这无法完全替代大部分课程数据。后续将收集更多不同类型课程的学生在线学习数据并进行实验，以增强工作的普适性。

（3）深度学习在教育数据挖掘领域的使用逐渐广泛，将使用其他深度学习模型以及改进模型来更好的预测学生的学习成绩。

（4）使用其他方法进一步研究动态可调节的学习行为特征对学习成绩的影响。

参考文献（略）

写作参考：计算机控制技术硕士论文研究方法怎么写「精选范例」

123

限时特价，全文150.00元，获取完整文章，请点击立即购买，付款后系统自动下载

立即购买

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

基于多特征信息融合的H.266/VVC帧内编码单元划分快速决策方法思考

基于遥感图像的路网提取方法探讨与推广

返回→计算机论文

论文写作模板

计算机论文范文样本

基于多维度学习数据集和多重特征选择融合驱动的学生成绩预测

计算机论文

论文写作模板

计算机论文范文样本

计算机论文写作模板