广东工业大学学报  2018, Vol. 35Issue (3): 18-23.  DOI: 10.12052/gdutxb.180027.
0

引用本文 

马飞, 李娟. 基于聚类算法的MOOCs学习者分类及学习行为模式研究[J]. 广东工业大学学报, 2018, 35(3): 18-23. DOI: 10.12052/gdutxb.180027.
Ma Fei, Li Juan. A Research on the Classification of Learners and Patterns of Learning Behavior Based on Cluster Algorithms under MOOCs’ Environment[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2018, 35(3): 18-23. DOI: 10.12052/gdutxb.180027.

基金项目:

宁夏回族自治区“十三五”重点专业(子项目):网络工程专业及子项目;北方民族大学2016年校级教育教学改革研究重点项目(2016JYZD01)

作者简介:

马飞(1976–),男,副教授,博士,主要研究方向为网络安全、隐私保护、社交网络分析。

通信作者

李娟(1975–),女,副教授,硕士,主要研究方向为数据挖掘、网络安全. E-mail:279007780@qq.com

文章历史

收稿日期:2018-03-05
基于聚类算法的MOOCs学习者分类及学习行为模式研究
马飞, 李娟     
北方民族大学 计算机科学与工程学院,宁夏 银川  750021
摘要: 根据MOOCs平台上学习者的学习行为, 利用基于离差平方和法的AHC层次聚类算法和K-means非层次聚类算法, 对参加MOOCs课程的学习者进行了类别划分. 研究和分析了不同类别学习者的学习行为对MOOCs学习效果的影响, 并利用卡方检验和单因素方差分析对不同类型的学习者在课程完成率、课程成绩等方面做了详尽的对比分析. 针对如何提高学生MOOCs学习效果及MOOCs课程的结构内容设计给出了建议, 为进一步在高校中顺利开展MOOCs教育提供借鉴.
关键词: MOOCs (Massive Open Online Courses)    聚类算法    学习行为    学习效果    统计分析    
A Research on the Classification of Learners and Patterns of Learning Behavior Based on Cluster Algorithms under MOOCs’ Environment
Ma Fei, Li Juan     
School of Computer Science and Engineering, North Minzu University, Yinchuan 750021, China
Abstract: The learners who participate in the MOOC are classified by using of AHC and K-means, based on learners’ learning behavior on MOOCs platform. Then, the impact of different learning behaviors on the MOOC’s learning outcomes are studied and analyzed, and the course completion rate and course grade of different types of learners are compared and analyzed in detail by Chi-square test and one-way ANOVA. Finally, suggestions about how to improve the MOOCs learning effect and the design of the structure and content of MOOCs curricula are given. It also provides the reference for the further development of MOOCs education in colleges and universities.
Key words: MOOCs (Massive Open Online Courses)    cluster algorithms    learning behavior    learning effect    statistical analysis    

近年来,MOOCs(Massive Open Online Courses)[1-2]已经引起全世界教育领域的广泛关注,并得到快速发展. 而目前对其研究已由开放式社会环境转入高等学校这一应用背景,研究热点主要集中在:在高校中开展MOOCs教育对教师的“教”与学生的“学”的影响、MOOCs类型的划分、学生课程学习效果与成功完成的定义,MOOCs学习质量保证等. 而目前MOOCs教育非常高的中途弃学率是教育者面临的最大挑战,所以,有必要对参与MOOCs学习的学习效果及学习者在平台上的学习模式做进一步研究与分析. 本次研究共收集了893名学生在MOOCs平台上的学习行为数据信息,利用基于离差平方和法的AHC(Agglomerative Hierarchical Clustering)层次聚类算法和K-means非层次聚类算法[3-7],对参加MOOCs课程的学习者进行分类,并对不同类别的学习者的学习行为模式进行了详细的对比分析,进一步研究和分析了不同学习行为对MOOCs学习效果的影响,并利用卡方检验和单因素方差分析进行了进一步的统计研究与分析,最后提出了下一步的研究工作与基本研究方法.

1 研究环境与方法

1) 研究环境设置.

(1) MOOCs课程

《计算机网络》,《数字电路与逻辑》, 《模拟电子技术》;

(2) 课程开放时间(学习持续时间)

每门课程为期12周;

(3) 研究方法

AHC聚类算法+K-means聚类算法;

卡方和单因素方差统计分析;

(4) MOOCs学习要求

未强制要求必须注册学习、未限定学习课程数、未强制必须完成课程;

(5) 学习行为特征观察点

① 观看教学视频次数;② 完成小测验次数;③ 完成指定作业次数;④ 参与论坛讨论(发表主题及回复)次数;⑤ 登录MOOC平台次数;⑥ 是否完成最终考试.

2) 研究方法.

基于学习者在MOOCs平台上的学习行为,外层采用AHC聚类算法,内层嵌套k-means聚类算法,对学习者进行分类.

从MOOCs平台上收集了3门课程的学习者的学习轨迹或者可称之为学习指纹,主要包括:学生登录MOOCs课程平台的次数、观看课程视频的次数、提交作业的次数、参与课程论坛讨论(发布主题贴和论坛回复分别计数)的次数、完成小测验的次数及是否完成最终考试(加大了该项的权重),以这6个指标构成的6维向量作为每个学生样本的特征向量,然后用AHC聚合层次型聚类算法——Ward’s方法及非层次聚类算法——k-means算法,以课程为单位,对参加课程的学习者进行聚类分析. 通过设置类别间的距离阈值,去除离群样本,计算聚类后的学生类别数. 然后,采用k-means算法计算每个聚类中的中心,并把每门课程的注册学习者通过计算与所有中心的欧氏距离,然后把学习者分别归属到距离相应中心最近的聚类中,其后,再对学习者的学习行为模式进行统计研究分析.

2 统计结果

1) 学习者类别划分.

最终的结果显示,在893名学生中,32人次被分到第1个聚类中,167人次被分在第2个聚类中,1 759人次在第3个聚类中. 把这3类学习者分别称为:积极学习者,消极学习者,惰性学习者. 3门课程中相应类型学习者的人数和占比如表1所示.

表 1 3种类型学习者在3门课程中对应的人数及比例 Table 1 The number and proportion of three types of learners in the three courses

表1中,异常样本是指在相应课程平台上进行了注册,但无任何后序学习行为的学生,在做聚类分析时,这类学生被剔除. 其中的“比例”值计算方式为:相应学习者人数/(注册总人数-异常样本人数). 3个MOOCs课程中,在每门课的有学习行为的学生中,平均89.9%的学生被划分到惰性学习者类别中,只有约为1.63%的学生被划归到积极学习者,约有8.47%被划归到消极学习者类别中. 考察积极学习者与消极学习者人数,约有26名学习者同时被两门课程划归为积极学习者,有8人同时被3门课程划归为主动学习者. 约有84%的学生在其注册的所有课程同时划归为惰性学习者.

2) 教学视频观看频度与学习效果.

通过聚类分析的类别划分结果看到,在校生非强制、自由参与MOOCs课程学习时,学习者的学习行为表现出更多的消极性(以消极学习者和惰性学习者所占比例为特征). 以《计算机网络》课程为例,考察学习者在MOOCs平台上的学习指纹. 在整个学习周期内,积极学习者观看教学视频的总次数平均为96次,被动学习者为36次,而惰性学习者只有6次. 在《数字电路与逻辑》课程,积极学习者观看视频的总次数平均为48次,远高于消极学习者的21次及惰性学习者的3次. 同样,在其他两门课程中也有类似的结果.

图1是学习周期为12周,针对每门课程,3种不同类型的学习者不计类别的每周观看教学视频平均次数的对比情况.

图 1 3门课程学生每周平均观看教学视频次数对比 Figure 1 The comparison of average number of watching teaching videos per week for three courses

图1看到,随着教学进程的推进,学生观看教学视频的平均次数在逐渐下降,其中,《模拟电子技术》与《数字电路与逻辑》两门课程从第3周开始的降幅出现跳跃性降低,随后的降幅较平稳. 由此说明,前3周是学生学习热情度较高的时间段,随后会出现学习参与度显著降低的情形,这一现象也出现在其他课程的学习行为中. 针对观看视频的数量与视频长度选择上,积极学习者完成视频总数78%的观看量,而消极学习者和惰性学习者分别为36%及4.7%. 3类学习者对持续时间小于15 min的视频的选择观看度及完整观看度是最高的,积极学习者对于大于30 min的教学视频的完整观看度比较高,而其他两类学习者对该时间长视频的选择观看度及完整看观看度都非常低. 由此可知,考虑到学习者的学习注意力集中度的持续时间,在设计MOOCs视频教学内容时,在兼顾知识点完整度及前后知识连贯性的情况下,可优先选择制作时长较短的小、微视频以提高视频观看完整度.

3) 小测验的完成频次与学习效果.

通常的MOOCs教育平台都按照知识点内容设置了相应的小测试,以检验学习者对知识点的掌握程度. 图2所示的是学习周期内3门课程学生完成小测验的频次对比. 从图2可以看到,随着时间推移,3门课程的学生完成小测验的次数都在显著降低,考察学生答题情况,当测验内容较多时,消极学习者和惰性学习者放弃测试的概率非常高,而当学习进程推进时,无论测试内容多与少,3类学习者的放弃测试率都非常高. 而同样的情况也出现在作业完成及作业提交的学习任务中. 对于完成作业的频次,积极学习者也远高于消极学习者和惰性学习者,惰性学习者提交作业的次数非常少,甚至相当一部分学习者的次数为0. 由此可见,在做测试内容及作业设计时,也要偏向小而精的设计准则,并且,在学习过程中要及时观测学习者的测试及作业完成情况,并及时给予学生相应的学习反馈.

图 2 3门课程学生每周小测验平均完成次数对比 Figure 2 The comparison of the average number of completed quizzes per week for three courses

4) 论坛参与度对学习效果的影响.

本次研究还检验了学习者参与论坛讨论这一学习行为对课程完成率和最终课程成绩的影响. 3门课程都提供了论坛讨论模块供学习者和指导教师进行学习交流,按照参与论坛讨论积极度,把学习者分为活跃讨论者和非活跃讨论者,并把卡方和均方差检验应用到论坛使用效果分析中. 平均大约9%的学生参与了对应课程论坛讨论. 通过计算活跃讨论者和非活跃讨论者的课程成绩,结果显示,活跃讨论者的课程通过率为61%,远高于非活跃讨论者的9%. 卡方检验显示了活跃与非活跃学习者间的显著差异(P<0.001),卡方值约为72.1. 均方差结果也显示出活跃学习者具有比较高的课程成绩:平均成绩为72分,而非活跃学习者的平均成绩只有13分.

5) 学习者类型与学习效果.

通过卡方检验和单因素方差分析来检验与分析3种类型的学习者最终的学习效果,从表2的结果显示,3种类型的学习者由于具有差异性较大的学习行为,从而导致产生不同的学习效果. 从表2的经常性的完成作业和小测验,参与论坛讨论的,及观看教学视频的主动学习者的课程完成率(参加最终测试,学习过程中能完成70%以上的学习任务)和通过率(成绩大于60分)远高于消极学习者和惰性学习者. 具体而言,54%的积极学习者通过了课程学习,而只有28%的消极学习者和2%的惰性学习者完成了各自的MOOCs学习. 在3门课程中,《计算机网络》的完成率最高,达到20%. 在对完成课程的学习者跟踪调查中得知:该课程与其他两门课程相比的困难度较低,并且所提供的课程MOOCs平台资源比较全面,质量比较高. 在学习过程中,指导教师能经常性地在论坛中及时回复学生所提出的问题,提高学生地学习参与度,从而学生有较高的学习持续度和完成率.

在已有的研究中[8],MOOC课程的完成率普遍偏低,完成人数大约只占初始注册人数的5%~15%. 在本次研究中,只有约8.4%的学习者通过了课程学习. 在这3门课程中,《数字电路与逻辑》的通过率最低,最终完成学习的学习者人数为10名,只占总数的2.5%. 其中,2名为主动学习者,4名为被动学习者,4名为惰性学习者. 同时,卡方和均方差检验结果显示:3种类型的学习者在课程完成率和最终的课程成绩方面具有非常显著的差异性(P<0.001).

表 2 学习者类型与对应的课程完成率和平均成绩 Table 2 Learner type and corresponding course completion rate and average score

6) MOOCs平台上的学习行为轨迹对比分析.

针对中途弃学及成功完成MOOCs学习的学生,考察其在MOOCs平台上的学习行为轨迹(其中的行为轨迹是以课程单元为单位,列出频次较高的行为模式).

中途弃学学生:(1) 浏览视频;2) 浏览论坛→浏览视频;(3) 单纯浏览文档资源(包括PPT);(4) 浏览文档资源(包括PPT)→浏览论坛;(5) 单纯浏览论坛;(6) 单纯浏览小测验;(7) 浏览文档资源(包括PPT)→浏览视频;(8) 浏览文档→浏览部分视频→浏览部分小测验→浏览论坛;(9) 浏览论坛→跳跃浏览小测试.

完成学习学生:(1) 浏览视频→浏览作业→浏览视频→浏览小测验→提交小测验→提交作业;(2) 浏览文档→浏览小测验→浏览文档→提交小验;(3) 浏览文档→浏览论坛→浏览视频→浏览小测验→浏览论坛→提交小测验;(4) 浏览视频→浏览作业→浏览论坛→提交作业.

“中途弃学学生”是指前期参与了课程学习(平台上有学习痕迹),中、后期不再登录平台. “完成学习学生”是指平台上的学习痕迹一直持续到课程结束,并完成了最终课程测试. 不考虑其他外在因素,单从学生MOOCs学习行为模式看到:中途弃学的学生对视频浏览的频次非常低,也很少参加小测试. 而成功完成MOOCs学习的学生最频繁的学习行为恰恰是经常浏览视频资源及参加课程测试. 并且,在每次课程单元学习任务放开后,成功完成课程的学生学习行为的多样性及学习频次远高于中途弃学的学生.

3 讨论与分析

3种类型的MOOCs学习者中,积极学习者能够经常按时提交作业,高频次地观看教学视频及文档,并最终完成率和成绩也都比较高.

能够经常参加论坛讨论的学生通过率和成绩普遍优于消极学习者,由此可知:良好的课程论坛内容设计与灵活多样的讨论形式能够给学习者提供良好的交互性,最终能够提高MOOCs课程学习效果.

在课程学习推进的前3周,学习者在MOOC平台的学习行为活跃度相对比较高,随后出现大幅下滑现象,甚至相当数量学习者再无MOOC平台的学习行为出现. 由此可见,前3周是维持学习者继续在MOOC平台学习的关键时间点,所以,课程指导教师或者MOOC课程设计者要非常仔细地设计课程章节、内容及每周课程内容之间连接性,优化知识结构,合理安排课程进度. 指导教师还需要持续跟踪学习者的学习反馈,并能及时做出相应调整.

通过以上研究分析可以看到,学习者参与MOOCs学习的效果未完全达到设置MOOCs教育所希望达到的目标,典型表现为学生中途弃学率较高,最终完成度偏低. 目前来看,完全让在校生自由参与MOOCs教育所取得的学习效果因受到主、客观因素的影响还不能满足教育者设定的教育目标,因此可以采用以下一些方法来提高MOOCs教育对学生学业的帮助度.

1) 把相应MOOCs教育纳入到课程体系.

可以采用选修课、任选课等形式写入教学大纲并分配相应的学分,学生在通过MOOCs平台修完相应的课程并通过测试后就可给予相应的学分,这样,学生的学习意愿度和持续度就可得到一定的保证和提高.

2) 把MOOCs教育纳入学生课业与学业评价体系.

目前各所高校都非常重视学生的学业、课业和学习过程评价,所以可以把学生参与MOOCs学生的过程及取得的成绩纳入到学业评价和过程评价体系中. 这样,不但能够完善评价体系,而且也能够引起学生的足够重视,从而有利于提高MOOCs课程完成率.

3) 选用高品质MOOCs平台.

MOOCs教育方式可以让学生在课下自由安排时间参与MOOC平台提供的课程学习,具有很强的灵活性,但为了保证学生的学习质量,MOOCs平台必须提供高质量的学习资源及灵活方便的平台使用功能. 考虑到学生的学习习惯与特 性,应多采用微视频、微课件、学习讨论、虚拟实验等灵活多样的学生非常感兴趣的教学形式,并对学习的任务量及学习持续时间进行充分考虑,进一步提高学生参与MOOCs学习的兴趣度,并维持持续学习的动力. 所以,作为指导教师有责任为学生对MOOCs资源进行把关与推荐.

4) 加强教师指导作用.

在实施针对在校生的MOOCs教育时,考虑到学生的学习特点和MOOCs教育的开放性,指导教师应及时参与到各学习环节中,在必要的节点给予学生充分指导,对学生提出的问题应及时给予解答,让学生始终能保持MOOCs平台的活跃度,这样,有助于提高MOOCs学习的完成度及学习效果.

4 结语

1) 研究工作进一步细化的方向.

如何很好地理解学生在MOOCs平台上的学习模式对于设计与实施MOOCs教育的研究者与教育者至关重要,因为不同的学习模式会有不同的学习效果,本文所研究的内容对探讨学生的学生行为模式与MOOCs教育学习效果之间的关系提供了一定的借鉴意义.

在本文研究的基础上,可在以下几方面继续做深入研究:

(1) 学习行为模式粒度细化.

可进一步细化学生的学习行为粒度,比如学习者登录平台的时间段与频次、观看教学视频的时间与知识点间的关系、视频长度选择及学生完成测验的时间跨度等.

(2) 调查问卷信息反馈.

可详细设计诸如“学生参加MOOCs学习意愿情况”、“中途弃学原因”、“顺利完成学习原因”等调查问卷,利用这些信息为进一步优化MOOCs课程内容与结构设计,合理安排教学过程,提高学生的学习效果提供支撑依据.

(3) MOOCs教育与传统线下教育效果对比.

针对相同课程,可对学生样本划分为两类:单纯参加MOOCs课程学习与单纯参加传统课程学习的. 在同一个学习周期内对比学生最终的考核成绩,通过统计分析和信息反馈的形式进行对比研究.

2) 总结.

本文根据MOOCs平台上学习者的学习行为指纹,利用基于离差平方和法的AHC层次聚类算法和K-means非层次聚类算法,对参加MOOCs课程学习的学习者进行了分类. 研究和分析了不同类别学习者的学习行为对MOOCs学习效果的影响,并利用卡方检验和单因素方差分析对不同类型的学习者在课程完成率、课程成绩等方面做了详尽的对比分析. 针对如何提高学生MOOCs学习效果及MOOCs课程的结构内容设计给出了建议,为进一步在高校中顺利开展MOOCs教育提供了一定的借鉴.

参考文献
[1] 牟智佳, 武法提. MOOC学习结果预测指标探索与学习群体特征分析[J]. 现代远程教育研究, 2017(3): 58-66.
MOU Z J, WU F T. The Exploration of learning outcome prediction indicators and analysis of learning group characteristics for MOOC[J]. Modern Distance Education Research, 2017(3): 58-66.
[2] MARGARYAN A, MANUELA B. Instructional quality of massive open online courses (MOOCs)[J]. Computers & Education, 2015(80): 77-83.
[3] 伍育红. 聚类算法综述[J]. 计算机科学, 2015(6): 491-499.
WU Y H. General overview on clustering algorithms[J]. Computer Science, 2015(6): 491-499.
[4] ZHU M C, WANG W Z, HUANG J S. Improved initial cluster center selection in K-means clustering[J]. Engineering Computations, 2014, 31(8): 1661-1667. DOI: 10.1108/EC-11-2012-0288.
[5] 蒋卓轩,张岩,李晓明. 基于MOOC数据的学习行为分析与预测[J]. 计算机研究与发展, 2015, 52(3): 614-628.
JIANG Z X, ZHANG Y, LI X M. Learning behavior analysis and prediction based on MOOC data[J]. Journal of Computer Research and Development, 2015, 52(3): 614-628. DOI: 10.7544/issn1000-1239.2015.20140491.
[6] 李帅,张岩峰,于戈,等. MOOC平台学习行为数据的采集与分析[J]. 中国科技论文, 2015(20): 2373-2376.
LI S, ZHANG Y F, YU G, et al. Learning behavior acquisition and analysis of MOOC[J]. China Science Paper, 2015(20): 2373-2376. DOI: 10.3969/j.issn.2095-2783.2015.20.007.
[7] 蒋盛益,王连喜.聚类分析研究的挑战性问题[J].广东工业大学学报,2014,31(3):32-38.
JIANG S Y, WANG L X. Some challenges in clustering analysis[J].Journal of Guangdong University of Technology, 2014, 31(3):32-38.
[8] LU OWEN H T, HUANG JEFF C H, HUANG ANNA Y Q, et al. Applying learning analytics for improving students engagement and learning outcomes in an MOOCs enabled collaborative programming course[J]. Interactive Learning Environments, 2017, 25(2): 220-234. DOI: 10.1080/10494820.2016.1278391.