随着计算机网络和信息技术的迅猛发展,人类不知不觉中已进入大数据时代。联合国全球脉动计划在2012年5月发布的大数据白皮书《发展中的大数据:挑战与机遇》中指出,世界正在经历着一场数据革命,大数据的出现将会对社会各个领域产生深刻影响。[1]教育领域作为社会各领域的重要组成部分,不可避免地受到信息技术和数据变革带来的影响,不同教育层级的各类型教育系统也层出不穷,大量的教育数据库和教育数据应运而生。[2]这些数据库和数据为探索和研究教育问题以及学生如何学习提供了一个巨大的“宝库”。[3]
作为探索和研究教育数据的重要手段之一,教育数据挖掘研究正快速发展。本研究以“educational data mining”为主题,对Web of Science(WOS)数据库1995—2015年10月检索到的553篇相关英文文献,通过基于引文的文献分析软件Histcite进行分析,得到文献引用关系图谱,并提取引用最为频繁的前20篇文献重点研读,分析教育数据挖掘的研究进展,归纳该领域的研究兴趣点,预测教育数据挖掘的未来发展方向与挑战。
二、研究背景教育数据挖掘是数据挖掘技术在教育领域的应用和发展。数据挖掘概念的产生可追溯到20世纪90年代数据库中的知识发现(Knowledge Discovery in Databases,KDD)这一概念,数据挖掘作为知识发现过程中的重要环节而被关注和研究。在过去20年时间里,数据挖掘技术在商业金融、制造业、电信通讯、生物医疗、民生服务等方面得到广泛应用,并逐步拓展到教育领域。
从2000年开始,教育数据挖掘从一系列相关国际会议的小组会议中发展起来,第一次使用“教育数据挖掘”作为小组会议的主题是在2005年的人工智能国际会议(AAAI’05)。[4]12—27之后,各种计算机应用国际会议开始设立教育数据挖掘的研讨会,并吸引了越来越多学者的关注,这些研究者便组成了一个共同体—国际教育数据挖掘协会(网址:http://www.educationaldatamining.org/)。该研究协会2008年在加拿大蒙特利尔召开了第一届“教育数据挖掘国际会议”,截止目前已成功召开8届会议,并创办了在线学术期刊《教育数据挖掘杂志》(Journal of Educational Data Mining)。此外,教育数据挖掘相关的学术期刊有10余种,如表 1所示。
![]() |
表 1 教育数据挖掘相关的部分学术期刊 |
教育数据挖掘研究不但成为一个新的学术研究领域,其应用和实践也得到了各国政府的高度重视。美国于2012年10月发布了《以数据挖掘和学习分析促进教与学》报告,对于如何通过数据挖掘、学习分析和自适应学习促进教育教学和学习者的学习效果进行了理论、案例、访谈等多方面的系统分析和趋势评估。[5]哈佛大学、耶鲁大学、哥伦比亚大学等高校也纷纷启动自己的数据和信息技术相关计划。中国也高度重视教育信息化和数据的发展,2014年颁布的《教育管理信息化建设与应用指南》明确指出,国家和地方各级教育基础数据库聚集着记录教育管理和教学过程的大量数据,通过基于大数据的智能模型,对教育基础数据进行直观而又可靠的分析处理,能够为教育决策提供超越经验判断的结论和预测,能够发现学生学习和教师教学过程的新特点、新规律,从而为提高教育科学决策水平,推动教育教学改革提供重要的参考。[6]大数据分析的独特作用成为加快推进全国教育管理信息化新的驱动力。
三、国外教育数据挖掘研究现状 (一) 文献初步分析在Web of Science数据库中以“educational data mining”为主题,对1995—2015年(截止2015年10月)这20年的时间段进行检索,共检索到相关英文文献553篇,涉及69个国家或地区的200多所科研机构的1 473名研究人员,其年份和引用次数分布情况如表 2所示。从中可见,教育数据挖掘研究是在2005年以后才逐渐增多,近3年保持每年80~90篇文章的增长量。
![]() |
表 2 1995—2015年WOS教育数据挖掘文献数和引用次数统计 |
根据文献初步分析,教育数据挖掘领域的研究人员或团队主要有西班牙Cordoba大学的Romero,美国伍斯特理工学院的Ryan Baker、Joseph E Beck和Neil Heffernan,澳大利亚悉尼大学的Kalina Yacef,美国北卡罗纳大学的Tiffany Barnes、蒙特利尔理工学院的Michel Desmarais、德国柏林应用科学大学的Agathe Merceron、荷兰埃因霍温大学的Mykola Pechenizkiy、加拿大阿尔伯塔大学的Osmar、美国卡耐基梅隆大学的John Stamper、悉尼大学的Judy Kay、卡耐基梅隆大学的Kenneth Koedinger和Jack Mostow、以色列特拉维夫大学的Rafi Nachmias、加拿大萨省大学的Gord McCalla、美国孟菲斯大学的Arthur Graesser等等。其中,Romero、Baker、Yacef的研究最具代表性。
(二) 文献引用关系和重点文献Histcite是一款基于引文的文献分析软件,能够用图示的方式展示某一领域不同文献之间的关系,可以快速帮助人们绘制出一个领域的发展历史,定位出该领域的重要文献,以及最新的重要文献。其主要指标有:Global Citation Score(GCS),即引用次数;Local Citation Score(LCS),即某篇文章在当前数据库中被引用的次数。
通过基于引文的文献分析软件Histcite,对这553篇文献进行分析,得到文献引用关系图谱如图 1所示;并提取引用最为频繁(以引用次数为准)的前20篇国外相关研究文章作为重点研读的文献,如表 3所示。
![]() |
图 1 教育数据挖掘文献引用关系图谱 |
![]() |
表 3 教育数据挖掘重点研读的20篇外国文献(按引用次数排序) |
在此基础上,笔者又对近三届教育数据挖掘学术会议的相关文献进行选读,以更多了解该领域的发展现状和未来趋势。
四、教育数据挖掘的概念、一般过程及方法 (一) 教育数据的典型特征数据挖掘技术已在市场营销、生物与医学等领域得到了广泛应用,缘何要单独就其在教育领域的应用作为一个研究方向呢?除了不同的研究领域本身具有的领域特征外,教育数据还有几个不同于其他类型数据的典型特征:
特征一:教育数据的多层次结构。对于整个教育系统,有基础教育、中等教育、高等教育等不同层次的教育,所带来的研究问题差异性很大;对于处于某一教育阶段的学生群体,又存在着不同班级和年级、不同专业、不同课程、不同教师等多类型结构,其研究范畴也有很大差异性。
特征二:教育数据的情境多元性。教育是一个人类广泛参与的动态过程,此时此地此对象的教育问题在下一秒钟或下一阶段就变化了,所以教育数据记录的往往都是一个特定的对象在一个特定日期的特定时间里在一个特定的环境里遇到一个特定的问题。
特征三:教育数据采集的差异性。不同的教育系统记录和采样数据的频率和时间间隔可能都存在差异性,给教育数据挖掘技术的标准化带来巨大挑战。比如,学校A的信息系统是按每一个月一次来记录学生的学习行为数据,而同一区域的学校B则可能是按每一学期一次来记录学生的学习行为数据。
特征四:教育数据的时间跨越性。教育数据一般具有时间序列性和跟踪性,它会记录下某一研究对象在一学期、一学年乃至整个教育阶段的学习行为数据,所以其时间跨度也是存在差异性的。
正是由于教育数据以上四个典型特征,导致数据挖掘技术在教育领域的应用面临诸多挑战,也有许多新的问题需要解答。
(二) 教育数据挖掘的概念教育数据挖掘是一个包含了信息检索、推荐系统、可视化数据分析、领域驱动数据挖掘、社会网络分析(SNA)、学习、认知心理学、心理测量学等多个方向的交叉研究领域。或者说是计算机科学、教育学与统计学这三个学科方向结合的领域,如图 2所示。[4]12—27当然,这三个领域的结合也产生与教育数据挖掘相近和相关联的研究方向,比如基于计算机的教育、数据挖掘与机器学习、学习分析等。
![]() |
图 2 教育数据挖掘主要相关研究领域 |
教育数据挖掘网站对其定义为:这是一个新兴的跨学科领域,它致力于发展新的方法来从教育领域产生的数据中寻找独特类型的数据,并更好地了解学生是如何学习的以及他们提升学习效果的方式方法,以此来更好地解释教育现象。[7]Romero等认为,教育数据挖掘就是要开发、研究和应用计算机和网络技术的方法,从大量的难以或不可能进行分析的教育数据中进行模式的检测。[8]它也可以这样定义,为了解决重要或关键的教育问题,数据挖掘技术在教育环境里这个特殊类型数据集中的应用。[9—10]同时,数据挖掘在教育系统中的应用是一个形成假设、测试、改进的迭代循环过程。
(三) 教育数据挖掘的一般过程已有研究从不同视角对数据挖掘应用于教育系统的过程进行了解释。一方面,从教育和实验视角来看,教育数据挖掘可以被视为一个假设、测试到优化的迭代过程,如图 3所示。[7]在这个过程中,教育数据挖掘的目标不仅仅是将数据转化为知识,还要过滤挖掘的知识进行决策,以优化教育环境提升学生的学习水平。这种类型是一个正在不断发展并持续优化的教育计划形式化评估方法,它通过分析学生如何使用系统来评估教育教学设计,并且帮助教育设计者优化学习资源和过程。
![]() |
图 3 教育数据挖掘的一般过程 |
1. 教育环境
由于教育环境类型(传统的课堂教育,基于计算机或网络的教育)不同,支撑的信息系统也不同(E学习系统,智能教学或先进多媒体系统),能够收集的用于解决不同问题的数据也是不同的。所有这些数据可能来自于包括管理数据、观察数据、主动的问卷调查、实验测量数据、分数等等在内的不同数据源,将这些原始数据进行收集整理可不是一项简单的任务,所以进行数据预处理是十分必要的。
2. 预处理在教育情境中,数据预处理是一项十分重要而且复杂的任务,有时挖掘过程可能要掉超过一半的时间进行数据预处理工作。[11]首先,用于解决实际问题的教育数据(原始的、基础的数据)格式不统一。其次,由于教育数据的层次性和异构性,造成了数据结构和格式成为解决问题的关键所在,最好的数据结构也取决于所要解决问题的类型。因此,将原始数据转换成恰当的数据格式是十分必要的,这个过程包括选择收集哪些数据、聚焦哪些问题、数据与问题是否紧密相关。
3. 数据挖掘包括分类、聚类、关联分析等在内的传统数据挖掘技术在教育领域已得到广泛地应用。[12]但是,教育系统有其特殊性以及数据的复杂性,需要不同的挖掘处理。比如,分层数据挖掘和纵向数据建模方法已在教育数据挖掘中得到应用。因此,为了分析愈加复杂的教育数据,要使用一些特殊的数据挖掘方法。
4. 结果解释最后一步,应用已有的知识进行决策以优化教育环境或系统是十分重要的。[13]对于决策来说,从数据挖掘算法中获取的模型必须是可理解的、有用的,而通过推荐系统向非领域专家进行结果、信息、解释、意见和建议展示是一条好的路径。这样,不是以一些数据挖掘模型的形式,而是以一系列的建议和结论的形式以及如何使用这些结果的方法都可以直观地展现在用户面前。
(四) 教育数据挖掘的主要方法教育数据挖掘有很多通用的方法,其中一些是在各种类型的数据挖掘中均被广泛采用的,比如传统统计分析、预测、聚类、异常检测、关联规则、社会网络分析、过程挖掘、文本挖掘等等。还有一些是在教育数据挖掘中处于关键地位的方法,比如判定升华、模型发现、知识追踪、非负矩阵分解等。这些方法的具体描述和应用实例可如表 4所示。
![]() |
表 4 教育数据挖掘的主要方法 |
五、教育数据挖掘研究兴趣点与方向 (一) 研究兴趣点分析
通过归纳相关研究主题,目前该领域主要的研究兴趣点主要分为优化挖掘技术、促进与教育理论融合两个方面。
1. 优化挖掘技术方面该类型主要是根据教育数据的特殊性,重点完善和优化数据挖掘技术。主要有以下类型:
一般框架和方法:开发面向教育数据挖掘的工具、框架、方法、算法、路径等等,寻找教育、信息等不同学科在教育数据挖掘中新的交叉点。
挖掘不同的教育数据:变换不同的教育对象,挖掘评估数据、浏览或互动数据、教育研究结果数据等等。
教育过程挖掘:从教育系统存储的数据中提取过程相关的知识,从过程或序列中寻找新的规律。
数据驱动的自适应与个性化:针对教育系统的特殊性,应用数据挖掘技术与方法改善优化教育环境和系统的适应性和个性化,尝试开发教育数据自适应挖掘工具。
优化教育软件和工具:适应教育系统的复杂性特征,优化已有的教育数据采集、存储、挖掘、分析和决策的信息软件和工具,寻找更适合具有本地化特征、或是更有通用性特征的软件和工具。
复现研究:应用已有技术到新的领域,或用一项新的技术分析已有数据。
2. 促进与教育理论融合方面数据挖掘技术与教育教学理论的结合:通过寻找教育数据挖掘模型的过程,关注教育关心的重点问题,提出合理化建议并尝试加以解决。
评估教育教学行为:关注教育教学过程的细节,比如课堂行为、师生互动、校园活动等,并分析这些客观行为的有效性。
关注教育的非客观自测数据:关注教育环境内除了课程、住宿、图书以及学生学习行为等客观数据之外的情绪、情感、信仰等非客观自测数据。
优化教学支持:帮助教育者分析教学过程,评估教育效果,分析何种类型的指导性建议既容易产生又易于师生接受。
优化教育实践:优化教育背景下的数据挖掘、信息检索、推荐系统、观念挖掘和问题回答、教育决策等教育技术实践,推进教育技术的新发展。
(二) 教育数据挖掘未来研究方向通过文献分析和兴趣点归纳,教育数据挖掘研究可以在这五个方面开展研究和发挥作用。
1. 教育数据挖掘要向纵向深度和横向宽度两个方向逐步拓展一方面,针对某个教育阶段或某个教育群体,可以坚持长期的跟踪研究或改革前后对比研究,将教育数据挖掘技术在该阶段或群体的应用研究得更为透彻。另一方面,已有的研究虽然对大部分的教育分系统都有所涉及,或者对某一对象采用的挖掘方法都有所涉及,但是还是有很多教育对象未涉及或研究方法很少应用,可以进一步拓展研究的宽度。比如,已有研究文献中,对研究生群体作为研究对象的研究十分少,可以将研究生群体作为研究对象。此外,数据挖掘技术中还有一些新开发的方法,可以尝试在教育系统中使用,并观察其应用效果。
2. 要逐步解决教育数据挖掘技术标准化、数据开放、软件开源问题由于教育系统本身的多层次、多样性特征和数据挖掘技术非标准化等原因,导致目前存储的大量教育数据标准不一,形成一个个数据“孤岛”,不易使用和挖掘。而且,目前已有的教育数据挖掘工具和软件基本上是不能下载的,一般只能嵌入或整合到研究者自有的信息教育系统中,并与其课程设计工具、测试生成工具、报表工具等等一起来使用,不具开放性。此外,由于这些软件工具的应用具有一定私密性,还不能实现代码开源,不利于研究人员复现已有研究,不利于该领域研究人员的相互学习和交流。目前,国际教育数据挖掘协会正努力尝试建立一定的数据和方法标准,以推动该领域的研究继续发展。
3. 要逐步完善教育数据挖掘技术对于非领域技术专家的易用性问题不管是否承认,教育数据挖掘技术研究的相关人员与最终结果的使用人员之间还是存在差异和“鸿沟”的。作为技术研究人员,他们更看重理论和方法的可用性,往往容易忽略挖掘结果的最终使用对象。对于很多最终用户来说,他们很多都不是教育数据挖掘领域的专家,他们的需求是更自动、更便捷、更易解读、更“傻瓜”的服务。所以,作为该领域的一个重要研究方向,就是通过优化决策支持系统、向导工具、推荐引擎等途径,提高教育数据挖掘技术的易用性。
4. 要逐步实现教育数据挖掘领域的自适应决策与自适应学习应用作为提高易用性的重要技术手段,基于数据驱动的自适应决策与自适应学习是关键环节。从理论层面上讲,这个环节就是要解决该领域定性研究与定量研究之间的有效转换、教育学与信息技术应用之间的跨学科有效衔接问题。从应用层面来讲,这个环节就是要解决如何用教育数据挖掘结果更有效地服务于学习分析和教育决策的问题。这其中既涉及教育数据挖掘的过程和方法问题,还涉及决策理论和应用问题。
5. 推动教育机构和教育参与者形成将数据驱动用于优化教育决策、提高教育质量的文化和传统要帮助教育机构和教育参与者明白,数据已经成为与“人、财、物”并驾齐驱的重要教育资源,通过数据挖掘技术从教育数据中提取的知识,不但应该成为教育管理者和教师进行教育改革决策和学习分析的重要依据,还应该成为满足学生教育需求、提高教育质量的新的重要驱动力。未来的教育,将步入部分或完全信息化、数字化进程,广大教育机构和教育参与者不应被裹挟前进,而是要主动作为,将数据驱动作为一种新的战略、新的趋势、新的传统和新的文化。
六、教育数据挖掘研究面临的挑战 (一) 教育数据挖掘技术给教育研究带来新的挑战和机遇教育数据挖掘是一种教育信息化技术,是伴随着信息技术的发展而发展的,特别是大数据的出现对计算机存储能力、数据采集分析和兼容性的影响是巨大的。这将意味着更多结构化数据和Word、PDF、网页文本、图像、视频和地理空间数据等非结构化数据的存储大量增加,那么教育数据的复杂性也在增加[14],这对教育数据挖掘的技术和方法提出更高的要求。同时,教育信息化的发展对教育机构的管理体制和运行机制也带来巨大挑战,教育参与者不仅需要转变观念,还需要为教育信息化提供强有力的技术支撑、管理支撑和文化支撑;此外,教育数据挖掘也是一个教育研究领域,是服务于教育研究的本质目的的。信息技术给原来的教育研究插上了信息化的翅膀,将教育环境、教育参与者特征、教育过程、教育互动、教育结果、教育监测等一系列信息记录在数据和数据集中,通过教育数据挖掘技术,将结果反馈到教育系统的各个环节,可以进一步完善优化教育环境、提升受教育者的素质,完善教育决策过程,提高教育质量。这对于教育研究来说,必然是一次全新的机遇与体验。
(二) 要处理好定性研究与定量研究的关系,不能掉入“定量万能”的陷阱从哲学意义上讲,任何事物都是质和量的统一体,只不过是某一事物通过质的研究或量的研究更容易发现其本质特征,人们往往容易忽视其相对的另外一个范式的研究。教育作为一个研究对象,定性研究与定量研究是贯穿教育研究的两条主线。定性研究的研究范式注重整体和定性的信息,而定量研究着重于分析确定因果关系并做出结果解释。数据挖掘本身是一门实验科学,属于定量研究范式,其在教育研究中的应用最终落脚点确是教育解释和定性结论。所以,教育数据挖掘技术应是量化研究的定性分析,并体现教育的真实性原则,即量化技术和方法要符合教育现象的真实。事实上,教育数据挖掘应用中,数据处理不好,也有可能会骗人的或误导你的,并不存在所谓的万能的算法。比如,在关系分析方法中,会发现很多不同的教育变量的相关性,这时就需要特别注意的是,相关性并不代表一定有因果关系,不一定能体现教育的真实情况。所以,教育数据挖掘研究要与定性研究有效结合,万不能掉入“唯量化”的陷阱。
(三) 要妥善处理教育数据挖掘研究中的隐私与伦理问题伴随着数据挖掘技术在教育领域的广泛应用,隐私和伦理道德限制也是教育数据挖掘应用过程中不可回避的问题。2012年10月,美国教育部教育技术办公室委托斯坦福国际研究院学习技术中心发布的报告中明确指出,教育机构在将学生的个人教育数据交付给第三方机构或第三人用于教育数据挖掘和学习分析应用开发的时候,必须注意规避相应的政策和法律规定。[5]还有一种情况是教育机构本身对教育数据管理不善,造成教育数据和个人隐私外泄。《家庭教育权利和隐私法案》是一项美国联邦法案,其中明确规定要保护学生个人学习记录的隐私。为了积极应对数据挖掘对学生隐私可能带来的问题隐患,美国国土安全部的网络安全委员会于2014年6月召开了主题为“数据挖掘是如何威胁学生隐私的?”的专门听证会,以寻求完善相关法律规定,保护学生个人隐私。[15]同时,通过教育数据挖掘应用而获取的一些研究成果,将大大提高教育机构和教育参与者资源、信息、行为的透明性,也有可能会带来一些伦理问题。所以,隐私和伦理问题是需要教育数据挖掘相关研究机构和个人高度重视和审慎处理的。
[1] |
Big Data for Development: Challenges & Opportunities[EB/OL]. (2012-05-01)[2015-10-11]. http://www.unglobalpulse.org/sites/default/files/BigDataforDevelopmentUNGlobalPulseJune2012.pdf.
|
[2] |
KOEDINGER K, CUNNINGHAM K, SKOGSHOLM A, et al. An open repository and analysis tools for fine-grained, longitudinal learner data[C]//Montreal: First International Conference on Educational Data Mining, 2008: 157-166. https://www.researchgate.net/publication/221570519_An_Open_Repository_and_analysis_tools_for_fine-grained_longitudinal_learner_data
|
[3] |
MOSTOW J, BECK J. Some useful tactics to modify, map and mine data from intelligent tutors[J]. Natural Language Engineering, 2006(12): 195-208. |
[4] |
CRISTOBAL R, SEBASTIAN V. Data mining in education[J]. WIREs Data Mining Knowledge Discovery, 2013(3): 12-27. |
[5] |
Enhancing teaching and learning through educational data mining and learning analytics[EB/OL]. (2012-10-01)[2015-10-11]. https://tech.ed.gov/wp-content/uploads/2014/03/edm-la-brief.pdf.
|
[6] |
教育管理信息化建设与应用指南[EB/OL]. (2014-11-13)[2015-10-11]. http://www.moe.edu.cn/ewebeditor/uploadfile/2014/11/13/20141113104447859.pdf.
|
[7] |
Definition of educational data mining[EB/OL]. [2016-03-11]. http://www.educationaldatamining.org/.
|
[8] |
ROMERO C, VENTURA S, PECHENIZKY M, et al. Handbook of educational data mining, data mining and knowledge discovery series[M]. Boca Raton, FL: Chapman and Hall/CRC Press, 2010.
|
[9] |
ROMERO C, VENTURA S. Educational data mining:a survey from 1995 to 2005[J]. Journal of Expert System Application, 2007(1): 135-146. |
[10] |
ROMERO C, VENTURA S. Educational data mining:A review of the state of the art[J]. IEEE Trans System Man Cybernetics C:Application Review, 2010(40): 601-618. |
[11] |
BIENKOWSKI M, FENG M, MEANS B. Enhancing teaching and learning through educational data mining and learning analytics:An issue brief[M]. Washington, D.C.: U.S. Department of Education, 2012, 1-57.
|
[12] |
BAKER R. Data mining for education[M]//MCGAW B, PETERSON P, BAKER E. International Encyclopedia of Education. 3rd ed. Oxford: Elsevier, 2010: 112-118.
|
[13] |
GARCIA E, ROMERO C, VENTURA S, et al. Collaborative data mining tool for education[C]//Cordoba: International Conference on Educational Data Mining, 2009: 299-306. https://eric.ed.gov/?id=ED539090
|
[14] |
SAEED A, et al. An approachable analytical study on big educational data mining[C]//Switzerland, Cham: Computational Science and Its Applications, 2014: 721-737. https://link.springer.com/chapter/10.1007%2F978-3-319-09156-3_50
|
[15] |
How data mining threatens student privacy[EB/OL]. (2014-06-25)[2015-11-01]. https://www.gpo.gov/fdsys/pkg/CHRG-113hhrg91448/html/CHRG-113hhrg91448.htm.
|