基于学科期刊耦合强度的学科分类研究

引用本文

张静, 刘筱敏, 武丽丽, 马娜. 基于学科期刊耦合强度的学科分类研究[J]. 中国科技期刊研究, 2015, 26(9): 907-914. 复制到剪切板

ZHANG Jing, LIU Xiaomin, WU Lili, MA Na. The study of subject-classification based on journal coupling analysis[J]. Chinese Journal of Scientific and Technical Perioddical, 2015, 26(9): 907-914. 复制到剪切板

基于学科期刊耦合强度的学科分类研究

张静, 刘筱敏, 武丽丽, 马娜

中国科学院文献情报中心北京北四环西路33号 100190

收稿日期：2015-07-24
修回日期：2015-09-01

第一作者简介：张静,硕士研究生,E-mail:zhangj2013@mail.las.ac.cn

作者贡献声明：
张　静：设计研究思路、设计研究方案、研究方案可行性调查分析、实施研究过程；
刘筱敏：提出研究方向、设计研究思路、修订论文、审核论文；
武丽丽，马　娜：数据分析、研究方案可行性调研，实验研究。

摘要：【目的】学科分类作为科学研究的框架,在科学的发展中具有重要的作用。以计量学理论为基础,以《中国图书馆分类法》自然科学领域二级类目为分析对象,利用引文数据分析学科之间的相关关系,对二级类目进行修正,希望构建适应期刊分类定位需求的合适的分类体系。【方法】基于中国科学引文数据库,借助期刊之间的耦合强度研究学科之间的相关关系。【结果】通过聚类分析的方法,建立起一个经过整合之后的改进的学科分类体系,在此基础上运用关键词识别、主题挖掘等文本挖掘方法对新构建的学科分类体系的合理性进行解释。【结论】基于期刊耦合强度的学科分类体系具有符合目前期刊发展和学科发展的特点。

关键词：学科分类期刊耦合聚类分析文本挖掘中国图书馆分类法

DOI:10.11946/cjstp.201507240697

The study of subject-classification based on journal coupling analysis

ZHANG Jing, LIU Xiaomin, WU Lili, MA Na

National Scince Library, Chinese Academy of Science, 33 Beisihuan Xilu, Beijing 100190, China

Abstract: [Purposes] As the framework of scientific research, disciplinary classification plays an important role in the development of science. We study the relationship between the secondary disciplines belonging to natural science of CLC using objective computerised scientometrics, this study then gives some revises to the existing classification system so as to better adapt to the development of journal classification. [Methods] Taking the CSCD database as our data source,this article studies the relationship of disciplines based on the coupling strength among journals. [Findings] Then we try to set up an improved disciplinary classification system using cluster methods. Further, in order to identify and interpret the rationality of this improved system, we make use of some text mining methods such as key words recognition, topic detection. [Conclusions] Our study shows that the disciplinary classification constructed in this article based on journal-based coupling is up to the present development of journals and discipline.

Key words: Disciplinary Classification journal coupling cluster analysis text mining Chinese library classification

1 引言

如何将期刊进行学科定位，是期刊评估中至关重要的问题，目前解决这个问题的一般方法是依据一种学科分类体系，由相关专家或者工作者进行主观判断，对期刊进行学科定位。

学科分类体系是科学知识内在结构的一种外在表现，揭示了科学研究之间内在关联，具有重要的理论研究意义和现实应用价值。以《中国图书分类法》(以下简称《中图法》)、《杜威十进分类法》、《美国国会图书馆图书分类法》为代表的学科分类体系称之为专家分类体系，是目前应用较广泛的学科分类体系。专家分类体系是通过各学科领域专家对某一阶段科学发展的特点以及科学发展的历史，对学科之间的关系进行全面梳理、提炼、总结、整理，构建的表达知识之间相关关系的体系。这些专家分类体系广泛应用于期刊、论文内容揭示，信息组织等各个方面。

专家分类体系解决了建立合适的分类体系的问题，但复杂而多层级的分类体系，是否适用于期刊的分类需求？在实际应用中，除了这些专家分类体系以外，一些机构从实用的角度出发，独自构建了适用于自身需求的学科体系，例如，Web of Science的ESI数据库中使用的22个学科类目，JCR-science中使用的179个学科类目，JCR的学科类目没有层级化的结构，所有的类目之间是平行关系，这种结构更类似于主题类目。一些学者根据学科发展的特点和经验构建的分类体系，例如Glnzel等人^[1]在2003年、Boyack等人^[2]在2005年分别提出的包含15个类目的分类体系。

专家分类体系凝练了人类科学研究的成果及科学研究之间丰富的关系，但从客观性和科学发展的角度来看，专家分类体系也存在一些弊端。鉴于此，基于客观的科学计量的学科分类体系和专业领域挖掘的研究应运而生。1936年，Cason 和 Lubotsky^[3]就运用期刊之间的互引关系分析期刊之间的相互关系以及学科领域之间的相互影响。1953年Daniel 和 Louttit^[4]首次在心理学领域运用期刊之间的互引关系矩阵对期刊进行聚类分析。1972年，Narin等人^[5]首次根据期刊之间的相互引用关系，研究了从属于不同学科分类的期刊之间的相互关系。之后，Narin^[6]和Leydesdorff^{[7, 8]}又运用了诸如PCA、FA等多元统计分析方法对期刊之间的互引关系进行了自下而上的凝聚式聚类分析，对聚合得到的学科分类体系与现存学科分类体系进行了验证性研究。2004年，Leydesdorff^{[9, 10]}又提出利用bi-connected component analysis等图论方法对来自JCR的期刊互引图模型结构进行聚类分析。Leydesdorff等^[11]在2008年同样基于期刊之间的互引关系矩阵对科学结构做了可视化分析，并且在时间维度上研究了科学结构发展变化的趋势。2010年和2012年，Zhang L等人^{[12, 13]}研究了基于期刊互引关系建立的学科分类体系与Glnzel等人建立的包含15个类目的专家系统的一致性，同时对现有专家系统的调整和改善给出参考和建议。此外，Robert 等人^[14]选取特定期刊的文章为研究对象，通过研究期刊文章之间的相互引用关系挖掘相应学科中的研究领域。Chaomei Chen等人^[15]分别基于文章之间的相互引用关系和作者之间的相互引用关系对科学结构进行了定量分析，Howard等^[16]利用作者之间的互引关系，研究隐藏在作者背后的科学结构的发展变化。

前人的研究说明了在已有学科体系框架下，可以通过互引关系，观察学科结构的变化，修正已有的分类体系。其次，可以通过互引关系，采用各种聚类方法，形成新的分类体系。当然这种分类体系与专家分析体系比较更为简单化，体系结构不够丰满。但这些研究提供了一个对于期刊分类的很好思路。

本文以中国科学引文数据库(CSCD)数据为基础，借助期刊之间耦合强度的计算，在《中图法》10个自然科学一级类目框架不变的前提下，分析自然科学领域的126个二级类目之间的相关关系所体现出的新特征，通过对多种聚类分析方法进行集成学习(集成学习主要运用经典的多模型投票的策略)，对现有的《中图法》的二级类目进行合并和修正，表达适用于期刊分类的二级分类体系。

2 研究方法 2.1 相关性的度量

引证关系是科学发展规律的表现，体现了科学知识的累积性、连续性和继承性，能够在一定程度上反映科学结构的发展变化。本文对于学科分类的研究以期刊之间的相互引用关系为基础，通过研究期刊之间的相似性反映学科之间的相似性，以求在已有专家分类体系的基础上，利用引文客观反映学科之间关系的特征，找到适应期刊特点的合适的分类体系。

文章耦合和同被引是互引关系的两个方面的表征，是测度互引关系网络中网络节点相关性的两种主要度量方法。耦合的概念最早提出是在1963年，美国麻省理工学院的Kessler教授首次使用“文献耦合”这一术语描述文献之间的相关关系^[17]。此后，耦合强度逐渐运用在度量互引网络中期刊之间的相关关系^{[18, 19, 20, 21]}以及作者之间的相关关系^{[22, 23, 24]}的研究中。同被引的概念最早于1973年由前苏联情报学家 Marshakova I^[35]和美国情报学家Henry Small^[25]分别提出，用于度量互引网络中文章之间的两两相似性，文献同被引的概念还被进一步引用到度量期刊之间相关关系的期刊同被引研究^{[15, 26]}以及作者同被引研究^[14]中。耦合关系和同被引关系分别从互引关系的两个方向度量了网络节点之间的相关关系。耦合关系度量了后向的引用关系，反映了一种静态稳定的相关关系；同被引关系度量了前向的引用关系，反映了一种动态变化的相关关系。从互引网络的角度，耦合与同被引均为互引网络中步长为1的相关性度量方法。

尽管侧重点不同，期刊耦合强度和期刊同被引强度的强弱均可以反映学科之间的相关关系。相比较学科之间的期刊同被引强度是通过度量相同施引期刊的数量来计算学科之间的相关关系，本文选取学科的期刊耦合强度作为衡量学科之间相关关系的度量方法，通过统计期刊两两之间同引期刊的数量度量期刊之间的相似性，从而保证参与分析的期刊所组成的样本尽可能增大，进而提高后续分析的精确度。

2.2 聚类方法的确定

基于互引行为的学科分类研究的本质在于互引网络中各个网络节点的共性与异性分析，而学科分类或者专业研究领域即为这些具有共性的节点所组成的集合的抽象概括，其中寻找共性节点集合的过程也即为聚类分析的过程。前期的研究中，聚类分析的方法可以分为三类，一类是基于多元统计思想的聚类分析方法，诸如主成分分析(因子分析)^{[7, 16, 27]}；一类是利用经典的聚类分析方法，层次聚类^{[12, 13, 14]}、最小生成树^[28]等；一类是基于社会网络建立图模型的聚类方法^{[15, 21, 24, 26]}。基于多元统计思想的聚类分析方法将具有互引关系的节点对分别作为分析特征和分析对象，借助投影的思想将具有相同特征的节点聚集成类，但是类的划分没有明确的标准，类成员的选择也没有明确的条件，无法形成具有明确层次结构的学科分类体系。基于社会网络建立图模型的聚类方法主要从图的角度出发以整个引用网络作为分析对象，网络中节点之间的相似度的度量采用超越一步相似的度量方法，可以全面的反映整个互引网络中各个节点之间的共性和差异，但是此类方法的效果与参与分析的数据质量以及样本量的大小有很大的关系。经典聚类方法的主要研究对象并非互引网络，而是互引网络中的节点所组成的集合。节点之间相似度主要是基于互引关系网络中的步长为1的相似性度量方法确定，相比较基于社会网络图模型结构的聚类方法，经典聚类方法对于原始数据存在利用不充分的问题，但是经典聚类方法不受数据质量以及样本量大小的限制。

通过研究以上聚类分析领域中的主要方法，针对《中图法》各个一级类目下的二级类目是小样本量的特点，所以考虑采用对样本量要求不严格且对原始数据分布没有预定假设条件的系统聚类方法和分割聚类方法两大分类体系中的13种方法(表1)，并运用机器学习中集成学习的思想，将13种方法的结果进行综合集成，最大限度的保证聚类结果的有效性和准确度。

表 1 聚类算法的选取

3 学科分类实验和结果 3.1 数据基础

笔者以中国科学引文数据库(CSCD)2009—2011年数据为基础进行计算，该数据集涵盖1286种期刊，来自93万篇文章的1250万余条参考文献数据。中国科学引文数据库(CSCD)来源期刊的数量较少，但是引证期刊的数量较大，在度量学科相似度时，相比较学科的期刊同被引强度，学科的期刊耦合强度所覆盖的期刊数量更大，为了提高研究结果的准确性，采用学科的期刊耦合强度作为度量学科分类之间相似度的方法。此外，中国科学引文数据库(CSCD)来源期刊的论文均采用《中图法》，为期刊耦合强度提供了数据基础。

3.2 期刊耦合强度的计算

(1)统计对象为CSCD 2009—2011年来源文献及其参考文献中文献类型为期刊的数据；

(2)对于中国科学引文数据库的来源文献(施引文献)，将其学科分类聚类到《中图法》的二级类目下；

(3)通过施引文献与被引文献之间的相互引用关系形成二级学科类目—期刊组成的邻接矩阵，为了降低邻接矩阵的稀疏度，对于每一个学科分类，根据其引用各个期刊的引用频次截取累积百分比小于80%的期刊作为后续分析的对象；

(4)为了避免各个期刊卷期数量、发文类型、发文量等等因素对被引频次数据造成的影响，本文将(3)中得到的邻接矩阵转化为0-1型矩阵，从而消除以上因素对于期刊耦合强度计算的干扰；

(5)通过计算(4)中0-1型邻接矩阵中各个学科分类之间的Gower相关系数，将此矩阵转化为学科分类之间的相似度矩阵；

3.3 基于学科分类的期刊耦合强度的聚类分析

本文对于从属于同一个一级学科的二级学科分类之间的相似度矩阵分别运用表1中列出的各种方法进行聚类分析。

(1)聚类分析过程

聚类分析是一种无监督式分析方法，最终结果并没有明确给出类的个数，所以聚类个数的确定对最终结果具有较大的影响。为了减少聚类过程中主观因素对聚类结果的影响，文章依据Gap statistic^[34]确定最终的聚类个数。以《中图法》一级类目生物科学(Q类)所包含的17个二级学科类目的聚类过程为例，将Q生物科学所包含的17个二级类目运用DIANA进行聚类分析。聚类个数的Gap统计量的分布图(见图1)显示聚类个数为5类或6类最佳，再对比Gap统计量的取值发现，最优的聚类个数还是6类。

通过系统聚类法DIANA所得到的17个二级类目的聚类谱系图(见图2)可以发现，聚类个数为6对应的聚类结果是Q综合单独为一类；Q-(Q-0 生物科学的理论和方法，Q-1 生物科学现状与发展，Q-3 生物科学的研究方法、技术，Q-4 生物科学教育与普及，Q-9 生物资源调查)与Q2细胞学，Q3遗传学，Q4生理学，Q5生物化学，Q6生物物理学，Q7分子生物学，Q81生物工程学(生物技术)，Q93微生物学为一类；Q1普通生物学，Q94植物学，Q95动物学，Q96昆虫学聚集成一类；Q91 古生物学单独为一类；Q98 人类学单独为一类；Q89 环境生物学单独为一类。

图 1 Q类17个二级类目基于DIANA的Gap统计量分布图

图 2 Q类17个二级类目基于DIANA的聚类谱系图

通过对生物科学(Q类)运用聚类分析发现，许多二级类目之间确实存在高度相关的现象。Q89在《中图法》中是一个交替类目，根据分类法的规则应归入X类中，由于在CSCD论文数据中存在Q89的分类，我们遵循基本数据的特征，保留了这个二级类目，通过聚类发现Q89在Q类中保持了独立性，这种独立性从另一个方面证明利用互引关系可以说明学科的特征，Q89类期刊引用行为与Q类期刊引用行为存在差异。

(2)修正的《中图法》自然学科分类体系

通过期刊耦合强度的计算，文章对《中图法》的自然科学类目体系进行了修正，期望提供一个满足学科分类发展特征的兼备定性特征和定量特点的学科分类体系。我们发现U(交通运输)、V(航空、航天)两个类目期刊数量较少，不适用二级分类体系，仅用一级类目即可。X(环境科学、安全科学)类，除X9以外，其他二级类目的期刊耦合强度极高，均可收敛到一个超级二级类目下。O(数理科学与化学)、P(天文学、地球科学)虽有一定的期刊耦合，但保持了二级类目的独立性。Q(生物科学)类和S(农业科学)类相比较中图法的分类体系来说变动比较大，这两个大类中二级学科分类之间具有较强的相关性，Q类下设15个二级类目收敛为6个二级类目(见表2)。S类下设9个二级类目收敛为5个二级类目，其中S1(农业基础科学)和S2(农业工程)聚合成一个超级二级类目；S3(农学/农艺学)、S5(农作物)、S6(园艺)和S4(植物保护)聚合成一个超级二级类目，其他各二级类目保持不变。对Q、S类二级类目收敛的情况，我们又分析了《中图法》中各二级学科分类的定义，发现二级类目的定义具有相似性，二级类目下设立的交替类目较多，互为交替，因此定性的定义与基于互引关系测度的相关关系具有很大程度的一致性。R(医药、卫生)类和T(工程技术)类的变动幅度相对不是特别大，R类中，R4临床医学，R5临床各科两个类聚合成一个与临床实践相关的类；T类中，TF冶金工业，TG金属学与金属工艺两个二级学科分类由于都与金属具有紧密的联系所以聚集成一个超级二级学科分类；TN电子技术、通信技术，TP自动化技术、计算技术由于具有较强的交叉性也聚集到一起形成一个超级二级学科分类，其他各个二级类目保持不变。

表 2 生物科学(Q类)17个二级类目聚类结果

(3)聚类结果的语义验证

对《中图法》自然学科的二级学科分类进行聚类分析的过程中，也发现了个别的与目前的经验知识存在差异的超级二级学科分类。比如，在对医药、卫生(R类)学科进行聚类分析的过程中发现，尽管R74神经病学与精神病学和R76耳鼻咽喉科学两个二级学科分类在最优聚类个数确定之后并未聚合成一个超级二级学科分类，但是在分析具体的相关矩阵过程中发现，两个二级学科分类相对于其他的二级学科分类具有较强的相关性。鉴于此，本文将上述存在认知模糊的超级二级学科分类进行文本和语义层面的分析，分析的主要对象为具有耦合关系的施引文献和被引文献，主要方法为分别提取以上超级二级学科分类中具有耦合关系的施引文献对和被引文献集合的标题和关键词等文本类数据中所包含的研究主题。基于文本挖掘中的主题分析模型(LDA)，分别对具有耦合关系的施引文献序列对和被引文献集合建立主题模型，从而在语义层面分析两个二级学科分类较强期刊耦合强度的成因，为学科分类的发展研究提供参考。

通过表3可以发现，R74和R76学科具有耦合关系的施引文献对的研究主题大部分为脑中风之后的吞咽障碍以及相关的吞咽功能障碍、呼吸睡眠障碍等并发症的研究；被引文献集合的研究主题与施引文献对的研究主题基本一致，其研究主题主要集中在脑卒中之后的吞咽障碍，此外还包括耳鼻咽喉等疾病治疗过程中的所涉及的神经问题研究。

表 3 R74神经病学与精神病学和R76耳鼻咽喉科学耦合研究主题列表

文本数据来源	研究主题
	梅尼埃病；良性阵发性位置性眩晕；焦虑自评量表；抑郁自评量表；眩晕
	细胞；白细胞介素；鼻炎；变应性；突发性耳聋
	效度；信度；吞咽障碍评价标准；脑卒中；吞咽障碍
	纤维蛋白原；耳鸣；短暂性脑缺血发作；儿童；诱发电位
	脑梗死；阻塞性睡眠呼吸暂停低通气综合征；持续正压通气；短暂性脑缺血发作；预测
	生活质量；鼻炎；变应性；体层摄影术；线计算机
	感音神经性；高血压脑出血；聋；听觉丧失；大前庭水管综合征
	脑卒中；吞咽障碍；相关因素；线荧光透视检查；纤维鼻咽喉镜吞咽功能检查
具有期刊耦合关系的施引文献对	新生儿；基因；先天性巨细胞病毒感染；荧光定量聚合酶链反应；急性脑梗死；耳聋
	阻塞性；睡眠呼吸暂停；蛛网膜下腔出血；磁共振成像；脑血管痉挛
	脑卒中；吞咽障碍；急性脑梗死；线荧光透视检查；相关因素
	康复治疗；脑干卒中后吞咽障碍；脑梗死；缺血性脑卒中；脑卒中
	吞咽障碍；脑卒中；视频吞咽造影检查；环咽肌失弛缓症；多态性
	并发症；脑卒中后抑郁；磁共振成像；治疗结果；人工耳蜗植入术
	头晕；眩晕；平衡功能；瞬目反射；耳鸣
	脑卒中；吞咽障碍；急性脑梗死；相关因素；纤维鼻咽喉镜吞咽功能检查
	吞咽障碍；脑卒中；神经肌肉电刺激；康复训练；康复
	脑梗死；硫化氢；高压氧；胱硫醚；脑血管病
	中；卒；脑；吞咽障碍；治疗；临床；吞咽；功能；疗效；综合康复
	治疗；鼻；脑；内；诊断；手术；病；脊；液；漏；镜；视神经
	耳聋；患儿；听力；综合征；诊断；基因；突变；儿童；特征；脑瘫痪；疗效
具有期刊耦合关系的被引文献	诊断要点；各类；脑血管疾病；睡眠；呼吸；暂停；综合征；阻塞；草案；脑血管病；神经；通气
	耳；蜗；人工；植入；影像；学；毛细胞死亡；神经；畸形；鼠；康复效果
	蛋白；动物；面神经；损伤；鼠；关系；纤维；原；中；脑；表达；功能；反应；变化
	面神经管；量表；定量；表；自；缺；层；方法；测试；卫生；组织；心理；手册；螺旋
	面神经；反应；脑；听；面；手术；诊断；瘤；骨；瘫；治疗；动脉；短；颞；临床；咽肌

表 3 R74神经病学与精神病学和R76耳鼻咽喉科学耦合研究主题列表

TD和TU两个学科的耦合研究主题，从施引文献对方面分析主要集中在建筑科学(TU)中的岩石力学在煤矿建造、煤矿开采、煤矿安全试验研究以及其他的建筑学理论在煤矿设计环节的理论研究；被引文献中所包含的研究主题与施引文献对所提取的研究主题基本吻合，更多的是相关的建筑学、力学等理论在煤矿建造和开采过程中的应用。

综合以上对两个超级二级学科分类的文本层面的研究发现，首先，基于期刊耦合强度的研究具有现实的意义，以上两个超级二级学科分类的主题分析结果都显示，这些研究主题具有一致性，包含一定的统计规律，即从知识和语义的角度分析，耦合相关性较强的学科在研究内容上具有一致性，有确定的交叉研究出现使得二者出现相关性，运用期刊耦合强度可以反映学科之间的相关关系；再者，在对超级学科分类解释的过程中，从具有耦合关系的施引文献对抽取主题与从被引文献集合抽取主题的解释能力大致一致，侧面反映出具有耦合关系的被引文献集合具有解释新生成学科分类的能力。但是相比较被引文献集合，施引文献对由于数据量更丰富且包含耦合文献之间的相关关系所以对新形成学科的解释力度更强一些；最后，各个学科分类的相关性在不断发展变化，基于定量分析得到的学科分类反映了科学结构的交叉融合，也在一定程度上反映了科学研究解决现实问题的客观现实。

表 4 TD矿业工程和TU建筑科学耦合研究主题列表

文本数据来源	研究主题
	岩石力学；数值模拟；相似材料；神经网络；锚杆
	统一强度理论；中间主应力；解析解；弹塑性分析；影响因素
	岩石力学；深部开采；本构模型；卸荷；高温
	数值模拟；锚杆；应力分布；锚索；预应力锚索
	三轴压缩；岩石力学；蠕变特性；数值模拟；软岩
	声发射；岩石力学；岩石；损伤；单轴压缩
	采矿工程；高应力；定向断裂；岩巷；快速钻爆
	数值模拟；矿震；稳定性评价；关键层；微震
	深部巷道；分区破裂；深部岩体；支撑压力；剪切滑移破坏理论
具有期刊耦合关系的施引文献对	模型；蠕变；桩；堆载预压；临界沉降法
	岩石力学；脆；软岩；耗散能；形坑
	抗压强度；岩石力学；孔隙压力；破坏过程；采矿工程
	应力；声发射；采矿工程；围压；应变曲线
	蠕变；蠕变模型；岩石力学；煤岩；分布
	地应力测量；岩爆；岩石力学；水压致裂法；地应力
	岩石力学；爆破振动；深部岩体工程；动力问题；体积应变
	岩爆；采矿工程；采空区；数值模拟；型坑
	安全系数；强度折减法；边坡稳定；边坡；岩石力学
	采矿工程；渗透率；岩石力学；瓦斯渗流；温度
	岩爆；边坡；帮坡角；露天煤矿；稳定性分析
	隧道；深；基坑；施工；地下；稳定性；开挖；围岩；埋；工程
	特性；试验；岩；三；试验；轴；下；变形；强度；力学；土
	煤；应力；渗流；影响；裂隙；岩体；应变；实验；渗透；特性
	岩石；下；破坏；声发射；变形；破裂；试验
	影响；爆破；混凝土；破坏；钢筋；采空区；稳定性；裂缝；速度
具有期刊耦合关系的被引文献	石；蛭；改性；性能；凹凸；棒；层；土；结构；制备；
	地基；桩；软；层；土；复合；模型；下；加固；计算；注浆
	结构；反；应变；非线性；弹塑性；力学；考虑；围岩
	滑坡；突；机理；机制；底板；煤矿；监测；光纤；预报；液压
	预测；评价；岩体；模型；采空区；岩爆；质量
	深部；地应力；围岩；巷道；应力；工程；地应力测量；力学；矿
	支护；巷道；锚杆；控制；技术；软岩；围岩；加固；参数；锚固；深部

表 4 TD矿业工程和TU建筑科学耦合研究主题列表

4 结论

科学的迅速发展促使定量描述科学发展规律的科学结构研究不断的发展，学科分类是科学结构研究中比较重要的组成部分，基于学科之间的期刊耦合强度定量研究学科分类的发展是本文的研究目的。本文在前期研究的基础上，将定性研究与定量研究综合于学科分类体系的研究过程中，综合定量研究和定性研究的优势，以学科分类之间的期刊耦合强度作为学科之间相似度的度量，借助聚类分析的思想研究学科分类之间的关系。总结研究思路和方法，如下：

首先，明确研究方向，本文的学科分类体系研究建立在《中图法》所确定的专家学科分类体系之上，所研究的学科分类的范围为分类法所确定的所有10个自然科学的一级分类，分析的结果对于自然科学领域的学科分类具有普遍的适用性。

其次，数据分析基于大样本量研究的数据来源为中国科学引文数据库(CSCD)，采用期刊的耦合强度充分的保证了足够的样本量，最大限度的扩大参与分析的数据量。

第三采用多种数据计算方法。本文对于二级学科分类之间的相关关系研究借助聚类分析的思想，聚类方案的确定充分考虑到了数据的特征、方法的特点，并且借助集成学习的思想保证聚类结果的稳定性和准确度，在分析的基础上明确的给出了一个符合前期经验认知同时融合了学科发展知识的修正的学科分类体系。

第四，数据计算与观察。对其中出现的一些具有认知模糊的超级二级学科分类结果从文本分析的层面，运用主题挖掘的方法给出解释，并发现以上认知模糊的超级二级学科确实存在一些具有统计学意义的交叉研究点，从而导致两个学科在耦合行为上具有较强的相似性。最后，在尝试对超级学科进行解释过程中，本文也发现基于施引文献和基于耦合文献的语义解释的结果具有一致性，在解释能力上，施引文献的解释能力要更强一些，对于前期研究中如何选取分析对象解释新得到学科分类的问题给出了论证。期望对后续的学科分类研究和应用提供一定的参考。

本文虽然给出了一个修正的学科分类体系，但是在学科分类的研究方面还存在一些不足之处，比如学科分类相关性的研究并未将整个引文网络综合考量；再者，分类依据来自于论文给定的中图分类号，由于《中图法》类目结构和分类方法，在使用过程中对类目的理解不同，可能会导致分析会所偏差；最后，不打破一级学科分类体系的研究对于发现新型交叉学科可能存在一些制约。本文期望进一步将互引网络与文本挖掘、NLP相结合，从引文和语义两个层面同时研究学科分类体系的发展变化，在发现更大范围的交叉学科方面进行一些研究，从而更加科学的研究科学结构的发展变化，为科学的发展规律研究提供一定的参考。

参考文献

[1]	Glänzel W, Schubert A. A new classification scheme of science fields and subfields designed for scientometric evaluation purposes[J].Scientometrics, 2003,56(3): 357-367.(1)
[2]	Boyack KW, Klavans R, Börner K. Mapping the backbone of science[J]. Scientometrics, 2005,64(3):351-374.(1)
[3]	Cason H, Lubotskyl M. The influence and dependence of psychological journals on each other[J].Psychological Bulletin,1936,33(2):95-103.(1)
[4]	Daniel R S, Louititi C M. Professional Problems in Psychology[M]. New York: Prentice Hall, 1953.(1)
[5]	Narin F, Carpenter M, Berlt NC. Interrelationships of scientific journals[J]. Journal of the American Society for Information Science, 1972, 23 (5): 323-331.(1)
[6]	Narin F. Evaluative bibliometrics: The use of publication and citation analysis in the evaluation of scientific activity[M]. Washington, DC: National Science Foundation,1976.(1)
[7]	Leydesdorff L, Cozzen S E.The Delineation Of Specialties in Terms of Journals using the Dynamic Journal Set of the SCI[J]. Scientometrics, 1993,26(1):135-156.(2)
[8]	Leydesdorff L. Dynamic and evolutionary updates of classificatory schemes in scientific journal structures[J]. Journal of the American Society for Information Science and Technology, 2002, 53 (12): 987-994.(1)
[9]	Leydesdorff L. Clusters and maps of science journals based on bi-connected graphs in the Journal Citation Reports[J].Journal of Documentation, 2004, 60(4): 371-427.(1)
[10]	Leydesdorff L. Top-down decomposition of the Journal Citation Report of the Social Science Citation Index: Graph- and factor-analytical approaches[J]. Scientometrics, 2004,60(2): 159-180.(1)
[11]	Leydesdorff L., Rafols, I. A global map of science based on the ISI discipline categories[J]. Journal of the American Society for Information Science and Technology, 2008,60(2): 348-362.(1)
[12]	Zhang L, Janssens F, Liang L, et al. Journal cross-citation analysis for validation and improvement of journal-based discipline classification in bibliometric research[J]. Scientometrics, 2010, 82(5): 687-706.(2)
[13]	张琳,梁立明,刘则渊,等.基于期刊聚类与SOOI分类体系的科学结构研究[J].科学学研究,2012, 30(9): 14-22.(2)
[14]	Braam RR, Moed HF., van Raan AFJ.Mapping of Science by Combined Co-Citation and Word Analysis. I. Structural Aspects[J], Journal of the American Society for Information Science and Technology, 1991,42(4): 233-251.(3)
[15]	Chen C M,Ibekwe-SanJuan F, Hou JH. The Structure and Dynamics of Cocitation Clusters: A Multiple-Perspective Cocitation Analysis[J]. Journal of the American Society for Information Science and Technology, 2010,61(7):1386-1409.(3)
[16]	White HD, McCain KW. Visualizing a Discipline: An Author Co-Citation Analysis of Information Science, 1972- 1995[J].Journal of the American Society for Information Science,1998,49(4): 327-355.(2)
[17]	Kessler MM, Bibliographic coupling between scientific Papers[J].American Documentation,1963,14(1):10-25.(1)
[18]	岳增慧,方曙.基于共链与共引关系的期刊结构特征比较研究[J].图书情报知识,2013 (5):72-81.(1)
[19]	曾倩,杨思洛.国外图书情报学科知识交流的比较研究——以期刊引证分析为视觉[J].情报理论与实践,2013,36(10):114-119.(1)
[20]	Ni C, Sugimoto C R, Jiang J.Venue-author-coupling: A Measure for Identifying Disciplines Through Author Communities[J]. Journal of the American Society for Information Science and Technology, 2013,64(2):265-279.(1)
[21]	邱均平,刘国微.基于期刊作者耦合的学科知识聚合研究[J].情报杂志,2014,33(4):17-22.(2)
[22]	Zhao DZ, Strotmann A. Evolution of Research Activities and Intellectual in Information Science 1996-2005: Introducing Author Bibliographic-Coupling Analysis[J]. Journal of the American Society for Information Science and Technology,2008,59(13): 2070-2086.(1)
[23]	邱均平,董克.作者共现网络的科学研究结构揭示能力比较研究[J].中国图书馆学报,2013,39(1): 15-24.(1)
[24]	马瑞敏,倪超群.作者耦合分析: 一种新学科知识结构发现方法的探索性研究[J].中国图书馆学报,2012,38(2):4-11.(1)
[25]	Small H. Co-citation in the Scientific Literature:A New Measure of the Relationship Between Two Documents[J].Journal of the American Society for Information Science,1973,24(4):265-269.(1)
[26]	王贤文,刘则渊.基于共被引率分析的期刊分类研究[J].科研管理,2009,30(5): 187-195.(2)
[27]	Leydesdorff L.Can Scientific Journals be Classified in term of Aggregated Journal-Journal Citation Relations using the Journal Citation Reports[J]. Journal of the American Society of Information and Technology, 2006,57(5):601-603.(1)
[28]	Chang YF, Chen CM. Classification and Visualization of the Social Science Network by the Minimum Span Clustering Method[J]. Journal of the American Society for Information Science and Technology, 201162(8):2404-2413.(1)
[29]	Hartigan JA,Wong MA. A K-means clustering algorithm[J].Applied Statistics, 1979, 28(1):100-108.(1)
[30]	MacQueen J. Some methods for classification and analysis of multivariate observations[C]. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Calif:University of California Press, Berkeley, 1967:281-297.(1)
[31]	Reynolds A, Richards G, de la Iglesia B,et al. Clustering rules: A comparison of partitioning and hierarchical clustering algorithms[J]. Journal of Mathematical Modelling and Algorithms, 1992,5(4): 475-504.(1)
[32]	Everitt B. Cluster Analysis[M]. London: Heinemann Educ.1974.(1)
[33]	Kaufman L,Rousseeuw PJ. Finding Groups in Data: An Introduction to Cluster Analysis[M]. New York: Wiley, 1990.(1)
[34]	Tibshirani R, Walther G, Hastie T. Estimating the number of data clusters via the Gap statistic[J]. Journal of the Royal Statistical Society B, 2001,63(2): 411-423.(1)
[35]	Marshakova Shaikevich I. System of Document Connections Based on References[J]. Scientific and Technical Information Serial of VINITI, 1973,6(2): 3-8.(1)

本文献在全文中的定位：

... 一些学者根据学科发展的特点和经验构建的分类体系，例如Glnzel等人^[1]在2003年、Boyack等人^[2]在2005年 ...[View in article]

本文献在全文中的定位：

... nzel等人^[1]在2003年、Boyack等人^[2]在2005年分别提出的包含15个类目的分类体系。 ...[View in article]

本文献在全文中的定位：

... 的学科分类体系和专业领域挖掘的研究应运而生。1936年，Cason 和 Lubotsky^[3]就运用期刊之间的互引关系分析期刊之间的相互关系以及学科领域之间 ...[View in article]

本文献在全文中的定位：

... 期刊之间的相互关系以及学科领域之间的相互影响。1953年Daniel 和 Louttit^[4]首次在心理学领域运用期刊之间的互引关系矩阵对期刊进行聚类分析。 ...[View in article]

本文献在全文中的定位：

... 域运用期刊之间的互引关系矩阵对期刊进行聚类分析。1972年，Narin等人^[5]首次根据期刊之间的相互引用关系，研究了从属于不同学科分类的期刊 ...[View in article]

本文献在全文中的定位：

... 关系，研究了从属于不同学科分类的期刊之间的相互关系。之后，Narin^[6]和Leydesdorff^{[7,
...[View in article]}

本文献在全文中的定位：

... 之后，Narin^[6]和Leydesdorff^{[7, 8]}又运用了诸如PCA、FA等多元统计分 ...[View in article]

... 一类是基于多元统计思想的聚类分析方法，诸如主成分分析(因子分析)^{[7, 16, 27]} ...[View in article]

本文献在全文中的定位：

... 和Leydesdorff^{[7, 8]}又运用了诸如PCA、FA等多元统计分析方法对期刊之间的互引关系进行了 ...[View in article]

本文献在全文中的定位：

... 学科分类体系与现存学科分类体系进行了验证性研究。2004年，Leydesdorff^{[9, 10]}又提出利用bi-connected component analys ...[View in article]

本文献在全文中的定位：

... 行了验证性研究。2004年，Leydesdorff^{[9, 10]}又提出利用bi-connected component analysis等图论方法对来自JCR的期刊互引图 ...[View in article]

本文献在全文中的定位：

... is等图论方法对来自JCR的期刊互引图模型结构进行聚类分析。Leydesdorff等^[11]在2008年同样基于期刊之间的互引关系矩阵对科学结构做了可视化分析 ...[View in article]

本文献在全文中的定位：

... 时间维度上研究了科学结构发展变化的趋势。2010年和2012年，Zhang L等人^{[12, 13]}研究了基于期刊互引关系建立的 ...[View in article]

... ；一类是利用经典的聚类分析方法，层次聚类^{[12, 13, 14]} ...[View in article]

本文献在全文中的定位：

... 的趋势。2010年和2012年，Zhang L等人^{[12, 13]}研究了基于期刊互引关系建立的学科分类体系与Gälnzel等人建立的包含 ...[View in article]

... 用经典的聚类分析方法，层次聚类^{[12, 13, 14]}、最小生成树 ...[View in article]

本文献在全文中的定位：

... 同时对现有专家系统的调整和改善给出参考和建议。此外，Robert 等人^[14]选取特定期刊的文章为研究对象，通过研究期刊文章之间的相互引用关 ...[View in article]

... 26]以及作者同被引研究^[14]中。耦合关系和同被引关系分别从互引关系的两个方向度量了网络节点 ...[View in article]

... [12, 13, 14]、最小生成树^[28]等；一类是 ...[View in article]

本文献在全文中的定位：

... 刊文章之间的相互引用关系挖掘相应学科中的研究领域。Chaomei Chen等人^[15]分别基于文章之间的相互引用关系和作者之间的相互引用关系对科学结 ...[View in article]

... 被引的概念还被进一步引用到度量期刊之间相关关系的期刊同被引研究^{[15, 26]}以及作者同被引研究 ...[View in article]

... 一类是基于社会网络建立图模型的聚类方法[15, 21, 24, ...[View in article]

本文献在全文中的定位：

... 用关系和作者之间的相互引用关系对科学结构进行了定量分析，Howard等^[16]利用作者之间的互引关系，研究隐藏在作者背后的科学结构的发展变化 ...[View in article]

... 析方法，诸如主成分分析(因子分析)^{[7, 16, 27]}；一类是利用经典的聚类分析方 ...[View in article]

本文献在全文中的定位：

... 院的Kessler教授首次使用“文献耦合”这一术语描述文献之间的相关关系^[17]。此后，耦合强度逐渐运用在度量互引网络中期刊之间的相关关系 ...[View in article]

本文献在全文中的定位：

... 此后，耦合强度逐渐运用在度量互引网络中期刊之间的相关关系[18, 19, 20, ...[View in article]

本文献在全文中的定位：

... 量互引网络中期刊之间的相关关系[18, 19, 20, 21] ...[View in article]

本文献在全文中的定位：

... [18, 19, 20, 21]以及作者之间的相关关系 ...[View in article]

本文献在全文中的定位：

... 19, 20, 21]以及作者之间的相关关系[22, ...[View in article]

... 于社会网络建立图模型的聚类方法^{[15, 21, 24, 26]} ...[View in article]

本文献在全文中的定位：

... 以及作者之间的相关关系^{[22, 23, 24]
...[View in article]}

本文献在全文中的定位：

... 以及作者之间的相关关系^{[22, 23, 24]}的研究中。同被引的概念最早于19 ...[View in article]

本文献在全文中的定位：

... [22, 23, 24]的研究中。同被引的概念最早于1973年由前苏联情报学家 Marshakova ...[View in article]

... [15, 21, 24, 26]。基于多元统计思想的聚类分析 ...[View in article]

本文献在全文中的定位：

... ^[35]和美国情报学家Henry Small^[25]分别提出，用于度量互引网络中文章之间的两两相似性，文献同被引的 ...[View in article]

本文献在全文中的定位：

... 刊之间相关关系的期刊同被引研究^{[15, 26]}以及作者同被引研究^[14]中。 ...[View in article]

... 21, 24, 26]。基于多元统计思想的聚类分析方法将具有互引关系的节点对分别作为 ...[View in article]

本文献在全文中的定位：

... ^{[7, 16, 27]}；一类是利用经典的聚类分析方法，层次聚类 ...[View in article]

本文献在全文中的定位：

... 14]、最小生成树^[28]等；一类是基于社会网络建立图模型的聚类方法 ...[View in article]

本文献在全文中的定位：

... Kmeans(Hartigan-Wong提出方法^[29]、MacQueen提出方法^[30]) ...[View in article]

本文献在全文中的定位：

... ^[29]、MacQueen提出方法^[30]) ...[View in article]

本文献在全文中的定位：

... PAM^[31] ...[View in article]

本文献在全文中的定位：

... 经典聚合的聚类算法^[32](类平均法、最长距离法、中间距离法、离差平方和法、mcquitty法) ...[View in article]

本文献在全文中的定位：

... AGNES^[33](类平均法、最长距离法、离差平方和法、加权类平均法) ...[View in article]

本文献在全文中的定位：

... 为了减少聚类过程中主观因素对聚类结果的影响，文章依据Gap statistic^[34]确定最终的聚类个数。以《中图法》一级类目生物科学(Q类)所包含的17 ...[View in article]

本文献在全文中的定位：

... 同被引的概念最早于1973年由前苏联情报学家 Marshakova I^[35]和美国情报学家Henry Small^[25] ...[View in article]


中国科技期刊研究 2015, Vol. 26 Issue (9): 907-914	PDF