一种三层加权文本聚类集成方法

李娜 徐森 徐秀芳 许贺洋 郭乃瑄 刘轩绮 周天

李娜, 徐森, 徐秀芳, 等. 一种三层加权文本聚类集成方法 [J]. 智能系统学报, 2024, 19(4): 807-816. doi: 10.11992/tis.202303029
引用本文: 李娜, 徐森, 徐秀芳, 等. 一种三层加权文本聚类集成方法 [J]. 智能系统学报, 2024, 19(4): 807-816. doi: 10.11992/tis.202303029
LI Na, XU Sen, XU Xiufang, et al. A three-level weighted approach for text clustering ensemble [J]. CAAI Transactions on Intelligent Systems, 2024, 19(4): 807-816. doi: 10.11992/tis.202303029
Citation: LI Na, XU Sen, XU Xiufang, et al. A three-level weighted approach for text clustering ensemble [J]. CAAI Transactions on Intelligent Systems, 2024, 19(4): 807-816. doi: 10.11992/tis.202303029

一种三层加权文本聚类集成方法

doi: 10.11992/tis.202303029
基金项目: 国家自然科学基金项目(62076215);江苏省高等学校自然科学研究面上项目(21KJD520006);未来网络科研基金项目(FNSRFP-2021-YB-46);盐城工学院研究生培养创新工程项目(SJCX21_XZ018);教育部产学研合作协同育人计划项目(202102594034);中央高校基本科研业务费专项(K93-9-2022-03);江苏高校“青蓝工程”项目.
详细信息
    作者简介:

    李娜,女,硕士研究生,主要研究方向为文本挖掘、机器学习和模式识别。E-mail:lina980104@163.com;

    徐森,教授,博士,主要研究方向为机器学习、模式识别和文本挖掘。主持完成国家自然科学基金青年基金项目、江苏省教育厅国际科技合作聘请外国专家重点项目、江苏省高校自然科学面上项目各1项,主持江苏省政策引导类计划(产学研合作)–前瞻性联合研究项目1项,作为主要成员参与完成国家自然科学基金5项,省部级项目5项。发表学术论文40余篇,申请中国发明专利20余项,获得授权8项。国家自然科学基金通讯评审专家库成员,江苏省人工智能学会机器学习专委会常务委员,江苏省计算机学会大数据专家委员会委员,盐城市计算机学会理事,盐城市人工智能学会监事长,美国计算机协会会员,中国计算机学会会员,江苏省计算机学会会员。E-mail:xusen@ycit.cn;

    徐秀芳,高级实验师,主要研究方向为数据挖掘和智能信息处理。以第一发明人申请国家专利4项,取得省级以上科研成果3项,市级科研成果2项,先后主持或参与完成8项省市级纵横向科研项目。主编或参与编写教科书4部。E-mail:xxf@ycit.cn.

    通讯作者:

    徐森. E-mail:xusen@ycit.cn.

  • 中图分类号: TP181;TP301

A three-level weighted approach for text clustering ensemble

  • 摘要: 为了提高聚类集成效果,本文设计了一种对点、簇、划分进行加权的统一框架,提出一种三层加权文本聚类集成方法。首先根据基聚类生成超图邻接矩阵,然后依次对点、簇、划分进行加权获得加权邻接矩阵,最后用层次凝聚聚类算法获得最终结果。在多个真实文本数据集上进行实验,结果表明,与未加权及其他层面加权相比,三层加权方法可以获得更好的聚类效果,三层加权相较于未加权的平均提升幅度为12.02%;与近年来的其他8种加权方法相比,该方法在所有数据集上的平均排名位列第一,验证了本文方法的有效性。

     

    Abstract: To improve the clustering ensemble effect, this paper designs a unified framework for weighted points, clusters and partitions, and proposes a three-level weighted approach for text clustering ensemble. Firstly, the hypergraph adjacency matrix is generated according to the base clustering, and then the weighted adjacency matrix is obtained by successively weighting the points, clusters and partitions. Finally, the final result is obtained by the hierarchical condensation clustering algorithm. Experiments were carried out on multiple real text datasets. The results show that compared with the unweighted results and other level weighted results, this approach has better clustering effect. The average increase of three-layer weighted compared with that unweighted is 12.02%. Compared with the other 8 weighted methods in recent years, the average ranking of this algorithm is the first in all datasets, which verifies the effectiveness of the proposed method.

     

  • 聚类分析是统计模式识别中非监督模式分类的一个重要分支,其任务是把未标记的样本集按某种准则划分成若干子集/类/簇,要求相似的样本尽可能地归于同一个簇,而不相似的样本被归于不同的簇[1-5]。聚类被广泛应用于各个领域,包括文本挖掘、分类、文档检索和图像分割等。

    给定一个数据集,不同的聚类算法即使是相同的算法在不同的初始化或参数下,也可能会产生不同的聚类结果,从而呈现数据的不同视角。为了融合多种聚类结果,文献[6]首次提出了聚类集成的概念,并提出了基于簇的相似度划分算法(cluster-based similarity partitioning algorithm,CSPA)、超图划分算法(hypergraph partitioning algorithm,HGPA)和元聚类算法(meta-clustering algorithm,MCLA)3种聚类集成方法。聚类集成提出后,关于文本聚类集成的研究愈来愈多。例如,文献[7]提出了一种新的多视图文本聚类集成方法,该方法首先基于不同的文本表示模型生成不同的视图,然后对每个视图应用不同的聚类算法以获得不同的分区,最后对这些分区进行集成来获得最终的聚类结果。文献[8]用聚类集成方法来进行基于关键词的学术文本研究,验证了聚类集成方法相较于单一聚类方法的优越性。文献[9]用聚类集成算法来检测多作者文档中写作风格的变化。众多学者的研究表明聚类集成可以将多个基聚类结合在一起,降低单一聚类算法的局限性,从而获得更准确、更稳健的聚类结果[10-18]

    在聚类集成中,每个聚类结果称为一个聚类成员/基聚类/划分。低质量(甚至是病态)的基聚类会影响最终结果,从而降低聚类精度。为了避免低质量的聚类成员带来的不良影响,一些学者对基聚类进行评估和加权以提高共识性能[19-22]。对划分进行加权的方法通过分配不同的权重来控制每个聚类器的相对贡献,这意味着具有更好性能的聚类器可以分配更高的权重,而表现不佳的聚类器可以分配较低的权重。因此可以更好地利用每个聚类器的性能和相对优势,从而提高整体聚类性能。现实生活中,由于实际数据集的噪声和其固有的复杂性,同一个基聚类中的不同簇可能具有不同的质量。通过对簇进行加权,可以更好地利用每个簇之间的差异和相似性,从而减少噪声的影响,提高聚类结果的质量[23-31]。例如一些簇可能包含更多的核心样本,而另一些簇可能只包含少量的样本或者是噪声点。如果在未加权的聚类集成中,所有簇都被视为同等重要,那么这些差异可能被忽略,从而导致聚类结果的质量较低。对簇加权可以让包含更多核心样本的簇对聚类结果产生更大的贡献,而较小或者噪声簇的贡献则相应减少,从而提升整体的聚类性能。近期研究也表明点在不同的划分中会改变它的邻域,不同的点具有不同的关系稳定性,即点对底层数据结构的检测可能有不同的贡献[32-33]。对点进行加权可以更好地利用每个样本点之间的差异和相似性,让一些关键的样本点对聚类结果产生更大的贡献,而一些噪声点或者不太重要的样本点的贡献则相应减少,从而提升聚类的准确度。划分由一个或多个簇构成,簇由一个或多个点构成,只有同时考虑点、簇、划分三者的重要性,才能进一步提升聚类效果。

    目前还缺少对不同研究对象(点、簇、划分)进行加权的统一框架,以进一步提升文本聚类集成的准确性。针对上述问题,本文提出一种三层加权文本聚类集成方法(three-level weighted approach for text clustering ensemble,TLWA),该方法针对文本数据集的特点设计权重,并通过超图邻接矩阵实现对点、簇、划分的三层加权。在多个文本数据集上进行了大量实验,与其他加权聚类集成方法相比,TLWA获得了更加优越的聚类结果。

    根据加权对象的不同可以将加权聚类集成的研究分为划分加权、簇加权及点加权3部分。

    在划分加权方面,为了避免低质量基聚类的影响,学者们进行了一些研究,其中较为认可的一个思路是设计评价标准来评价基聚类的质量,并在集成过程中利用该评价指标对不同质量的基聚类进行加权以提高共识结果。其中,聚类成员的选择通过去除质量较差的基聚类,从而保留质量较高的聚类成员,是一种特殊的划分加权方法。文献[19]提出了一种改进的自适应聚类集成选择方法,兼顾了聚类成员的多样性与聚类整体的稳定性,在多个文本数据集上验证了其有效性。文献[20]使用标准化互信息(normalized mutual information,NMI)来衡量划分之间的相似度,并以此作为划分的权重,最后层次聚类进行集成。文献[21]通过利用信息熵计算类与类之间的相似性,并以此作为权重对基聚类加权。文献[22]提出了一种基于卷积神经网络的短文本聚类集成方法,实验基尼系数来度量基聚类的可靠性,并对其加权,最后使用层次聚类进行集成。

    在簇加权方面,文献[23]提出了3种基于簇的加权聚类集成方法,通过对几个真实数据集(包括文本数据集)的实验验证了其有效性。文献[24]利用集合的链路网络模型估计出簇之间的相似性,并以此作为权重提出了3种新的基于链接的相似度评估算法。文献[25]通过计算每个簇在所有基划分下的不确定性构造出集成驱动聚类指标(ensemble-driven cluster index,ECI),并将此作为权重对共协矩阵(co-association matrix,CA矩阵)进行加权,然后集成。文献[26]将点到簇中心的距离与簇内最大距离的比值作为簇的权重,得到加权CA矩阵,最后运用K-means得到最终结果。文献[27]通过评估簇与划分之间的集合匹配度来计算簇与划分之间的相似度,并以相似度作为簇的权重,随后根据多样性来选择基聚类,该方法同时考虑了簇和划分的质量,在包含文本在内的多个数据集上验证了其有效性。文献[28]通过信息论评估了簇的不可靠性,提出了加权证据积累和加权图划分2种聚类方法。文献[29]通过熵和指数变换得到每个簇的可靠性,并以此提出了2种簇权值计算方法,最后对加权CA矩阵运用组平均(average link,AL)得到一致划分。文献[30]结合信息熵的概念和Jaccard系数提出一种衡量簇稳定性的评价标准,并根据该指标对簇层面进行加权;另一种是基于熵准则的文本聚类集成方法,熵准则用于评估簇的不确定性,根据簇的不确定性提出了2个指标,进而选择高质量的基聚类进行集成。

    在点加权方面,文献[31]通过计算样本之间的距离来衡量样本之间的相似度,进而评价一个类的可靠度。文献[32]通过计算样本的稳定性进而确定簇中心,并将样本点分配到与其相似性最高的簇内,最后用单链接(single link,SL)算法进行集成,在包含文本数据集的多个数据集上验证了其有效性。文献[33]首先通过基聚类结果得到一个CA矩阵,然后使用CA矩阵去描述每个样本的聚类困难程度,并为其赋予相应的权重。

    尽管人们已经从各个方面证明了加权的重要性,但是大多数学者只是对聚类集成过程中的某个方面进行加权,比如点加权或簇加权,目前还缺少一种结合点、簇、划分3个层面的统一框架。

    设计一个三层加权文本聚类集成方法需要解决2个主要问题:1)如何针对文本数据的特点,设计点、簇、划分3个层面的权值,2)如何构造一个三层加权框架来融合3个层面的权值。针对第1个问题,本文根据文本数据的特点,并结合多位学者的研究,提出了针对点、簇及划分3个层面的权值设置方案,详见2.1节。针对第2个问题,本文通过超图邻接矩阵H来构造三层加权框架并进行权值的传递。对于超图邻接矩阵H而言,其每一行代表一个点,每一列代表一个簇,具体权值逐层传递方案如2.2节所示。最后将加权后的H矩阵转化为加权CA矩阵,对加权CA矩阵使用组平均法进行集成以得到最终的共识结果。下面依次介绍权值设置方案、权值逐层传递方案、加权CA矩阵的生成、算法流程及复杂度分析。

    2.1.1   点层权值设置

    2个文本向量xixm的相似度可采用余弦函数求解,余弦函数相较于其他距离函数而言更适合于文本数据[34-36],余弦相似度的计算公式为

    $$ \begin{gathered} S({{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j}) = {\text{cos}}(\theta ({{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j})) = {{({{\boldsymbol{x}}_i} \cdot {{\boldsymbol{x}}_j})} \mathord{\left/ {\vphantom {{({{\boldsymbol{x}}_i} \cdot {{\boldsymbol{x}}_j})} {(\left\| {{{\boldsymbol{x}}_i}} \right\| \cdot \left\| {{{\boldsymbol{x}}_j}} \right\|)}}} \right. } {(\left\| {{{\boldsymbol{x}}_i}} \right\| \cdot \left\| {{{\boldsymbol{x}}_j}} \right\|)}} = {{\boldsymbol{x}}_i}{\boldsymbol{x}}_j^{\rm{T}} \\ \end{gathered} $$

    式中:1≤in,1≤jnn为样本总数,${\boldsymbol{x}}_j^{\rm{T}} $xj的转置矩阵。

    显然,文本xi与其他文本的相似度越高,其权值越大;反之,越小。因此,本文首先设置文本xi的权值wixi和其他文本的相似度之和成正比。然而,对于类别不平衡的文本集,在相似度相差不大的情况下,基数大的簇中点的权值显然高于基数小的簇中点的权值。为了消除对簇大小的偏置,本文进一步设置文本xi的权值wixi在聚类集体中所属的所有簇的基数之和成反比。即点的权值为

    $$ {w'_i} = {{\left(\sum\limits_{j = 1}^n {S({{\boldsymbol{x}}_i},{{\boldsymbol{x}}_j})} \right)} \mathord{\left/ {\vphantom {{(\sum\limits_{j = 1}^n {S({x_i},{x_j})} )} {\sum\limits_{m = 1}^M {{\delta _\text{ism}}} }}} \right. } {\sum\limits_{m = 1}^M {{\delta _\text{ism}}} }}\left| {C_s^m} \right| $$

    式中:$C_s^m $为第m个划分中的第s个簇,1≤mM,1≤skmM为划分的个数;km为第m个划分中簇的个数;δism为点的隶属度函数;若xiCsm,则δism为1,否则为0。

    点层权值归一化得

    $$ {w_i} = {{w_i^\prime } \mathord{\left/ {\vphantom {{w_i^\prime } {\sum\limits_{i = 1}^n {{w_i}^\prime } }}} \right. } {\sum\limits_{i = 1}^n {{w_i^\prime} } }} $$ (1)
    2.1.2   簇层权值设置

    由于簇由点构成,本文设置簇的权值与其包含的所有点的权值之和成正比。即簇的权值为

    $$ u_s^{m'} = \sum\limits _{i = 1}^n \delta _\text{ism}{w_i} $$

    式中δism为簇的隶属度函数,若xiCsm,则δism为1,否则为0。

    簇层权值归一化得

    $$ u_s^m = {{u{{_s^m}^\prime }} \mathord{\left/ {\vphantom {{u{{_s^m}^\prime }} {\sum\limits_{s = 1}^{{k_m}} {u{{_s^m}^\prime }} }}} \right. } {\sum\limits_{s = 1}^{{k_m}} {u{{_s^m}^\prime }} }} $$ (2)
    2.1.3   划分层权值设置

    NMI值可以有效衡量划分之间的相似程度,显然,划分P(m)与其他划分的相似度越高,其权值越大;反之越小。因此,本文设置划分P(m)的权值vmP(m)和其他划分的NMI值之和成正比。考虑到划分由簇构成,本文进一步设置划分P(m)的权值vmP(m)包含的所有簇的权值之和成正比,即划分的权值为

    $$ v_m^\prime = \sum\limits_{q = 1,q \ne m}^M {{\rm{NMI}}({P^{(m)}},{P^{(q)}})} \times \sum\limits_{s = 1}^{{k_m}} {u_s^m} $$

    划分层权值归一化得:

    $$ {v_m} = {{v_m^\prime } \mathord{\left/ {\vphantom {{v_m^\prime } {\sum\limits_{m = 1}^M {v_m^\prime } }}} \right. } {\sum\limits_{m = 1}^M {v_m^\prime } }} $$ (3)
    2.2.1   对点层进行加权

    H的第i行(1≤in)乘以点xi的权值wi,得到点层加权矩阵:

    $$ {{\boldsymbol{H}}_{{{pt}}}} = {\boldsymbol{W}} \times {\boldsymbol{H}} $$

    式中:W=diag(w1, w2,··· , wn),wi的计算如式(1)所示。

    2.2.2   对簇层进行加权

    Hpt中第m个划分中的第s个簇Csm对应的列乘以其权值usm(1≤mM,1≤skm),得到簇层加权矩阵:

    $$ {{\boldsymbol{H}}_{{{cr}}}} = {{\boldsymbol{H}}_{{{pt}}}} \times {\boldsymbol{U}} $$

    式中:${\boldsymbol{U}} = {\rm{diag}}\left( u_1^1,u_2^1, \cdots ,u_{{k_1}}^1, \cdots ,u_1^m, u_2^m, \cdots ,u_{{k_m}}^m, \cdots ,u_1^M, u_2^M, \cdots , u_{{k_M}}^M \right)$$u_s^m $的计算如式(2)所示。

    2.2.3   对划分层进行加权

    Hcr中第m个划分P(m)对应的子矩阵乘以其权值vm,得到划分层加权矩阵:

    $$ {{\boldsymbol{H}}_{{{pn}}}} = {{\boldsymbol{H}}_{{{cr}}}} \times {\boldsymbol{V}} $$

    式中:V=diag(v1, ···, v1, vm, ··· , vm, vM, ··· , vM),V中共有k1v1kmvmkMvMvm的计算如式(3)所示。

    得到Hpn后,将其转化成加权共协(weighted co-association,WCA)矩阵:

    $$ {\boldsymbol{W}_{CA}} = \frac{{{{\boldsymbol{H}}_{pn}} \times {\boldsymbol{H}}_{pn}^{\rm{T}}}}{M} $$ (4)

    式中${\boldsymbol{H}}_{pn}^{\rm{T}} $Hpn的转置矩阵。

    本文设计的TLWA算法主要步骤如下:

    算法1 TLWA

    输入 经过预处理的文本数据集X={x1x2, ···, xn},样本点的真实标签及真实类别数k

    1)生成M个聚类;

    for i = 1:M

    运行基于余弦相似度的K-means算法,簇个数k∈[k, 2k]

    end

    2)根据基聚类生成超图邻接矩阵H

    3)根据式 (1)及2.2.1节对点加权;

    4)根据式 (2)及2.2.2节对簇加权;

    5)根据式 (3) 及2.2.3节对划分加权;

    6)根据式 (4) 将Hpn转化为WCA矩阵;

    7)对WCA矩阵运行AL算法得到一致划分,簇的个数设置为k

    8)输出一致划分,文本数据集X被分成k个类簇,即C={C1,C2, …, Ck}。

    在上述算法流程中,步骤1)为运行基于余弦相似度的K-means算法M次,其时间复杂度为O(Mkdn),其中,k为簇的个数,d为样本的维度,n为样本数。步骤2)生成超图邻接矩阵H的时间复杂度为O(Mkn)。步骤3)~5)对各层加权的时间复杂度均为O(nCK),其中CKM个划分中簇的总个数,即超图的边数。步骤6)将Hpn转化为WCA矩阵的时间复杂度为O(CK×n2)。步骤7)调用AL算法的时间复杂度为O(log2n)。即本文算法的步骤1)~5)均为线性阶,步骤6)为平方阶,步骤7)为对数阶。另外,本算法步骤6)为构建相似度矩阵,该方法能够获得更好的聚类结果,但复杂度较高,即该方法适用于中小规模的数据集。对于海量文本数据集,可直接在Hpn上运行基于矩阵低秩近似的方法(matrix low rank approximation-based algorithm,MLRAA)、基于深度低秩子空间集成(deep low-rank subspace ensemle,DLRSE)和K-means等算法,以进一步提高运行效率。

    实验采用8组公共文本测试集,具体描述如表1所示。Tr11、Tr12、Tr23、La12、Hitech、Reviews和Sports由文本检索大会(http://trec.nist.gov)提供;数据集K1b来自于WebACE project[37],每个文本对应于Yahoo!主题层次下的一个网页。

    表  1  数据集介绍
    Table  1  Dataset introduction
    数据集样本数特征数类别数
    Tr1141462499
    Tr1231358048
    Tr2320458326
    Reviews4069184835
    La126279314726
    Hitech2301100806
    K1b2340218396
    Sports8580148707

    因为文本类别标签已知,本实验采用调兰德指数(adjusted rand index,ARI)和F值(F-measure)这2个评价指标进行评价。2个评价指标均为值越大,聚类质量越高;反之,越低。

    实验分为2部分:1)各层效果对比,对每一层加权的效果进行详细对比,验证三层加权聚类集成方法相较于其他层面加权的优越性;2)与其他加权方法进行对比,验证三层加权方法优于目前提出的其他加权方法。在本文的实验中,所有文本数据均已经过TF-IDF(term frequency-inverse document frequency)加权,基聚类的生成方法为运行使用余弦相似度的K-means算法100次。其中关于k值的设定方面,多数学者为了方便将k设置为kk为数据集的真实类别数),为了使聚类成员更加多样化,使其多方面反应数据内部结构,本文将簇的个数k设置在[k, 2k]的范围内[19, 24]。为保证公平公正,以下所有的比较均为在同样基聚类的基础上进行。

    表2给出了各层加权效果对比结果。表2中数值均为运行10次取平均值,粗体标识代表三层加权后效果相较于未加权效果有所提高,带有下划线的数据表示在各层加权效果的对比中最优,提升幅度的计算方法为三层加权后评价指标提升的数值占未加权的评价指标的百分比。

    表  2  各层加权效果对比
    Table  2  Weighted effect comparison of each layer
    数据集评价
    指标
    未加权点加权簇加权划分
    加权
    点、簇
    加权
    点、划分
    加权
    簇、划分
    加权
    三层
    加权
    提升
    幅度/%
    Tr11ARI0.600±0.0290.522±0.0260.626±0.0270.606±0.0310.652±0.0770.521±0.0410.636±0.0220.683±0.08413.83
    F0.762±0.0150.700±0.0120.768±0.0250.770±0.0150.761±0.0440.704±0.0260.773±0.0160.780±0.0512.36
    Tr12ARI0.454±0.0420.461±0.0590.435±0.0470.448±0.0330.556±0.0810.447±0.0560.474±0.0610.578±0.06422.69
    F0.704±0.0190.705±0.0350.686±0.0280.696±0.0160.760±0.0340.702±0.0330.710±0.0280.769±0.0309.39
    Tr23ARI0.259±0.0090.268±0.0250.320±0.0210.262±0.0090.328±0.0100.260±0.0280.305±0.0470.318±0.02022.78
    F0.528±0.0100.540±0.0100.566±0.0140.527±0.0100.563±0.0090.530±0.0100.549±0.0410.556±0.0145.50
    ReviewsARI0.565±0.0210.653±0.0040.619±0.0490.566±0.0200.661±0.0030.653±0.0030.616±0.0470.661±0.00316.99
    F0.728±0.0140.767±0.0020.751±0.0220.729±0.0130.769±0.0010.767±0.0020.749±0.0220.769±0.0015.63
    La12ARI0.567±0.0230.590±0.0500.598±0.0250.555±0.0140.576±0.0570.585±0.0480.592±0.0250.579±0.0612.12
    F0.728±0.0270.765±0.0410.763±0.0300.720±0.0190.764±0.0340.762±0.0410.761±0.0300.765±0.0355.08
    HitechARI0.269±0.0120.260±0.0170.281±0.0140.272±0.0120.272±0.0180.260±0.0130.283±0.0080.270±0.0150.37
    F0.517±0.0170.511±0.0240.530±0.0170.518±0.0130.525±0.0230.519±0.0220.531±0.0160.530±0.0202.51
    K1bARI0.555±0.0910.580±0.0980.700±0.0790.564±0.1110.726±0.0170.532±0.0980.673±0.1040.727±0.01830.99
    F0.802±0.0430.817±0.0420.861±0.0390.804±0.0540.860±0.0060.779±0.0410.849±0.0500.861±0.0067.36
    SportsARI0.476±0.0420.654±0.0660.603±0.0930.484±0.0690.651±0.0160.609±0.1030.618±0.0830.655±0.01737.61
    F0.722±0.0250.792±0.0420.786±0.0480.733±0.0400.772±0.0020.762±0.0640.797±0.0360.773±0.0037.06

    通过表2可以得出以下结论:

    1)总体来看,对数据进行三层加权后,所有数据集的2种评价指标值均有所上升,8个数据集在2种评价指标下的平均提升幅度为12.02%。数据集Tr12、K1b及Sports提升效果较为显著,其中数据集K1b与数据集Sports的ARI评价指标提升幅度最大,分别为30.99%与37.61%。可见,本文提出的三层加权方法是提升聚类集成效果行之有效的方法。

    2)从每一层的加权效果来看,各层加权的效果不一,单层加权效果如何与数据集本身有很大的关系,很难找到一种加权方法适用于所有的数据集。个别数据集甚至会出现单层加权后效果变差的情况,如Tr11及Hitech的点加权、Tr12的簇加权、Tr12及La12的划分加权。但是经过三层加权后的聚类效果在所有数据集上的表现均优于未加权的效果,说明三层加权方法可以在一定程度上弥补单层加权方法的不足,从而增强聚类结果的稳定性,进而也在一定程度上提升了三层加权方法对于数据集的普适性。

    3)从三层加权方法获得第1名的次数来看,点加权的提升效果位列第1的次数为1次,簇加权的提升效果位列第1的次数为2次,点、簇加权的提升效果位列第1的次数为2次,簇、划分加权的提升效果位列第1的次数为3次。相比之下,三层加权的提升效果位列第1的次数为10次,次数明显多于其他层面加权位列第1的次数。

    综上,本文提出的三层加权方法相较于其他层面的加权方法而言,可以得到更好的聚类效果。并且能够在一定程度上弥补单层加权聚类方法的不足,从而增加聚类结果的稳定性,增强对数据集的普适性,即本文提出的三层加权聚类集成算法具有明显的优越性。

    将本文方法TLWA与其他8种加权方法ALSDM[29]、LWEA[25]、LWGP[25]、WCT_KM[24]、WEAC_AL[20]、WEAC_CL[20]、WOHB[33]及WOMC[33]进行比较,结果如表3所示。表3中数据均为运行10次取平均值,粗体表示此结果在所有对比方法中排名第1。另外,为了多方面展示本文结果,图1给出了10次运行结果中聚类效果较优的一次运行结果。

    表  3  与其他加权方法对比结果(平均值)
    Table  3  Comparison results with other weighted methods (average)
    数据集评价指标TLWAALSDMLWEALWGPWCT_KMWEAC_ALWEAC_CLWOHBWOMC
    Tr11ARI0.683±0.0840.600±0.0290.584±0.0170.574±0.0280.500±0.0500.619±0.0250.583±0.0610.408±0.0480.507±0.036
    F0.780±0.0510.762±0.0150.720±0.0110.720±0.0190.664±0.0380.762±0.0210.733±0.0290.607±0.0470.680±0.033
    Tr12ARI0.577±0.0640.454±0.0420.496±0.0420.572±0.0450.391±0.0600.493±0.0920.451±0.0660.460±0.0270.466±0.029
    F0.769±0.0300.704±0.0190.697±0.0310.762±0.0210.650±0.0590.728±0.0470.696±0.0420.679±0.0350.684±0.015
    Tr23ARI0.318±0.0190.259±0.0090.331±0.0390.272±0.0170.228±0.0630.320±0.0590.269±0.0410.130±0.0300.261±0.036
    F0.556±0.0140.527±0.0100.578±0.0390.517±0.0240.513±0.0510.584±0.0680.526±0.0440.437±0.0260.554±0.015
    ReviewsARI0.661±0.0030.459±0.0510.565±0.0190.502±0.0640.462±0.1080.565±0.0210.318±0.0940.239±0.0570.514±0.012
    F0.769±0.0010.679±0.0310.725±0.0110.691±0.0380.703±0.0550.729±0.0130.605±0.0550.538±0.0540.714±0.009
    La12ARI0.579±0.0610.550±0.0140.557±0.0050.486±0.0560.487±0.0630.559±0.0120.145±0.0590.251±0.0190.553±0.006
    F0.765±0.0350.717±0.0070.718±0.0050.689±0.0310.683±0.0490.721±0.0170.479±0.0330.504±0.0220.719±0.004
    HitechARI0.270±0.0150.255±0.0220.290±0.0090.240±0.0060.238±0.0340.273±0.0060.097±0.0220.196±0.0190.262±0.018
    F0.530±0.0200.517±0.0220.526±0.0100.497±0.0110.500±0.0250.519±0.0140.418±0.0230.444±0.0230.512±0.017
    K1bARI0.727±0.0180.491±0.0480.475±0.0320.496±0.0050.358±0.0500.570±0.1080.347±0.0750.234±0.0090.313±0.029
    F0.861±0.0060.756±0.0410.762±0.0190.780±0.0030.647±0.0450.807±0.0510.668±0.0560.517±0.0150.612±0.041
    SportsARI0.655±0.0160.390±0.0490.639±0.0830.445±0.0650.320±0.1070.458±0.0660.211±0.0800.328±0.0320.406±0.034
    F0.773±0.0030.640±0.0300.792±0.0510.707±0.0430.591±0.0700.708±0.0410.548±0.0670.561±0.0260.621±0.036
    图  1  与其他加权算法对比结果(最优值)
    Fig.  1  Comparison results with other weighting algorithms (optimal value)
    下载: 全尺寸图片

    表3可以看出,除Tr23的ARI评价指标和F评价指标、Hitech的ARI评价指标及Sports的F评价指标外,本文提出的TLWA算法均处于第1名,处于第1名的比例为12/16。由图1可以看出,本文提出的TLWA方法在数据集Tr11、Reviews、La12、K1b及数据集Sports上的聚类效果明显优于其他加权聚类集成方法。为了使各方法排名情况更加直观,ARI及F评价指标下各加权方法10次运行结果的平均值排名表如表4表5所示,平均序值为各方法在8个数据集下排名的均值。

    表  4  ARI评价指标下各加权方法排名表
    Table  4  Ranking of weighting methods under ARI evaluation index
    数据集TLWAALSDMLWEALWGPWCT_KMWEAC_ALWEAC_CLWOHBWOMC
    Tr11134682597
    Tr12173294865
    Tr23371482596
    Reviews172.5562.5894
    La12153762984
    Hitech351672984
    K1b145362798
    Sports162483975
    平均序值1.5005.5002.6884.6257.2502.4387.5008.1255.375
    表  5  F评价指标下各加权方法排名表
    Table  5  Ranking of weighting methods under F evaluation index
    数据集TLWAALSDMLWEALWGPWCT_KMWEAC_ALWEAC_CLWOHBWOMC
    Tr1112.55.55.582.5497
    Tr12145293687
    Tr23352781694
    Reviews173652894
    La12154672983
    Hitech142763985
    K1b154372698
    Sports251473986
    平均序值1.3754.6883.3135.0637.1252.3137.1258.5005.500

    接下来,本文通过Friedman检验及Nemenyi检验来判断本方法与其他方法是否具有显著性差异。

    下面首先使用ARI评价指标的排名来进行算法的Friedman检验,来判断这些方法的性能是否都相同。

    $$ \begin{gathered} {\chi}_{\rm{F}}^{\text{2}}\text{=}\dfrac{\text{12×8}}{\text{9×10}}\left({\text{1.500}}^{\text{2}}\text{+}{\text{5.500}}^{\text{2}}\text{+}{\text{2.688}}^{\text{2}}\text{+}{\text{4.625}}^{\text{2}} \text{+} {\text{7.250}}^{\text{2}}\text{+} \right.\\ \left. {\text{2.438}}^{\text{2}}\text{+} {\text{7.500}}^{\text{2}}\text{+} {\text{8.125}}^{\text{2}}\text{+}{\text{5.375}}^{\text{2}}{-}\dfrac{\text{9×}{\text{10}}^{\text{2}}}{\text{4}}\right) \text{=48.830}\; \end{gathered} $$
    $$ {{F}}_{\rm{F}}\text{=} \dfrac{\text{7×48.830}}{{8 \times 8-48.830}}\text{=22.532}\; $$

    FF服从自由度为9−1=8和(9−1)×(8−1)=56的F分布,给定α=0.1,查表F(8, 56)为2.109,小于FF,因此拒绝“所有算法性能相同”这个假设。

    接下来,在两两比较中使用Nemenyi检验,9种算法在q0.1处的临界值为2.855,对应的CD为$ \text{2.855×}\sqrt{\dfrac{\text{9×10}}{\text{6×8}}}\text{=3.909} $,即算法TLWA与算法ALS-DM、WCT_KM、WEAC_CL、WOHB及算法WOMC有显著性差异,与算法LWEA、LWGP及算法WEAC_AL有差异。同理,计算F评价指标的Fr-iedman检验,来判断这些算法的性能是否都相同。

    $$ \begin{gathered} \chi _{\rm {F}}^2 = \dfrac{{12 \times 8}}{{9 \times 10}}\left({1.375^2} + {4.688^2} + {3.313^2} + {5.063^2} + {7.125^2} +\right.\\ \left.{2.313^2} + {7.125^2} + {8.500^2}+{5.500^2} -\dfrac{9\times {10}^{2}}{4}\right)= 47.850 \end{gathered} $$
    $$ {F}_{{\rm{F}}}=\dfrac{7\times 47.850}{8\times 8-47.850}= 20.740\; $$

    服从自由度为8和56的F分布,给定α=0.1,查表F(8,56)为2.109,小于FF,因此拒绝“所有算法性能相同”这个假设。

    接下来,在两两比较中使用Nemenyi检验,9种算法在q0.1处的临界值为2.855,对应的CD为3.909,即本文提出的算法TLWA与算法WCT_KM、WEAC_CL、WOHB及算法WOMC有显著性差异,与算法ALSDM、LWEA、LWGP及算法WEAC_AL有差异。

    综上所述,无论是平均值比较还是在最优值比较,本文提出的TLWA方法总能获得较为优异的结果。并且表4表5也表明对于不同的加权方法而言,其在不同的评价指标下的排名也不一样,但是本文提出的TLWA方法在2种评价指标下的平均序值均为第1名,由此可见三层加权聚类集成方法能获得更好的共识结果。

    本文提出了一种三层加权文本聚类集成方法TLWA,该方法针对文本数据集的特点设计点、簇、划分三层的权值,并通过超图邻接矩阵实现三层加权。基于多个数据集上的实验表明:

    1)基于三层加权后的聚类效果优于未加权及其他层面加权的聚类效果;

    2)与其他方法进行比较,本文提出的TLWA方法较为突出。

    综上,本文提出的三层加权文本聚类集成方法是提升聚类性能的行之有效的方法。

  • 图  1   与其他加权算法对比结果(最优值)

    Fig.  1   Comparison results with other weighting algorithms (optimal value)

    下载: 全尺寸图片

    表  1   数据集介绍

    Table  1   Dataset introduction

    数据集样本数特征数类别数
    Tr1141462499
    Tr1231358048
    Tr2320458326
    Reviews4069184835
    La126279314726
    Hitech2301100806
    K1b2340218396
    Sports8580148707

    表  2   各层加权效果对比

    Table  2   Weighted effect comparison of each layer

    数据集评价
    指标
    未加权点加权簇加权划分
    加权
    点、簇
    加权
    点、划分
    加权
    簇、划分
    加权
    三层
    加权
    提升
    幅度/%
    Tr11ARI0.600±0.0290.522±0.0260.626±0.0270.606±0.0310.652±0.0770.521±0.0410.636±0.0220.683±0.08413.83
    F0.762±0.0150.700±0.0120.768±0.0250.770±0.0150.761±0.0440.704±0.0260.773±0.0160.780±0.0512.36
    Tr12ARI0.454±0.0420.461±0.0590.435±0.0470.448±0.0330.556±0.0810.447±0.0560.474±0.0610.578±0.06422.69
    F0.704±0.0190.705±0.0350.686±0.0280.696±0.0160.760±0.0340.702±0.0330.710±0.0280.769±0.0309.39
    Tr23ARI0.259±0.0090.268±0.0250.320±0.0210.262±0.0090.328±0.0100.260±0.0280.305±0.0470.318±0.02022.78
    F0.528±0.0100.540±0.0100.566±0.0140.527±0.0100.563±0.0090.530±0.0100.549±0.0410.556±0.0145.50
    ReviewsARI0.565±0.0210.653±0.0040.619±0.0490.566±0.0200.661±0.0030.653±0.0030.616±0.0470.661±0.00316.99
    F0.728±0.0140.767±0.0020.751±0.0220.729±0.0130.769±0.0010.767±0.0020.749±0.0220.769±0.0015.63
    La12ARI0.567±0.0230.590±0.0500.598±0.0250.555±0.0140.576±0.0570.585±0.0480.592±0.0250.579±0.0612.12
    F0.728±0.0270.765±0.0410.763±0.0300.720±0.0190.764±0.0340.762±0.0410.761±0.0300.765±0.0355.08
    HitechARI0.269±0.0120.260±0.0170.281±0.0140.272±0.0120.272±0.0180.260±0.0130.283±0.0080.270±0.0150.37
    F0.517±0.0170.511±0.0240.530±0.0170.518±0.0130.525±0.0230.519±0.0220.531±0.0160.530±0.0202.51
    K1bARI0.555±0.0910.580±0.0980.700±0.0790.564±0.1110.726±0.0170.532±0.0980.673±0.1040.727±0.01830.99
    F0.802±0.0430.817±0.0420.861±0.0390.804±0.0540.860±0.0060.779±0.0410.849±0.0500.861±0.0067.36
    SportsARI0.476±0.0420.654±0.0660.603±0.0930.484±0.0690.651±0.0160.609±0.1030.618±0.0830.655±0.01737.61
    F0.722±0.0250.792±0.0420.786±0.0480.733±0.0400.772±0.0020.762±0.0640.797±0.0360.773±0.0037.06

    表  3   与其他加权方法对比结果(平均值)

    Table  3   Comparison results with other weighted methods (average)

    数据集评价指标TLWAALSDMLWEALWGPWCT_KMWEAC_ALWEAC_CLWOHBWOMC
    Tr11ARI0.683±0.0840.600±0.0290.584±0.0170.574±0.0280.500±0.0500.619±0.0250.583±0.0610.408±0.0480.507±0.036
    F0.780±0.0510.762±0.0150.720±0.0110.720±0.0190.664±0.0380.762±0.0210.733±0.0290.607±0.0470.680±0.033
    Tr12ARI0.577±0.0640.454±0.0420.496±0.0420.572±0.0450.391±0.0600.493±0.0920.451±0.0660.460±0.0270.466±0.029
    F0.769±0.0300.704±0.0190.697±0.0310.762±0.0210.650±0.0590.728±0.0470.696±0.0420.679±0.0350.684±0.015
    Tr23ARI0.318±0.0190.259±0.0090.331±0.0390.272±0.0170.228±0.0630.320±0.0590.269±0.0410.130±0.0300.261±0.036
    F0.556±0.0140.527±0.0100.578±0.0390.517±0.0240.513±0.0510.584±0.0680.526±0.0440.437±0.0260.554±0.015
    ReviewsARI0.661±0.0030.459±0.0510.565±0.0190.502±0.0640.462±0.1080.565±0.0210.318±0.0940.239±0.0570.514±0.012
    F0.769±0.0010.679±0.0310.725±0.0110.691±0.0380.703±0.0550.729±0.0130.605±0.0550.538±0.0540.714±0.009
    La12ARI0.579±0.0610.550±0.0140.557±0.0050.486±0.0560.487±0.0630.559±0.0120.145±0.0590.251±0.0190.553±0.006
    F0.765±0.0350.717±0.0070.718±0.0050.689±0.0310.683±0.0490.721±0.0170.479±0.0330.504±0.0220.719±0.004
    HitechARI0.270±0.0150.255±0.0220.290±0.0090.240±0.0060.238±0.0340.273±0.0060.097±0.0220.196±0.0190.262±0.018
    F0.530±0.0200.517±0.0220.526±0.0100.497±0.0110.500±0.0250.519±0.0140.418±0.0230.444±0.0230.512±0.017
    K1bARI0.727±0.0180.491±0.0480.475±0.0320.496±0.0050.358±0.0500.570±0.1080.347±0.0750.234±0.0090.313±0.029
    F0.861±0.0060.756±0.0410.762±0.0190.780±0.0030.647±0.0450.807±0.0510.668±0.0560.517±0.0150.612±0.041
    SportsARI0.655±0.0160.390±0.0490.639±0.0830.445±0.0650.320±0.1070.458±0.0660.211±0.0800.328±0.0320.406±0.034
    F0.773±0.0030.640±0.0300.792±0.0510.707±0.0430.591±0.0700.708±0.0410.548±0.0670.561±0.0260.621±0.036

    表  4   ARI评价指标下各加权方法排名表

    Table  4   Ranking of weighting methods under ARI evaluation index

    数据集TLWAALSDMLWEALWGPWCT_KMWEAC_ALWEAC_CLWOHBWOMC
    Tr11134682597
    Tr12173294865
    Tr23371482596
    Reviews172.5562.5894
    La12153762984
    Hitech351672984
    K1b145362798
    Sports162483975
    平均序值1.5005.5002.6884.6257.2502.4387.5008.1255.375

    表  5   F评价指标下各加权方法排名表

    Table  5   Ranking of weighting methods under F evaluation index

    数据集TLWAALSDMLWEALWGPWCT_KMWEAC_ALWEAC_CLWOHBWOMC
    Tr1112.55.55.582.5497
    Tr12145293687
    Tr23352781694
    Reviews173652894
    La12154672983
    Hitech142763985
    K1b154372698
    Sports251473986
    平均序值1.3754.6883.3135.0637.1252.3137.1258.5005.500
  • [1] 李洁, 高新波, 焦李成. 基于特征加权的模糊聚类新算法[J]. 电子学报, 2006, 34(1): 89–92.

    LI Jie, GAO Xinbo, JIAO Licheng. A new feature weighted fuzzy clustering algorithm[J]. Acta electronica sinica, 2006, 34(1): 89–92.
    [2] JIA Caiyan, CARSON M B, WANG Xiaoyang, et al. Concept decompositions for short text clustering by identifying word communities[J]. Pattern recognition, 2018, 76(4): 691–703.
    [3] XIE Junyuan, GIRSHICK R, FARHADI A. Unsupervised deep embedding for clustering analysis[C]//The 33rd International Conference on Machine Learning. New York: W&CP, 2016: 478−487.
    [4] 冯冰, 李绍滋. 中医脉诊信号的无监督聚类分析研究[J]. 智能系统学报, 2018, 13(4): 564–570.

    FENG Bing, LI Shaozi. Unsupervised clustering analysis of human-pulse signal in traditional Chinese medicine[J]. CAAI transactions on intelligent systems, 2018, 13(4): 564–570.
    [5] 张智, 毕晓君. 基于风格转换的无监督聚类行人重识别[J]. 智能系统学报, 2021, 16(1): 48–56.

    ZHANG Zhi, BI Xiaojun. Clustering approach based on style transfer for unsupervised person re-identification[J]. CAAI transactions on intelligent systems, 2021, 16(1): 48–56.
    [6] STREHL A, GHOSH J. Cluster ensembles: a knowledge reuse framework for combining multiple partitions[J]. Journal of machine learning research, 2002, 3(3): 583–617.
    [7] FRAJ M, BEN HAJKACEM M A, ESSOUSSI N. Ensemble method for multi-view text clustering[C]//International Conference on Computational Collective Intelligence. Hendaye: Springer, 2019: 219−231.
    [8] 张颖怡, 章成志, 陈果. 基于关键词的学术文本聚类集成研究[J]. 情报学报, 2019, 38(8): 860–871.

    ZHANG Yingyi, ZHANG Chengzhi, CHEN Guo. Research on clustering integration of academic texts based on keywords[J]. Journal of the China society for scientific and technical information, 2019, 38(8): 860–871.
    [9] AL-SHAMASI S, MENAI M. Ensemble-based clustering for writing style change detection in multi-authored textual documents[C]//Proceedings of the Working Notes of CLEF 2022. Bologna: CEUR Workshop Proc, 2022: 2357−2374.
    [10] 张美琴, 白亮, 王俊斌. 基于加权聚类集成的标签传播算法[J]. 智能系统学报, 2018, 13(6): 994–998.

    ZHANG Meiqin, BAI Liang, WANG Junbin. Label propagation algorithm based on weighted clustering ensemble[J]. CAAI transactions on intelligent systems, 2018, 13(6): 994–998.
    [11] 廖彬, 黄静莱, 王鑫, 等. SCEA: 一种适应高维海量数据的并行聚类集成算法[J]. 电子学报, 2021, 49(6): 1077–1087.

    LIAO Bin, HUANG Jinlai, WANG Xin, et al. SCEA: a parallel clustering ensemble algorithm for high-dimensional massive data[J]. Acta electronica sinica, 2021, 49(6): 1077–1087.
    [12] ZHANG Mimi. Weighted clustering ensemble: a review[J]. Pattern recognition, 2022, 124: 108428. doi: 10.1016/j.patcog.2021.108428
    [13] SHEN Qiaoyun, QIU Yican. A novel text ensemble clustering based on weighted entropy filtering model[J]. Journal of physics: conference series, 2021, 2024(1): 012045. doi: 10.1088/1742-6596/2024/1/012045
    [14] NAJAFI F, PARVIN H, MIRZAIE K, et al. Dependability‐based cluster weighting in clustering ensemble[J]. Statistical analysis and data mining: the ASA data science journal, 2020, 13(2): 151–164. doi: 10.1002/sam.11451
    [15] JI Xia, LIU Shuaishuai, ZHAO Peng, et al. Clustering ensemble based on sample’s certainty[J]. Cognitive computation, 2021, 13(3): 1034–1046.
    [16] WU Junjie, LIU Hongfu, XIONG Hui, et al. K-means-based consensus clustering: a unified view[J]. IEEE transactions on knowledge and data engineering, 2015, 27(1): 155–169. doi: 10.1109/TKDE.2014.2316512
    [17] TAO Zhiqiang, LIU Hongfu, FU Yun. Simultaneous clustering and ensemble[C]//The 31st AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 1546−1552.
    [18] ZHONG Caiming, HU Lianyu, YUE Xiaodong, et al. Ensemble clustering based on evidence extracted from the co-association matrix[J]. Pattern recognition, 2019, 92(8): 93–106.
    [19] 徐森, 皋军, 花小朋, 等. 一种改进的自适应聚类集成选择方法[J]. 自动化学报, 2018, 44(11): 2103–2112.

    XU Sen, GAO Jun, HUA Xiaopeng, et al. An improved adaptive cluster ensemble selection approach[J]. ACTA automatica sinica, 2018, 44(11): 2103–2112.
    [20] HUANG Dong, LAI Jianhuang, WANG Changdong. Combining multiple clusterings via crowd agreement estimation and multi-granularity link analysis[J]. Neurocomputing, 2015, 170: 240–250. doi: 10.1016/j.neucom.2014.05.094
    [21] BAI Liang, LIANG Jiye, DU Hangyuan, et al. An information-theoretical framework for cluster ensemble[J]. IEEE transactions on knowledge and data engineering, 2019, 31(8): 1464–1477.
    [22] WAN Haowen, NING Bo, TAO Xiaoyu, et al. Artificial intelligence in China[M]. Singapore: Springer, 2020: 622-628.
    [23] DOMENICONI C, AL-RAZGAN M. Weighted cluster ensembles: methods and analysis[J]. ACM transactions on knowledge discovery from data, 2009, 2(4): 1–40.
    [24] IAM-ON N, BOONGOEN T, GARRETT S, et al. A link-based approach to the cluster ensemble problem[J]. IEEE transactions on pattern analysis and machine Intelligence, 2011, 33(12): 2396–2409. doi: 10.1109/TPAMI.2011.84
    [25] HUANG Dong, WANG Changdong, LAI Jianhuang. Locally weighted ensemble clustering[J]. IEEE transactions on cybernetics, 2018, 48(5): 1460–1473. doi: 10.1109/TCYB.2017.2702343
    [26] VO C T N, NGUYEN P H. A weighted object-cluster association-based ensemble method for clustering undergraduate students[C]//Asian Conference on Intelligent Information and Database Systems. Cham: Springer, 2018: 587−598.
    [27] LI Feijiang, QIAN Yuhua, WANG Jieting, et al. Cluster’s quality evaluation and selective clustering ensemble[J]. ACM transactions on knowledge discovery from data, 2018, 12(5): 1–27.
    [28] RASHIDI F, NEJATIAN S, PARVIN H, et al. Diversity based cluster weighting in cluster ensemble: an information theory approach[J]. Artificial intelligence review, 2019, 52: 1341–1368. doi: 10.1007/s10462-019-09701-y
    [29] BANERJEE A, PUJARI A K, RANI PANIGRAHI C, et al. A new method for weighted ensemble clustering and coupled ensemble selection[J]. Connection Science, 2021, 33(3): 623–644. doi: 10.1080/09540091.2020.1866496
    [30] 邵长龙, 孙统风, 丁世飞. 基于信息熵加权的集成聚类算法[J]. 南京大学学报(自然科学版), 2021, 57(2): 189–196.

    SHAO Changlong, SUN Tongfeng, DING Shifei. Ensemble clustering based on information entropy weighted[J]. Journal of Nanjing University (natural science edition), 2021, 57(2): 189–196.
    [31] ZHONG Caiming, YUE Xiaodong, ZHANG Zehua, et al. A clustering ensemble: two-level-refined co-association matrix with path-based transformation[J]. Pattern recognition, 2015, 48(8): 2699–2709. doi: 10.1016/j.patcog.2015.02.014
    [32] LI Feijiang, QIAN Yuhua, WANG Jieting, et al. Clustering ensemble based on sample's stability[J]. Artificial intelligence, 2019, 273: 37–55. doi: 10.1016/j.artint.2018.12.007
    [33] REN Yazhou, DOMENICONI C, ZHANG Guoji, et al. Weighted-object ensemble clustering: methods and analysis[J]. Knowledge and information systems, 2017, 51(2): 661–689. doi: 10.1007/s10115-016-0988-y
    [34] 武永亮, 赵书良, 李长镜, 等. 基于TF-IDF和余弦相似度的文本分类方法[J]. 中文信息学报, 2017, 31(5): 138–145.

    WU Yongliang, ZHAO Shuliang, LI Changjing, et al. Text classification method based on TF-IDF and cosine similarity[J]. Journal of Chinese information processing, 2017, 31(5): 138–145.
    [35] THENMOZHI D, KANNAN K, ARAVINDAN C. A text similarity approach for precedence retrieval from legal documents[C]//FIRE (Working Notes). Bangalore: CEUR Workshop Proceedings, 2017: 90−91.
    [36] 刘梦迪, 梁循. 基于偏旁部首知识表示学习的汉字字形相似度计算方法[J]. 中文信息学报, 2021, 35(12): 47–59.

    LIU Mengdi, LIANG Xun. A method of Chinese character glyph similarity calculation[J]. Journal of Chinese information processing, 2021, 35(12): 47–59.
    [37] HAN E-H, BOLEY D, GINI M, et al. WebACE: a web agent for document categorization and exploration[C]//The 2nd International Conference on Autonomous Agents. Minneapolis: ACM, 1998: 408-415.
WeChat 点击查看大图
图(1)  /  表(5)
出版历程
  • 收稿日期:  2023-03-20
  • 网络出版日期:  2024-03-15

目录

    /

    返回文章
    返回