2. 韩山师范学院 物理与电子工程学院,广东 潮州 521041;
3. 佛山科学技术学院 数学与大数据学院,广东 佛山 528000
2. School of Physice & Electronic Engineering, Hanshan Normal University, Chaozhou 521041, China;
3. School of Mathematics and Big Data, Foshan University, Foshan 528000, China
从计算角度进行归类,因果推断可表示为关于变量的概率图模型,变量间的因果关系则可用模型中的有向边表示. 高维数据不同于传统的低维数据,它的复杂度更高,常用的基于条件独立测试或约束的方法只能得到变量间局部的因果关系. 考虑如下情形,
1) 难以在有效时间内从数据中搜索出可用于测试
2) 当
有研究者为了克服上述问题提出SADA-LINGAM算法[1]——一种基于分裂−合并策略的递归方法. 为简便起见,下文将采用SADA的英文缩写表示SADA-LINGAM算法. 该算法用至少2个子集划分原来的变量,分别对应利用现有的因果推断方法求解的各个子问题;通过对所有子问题的结果进行合并,最后推断出原始问题的因果关系. 考虑以下例子,给定某个集合
文献[2]开创性地提出一种新的REC因果分区方法. 其主要思想如下:移除满足
该方法在处理过程中选择应用于实际中构造准确无向独立图的高阶CI测试方法,效率很低. 为解决这个问题,提高构造效率,基于SADA的递归方法被应用于文献[1],其每次迭代过程中只需采用一次高阶CI测试,接下来用多次低阶测试分解
不失一般性地假设最小分离器的分布是关于两个不连接变量且服从不同自由度的
上述内容引发这样的思考:当重构一个粗糙因果骨架时,用来D分离两个变量的最小分离器的大小能否确定?如果能,即可以基于不同的阈值
基于此,本文提出了基于低阶条件独立测试的因果分割方法(Learning Causal Structure based on Causality Division,LCSCD)——一种具有可扩展性和有效性的因果推断方法. LCSCD算法只使用了低阶(变量个数小于等于2)CI测试方法,即可把原始的问题分割为多个子问题;在此基础上,再使用现有的因果推断算法如PC算法,逐一处理这些子问题;最后,合并所有子问题的结果,推断出完整的因果关系图.
为验证LCSCD算法具备更高的效率和可扩展性,实验针对较小、中等、较大3种规模的真实网络进行. 其中,按照目前因果推断的相关工作,较小、中等、较大是按照最小分离器的变量数量区分的,依次是指变量数目小于等于2、变量数目是3或4、变量数目大于或等于5时.
对比目前较为流行的算法SADA方法,LCSCD算法有两个优势:1) LCSCD算法在因果划分时更具可靠性;2) LCSCD在执行时间上耗时更短.
1 准备知识用
如果在
首先定义有效因果分区[1],然后提出LCSCD方法的框架.
定义1 给定
直观来说,
LCSCD方法的描述如算法1的伪代码所示,其中输入的参数包括集合
算法1:LCSCD
1: Input: dataset
2: Output: Causal skeleton
3: Construct a fully connected graph G on V.
4: To search a causality division
5: if
6: LCSCD(
7: else
8: Update the skeleton S to G by
9: end if
10: Do the same process (Lines 4-8) to
LCSCD算法的重点之一在于因果分区的搜索过程. 算法采用CI测试处理输入变量以识别潜在的因果分区. 该过程如算法2的伪代码所示.
算法2:Searching Causal Division (寻找因果划分)
1: Input: The variables set
2: Output: The causal division
3: Construct fully connected graph
4: For
5: end if
7: for
8: Add
9: Add
10: Add
11: end for
12: Return the causal division
划分初始变量集
同样,获得关于子问题的一个子集
假设给定的原始数据集为
为综合评价本文所提出的LCSCD算法的效率与准确率等指标,实验采用文献[1]中涉及的来自不同实际应用领域的6个因果网络数据集(这些数据集均基于某一个因果推断领域中通用的线性模型[1],
| 表 1 6个不同网络结构的参数情况 Table 1 Parameters of 6 different network structures |
为探索LCSCD算法在因果分区的性能表现,采用与当前流行的SADA算法[1]进行对比实验. 在6个不同网络下分别以样本数{25,50,100,200,400}来评估两种算法之间的性能和准确率. 此实验寻找的因果骨架是无方向的,因为目前可用于判断现成网络骨架中的因果方向的算法有很多,如V结构方法[14-16]、ANM方法[17-21],以及IGCI(信息几何因果推断)方法[22-26]等. 实验采用文献[27]中用到的CI测试方法,设置阈值为5%;为了防止子网络数目呈指数级增长,把各数据集的子网络维度大小都设置为
LCSCD算法和SADA算法在6个不同数据集、不同样本下进行Recall(召回率)、Precision(精度)和F1评价指标的比较,结果如图1所示,这些指标的定义如下:
|
图 1 6个不同网络结构在不同样本下的评价指标比较 Figure 1 Evaluation comparison of 6 different network structures under different samples |
| ${\text{召回率}} = \frac{{{\text{因果推断节点}} \cap {\text{真实因果节点}}}}{{{\text{真实因果节点}}}}.$ | (1) |
| ${\text{精度}} = \frac{{{\text{因果推断节点}} \cap {\text{真实因果节点}}}}{{{\text{因果推断节点}}}}.$ | (2) |
| $F_1 = \frac{{2 \times {\text{召回率}} \times {\text{精度}}}}{{{\text{召回率}} + {\text{精度}}}}.$ | (3) |
式(1)~式(3)中,实际因果网络中各节点间的因果关系称之为真实因果节点,利用算法推断得到的各节点间的因果关系则是因果推断节点. 推断所得因果网络正确边的方向与实际因果网络的比值定义为召回率,而精度则是推断所得因果网络正确边的方向与推断网络之比. F1是评价算法中的一种标准.
观察并分析图1可知:1) 从总体上观察综合评价指标F1的值可知LCSCD算法在6个不同网络、不同样本的情况下得到的数值比SADA算法所得的结果更优;2) SADA算法的Recall值和Precision的准确率均随样本量的增加而增加,但后者增幅较小;3) LCSCD算法和SADA算法的F1值均与样本量呈正相关关系,但前者在小样本量时增长率较快.
通过对比表2统计的执行时间情况,易知:1) LCSCD算法的执行时间远小于SADA算法,特别当样本量大、数据维度高时,后者的执行时间是前者的近10倍;2) LCSCD算法在相同数据集、不管样本大小下的执行时间基本保持稳定,而随着数据集维度的增加,SADA算法的执行时间将不断增长;3)特别在维度达到441维的PIGS数据集,当样本量超过25时,LCSCD算法仍能够得出结果,而SADA算法则无法在有效时间内得出结果.
| 表 2 LCSCD算法和SADA算法在不同数据集和样本下的执行时间 Table 2 LCSCD algorithm and SADA algorithm are performed under different samples and datasets |
本文提出一种兼具有效性与扩展性的因果推断算法——LCSCD算法. 即使当数据集属于高维度范畴时,该算法仍可采用低阶CI测试对数据集进行分区推断(应注意条件集的变量数目一般不大于2). LCSCD算法的主要流程可分为3步:首先,把目标的大问题分割成数目小于某设定阈值的子问题,该过程可采用分区的方法处理;其次用现有的算法如PC算法,对分割的每个子问题进行因果推断;最后,对所得的子网络结果进行合并以获得所需的完整的因果网络骨架图. 为了验证本文所提算法的性能,将算法应用于6个规模相异的网络,并不失一般性地以样本量作为变量. 通过对比实验,可知本文提出LCSCD算法无论在效率还是准确率都要优于目前较为先进的SADA-LINGAM算法. 本研究后续工作将进一步探讨优化算法的分区模式以提高算法的准确率和性能.
| [1] |
CAI R C, ZHANG Z J, HAO Z F. Sada: a general framework to support robust causation discovery[C]//International Conference on Machine Learning. Atlanta, GA, USA: ICML, 2013, 28: 208-216.
|
| [2] |
XIE X C, GENG Z. A recursive method for structural learning of directed acyclic graphs[J].
Journal of Machine Learning Research, 2008, 9(3): 459-483.
|
| [3] |
GENG Z, WANG C, ZHAO Q. Decomposition of search for v-structures in dags[J].
Journal of Multivariate Analysis, 2005, 96(2): 282-294.
DOI: 10.1016/j.jmva.2004.10.012. |
| [4] |
XIE X C, GENG Z, ZHAO Q. Decomposition of structural learning about directed acyclic graphs[J].
Artificial Intelligence, 2006, 170(4-5): 422-439.
DOI: 10.1016/j.artint.2005.12.004. |
| [5] |
LIU H, ZHOU S G, LAM W, et al. A new hybrid method for learning bayesian networks: separation and reunion[J].
Knowledge-Based Systems, 2017, 121: 185-197.
DOI: 10.1016/j.knosys.2017.01.029. |
| [6] |
PEARL J. Causality[M]. Cambridge: Cambridge University Press, 2009: 639-648.
|
| [7] |
KLOKS T, KRATSCH D. Finding all minimal separators of a graph[J].
Lecture Notes in Computer Science, 1993, 842(3): 759-768.
|
| [8] |
ZHANG K, PETERS J, JANZING D, et al. Kernel-based conditional independence test and application in causal discovery[J].
Computer Science, 2012, 06(8): 895-907.
|
| [9] |
EDWARDS D. Introduction to graphical modelling[M]. New York: Springer, 2000: 235-254.
|
| [10] |
FUKUMIZU K, GRETTON A, SUN X, et al. Kernel measures of conditional dependence[J].
Advances in Neural Information Processing Systems, 2007, 20(1): 167-204.
|
| [11] |
ZHANG H, ZHOU S G, ZHANG K, et al. Causal discovery using regression-based conditional independence tests[C]// AAAI Conference on Artificial Intelligence. San Francisco, California, USA: AAAI, 2017: 1250-1256.
|
| [12] |
ZHANG K, PETERS J, JANZING D, et al. Kernel-based conditional independence test and application in causal discovery[M]. USA: AUAI Press, 2011: 804-813.
|
| [13] |
ZHANG K, WANG Z K, ZHANG J J, et al. On estimation of functional causal models: general results and application to post-nonlinear causal model[C]// ACM Transactions on Intelligent Systems and Technologies. New York, NY, USA: ACM, 2015, 7(2): 1-22.
|
| [14] |
CAI R C, ZHANG Z J, HAO Z F. Bassum: a bayesian semi-supervised method for classification feature selection[J].
Pattern Recognition, 2011, 44(4): 811-820.
DOI: 10.1016/j.patcog.2010.10.023. |
| [15] |
CAI R C, ZHANG Z J, HAO Z F. Causal gene identification using combinatorial v-structure search[J].
Neural Networks, 2013, 43: 63-71.
DOI: 10.1016/j.neunet.2013.01.025. |
| [16] |
MOOIJ J M, PETERS J, JANZING D, et al. Distinguishing cause from effect using observational data: methods and benchmarks[J].
The Journal of Machine Learning Research, 2016, 17(1): 1103-1204.
|
| [17] |
HOYER P O, JANZING D, MOOIJ J M, et al. Nonlinear causal discovery with additive noise models[J].
Advances in neural Information Processing Systems, 2009: 689-696.
|
| [18] |
PETERS J, JANZING D, SCHOLKOPF B. Causal inference on discrete data using additive noise models[C]//IEEE Transactions on Pattern Analysis & Machine Intelligence. Washington DC: IEEE Computer Society, 2011: 2436-2450.
|
| [19] |
SHIMIZU S, HOYER P. O, HYVARINEN A, et al. A linear non-Gaussian acyclic model for causal discovery[J].
the Journal of Machine Learning Research, 2006, 7: 2003-2030.
|
| [20] |
JUDEA P. Probability reasoning in intelligent systems networks of plausible inference[J].
Computer Science Artificial Intelligence, 1988, 70(2): 1022-1027.
|
| [21] |
KOLLER D, FRIEDMAN N. Probabilistic graphical models: principles and techniques[M]. Cambridge: Massachusetts Institute of Technology Press, 2009: 56-72.
|
| [22] |
BUDHATHOKI K, VREEKEN J. Causal inference by compression[C]// 2016 IEEE 16th International Conference on Data Mining. Barcelona, Spain: IEEE, 2016: 41-50.
|
| [23] |
JANZING D, STEUDEL B, SHAJARISALES N, et al. Justifying information-geometric causal inference[J].
Measures of Complexity, 2015: 253-265.
|
| [24] |
SCHOLKOPF B, JANZING D, PETERS J, et al. Semi-supervised learning in causal and anticausal settings[M]. Berlin Heidelberg: Springer, 2013: 129-141.
|
| [25] |
SGOURITSA E, JANZING D, HENNIG P, et al. Inference of cause and effect with unsupervised inverse regression[J].
Artificial Intelligence and Statistics, 2015: 847-855.
|
| [26] |
SPIRTES P, GLYMOUR C N, SCHEINES R. Causation, prediction and search[M]. New York: Springer, 1993, 45(3): 272-273.
|
| [27] |
BABA K, SHIBATA R, SIBUYA M. Partial correlation and conditional correlation as measures of conditional independence[J].
Australian and New Zealand Journal of Statistics, 2004, 46(4): 657-664.
DOI: 10.1111/anzs.2004.46.issue-4. |
2019, Vol. 36

