基于Cai-伪残差与变量独立性的因果定向方法

引用本文

牛瑞琪, 原泽鹏, 翟岩慧, 等. 基于Cai-伪残差与变量独立性的因果定向方法[J]. 郑州大学学报(理学版), 2025, 57(6): 24-33.

NIU Ruiqi, YUAN Zepeng, ZHAI Yanhui, et al. Causal Orientation Method Based on the Independence of Cai-pseudo Residuals and Variables[J]. Journal of Zhengzhou University(Natural Science Edition), 2025, 57(6): 24-33.

基金项目

国家自然科学基金项目(62072294, 61972238)

通信作者

李德玉(1965—)，男，教授，主要从事数据挖掘研究，E-mail: lidysxu@163.com

作者简介

牛瑞琪(2001—)，女，硕士研究生，主要从事因果关系发现研究，E-mail: 202222407029@email.sxu.edu.cn

文章历史

收稿日期：2024-06-03

Contents Abstract Full text Figures/Tables PDF

基于Cai-伪残差与变量独立性的因果定向方法

牛瑞琪¹, 原泽鹏¹, 翟岩慧^1,2, 赵延新¹, 李德玉^1,2

1. 山西大学计算机与信息技术学院山西太原 030006;
2. 计算智能与中文信息处理教育部重点实验室(山西大学) 山西太原 030006

收稿日期：2024-06-03

基金项目：国家自然科学基金项目(62072294, 61972238)

作者简介：牛瑞琪(2001—)，女，硕士研究生，主要从事因果关系发现研究，E-mail: 202222407029@email.sxu.edu.cn.

通信作者：李德玉(1965—)，男，教授，主要从事数据挖掘研究，E-mail: lidysxu@163.com.

摘要：针对基于约束的因果关系发现方法中的马尔科夫等价类问题及函数因果模型对噪声的非高斯性假设问题，使用Cai-伪残差的三个定理，提出了Cai-伪残差因果定向算法。首先，假设变量之间关系线性且不限制噪声类型，在此条件下，对于贝叶斯网络的三种结构，Cai-伪残差与变量间的独立性表现出不同的结果。其次，利用基于约束的方法构建马尔科夫等价类之后，通过不同结果进一步发现并区分三种结构，对马尔科夫等价类中部分未定向的边进一步定向。最后，在不同因果网络构成的线性高斯数据集和线性非高斯数据集上分别进行了实验，结果表明，所提算法不仅显著减少了马尔科夫等价类中无向边的数量，同时也有效地提高了因果关系定向的准确性。

关键词：因果定向贝叶斯网络马尔科夫等价类伪残差独立性检验

Causal Orientation Method Based on the Independence of Cai-pseudo Residuals and Variables

NIU Ruiqi¹, YUAN Zepeng¹, ZHAI Yanhui^1,2, ZHAO Yanxin¹, LI Deyu^1,2

1. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China;
2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education(Shanxi University), Taiyuan 030006, China

Abstract: In addressing the issues of Markov equivalence class in constraint-based causal discovery methods and the non-Gaussian noise assumption in functional causal models, the Cai-pseudo residual causal orientation algorithm was proposed using the three theorems of the Cai-pseudo residuals. Firstly, the relationships between variables were assumed to be linear, and no restrictions were imposed on the type of noise. With these conditions, the independence between the Cai-pseudo residuals and variables was manifested in diverse ways across the three distinct structures of Bayesian networks. Secondly, after construction of the Markov equivalence class using a constraint-based method, such varying associations were exploited to further distinguish the three structures and direct some previously undirected edges within the Markov equivalence class. Finally, experiments were performed on both linear Gaussian datasets and non-Gaussian datasets made up of different causal network structures. The results highlighted that the proposed algorithm not only greatly lessened the quantity of undirected edges in the Markov equivalence class, but also notably enhanced the accuracy of causal direction determination.

Key words: causal orientation Bayesian network Markov equivalence class pseudo residual independence test

0 引言

在医学诊断、社会科学以及系统控制等多个领域，因果关系发现都有着广泛的应用^[1-2]。对这些领域来说，揭示和理解数据中的因果关系具有深远且至关重要的意义。然而，已有的因果关系发现方法主要利用随机实验，往往成本高昂、耗时过长，甚至根本无法实施^[3-4]。因此，基于观测数据的因果关系发现方法已经成为因果研究领域的核心。

因果关系发现是指在不同类型数据上添加各种因果假设(数据假设)的前提下，利用不同的工具和方法分析数据中隐含的变量间的因果关系，得到因果网络结构的过程^[5]。其中，基于约束的方法是一类重要的因果关系发现方法，其在定向阶段依据对撞结构及Meek规则进行定向，如Spirtes等^[6]提出的PC算法，而Colombo等^[7]提出的PC-stable算法和Ramsey^[8]提出的PC-Max算法均对PC算法的精确度和效率进行了改进。此外，一些算法是PC算法的延伸，例如Spirtes等^[9]提出的快速因果推断(fast causal inference, FCI)算法，放松了因果充分性假设，可以处理存在混杂变量的情况。这些算法均依赖于条件独立性检验，而不同的因果网络可能有相同的条件独立性集合。具有相同条件独立性集合的因果网络属于同一马尔科夫等价类。因此，尽管上述算法在某些方面具有优势使定向更加准确，但它们都无法区分同一马尔科夫等价类中的具体因果网络结构。

马尔科夫等价类问题可通过函数因果模型对底层真实数据生成函数或参数做出一些额外的假设来进一步处理^[10]。在函数因果模型中，噪声的恰当处理和建模能增强变量间因果关系的准确识别。因此，通过对噪声的假设发现变量间的因果关系是因果关系发现领域的关键手段，如线性非高斯无环模型^[11](linear non-Gaussian acyclic model, LiNGAM)假设变量间关系线性且噪声非高斯。这类研究方法主要针对线性非高斯数据以及非线性数据，而对于线性高斯数据的关注则显得较为不足。因此，研究人员一直在寻求新的解决策略，以提升因果关系发现的准确性和实用性。

本研究探讨了当变量之间的关系呈线性时，在基于约束的方法发现马尔科夫等价类后，利用Cai-伪残差和变量间的独立性，识别并确定贝叶斯网络的三种结构。本文的主要贡献如下。

1) 提出了Cai-伪残差因果定向算法(Cai-pseudo residual causal orientation，PCO)，根据贝叶斯网络的三种结构在Cai-伪残差和变量间的独立性表现不一致，可以对它们进行有效区分。

2) 所提算法PCO仅要求变量间关系线性而不要求噪声类型，可以有效处理线性高斯数据。

3) 将所提算法PCO与不同算法融合，并应用在不同因果网络和数据中，实验结果表明，其能有效确定马尔科夫等价类中部分未定向边的方向，从而减少潜在的因果网络的数量。

1 基于Cai-伪残差与变量独立性的研究

在本节中，主要介绍Cai-伪残差在因果关系发现中的定向原理及Cai-伪残差因果定向算法PCO。

1.1 贝叶斯网络的三种结构及其独立性

贝叶斯网络是一种特殊的概率图模型，它充分利用了图论中模型的构建能力和概率论的不确定性处理能力^[12]。如果把贝叶斯网络中的有向边视为因果关系，则将表示变量之间因果关系的贝叶斯网络模型称为因果贝叶斯网络。其中，节点代表随机变量，有向边则表示变量之间的直接因果关系，即A→B称为“A是B的直接原因”。因此，贝叶斯网络能够用于建立和解读因果关系，并据此进行因果推理。在贝叶斯网络中，存在以下三种基本结构。

定义1 ^[13] 链结构、叉结构、对撞结构。

1) 链结构、叉结构分别如图 1、图 2所示，其独立性表述均为：对于三个变量X，Y，Z满足X和Y不独立，即P(X, Y)≠P(X)P(Y)；但在给定Z的条件下X和Y独立，即P(X, Y|Z)= P(X|Z)P(Y|Z)。因此，链结构和叉结构属于同一马尔科夫等价类。

图 1 链结构示意图 Fig. 1 Illustration of chain structure

图 2 叉结构示意图 Fig. 2 Illustration of fork structure

2) 对撞结构如图 3所示，其独立性表述为：对于三个变量X，Y，Z满足X和Y相互独立，即$ P(X, Y) \neq P(X) P(Y)$；但在给定Z的条件下都不再独立，即$P(X, Y \mid Z)=P(X \mid Z) P(Y \mid Z) $。

图 3 对撞结构示意图 Fig. 3 Illustration of collision structure

1.2 贝叶斯网络三种结构的Cai-伪残差特性

因果关系发现中基于约束的众多算法均依赖于以下假设。

假设1 ^[14] 因果充分性假设。当变量集V中的任意两个变量的直接原因变量都存在V中时，变量集V就被认为是因果充分的。

假设2 ^[14] 因果马尔科夫性假设。对于给定变量集V和边集E的有向无环图G (V, E)，马尔科夫条件在G中被满足的唯一情况是：G中的任一节点在给定其直接原因(在因果网络中的父节点)时，与其所有非后代节点的任意组合都是条件独立的，那么把这种情况称为满足因果马尔科夫性假设。

假设3 ^[14] 因果忠诚性假设。对于一个具有因果充分性的变量集V，在概率P中，当且仅当P中的每个条件独立性都由因果网络G及其马尔科夫条件决定时，可以说G对于概率P是忠诚的。换句话说，如果G对于概率P是忠诚的，那么就认为概率P对于G也是忠诚的。

本研究利用Cai-伪残差与变量间的独立性对马尔科夫等价类进一步定向，有如下假设。

假设4 变量间关系线性假设。变量V满足

$ V_i=\sum\limits_{V_j \in P a\left(V_i\right), j \neq i} a_{i j} V_j+\varepsilon_i, $

(1)

其中：a_ij为V_j到V_i的因果权重；Pa(V_i)为包含V_i的所有原因变量；ε_i是V_i的噪声变量。ε_i⊥ε_j, ε_i⊥V_k, j≠i, k≠i, j。

Cai等^[15]在确定三个观测变量的潜在变量之间的因果方向时提出了Cai-伪残差。

定义2 ^[15] Cai-伪残差。对于三个变量X，Y，Z，X和Y的Cai-伪残差为

$ \omega_{X Y}=X-\frac{Cov(X, Z)}{Cov(Y, Z)} Y 。$

对于三个变量X，Y，Z，X和Z，Z和Y之间存在未定向边X--Z--Y，若满足变量X和Y有且仅有这一条边，或变量Z仅存在这两条边时，则存在以下定理。

定理1 对于链结构X→Z→Y，有

1) $ \omega_{X Y} \not \perp X, \omega_{X Y} \not \perp Y, \omega_{X Y} \not \perp Z ;$

2) $ \omega_{X Z} \not \perp X, \omega_{X Z} \not \perp Y, \omega_{X Z} \not \perp Z ;$

3) $ \omega_{Y Z} \perp X, \omega_{Y Z} \not \perp Y, \omega_{Y Z} \not \perp Z 。$

证明根据以上假设，链结构有$ X=\varepsilon_X, Y=a_2 Z+ a_1 a_2 X+\varepsilon_Y, Z=a_1 X+\varepsilon_Z \text {, 则 } Cov(X, Y)=2 a_1 a_2 D X \text {, } Cov(X, Z)=a_1 D X, Cov(Y, Z)=2 a_1^2 a_2 D X+a_2 D \varepsilon_Z $。故

1) $ \omega_{X Y}=X-\frac{a_1 D X}{2 a_1^2 a_2 D X+a_2 D \varepsilon_Z} Y, \text { 显然 } \omega_{X Y}\not \perp X \text {, } \omega_{X Y} \not \perp Y, \omega_{X Y} \not \perp Z$。

2) $ \omega_{X Z}=X-\frac{2 a_1 D X}{2 a_1^2 D X+D \varepsilon_Z} Z \text {, 显然 } \omega_{X Z} \not \perp X \text {, } \omega_{X Z} \not \perp Y, \omega_{X Z} \not \perp Z$。

3) $ \omega_{Y Z}=\varepsilon_Y-a_2 \varepsilon_Z$，显然$ \omega_{Y Z} \perp X, \omega_{Y Z} \not \perp Y, \omega_{Y Z} \not \perp Z$。

定理2 对于叉结构X←Z→Y，有

1) $ \omega_{X Y} \not \perp X, \omega_{X Y} \not \perp Y, \omega_{X Y} \perp Z ;$

2) $ \omega_{X Z} \not \perp X, \omega_{X Z} \perp Y, \omega_{X Z} \perp Z ;$

3) $ \omega_{Y Z} \perp X, \omega_{Y Z} \not \perp Y, \omega_{Y Z} \perp Z$。

证明根据以上假设，叉结构有$ X=a_1 Z+\varepsilon_X, Y=a_2 Z+\varepsilon_Y, Z=\varepsilon_Z$，则$ Cov(X, Y)=a_1 a_2 D Z, Cov(X, Z)=a_1 D Z, Cov(Y, Z)=a_2 D Z$。故

1) $ \omega_{X Y}=\varepsilon_X-\frac{a_1}{a_2} \varepsilon_Y$，显然$ \omega_{X Y} \not \perp X, \omega_{X Y} \not \perp Y, \omega_{X Y} \perp Z$。

2) $ \omega_{X Z}=\varepsilon_X$，显然$ \omega_{X Z} \not \perp X, \omega_{X Z} \perp Y, \omega_{X Z} \perp Z$。

3) $ \omega_{Y Z}=\varepsilon_Y$，显然$ \omega_{Y Z} \perp X, \omega_{Y Z} \not \perp Y, \omega_{Y Z} \perp Z$。

定理3 对于对撞结构X→Z←Y，有

1) $ \omega_{X Y} \not \perp X, \omega_{X Y} \not \perp Y, \omega_{X Y} \not \perp Z ;$

2) $ \omega_{X Z} \not \perp X, \omega_{X Z} \perp Y, \omega_{X Z} \not \perp Z ;$

3) $ \omega_{Y Z} \perp X, \omega_{Y Z} \not \perp Y, \omega_{Y Z} \not \perp Z$。

证明根据以上假设，对撞结构有X=ε_X，Y= ε_Y，Z=a₁X+a₂Y+ε_Z，则$ Cov(X, Y)=0, Cov(X, Z)= a_1 D X, Cov(Y, Z)=a_2 D Y$。故

1) $ \omega_{X Y}=X-\frac{a_1 D X}{a_2 D Y} Y \text {, 显然 } \omega_{X Y} \not \perp X, \omega_{X Y} \not \perp Y \text {, }\omega_{X Y} \not \perp Z $。

2) $ \omega_{X Z}=X \text {, 显然 } \omega_{X Z} \not \perp X, \omega_{X Z} \perp Y, \omega_{X Z} \not \perp Z$。

3) $ \omega_{Y Z}=Y \text {, 显然 } \omega_{Y Z} \perp X, \omega_{Y Z} \not \perp Y, \omega_{Y Z} \not \perp Z$。

若不满足1)和2)，X-Y-Z示意图如图 4所示。

图 4 不满足条件1)和2)的X-Y-Z示意图 Fig. 4 Illustration of X-Y-Zthat does not meet conditions 1) and 2)

设$X=a_1 Z+b_1 W+\varepsilon_X, Y=a_2 Z+b_2 W+\varepsilon_Y, Z= \varepsilon_Z, W=a_3 Z+\varepsilon_W$，则X，Y，Z有以下独立性：

1) $ \omega_{X Y} \not \perp X, \omega_{X Y} \not \perp Y, \omega_{X Y} \not \perp Z ;$

2) $\omega_{X Z} \not \perp X, \omega_{X Z} \not \perp Y, \omega_{X Z} \not \perp Z ; $

3) $ \omega_{Y Z} \not \perp X, \omega_{Y Z} \not \perp Y, \omega_{Y Z} \not \perp Z$。

此独立性无法区分X，Y，Z三个变量间的结构。

根据定理1~3，区分贝叶斯网络三种结构的方法如下。

1) 当且仅当ω_YZ⊥X时，将三元组X--Z--Y确定为链结构X→Z→Y。

2) 当满足ω_XY⊥Z，ω_XZ⊥Y，ω_YZ⊥X时，将三元组X--Z--Y确定为叉结构X←Z→Y。

3) 当满足ω_XZ⊥Y，ω_YZ⊥X时，将三元组X--Z--Y确定为对撞结构X→Z←Y。

1.3 Cai-伪残差因果定向算法PCO

本文提出的Cai-伪残差因果定向算法PCO，对未定向边的三元组进行分析，根据Cai-伪残差的定义及1.2节中阐述的方法确定三元组的结构。

由于样本量不足，独立性检验的结果不准确或不稳定，致使变量之间的因果关系不确定，则可能存在因果定向冲突问题，即双向边的问题。假设有两个连接起来的三元组X--Z--Y--W，对此结构进行定向，可能存在三元组X--Z--Y和三元组Z--Y--W分别确定为链结构和叉结构，最终得到X→Z←→Y→W，使之出现一条双向边Z←→Y。

面对这一问题，使用PC-Max算法^[14]的思想：通过p值来衡量观察到的数据与假设因果结构一致的可能性。因此，当出现双向边时，选择最大p值的结构确定为真实因果网络的结构，可以提高边定向的准确性。

因果网络示意图如图 5所示。已有的基于约束的因果关系发现算法仅能确定V₁--V₃--V₄三元组的对撞结构，在此基础上，利用Cai-伪残差的定义及三个定理，将V₂--V₁--V₃三元组识别为链结构，从而导致产生双向边V₁←→V₃。故比较链结构和对撞结构的p值，选择最大p值的结构确定V₁--V₃的方向。

图 5 因果网络示意图 Fig. 5 Illustration of causal network

算法1 Cai-伪残差因果定向算法PCO

输入：数据集$ V=\left\{V_1, V_2, \cdots, V_n\right\}$，部分有向无环图G₁(V, E)。

输出：进一步定向后的无环图G₂。

1) 设S为图G₁中包含未定向边的三元组的集合，list_structure←S中每个节点连接的边数的集合，i←0，temp←0，NV← []；

2) for each X--Z--Y∈S do

3) if list_structure(X)==list_structure(Y)==1 or list_structure(Z)==2 do

4) NV(i)←X--Z--Y

5) i=i+1

6) end if

7) end for

8) for i=1: |NV| do

9) for each V_i, V_j∈NV(i) do

10) V_k=NV(i)\V_i, V_j

11) if ω_{V_iV_j}⊥V_k do

12) temp=temp+1

13) end if

14) end for

15) if temp=3 do

16) V_i←V_j→V_k

17) else if temp=1且ω_{V_jV_k}⊥V_i do

18) V_i→V_j→V_k

19) else if temp=1且ω_{V_iV_j}⊥V_k do

20) V_i←V_j←V_k

21) else if temp=2 do

22) V_i→V_j←V_k

23) end if

24) if NV(i)中存在双向边do

25) 根据NV(i)中包含此双向边的所有三元组的最大p值，确定此边的方向；

26) end if

27) end for

28) 输出图G₂

2 实验

将本文提出的因果定向算法PCO与PC^[6]、PC-stable^[7]、PC-Max^[8]及FCI^[9]四种算法相结合，即在这四种算法构建马尔科夫等价类后使用PCO算法对其进行定向，再使用Meek规则，记为PC-PCO、PC_s-PCO、PC_M-PCO及FCI-PCO(PC-stable算法、PC-Max算法分别用PC_s、PC_M表示)，并分别应用于线性高斯数据和线性非高斯数据。然后，PCO算法与这四种算法在不同节点数的因果网络中进行对比实验。对于线性非高斯数据，还与LiNGAM^[11]算法进行了对比。

参照 https://www.bnlearn.com/bnrepository中的8个因果网络结构，根据1.2节的变量间关系的线性假设，其中因果权重a_ij服从均匀分布[-0.9, -0.5]∪[0.5, 0.9]，噪声分别服从标准高斯分布及期望为1的指数分布，对不同的因果网络合成线性高斯数据集和线性非高斯数据集。表 1展示了8个因果网络的基本信息，这些网络的分类依据是网络中包含的节点数目。其中，少于20个节点的网络被定义为小型网络，节点数为20~50的网络属于中型网络，具有50~100个节点的网络被称为大型网络，而具有100~1 000个节点的网络被视作超大型网络。

表 1 因果网络的基本信息 Tab. 1 Basic information of the causal networks

表 2展示了8个因果网络的结构信息。所有因果网络均为稀疏网络。

表 2 因果网络的结构信息 Tab. 2 Structural information of the causal networks

2.1 评价指标

评价指标如下。

1) 结构汉明距离^[12] (SHD)：从图A到图B需要对边进行操作(翻转、删除或增加)的次数，即两个图之间边的差异数量。通常用SHDn来评价算法优劣，即

$ S H D n=\frac{S H D}{n} \text {, } $

(3)

其中：n表示节点数量。SHDn越小，表明算法得到的图与真实因果网络越接近。

2) 精确率^[14](Precision)：算法发现真实因果网络中边的数量占发现的总边数量的比率，即

$ { Precision }=\frac{T P}{T P+F P}, $

(4)

其中：TP指算法发现真实因果网络中边的数量；FP指算法发现不吻合或不存在真实因果网络中边的数量。Precision越大，算法获得的因果网络的准确率越高。

3) 召回率^[14] (Recall): 算法发现真实因果网络中边的数量占真实因果网络的总边数量的比率，即

$ { Recall }=\frac{T P}{T P+F N}, $

(5)

其中: FN指算法未发现的真实因果网络中边的数量。Recall越大，算法获得的正确的边的数量越多。

4) 链结构召回率(chain-r)：算法发现真实因果网络中链结构的数量占真实因果网络中链结构的数量的比率，即

$ { chain }-r=\frac{ { chain-TP }}{ { chain-TP }+ { chain-FN }}, $

(6)

其中：chain-TP指算法发现真实因果网络中链结构的数量；chain-FN指算法未发现的真实因果网络中链结构的数量。

5) 叉结构召回率(fork-r)：算法发现真实因果网络中叉结构的数量占真实因果网络中叉结构的数量的比率，即

$ { fork }-r=\frac{ { fork }-T P}{ { fork }-T P+ { fork }-F N}, $

(7)

其中：fork-TP指算法发现真实因果网络中叉结构的数量；fork-FN指算法未发现的真实因果网络中叉结构的数量。

6) 对撞结构召回率(collision-r)：算法发现真实因果网络中对撞结构的数量占真实因果网络中对撞结构的数量的比率，即

$ { collision }-r=\frac{ { collision }-T P}{ { collision }-T P+ { collision }-F N}, $

(8)

其中：collision-TP指算法发现真实因果网络中对撞结构的数量；collision-FN指算法未发现的真实因果网络中对撞结构的数量。

2.2 不同因果网络中线性高斯数据的实验

样本量和线性高斯数据为5 000，在不同的因果网络背景下进行一系列的因果关系发现算法对比实验。每个操作重复执行10次，并取结果的平均值。不同因果网络中针对线性高斯数据的算法结果对比见表 3。

表 3 不同因果网络中针对线性高斯数据的算法结果对比 Tab. 3 Comparison of algorithm results for linear Gaussian data on different causal networks

因果网络	算法	SHDn	Precision	Recall	chain-r	fork-r	collision-r
EARTHQUAKE	PC	0.050±0.010	0.480±0.002	1.000±0.000	0.950±0.025	0.900±0.010	1.000±0.000
	PC-PCO	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
	PC_s	0.050±0.010	0.480±0.002	1.000±0.000	0.950±0.025	0.900±0.010	1.000±0.000
	PC_s-PCO	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
	PC_M	0.000±0.000	0.050±0.000	1.000±0.000	0.950±0.025	0.900±0.010	1.000±0.000
	PC_M-PCO	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
	FCI	0.050±0.010	0.480±0.002	1.000±0.000	0.950±0.025	0.900±0.010	1.000±0.000
	FCI-PCO	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
CHILD	PC	0.403±0.032	0.364±0.006	0.748±0.028	0.460±0.021	0.460±0.024	0.667±0.003
	PC-PCO	0.317±0.033	0.378±0.006	0.827±0.031	0.586±0.007	0.494±0.021	0.833±0.011
	PC_s	0.418±0.032	0.356±0.006	0.729±0.029	0.322±0.032	0.310±0.006	0.667±0.029
	PC_s-PCO	0.324±0.028	0.375±0.004	0.820±0.017	0.494±0.028	0.529±0.004	0.778±0.017
	PC_M	0.420±0.075	0.360±0.003	0.720±0.012	0.413±0.075	0.482±0.003	0.750±0.012
	PC_M-PCO	0.380±0.011	0.380±0.003	0.760±0.013	0.517±0.011	0.517±0.003	0.783±0.013
	FCI	0.454±0.071	0.362±0.003	0.740±0.014	0.241±0.004	0.138±0.018	0.500±0.007
	FCI-PCO	0.238±0.002	0.380±0.000	0.782±0.002	0.552±0.004	0.667±0.020	0.621±0.000
INSURANCE	PC	0.529±0.043	0.354±0.008	0.723±0.040	0.314±0.002	0.222±0.003	0.531±0.007
	PC-PCO	0.437±0.055	0.372±0.008	0.809±0.040	0.383±0.008	0.382±0.010	0.614±0.008
	PC_s	0.546±0.048	0.351±0.008	0.712±0.042	0.264±0.002	0.208±0.003	0.477±0.007
	PC_s-PCO	0.444±0.045	0.368±0.007	0.800±0.037	0.366±0.008	0.396±0.010	0.594±0.008
	PC_M	0.558±0.056	0.330±0.003	0.635±0.009	0.285±0.005	0.218±0.010	0.459±0.010
	PC_M-PCO	0.404±0.029	0.379±0.007	0.641±0.012	0.382±0.005	0.342±0.017	0.541±0.007
	FCI	0.401±0.063	0.395±0.001	0.640±0.014	0.325±0.009	0.181±0.014	0.531±0.002
	FCI-PCO	0.256±0.001	0.451±0.000	0.763±0.001	0.359±0.003	0.264±0.002	0.656±0.004
MILDEW	PC	0.579±0.063	0.322±0.003	0.638±0.013	0.534±0.008	0.667±0.023	0.829±0.005
	PC-PCO	0.396±0.000	0.398±0.000	0.816±0.001	0.740±0.007	0.733±0.008	0.865±0.003
	PC_s	0.570±0.078	0.310±0.005	0.891±0.019	0.757±0.009	0.778±0.014	0.874±0.003
	PC_s-PCO	0.343±0.048	0.457±0.000	0.926±0.002	0.829±0.010	0.840±0.014	0.910±0.003
	PC_M	0.535±0.063	0.333±0.003	0.739±0.010	0.746±0.003	0.733±0.006	0.784±0.010
	PC_M-PCO	0.383±0.043	0.402±0.020	0.946±0.011	0.857±0.003	0.867±0.007	0.901±0.003
	FCI	0.494±0.054	0.387±0.001	0.775±0.016	0.746±0.008	0.733±0.009	0.945±0.009
	FCI-PCO	0.338±0.040	0.453±0.001	0.950±0.014	0.841±0.005	0.891±0.003	0.933±0.001
ALARM	PC	0.665±0.083	0.362±0.004	0.761±0.013	0.591±0.008	0.586±0.014	0.769±0.006
	PC-PCO	0.531±0.038	0.411±0.001	0.844±0.011	0.775±0.009	0.620±0.015	0.808±0.007
	PC_s	0.676±0.088	0.359±0.003	0.739±0.016	0.568±0.005	0.448±0.010	0.769±0.004
	PC_s-PCO	0.522±0.028	0.415±0.003	0.844±0.002	0.659±0.008	0.621±0.008	0.885±0.001
	PC_M	0.617±0.067	0.313±0.004	0.726±0.015	0.591±0.004	0.551±0.003	0.769±0.001
	PC_M-PCO	0.592±0.026	0.388±0.008	0.791±0.009	0.750±0.007	0.690±0.003	0.845±0.001
	FCI	0.446±0.098	0.446±0.002	0.916±0.036	0.704±0.008	0.724±0.008	0.923±0.001
	FCI-PCO	0.429±0.040	0.448±0.001	0.924±0.020	0.773±0.004	0.692±0.003	0.757±0.002
BARLEY	PC	0.663±0.049	0.288±0.002	0.578±0.007	0.514±0.006	0.288±0.003	0.578±0.006
	PC-PCO	0.514±0.040	0.294±0.001	0.599±0.008	0.663±0.003	0.294±0.002	0.599±0.006
	PC_s	0.664±0.069	0.284±0.003	0.555±0.010	0.525±0.004	0.284±0.004	0.555±0.004
	PC_s-PCO	0.525±0.050	0.290±0.000	0.576±0.001	0.664±0.003	0.290±0.004	0.576±0.002
	PC_M	0.560±0.078	0.302±0.003	0.583±0.012	0.370±0.002	0.302±0.001	0.583±0.000
	PC_M-PCO	0.370±0.058	0.368±0.009	0.613±0.047	0.560±0.001	0.368±0.001	0.613±0.000
	FCI	0.513±0.065	0.361±0.001	0.727±0.022	0.340±0.002	0.264±0.002	0.469±0.001
	FCI-PCO	0.264±0.008	0.375±0.002	0.775±0.006	0.437±0.008	0.264±0.002	0.530±0.006
HEPAR2	PC	0.729±0.030	0.250±0.002	0.449±0.013	0.238±0.002	0.142±0.001	0.145±0.003
	PC-PCO	0.637±0.050	0.292±0.000	0.520±0.007	0.267±0.002	0.185±0.000	0.173±0.003
	PC_s	0.695±0.016	0.257±0.002	0.436±0.007	0.214±0.001	0.116±0.000	0.145±0.001
	PC_s-PCO	0.610±0.050	0.301±0.000	0.518±0.001	0.286±0.001	0.162±0.000	0.163±0.001
	PC_M	0.699±0.049	0.270±0.002	0.488±0.008	0.171±0.006	0.170±0.002	0.173±0.004
	PC_M-PCO	0.579±0.003	0.339±0.001	0.661±0.002	0.209±0.003	0.200±0.001	0.209±0.002
	FCI	0.400±0.058	0.389±0.001	0.745±0.013	0.266±0.005	0.185±0.001	0.145±0.003
	FCI-PCO	0.250±0.003	0.398±0.001	0.780±0.002	0.353±0.002	0.183±0.001	0.272±0.002
ANDES	PC	0.895±0.074	0.245±0.002	0.491±0.006	0.264±0.010	0.359±0.006	0.260±0.005
	PC-PCO	0.625±0.033	0.267±0.000	0.506±0.010	0.297±0.004	0.425±0.003	0.269±0.003
	PC_s	0.878±0.082	0.240±0.002	0.472±0.007	0.265±0.003	0.363±0.002	0.245±0.004
	PC_s-PCO	0.619±0.057	0.272±0.000	0.517±0.001	0.267±0.002	0.487±0.002	0.273±0.002
	PC_M	0.896±0.051	0.247±0.002	0.464±0.008	0.252±0.001	0.270±0.002	0.273±0.001
	PC_M-PCO	0.648±0.034	0.282±0.004	0.547±0.001	0.271±0.004	0.306±0.002	0.394±0.001
	FCI	0.539±0.074	0.356±0.002	0.749±0.009	0.517±0.004	0.517±0.002	0.667±0.001
	FCI-PCO	0.208±0.041	0.374±0.004	0.812±0.007	0.773±0.001	0.621±0.004	0.769±0.001

表 3 不同因果网络中针对线性高斯数据的算法结果对比 Tab. 3 Comparison of algorithm results for linear Gaussian data on different causal networks

表 3显示，从四个召回率评价指标来看，当PCO算法与四种基于约束的算法结合使用时，其在发现和定向边的能力上超过了直接使用四种算法的效果。原因在于，通过条件独立性检验发现和定向边的方法，存在不同的结构可能满足相同的条件独立性问题，如叉结构和链结构均满足$ P(X, Y \mid Z)= P(X \mid Z) P(Y \mid Z)$。因此，仅依赖条件独立性检验无法准确识别所有的因果关系，而将PCO算法融入这四种基于约束的算法中，可以更准确地识别贝叶斯网络中的三种基本结构，从而发现和定向更多的边，进一步提高召回率。

从精确率评价指标来看，所使用的Cai-伪残差计算方法识别的三种基本结构符合真实因果网络，从而提升了识别的准确性。

从SHDn评价指标来看，随着节点数量的增加，相较于其他算法，与PCO算法相结合的算法，其SHDn值变化较为稳定。

综合表 2和表 3可以看出，对于对撞结构占比较小的网络，算法性能有显著的提高；对于节点数量较少且对撞结构占比较大的网络，算法的性能提升则较为有限。例如数据集HEPAR2，其对撞结构占比较小，PC算法等可以识别的对撞结构较少，使用Meek规则可定向边也较少，且易出现对撞结构定向错误从而导致错误传递的问题。而所提算法PCO能直接识别三种结构，可以定向的边多且准确，性能有较大的提升。对于数据集MILDEW，其对撞结构占比大，PC算法等可定向的边较多，故性能提升较为有限。

2.3 不同因果网络中线性非高斯数据的实验

本节实验过程与2.2节类似。不同因果网络中针对线性非高斯数据的算法结果对比见表 4。表 4展现了四种基于约束的因果关系发现算法及它们分别与PCO算法结合后的性能对比，并与LiNGAM^[11]算法进行了对比。

表 4 不同因果网络中针对线性非高斯数据的算法结果对比 Tab. 4 Comparison of algorithm results for linear non-Gaussian data on different causal networks

因果网络	算法	SHDn	Precision	Recall	chain-r	fork-r	collision-r
EARTHQUAKE	PC	0.225±0.193	0.420±0.022	0.900±0.090	0.800±0.180	0.800±0.180	0.900±0.100
	PC-PCO	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
	PC_s	0.225±0.193	0.420±0.022	0.900±0.090	0.900±0.100	0.900±0.100	0.900±0.100
	PC_s-PCO	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
	PC_M	0.125±0.017	0.450±0.003	1.000±0.000	0.900±0.100	0.900±0.100	0.900±0.100
	PC_M-PCO	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
	FCI	0.225±0.193	0.420±0.022	0.900±0.090	0.900±0.100	0.900±0.100	0.900±0.100
	FCI-PCO	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
	LiNGAM	0.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
CHILD	PC	0.408±0.008	0.363±0.001	0.737±0.004	0.486±0.010	0.393±0.017	0.650±0.027
	PC-PCO	0.308±0.006	0.382±0.001	0.825±0.003	0.540±0.006	0.399±0.001	0.722±0.003
	PC_s	0.413±0.004	0.360±0.002	0.730±0.008	0.334±0.008	0.145±0.001	0.733±0.004
	PC_s-PCO	0.313±0.017	0.379±0.007	0.821±0.017	0.356±0.006	0.172±0.001	0.833±0.003
	PC_M	0.400±0.068	0.320±0.003	0.600±0.011	0.310±0.004	0.138±0.002	0.667±0.008
	PC_M-PCO	0.360±0.000	0.394±0.000	0.740±0.000	0.313±0.017	0.379±0.007	0.821±0.017
	FCI	0.495±0.071	0.353±0.004	0.708±0.014	0.241±0.004	0.333±0.002	0.500±0.008
	FCI-PCO	0.279±0.062	0.367±0.004	0.759±0.012	0.313±0.017	0.517±0.007	0.667±0.017
	LiNGAM	0.067±0.001	0.636±0.001	1.000±0.000	1.000±0.000	1.000±0.000	1.000±0.000
INSURANCE	PC	0.543±0.069	0.354±0.004	0.706±0.016	0.202±0.006	0.344±0.007	0.167±0.004
	PC-PCO	0.448±0.069	0.370±0.009	0.788±0.011	0.393±0.001	0.563±0.000	0.292±0.016
	PC_s	0.549±0.064	0.350±0.004	0.690±0.018	0.269±0.004	0.375±0.001	0.194±0.012
	PC_s-PCO	0.455±0.034	0.367±0.005	0.781±0.007	0.348±0.003	0.563±0.002	0.319±0.004
	PC_M	0.565±0.051	0.327±0.002	0.633±0.008	0.258±0.006	0.343±0.002	0.208±0.012
	PC_M-PCO	0.403±0.034	0.375±0.005	0.644±0.017	0.348±0.001	0.531±0.004	0.430±0.006
	FCI	0.423±0.073	0.379±0.001	0.735±0.014	0.360±0.008	0.531±0.009	0.361±0.012
	FCI-PCO	0.310±0.032	0.431±0.002	0.823±0.009	0.382±0.002	0.563±0.002	0.500±0.001
	LiNGAM	0.070±0.000	0.632±0.000	0.900±0.000	0.754±0.000	0.865±0.000	0.700±0.000
MILDEW	PC	0.573±0.079	0.317±0.005	0.633±0.017	0.730±0.002	0.733±0.010	0.783±0.000
	PC-PCO	0.318±0.071	0.467±0.002	0.941±0.021	0.841±0.004	0.843±0.001	0.846±0.000
	PC_s	0.517±0.076	0.325±0.005	0.935±0.019	0.619±0.001	0.600±0.001	0.891±0.002
	PC_s-PCO	0.322±0.054	0.470±0.000	0.949±0.003	0.873±0.005	0.800±0.004	0.892±0.001
	PC_M	0.485±0.058	0.317±0.003	0.737±0.009	0.651±0.003	0.667±0.004	0.757±0.000
	PC_M-PCO	0.300±0.032	0.474±0.024	0.945±0.013	0.810±0.002	0.867±0.018	0.838±0.009
	FCI	0.432±0.069	0.373±0.001	0.745±0.016	0.552±0.009	0.621±0.004	0.667±0.002
	FCI-PCO	0.332±0.030	0.387±0.002	0.795±0.007	0.619±0.003	0.800±0.004	0.895±0.000
	LiNGAM	0.088±0.000	0.758±0.000	0.960±0.000	0.920±0.000	0.923±0.000	0.946±0.000
ALARM	PC	0.677±0.089	0.361±0.004	0.768±0.013	0.568±0.010	0.448±0.007	0.769±0.000
	PC-PCO	0.511±0.001	0.420±0.000	0.832±0.001	0.591±0.008	0.587±0.001	0.808±0.000
	PC_s	0.661±0.081	0.360±0.003	0.739±0.013	0.659±0.006	0.620±0.005	0.769±0.001
	PC_s-PCO	0.501±0.032	0.421±0.001	0.844±0.007	0.705±0.006	0.620±0.003	0.884±0.000
	PC_M	0.612±0.066	0.397±0.005	0.721±0.016	0.591±0.001	0.552±0.000	0.769±0.002
	PC_M-PCO	0.596±0.000	0.430±0.000	0.795±0.000	0.750±0.000	0.690±0.001	0.847±0.000
	FCI	0.532±0.055	0.418±0.001	0.861±0.018	0.532±0.001	0.418±0.000	0.861±0.013
	FCI-PCO	0.428±0.020	0.429±0.002	0.910±0.009	0.428±0.001	0.429±0.002	0.910±0.006
	LiNGAM	0.072±0.000	0.675±0.000	0.978±0.000	0.921±0.000	0.933±0.000	0.946±0.000
BARLEY	PC	0.659±0.073	0.289±0.003	0.572±0.011	0.296±0.001	0.167±0.000	0.333±0.003
	PC-PCO	0.512±0.064	0.296±0.001	0.594±0.013	0.341±0.000	0.194±0.000	0.439±0.001
	PC_s	0.660±0.067	0.284±0.003	0.548±0.011	0.378±0.004	0.222±0.003	0.409±0.006
	PC_s-PCO	0.526±0.056	0.290±0.000	0.570±0.001	0.370±0.000	0.306±0.005	0.424±0.001
	PC_M	0.602±0.072	0.277±0.003	0.512±0.012	0.252±0.000	0.194±0.003	0.318±0.003
	PC_M-PCO	0.559±0.002	0.300±0.000	0.554±0.001	0.378±0.002	0.306±0.000	0.394±0.000
	FCI	0.538±0.082	0.354±0.002	0.711±0.022	0.538±0.003	0.354±0.000	0.173±0.000
	FCI-PCO	0.282±0.051	0.370±0.003	0.770±0.011	0.282±0.002	0.370±0.001	0.273±0.000
	LiNGAM	0.090±0.008	0.781±0.000	0.890±0.000	0.841±0.008	0.667±0.000	0.757±0.000
HEPAR2	PC	0.748±0.026	0.244±0.001	0.443±0.007	0.214±0.002	0.116±0.000	0.145±0.001
	PC-PCO	0.660±0.031	0.278±0.001	0.490±0.010	0.267±0.000	0.184±0.002	0.145±0.001
	PC_s	0.715±0.009	0.273±0.001	0.447±0.005	0.286±0.008	0.162±0.003	0.164±0.001
	PC_s-PCO	0.679±0.006	0.275±0.000	0.451±0.001	0.209±0.001	0.201±0.001	0.209±0.000
	PC_M	0.699±0.046	0.262±0.002	0.448±0.007	0.171±0.004	0.170±0.000	0.173±0.002
	PC_M-PCO	0.634±0.056	0.308±0.005	0.496±0.014	0.352±0.002	0.182±0.003	0.273±0.000
	FCI	0.433±0.066	0.379±0.001	0.735±0.013	0.281±0.002	0.379±0.001	0.735±0.000
	FCI-PCO	0.281±0.030	0.388±0.002	0.760±0.008	0.433±0.003	0.388±0.002	0.760±0.001
	LiNGAM	0.024±0.000	0.876±0.000	0.900±0.000	0.730±0.000	0.733±0.000	0.784±0.000
ANDES	PC	0.830±0.077	0.166±0.001	0.397±0.004	0.285±0.001	0.286±0.002	0.257±0.000
	PC-PCO	0.625±0.061	0.174±0.001	0.403±0.002	0.287±0.002	0.440±0.001	0.269±0.000
	PC_s	0.839±0.068	0.168±0.001	0.393±0.002	0.264±0.000	0.336±0.001	0.263±0.000
	PC_s-PCO	0.606±0.046	0.175±0.000	0.399±0.001	0.287±0.000	0.375±0.000	0.263±0.001
	PC_M	0.838±0.092	0.143±0.005	0.333±0.016	0.264±0.002	0.323±0.001	0.245±0.016
	PC_M-PCO	0.649±0.001	0.174±0.000	0.411±0.001	0.295±0.001	0.384±0.001	0.271±0.001
	FCI	0.589±0.090	0.339±0.002	0.712±0.029	0.448±0.000	0.380±0.001	0.633±0.000
	FCI-PCO	0.257±0.045	0.359±0.003	0.790±0.011	0.517±0.000	0.517±0.001	0.667±0.001
	LiNGAM	0.784±0.000	0.497±0.000	0.438±0.000	0.157±0.000	0.111±0.001	0.312±0.000

表 4 不同因果网络中针对线性非高斯数据的算法结果对比 Tab. 4 Comparison of algorithm results for linear non-Gaussian data on different causal networks

从表 4可以发现，其与表 3的算法优势一致。观察六个评价指标的结果可以看出，本文采用的基于Cai-伪残差与变量独立性的计算方法能准确地识别出真实因果图的链结构、叉结构和对撞结构。

此外，LiNGAM算法在处理线性非高斯数据时有卓越的表现，其性能显著优于其他算法。这主要因为LiNGAM是针对线性非高斯模型开发的算法，其利用非高斯噪声与变量之间的不对称性反映变量之间的因果方向，从而恢复因果网络。相比之下，PCO算法以基于约束的方法为基础，易存在错误边传播问题，对变量间因果关系的发现和定向均有影响。然而，随着节点数量的增加，FCI-PCO算法在召回率上表现较稳定。而在超大型网络上，LiNGAM算法的计算复杂度增加，并可能会因噪声影响其性能。因此，在ANDES网络中FCI-PCO算法在召回率上相较于LiNGAM算法有显著优势。值得注意的是，LiNGAM算法无法处理线性高斯数据，对此，本文提出的算法反而表现出其独特的优势。

3 结语

本文研究了贝叶斯网络三种结构的Cai-伪残差特性，并提出Cai-伪残差因果定向算法PCO。PCO算法利用了贝叶斯网络的三种结构在Cai-伪残差与变量独立性方面的不同结果，实现了对这三种结构的有效区分。重要的是，该算法仅要求变量间的关系为线性，而不需要特定的噪声类型，大幅提高了其应用的广泛性。实验结果表明，在稀疏网络中，PCO算法与已知的四种基于约束的因果关系发现算法相融合，其性能相较于直接使用这四种算法有着明显的优势。在同一样本量下，其结构汉明距离评价指标相较于其他算法差异明显，精确率和召回率也有了较大提升。虽然针对线性非高斯数据开发的LiNGAM算法有显著的优势，但其无法处理线性高斯数据。因此，本文提出的因果关系定向算法能在多个因果网络中有效地确定未定向边的方向，揭示网络的隐含结构，同时有效地减少马尔科夫等价类的数量。

所提算法虽然在一定程度上解决了马尔科夫等价类问题，但对马尔科夫等价类进一步定向时需要满足一定的约束。并且，随着节点数量的增加，算法性能呈现下降趋势。未来将考虑不满足PCO算法约束的结构特性来弱化此约束，并对算法进行优化，以进一步准确地定向马尔科夫等价类中更多的无向边。此外，也将进一步完善Cai-伪残差与变量间独立性的方法，并考虑引入更多的分析工具，以增强其处理复杂网络结构和高维数据的能力，同时提升对模型中存在问题的敏感性，为实际应用提供更强大的工具。

参考文献

[1]	SIDDIQI S H, KORDING K P, PARVIZI J, et al. Causal mapping of human brain function[J]. Nature reviews neuroscience, 2022, 23(6): 361-375. (0)
[2]	曹小敏, 刘进锋. 基于因果推断的两阶段长尾分类研究[J]. 郑州大学学报(理学版), 2024, 56(5): 31-38. CAO X M, LIU J F. A study of two-stage long-tail classification based on causal inference[J]. Journal of Zhengzhou university (natural science edition), 2024, 56(5): 31-38. DOI:10.13705/j.issn.1671-6841.2023122 (0)
[3]	SCHÖLKOPF B, LOCATELLO F, BAUER S, et al. Toward causal representation learning[J]. Proceedings of the IEEE, 2021, 109(5): 612-634. (0)
[4]	CAMPS-VALLS G, GERHARDUS A, NINAD U, et al. Discovering causal relations and equations from data[J]. Physics reports, 2023, 1044: 1-68. (0)
[5]	ARONOW P M, SÄVJE F. The book of why: the new science of cause and effect[J]. Journal of the American statistical association, 2020, 115(529): 482-485. (0)
[6]	SPIRTES P, GLYMOUR C. An algorithm for fast recovery of sparse causal graphs[J]. Social science computer review, 1991, 9(1): 62-72. (0)
[7]	COLOMBO D, MAATHUIS M H. Order-independent constraint-based causal structure learning[J]. Journal of machine learning research, 2014, 15(1): 3741-3782. (0)
[8]	RAMSEY J. Improving accuracy and scalability of the PC algorithm by maximizing P-value[EB/OL]. (2016-10-05)[2024-04-23]. https://doi.org/10.48550/arXiv.1610.00378. (0)
[9]	SPIRTES P, MEEK C, RICHARDSON T. An algorithm for causal inference in the presence of latent variables and selection bias[M]. Palo Alto: AAAI Press, 1999: 211-252. (0)
[10]	VERMA T S, PEARL J. Equivalence and synthesis of causal models[M]. New York: ACM Press, 2022: 221-236. (0)
[11]	SHIMIZU S, HOYER P O, HYVÄRINEN A, et al. A linear non-Gaussian acyclic model for causal discovery[J]. Journal of machine learning research, 2006, 7: 2003-2030. (0)
[12]	KITSON N K, CONSTANTINOU A C, GUO Z G, et al. A survey of Bayesian network structure learning[J]. Artificial intelligence review, 2023, 56(8): 8721-8814. (0)
[13]	RUNGE J, GERHARDUS A, VARANDO G, et al. Causal inference for time series[J]. Nature reviews earth & environment, 2023, 4: 487-505. (0)
[14]	YAO L, CHU Z, LI S, et al. A survey on causal inference[J]. ACM transactions on knowledge discovery from data, 2021, 15(5): 1-46. (0)
[15]	CAI R C, XIE F, GLYMOUR C, et al. Triad constraints for learning causal structure of latent variables[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2019: 12863-12872. (0)