2. 中国科学院大学数学科学学院, 北京 101408;
3. 中国科学院数学与系统科学研究院, 北京 100190
2. School of Mathematical Sciences, University of Chinese Academy of Sciences, Beijing 101408, China;
3. Academy of Mathematics and Systems Science, Chinese Academy of Sciences, Beijing 100190, China
概率密度函数简称密度函数或密度,是概率统计中的重要概念,用于描述连续型随机变量所服从的概率分布。统计学中许多应用都涉及对密度函数的估计,即根据样本观测数据来估计总体的密度函数。了解随机变量的概率分布可以帮助我们更好地把握数据的特征,有助于进一步的统计分析,如条件分布的估计、非参数回归、可靠性分析等。同时,概率密度函数还可用于图像分类、图像处理[1]、风险分析[2-3]、聚类[4]等相关领域。从某种意义上来说,有了密度函数就获得了随机变量的全部信息。
密度函数的估计通常分为参数密度估计和非参数密度估计。核密度估计(kernel density estimation, KDE)[5-6]作为一种非参数密度估计,完全从数据出发,利用核函数的叠加平均来近似真实的密度函数。KDE需要恰当地选择核函数和窗宽参数,且窗宽参数的选择对于估计结果至关重要,尤其在高维情形下更是如此。拇指法则[7-8]是一种简单的最优窗宽选择方法,但在数据集不满足正态分布的假定时会导致结果不准确。作为一种参数化方法,重构方法[9]是基于插值的函数近似方法,其思想来源于插值器快速的收敛速度,对于充分光滑的函数,甚至可以以指数阶的速度收敛,这种收敛速度远远高于中心极限定理中统计量的收敛速度,因此函数本身与其插值器之间的误差远小于统计误差。对于回归函数估计,函数重构法通过对有限个节点插值近似从而重构出整个函数。
本文关注函数重构法在密度估计中的应用,提出一种重构法中节点的序贯选择方法。该方法操作简单,可以有效缓解由于节点选择不当而造成的估计效果波动,同时根据参数的实际意义,给出密度函数的区间估计的构造方法。该方法可以很自然地应用到其他无监督学习问题中。模拟结果表明,利用序贯方法选择节点构造的密度估计效果优于以往的方法。
1 基于序贯方法的重构密度估计 1.1 重构密度估计重构方法通过构造一个选定节点的插值器来参数化未知函数,节点处的函数值便是要估计的参数,因此重构方法的参数有着明确解释,这为重构方法的应用提供了便利。假定f为定义在D⊂
| $ \hat{f}(\boldsymbol{x})=\mathcal{I}(\boldsymbol{x} ; \mathcal{A}, \hat{\boldsymbol{\gamma}}) . $ | (1) |
其中参数
| $ \hat{\boldsymbol{\gamma}}=\arg \min\limits _{\boldsymbol{\gamma} \in \mathbb{R}^m} \sum\limits_{i=1}^n L\left(y_i, \mathcal{I}\left(\boldsymbol{x}_i ; \mathcal{A}, \boldsymbol{\gamma}\right)\right), $ | (2) |
这种方法称为重构回归法。一种插值器的选择是高斯过程(Gaussian process, GP)[10],也被称为Kriging插值器。假定核函数为k(·, ·), g(x)=(g1(x), …, gq(x))′为回归项,满足
| $ \mathcal{I}(\boldsymbol{x} ; \mathcal{A}, \boldsymbol{\gamma})=\boldsymbol{\gamma}^{\prime} \boldsymbol{b}(\boldsymbol{x}) . $ | (3) |
其中
| $ \boldsymbol{b}(\boldsymbol{x})=\boldsymbol{U} \boldsymbol{g}(\boldsymbol{x})+\boldsymbol{V} \boldsymbol{r}_{\mathcal{A}}(\boldsymbol{x}), $ | (4a) |
| $ \boldsymbol{U}=\boldsymbol{R}_{\mathcal{A}}^{-1} \boldsymbol{G}_{\mathcal{A}}\left(\boldsymbol{G}_{\mathcal{A}}^{\prime} \boldsymbol{R}_{\mathcal{A}}^{-1} \boldsymbol{G}_{\mathcal{A}}\right)^{-1}, $ | (4b) |
| $ \boldsymbol{V}=\left[\boldsymbol{I}_m-\boldsymbol{R}_{\mathcal{A}}^{-1} \boldsymbol{G}_{\mathcal{A}}\left(\boldsymbol{G}_{\mathcal{A}}^{\prime} \boldsymbol{R}_{\mathcal{A}}^{-1} \boldsymbol{G}_{\mathcal{A}}\right)^{-1} \boldsymbol{G}_{\mathcal{A}}^{\prime}\right] \boldsymbol{R}_{\mathcal{A}}^{-1} . $ | (4c) |
其中I表示单位矩阵,当选取回归项g(x)= 0时,该插值器简化为
| $ \mathcal{I}(\boldsymbol{x} ; \mathcal{A}, \boldsymbol{\gamma})=\boldsymbol{\gamma}^{\prime} \boldsymbol{R}_{\mathcal{A}}^{-1} \boldsymbol{r}_{\mathcal{A}}(\boldsymbol{x}), $ | (5) |
当选择GP时,对于光滑函数,可以以指数阶收敛[9]。
在函数重构回归法中,目标函数由通过所选节点的插值器重构出来,因此节点集的选择非常重要,Xiong[9]建议在函数重构回归法中使用m=10d,同时Mu和Xiong[11]建议选出最小化如下准则
| $ \operatorname{cr}(\mathcal{A})=\max\limits _{1 \leqslant i \leqslant j \leqslant m} \sum\limits_{l=1}^d \frac{1}{\left|a_{i l}-a_{j l}\right|} $ | (6) |
的集合作为节点集
| $ \begin{aligned} \boldsymbol{a}_{m+1} & =\arg \max _{\boldsymbol{x}_i \in \mathcal{X} \backslash \mathcal{A}} L\left(y_i, \hat{f}\left(\boldsymbol{x}_i\right)\right) \\ & =\arg \max _{\boldsymbol{x}_i \in \mathcal{X} \backslash \mathcal{A}} L\left(y_i, \hat{\boldsymbol{\gamma}}^{\prime} \boldsymbol{b}\left(\boldsymbol{x}_i\right)\right), \end{aligned} $ | (7) |
其中:
我们将该方法用于密度估计,假设π(x)为未知的密度函数,
| $ \pi(\boldsymbol{x})=\frac{\mathrm{e}^{f(\boldsymbol{x})}}{\int_{\mathrm{S}} \mathrm{e}^{f\left(\boldsymbol{x}^{\prime}\right)} \mathrm{d} \boldsymbol{x}^{\prime}}, $ | (8) |
其中f(x)为一个未知函数,取指数保证了非负,分母保证了积分为1。运用上述函数重构回归法估计f(x)
| $ \hat{f}(\boldsymbol{x})=\hat{\boldsymbol{\gamma}}^{\prime} \boldsymbol{b}(\boldsymbol{x}), $ | (9) |
其中
| $ \hat{\boldsymbol{\gamma}}=\underset{\boldsymbol{\gamma} \in \mathbb{R}^m}{\operatorname{argmin}}-\sum\limits_{i=1}^n \boldsymbol{\gamma}^{\prime} \boldsymbol{b}\left(\boldsymbol{x}_i\right)+n \log \left(\int_S \mathrm{e}^{\boldsymbol{\gamma}^{\prime} \boldsymbol{b}\left(\boldsymbol{x}^{\prime}\right)} \mathrm{d} \boldsymbol{x}^{\prime}\right) . $ | (10) |
注意该负对数似然损失中包含依赖于未知参数的积分项,在计算时可用伪蒙特卡洛(quasi-Monte Carlo, QMC)[13]方法近似。若
| $ \int_S \mathrm{e}^{\boldsymbol{\gamma}^{\prime} \boldsymbol{b}\left(\boldsymbol{x}^{\prime}\right)} \mathrm{d} \boldsymbol{x}^{\prime}=\frac{1}{s} \sum\limits_{t=1}^s \mathrm{e}^{\boldsymbol{\gamma}^{\prime} \boldsymbol{b}\left(\boldsymbol{w}_t\right)}, $ | (11) |
若选用各向同性高斯核函数,即
| $ k(\boldsymbol{u}, \boldsymbol{v})=\exp \left(-\theta \sum\limits_{i=1}^d\left(\mu_i-\nu_i\right)^2\right) . $ | (12) |
此时负对数似然中包含参数γ和超参数θ,可以采用块坐标下降法[14]来同时估计,即在第k次迭代中,θ(k)通过最小化固定γ = γ(k-1)的负对数似然来获得。同理,γ(k)可以通过最小化固定θ=θ(k)的负对数似然来获得,当γ和θ稳定时迭代停止。
1.2 节点的序贯选择算法密度估计可视为一个无监督学习问题,即没有响应变量y,因此针对回归的节点序贯选择方法在这里不适用。我们考虑如下想法: 若将某个点添加进节点集后能够显著降低损失函数,则应该选择该点作为下一个节点。考虑将节点视为参数,利用贪心算法来进行序贯选择,具体操作如下。
仍假设π为未知的密度函数,
| $ \begin{aligned} \hat{\gamma}_i= & \arg \min _{\gamma_i \in \mathbb{R}}-\sum\limits_{j=1}^n \boldsymbol{\gamma}_{\mathrm{i}}^{(1)^{\prime}} \boldsymbol{b}_i^{(1)}\left(\boldsymbol{x}_j\right)+ \\ & n \log \left(\int_S \mathrm{e}^{\boldsymbol{\gamma}_i^{(1)^{\prime}} \boldsymbol{b}_i^{(1)}\left(\boldsymbol{x}^{\prime}\right)} \mathrm{d} \boldsymbol{x}^{\prime}\right) \\ = & \arg \min _{\gamma_i \in \mathbb{R}}-\sum\limits_{j=1}^n \gamma_i b_i\left(\boldsymbol{x}_j\right)+ \\ & n \log \left(\frac{1}{s} \sum\limits_{t=1}^s \mathrm{e}^{\boldsymbol{\gamma}_i^{(1)^{\prime}} \boldsymbol{b}_i^{(1)}\left(\boldsymbol{w}_t\right)}\right) . \end{aligned} $ | (13) |
若固定高斯核函数中的超参数θ为上一轮的迭代值,则此时该损失函数中只有γi一个未知参数,从而变为一维搜索问题,记录此时的损失函数结果Li。若Lj=min{L1, …, Ln-m},则选择am+1= dj,更新节点集
上述算法涉及多次非线性优化问题,一个好的初始值不仅可以加快收敛速度,还有助于提高优化精度,我们充分利用已知信息来构造初始值。由于γ表示光滑函数在节点处的函数值,从而在每一轮迭代过程中,
|
|
表 1 节点的序贯选择算法 Table 1 Sequential selection algorithm of nodes |
其中,第3步中的ε是一个很小的常数,控制着停止的时机,ε的选取是实际应用中非常重要的问题。推荐选择
实际中除了密度估计本身外,有时还关心密度函数的区间估计。相对于点估计,区间估计可以对不确定性进行量化,从而给出更全面的信息。考虑到重构密度估计的特点,本节利用Bayes思想给出密度函数逐点的区间估计。先验分布是Bayes思想中的重要部分,决定着后验分布的形式以及估计的结果。由于重构方法中的参数γ有着明确的含义,即未知光滑函数在节点处的函数值,而GP假设有限维分布服从多元高斯分布,因此在选择GP作为插值器时,一个合理的先验分布即为
| $ \boldsymbol{\gamma} \sim N\left(\boldsymbol{\mu}_\boldsymbol{\gamma}, \boldsymbol{\Sigma}_\boldsymbol{\gamma}\right) . $ | (14) |
其中: μγ为未知函数在节点处的函数值,可取上一节密度估计中的结果,令
基于γ的先验,计算得到似然函数
| $ \pi(\boldsymbol{X} \mid \boldsymbol{\gamma})=\prod\limits_{i=1}^n \pi\left(\boldsymbol{x}_i \mid \boldsymbol{\gamma}\right)=\frac{\mathrm{e}^{\boldsymbol{\gamma}^{\prime} \sum\limits_{i=1}^n \boldsymbol{b}\left(\boldsymbol{x}_\boldsymbol{i}\right)}}{\left[\int_S \mathrm{e}^{\boldsymbol{\gamma}^{\prime} \boldsymbol{b}\left(\boldsymbol{x}^{\prime}\right)} \mathrm{d} \boldsymbol{x}^{\prime}\right]^n}, $ | (15) |
从而可以推出后验
| $ \begin{gathered} {\pi(\boldsymbol{\gamma} \mid \boldsymbol{X}) \propto}\\ {\frac{\exp \left\{\boldsymbol{\gamma}^{\prime} \sum\limits_{i=1}^n \boldsymbol{b}\left(\boldsymbol{x}_i\right)-\frac{1}{2}\left(\boldsymbol{\gamma}-\boldsymbol{\mu}_{\boldsymbol{\gamma}}\right)^{\prime} \boldsymbol{\Sigma}_{\boldsymbol{\gamma}}^{-1}\left(\boldsymbol{\gamma}-\boldsymbol{\mu}_{\boldsymbol{\gamma}}\right)\right\}}{\left[\int_S \mathrm{e}^{\boldsymbol{\gamma}^{\prime} \boldsymbol{b}\left(\boldsymbol{x}^{\prime}\right)} \mathrm{d} \boldsymbol{x}^{\prime}\right]^n\left|\boldsymbol{\Sigma}_{\boldsymbol{\gamma}}\right|^{\frac{1}{2}}}} . \end{gathered} $ | (16) |
其中积分项仍然采用QMC方法近似计算。需要注意的是在计算过程中积分项
|
|
表 2 Metropolis抽样算法 Table 2 Metropolis sampling algorithm |
其中,常数τρ是一个可以调节的参数,控制着抽样过程中的接受率,在实际应用中是一个重要的问题。Sherlock和Roberts[17]以及Gelman等[18]对最优接受率进行过讨论,对于随机游走抽样,在建议分布为高斯分布时,一维情形下的最优接受率约为0.439,维数大于1时最优接受率约为0.234,并给出了理论证明,因此在应用时通过调节τρ的值使得接受率接近最优接受率即可。
根据抽样所得后验样本γ1, …, γq代入上一节构造的密度估计中可以得到q个不同的密度估计π1(x), …, πq(x)。用样本的分位数来近似总体分位数,从而在给定x0处的100(1-α)% 可信区间为
| $ \left[\pi_{[(\alpha / 2) n]}\left(\boldsymbol{x}_0\right), \pi_{[(1-\alpha / 2) n]}\left(\boldsymbol{x}_0\right)\right], $ | (17) |
其中:
本节在模拟数据集上评估我们提出的节点序贯选择算法,并将其与非序贯重构密度估计以及KDE[5-6]进行比较。其中非序贯重构密度估计中直接利用最小化
① X~0.4N(-2, 0.52)+0.6N(1, 0.52),
② X~0.7beta(3, 12)+0.3beta(10, 3),
③ X=(X1, X2), X1~2/3beta(1, 2)+1/3beta(10, 10), X2~U(0, 1),
④
⑤
⑥
⑦
⑧
使用KL散度[20]衡量3种方法的精度,对于
| $ \int_{\mathbb{R}} \pi(\boldsymbol{x}) \log \frac{\pi(\boldsymbol{x})}{\hat{\pi}(\boldsymbol{x})} \mathrm{d} \boldsymbol{x} . $ | (18) |
使用蒙特卡洛算法近似估计该积分,即从分布π(x) 中抽取10 000个独立同分布的样本{s1, …, s10 000 }并计算
| $ \frac{1}{10\;000} \sum\limits_{i=1}^{10\;000} \log \frac{\pi\left(\boldsymbol{s}_i\right)}{\hat{\pi}\left(\boldsymbol{s}_i\right)} . $ | (19) |
将实验重复20次,分别计算3种方法的平均KL散度,结果总结在表 3中。
|
|
表 3 KL散度结果 Table 3 Results of KL divergence |
由表 3可以看出,通过序贯方法选择出的节点集使得估计结果更具稳定性,同时可以使估计精度进一步提升,估计效果优于非序贯方法产生的节点集。
下面选取数据集①中的密度函数来构建置信度为95% 的区间估计。首先基于序贯选择算法得到
|
Download:
|
| 图 1 重构密度估计的95%可信区间 Fig. 1 95% credible interval of reconstruction density estimation | |
|
Download:
|
| 图 2 KDE的95%置信区间 Fig. 2 95% confidence interval of KDE | |
图中实线表示真实密度函数图像,上下虚线分别表示区间上限和区间下限。可以看出, 基于重构方法构造的区间估计更好地覆盖了真实密度函数图像,同时有着较小的区间长度,这得益于重构密度估计良好的拟合效果。相反,基于KDE构造的区间较宽,且在尾部有着较大波动。此外,由于KDE的局部特性,其在高维情形估计非常不稳定,此时构造的置信区间也随之变得较不稳定,而基于重构方法构造的区间估计可以很自然地应用于高维情形。
3.2 实例数据本节展示序贯重构密度估计在地理空间数据中的应用,原始数据集来自Phillips等[22],可由Python数据库datasets中的fetch_species_ditributions函数加载。
建立物种的地理分布模型是生物学中的一个重要问题,密度函数作为一种平滑表示,可以更为直观清晰地表示物种的分布。此数据集记录了褐喉树懒和森林小稻鼠2种南美哺乳动物的地理分布,其中褐喉树懒有926个样本点,森林小稻鼠有698个样本点。图 3绘制了2个物种的分布散点图。
|
Download:
|
| 该图基于自然资源部标准地图服务网站GS(2023)2751号标准地图制作,底图无修改。下同。 图 3 物种分布散点图 Fig. 3 Scatterplot of the distribution of species | |
可以看出这并不能很好地了解物种的密度,因为有大量的点重叠在了一起。下面将用序贯重构密度估计从分布数据中计算这2个物种的分布密度。密度估计的结果用密度等高线来表示,图 4展示了2个物种分布的密度估计结果。
|
Download:
|
| 图 4 物种密度估计图 Fig. 4 Density estimation of species | |
从密度等高线图中可以很清晰直观地看出2个物种的分布情况,颜色越深的地方即表示物种分布越密集。褐喉树懒主要分布在南美洲与北美洲接壤处以及中部亚马逊河沿岸区域,在哥伦比亚西北部与北美洲接壤处最为集中。森林小稻鼠主要分布在南美洲西北部的沿海地区,在哥伦比亚和厄瓜多尔的沿海地区最为集中。
4 结论本文提出用于重构密度估计的节点序贯选择方法,由于密度估计可视为无监督学习问题,即没有响应变量y,因此给节点的序贯选择带来了较大困难。通过将节点视作参数,同时基于这样一个想法:若将某个点添加进节点集后能够使得损失函数显著减小,则应考虑选择该点作为下一个节点,从而遍历训练集找出使得损失函数最小的候选点作为下一个节点,直至损失函数趋于稳定。为提升序贯选择的精度和速度,还给出一些初始值的设定方法。最后,根据参数γ的实际含义构造先验分布,并通过Metropolis抽样方法得到后验分布的样本,构造了密度函数逐点的区间估计。这种序贯选择算法可以很自然地应用到其他无监督学习问题,为此类问题的序贯选择算法提供了一个框架。模拟结果表明,通过序贯算法选出节点构造的密度估计效果优于非序贯方法,且具有稳健性,可以很好地缓解由于节点集选择不同而造成的精度波动。在高维情形下,通用准则不一定能够满足估计的需求,序贯方法可以自适应地选择节点个数。
| [1] |
周建, 徐海芹. 一种基于核密度估计的图像边缘检测方法[J]. 计算机科学, 2018, 45(S1): 239-241. |
| [2] |
Harvey A, Oryshchenko V. Kernel density estimation for time series data[J]. International Journal of Forecasting, 2012, 28(1): 3-14. Doi:10.1016/j.ijforecast.2011.02.016 |
| [3] |
Tran T N, Wehrens R, Buydens L M C. KNN-kernel density-based clustering for high-dimensional multivariate data[J]. Computational Statistics & Data Analysis, 2006, 51(2): 513-525. Doi:10.1016/j.csda.2005.10.001 |
| [4] |
李存华, 孙志挥, 陈耿, 等. 核密度估计及其在聚类算法构造中的应用[J]. 计算机研究与发展, 2004, 41(10): 1712-1719. |
| [5] |
Parzen E. On estimation of a probability density function and mode[J]. The Annals of Mathematical Statistics, 1962, 33(3): 1065-1076. Doi:10.1214/aoms/1177704472 |
| [6] |
Rosenblatt M. Remarks on some nonparametric estimates of a density function[J]. The Annals of Mathematical Statistics, 1956, 27(3): 832-837. Doi:10.1214/aoms/1177728190 |
| [7] |
Silverman B W. Density estimation for statistics and data analysis[M]. London: Chapman and Hall, 1986.
|
| [8] |
Härdle W, Werwatz A, Müller M, et al. Nonparametric and Semiparametric Models[M]. Berlin, Heidelberg: Springer Berlin Heidelberg, 2004. Doi:10.1007/978-3-642-17146-8
|
| [9] |
Xiong S F. The reconstruction approach: from interpolation to regression[J]. Technometrics, 2021, 63(2): 225-235. Doi:10.1080/00401706.2020.1764869 |
| [10] |
Santner T J, Williams B J, Notz W I. The design and analysis of computer experiments[M]. New York, NY: Springer New York, 2018. Doi:10.1007/978-1-4939-8847-1
|
| [11] |
Mu W Y, Xiong S F. A class of space-filling designs and their projection properties[J]. Statistics & Probability Letters, 2018, 141: 129-134. Doi:10.1016/j.spl.2018.06.002 |
| [12] |
Wu Y, Xiong S F. Kernel reconstruction learning[J]. Neurocomputing, 2023, 522: 1-10. Doi:10.1016/j.neucom.2022.12.015 |
| [13] |
Dick J. On quasi-monte Carlo rules achieving higher order convergence[C]//L'Ecuyer P, Owen A. Monte Carlo and Quasi-Monte Carlo Methods 2008. Berlin, Heidelberg: Springer, 2009: 73-96. DOI:10.1007/978-3-642-04107-5_5.
|
| [14] |
Tseng P. Convergence of a block coordinate descent method for nondifferentiable minimization[J]. Journal of Optimization Theory and Applications, 2001, 109(3): 475-494. Doi:10.1023/A:1017501703105 |
| [15] |
Kumar A, Vembu S, Menon A K, et al. Beam search algorithms for multilabel learning[J]. Machine Learning, 2013, 92(1): 65-89. Doi:10.1007/s10994-013-5371-6 |
| [16] |
Neal R M. MCMC using Hamiltonian dynamics[M]//Handbook of Markov Chain Monte Carlo. New York: Chapman and Hall/CRC, 2011: 113-162. DOI:10.1201/b10905-6.
|
| [17] |
Sherlock C, Roberts G. Optimal scaling of the random walk Metropolis on elliptically symmetric unimodal targets[J]. Bernoulli, 2009, 15(3): 774-798. Doi:10.3150/08-BEJ176 |
| [18] |
Gelman A, Gilks W R, Roberts G O. Weak convergence and optimal scaling of random walk Metropolis algorithms[J]. The Annals of Applied Probability, 1997, 7(1): 110-120. Doi:10.1214/aoap/1034625254 |
| [19] |
Ram P, Gray A G. Density estimation trees[C]//Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. August 21-24, 2011, San Diego, California, USA. ACM, 2011: 627-635. DOI:10.1145/2020408.2020507.
|
| [20] |
Kullback S, Leibler R A. On information and sufficiency[J]. The Annals of Mathematical Statistics, 1951, 22(1): 79-86. Doi:10.1214/aoms/1177729694 |
| [21] |
Hall P. Effect of bias estimation on coverage accuracy of bootstrap confidence intervals for a probability density[J]. The Annals of Statistics, 1992, 20(2): 675-694. Doi:10.1214/aos/1176348651 |
| [22] |
Phillips S J, Anderson R P, Schapire R E. Maximum entropy modeling of species geographic distributions[J]. Ecological Modelling, 2006, 190(3/4): 231-259. Doi:10.1016/j.ecolmodel.2005.03.026 |
2025, Vol. 42 


