样本量对MaxEnt模型预测物种分布精度和稳定性的影响

文章信息

陈新美, 雷渊才, 张雄清, 贾宏炎

Chen Xinmei, Lei Yuancai, Zhang Xiongqing, Jia Hongyan

Effects of Sample Sizes on Accuracy and Stability of Maximum Entropy Model in Predicting Species Distribution

林业科学, 2012, 48(1): 53-59.

Scientia Silvae Sinicae, 2012, 48(1): 53-59.

文章历史

收稿日期：2010-07-05

修回日期：2010-09-20

作者相关文章

陈新美

雷渊才

张雄清

贾宏炎

引用本文

陈新美, 雷渊才, 张雄清, 贾宏炎. 2012. 样本量对MaxEnt模型预测物种分布精度和稳定性的影响. 林业科学, 48(1): 53-59. 复制到剪切板

Chen Xinmei, Lei Yuancai, Zhang Xiongqing, Jia Hongyan. 2012. Effects of Sample Sizes on Accuracy and Stability of Maximum Entropy Model in Predicting Species Distribution. Scientia Silvae Sinicae, 48(1): 53-59. 复制到剪切板

样本量对MaxEnt模型预测物种分布精度和稳定性的影响

陈新美¹, 雷渊才¹, 张雄清¹, 贾宏炎²

1. 中国林业科学研究院资源信息研究所北京 100091;
2. 中国林业科学研究院热带林业实验中心凭祥 532600

收稿日期：2010-07-05; 修回日期：2010-09-20

基金项目：国家自然科学基金项目(31170588);科技部社会公益研究专项(s2005DIB5J142)

通讯作者：雷渊才

摘要： 以实际调查的4个物种的34个不同样本量(5，6，8，10，15，20，25，30，40，50，60，70，80，90，100，120，150，180，200，220，250，300，350，400，450，500，550，600，650，700，800，900，1 000，1 200) 为例，模拟计算分析不同的样本量对MaxEnt物种分布模型的精度和稳定性的影响。结果表明:总体上来看，样本量的大小对MaxEnt模型预测物种空间分布的精度影响不大，在样本量较小时，精度不稳定，随着样本量的增大(训练数据在样本量50左右，检验数据在样本量120左右)，MaxEnt模型的预测精度越来越稳定。

关键词：样本量最大熵物种分布模型 AUC 预测精度标准差

Effects of Sample Sizes on Accuracy and Stability of Maximum Entropy Model in Predicting Species Distribution

Chen Xinmei¹, Lei Yuancai¹, Zhang Xiongqing¹, Jia Hongyan²

1. Research Institute of Forest Resources Information Techniques, CAF Beijing 100091;
2. Experimental Center of Tropical Forestry, CAF Pingxiang 532600

Abstract: Prediction of species distribution and its changes play more and more important roles in the fields of ecological protection and application as well as global climate changes. It is impracticable to survey species distribution in large area, especially rare species. Considering that very few species distribution data have been accumulated, employ species distribution model fitting technique is highly necessary in the process of predicting species distribution. Sampling size has an important influence on expense of actual survey and accuracy of model prediction. In terms of accuracy of species distribution model and expense of forest survey, it is necessary to investigate the least sampling size when species distribution models reach the most accuracy. Thirty-four different sampling sizes(5, 6, 8, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 120, 150, 180, 200, 220, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 800, 900, 1 000 and 1 200) of four species were used to simulate the influence of different sample sizes on the precision and stability of MaxEnt species distribution model. The results showed that sampling sizes had no obvious influence on MaxEnt. The accuracy of MaxEnt was unstable when sampling size was small, but as sampling size was increasing(sampling size of training data was about 50, test data was about 120), the accuracy was more stable.

Key words: sample size maximum entropy species distribution model(MaxEnt) AUC predictive accuracy standard deviation

在生态学的保护和应用中，物种分布的模型模拟和预测是一种非常适用和重要的工具，对研究物种分布在环境和气候变化下的空间分布具有重要的意义(Graham et al., 2004)。物种分布与地理环境因子之间存在着密切的关系，以地理环境因子作为预测模型变量的物种潜在分布模型，在物种保护管理和监测以及气候变化下物种分布的变化领域中得到了广泛的应用。生态位模型(ecological niche models，ENMs)已广泛应用于物种潜在分布区预测，ENMs的应用也为外来入侵物种的风险分析提供了重要的定量化分析工具。目前使用比较广泛的预测物种分布的生态位模型主要有Bioclim，CLIMEX，DOMAIN，GARP(genetic algorithm for ruleset production)和MaxEnt(maximum entropy species prediction model)(Elith et al., 2006)。王运生等(2007)应用ROC(receiver operator characteristic)曲线分析法对这5种模型的预测结果进行了比较分析，以最大熵模型(MaxEnt)的AUC(areas under receiver operator characteristic curves)值最大，表明其预测效果最好。MaxEnt模型是生态位模型中一种比较新的用于预测物种分布的技术方法，具有检验预测结果的功能，美国学者Phillips等(2004)第1次介绍MaxEnt模型在物种分布预测中的应用，随后国内外出现了一些关于MaxEnt的研究报道(Phillips et al., 2006; 王运生等，2007; 李明阳等，2009a; 2009b)。这些研究主要是使用MaxEnt物种分布模型预测物种随环境因子的分布变化，并模拟大尺度下的物种分布和变化(Phillips et al., 2006; Kumar et al., 2009; 徐进等，2008; 王颖等，2009; 赵文娟等，2009)，但是关于物种分布数据样本量对MaxEnt分布模型影响的研究却较少。

基于物种地理数据预测物种空间分布的模型模拟方法和技术对物种群落的监测(Shaffer et al., 1998)、生物多样性制图(Bojórquez-Tapia et al., 1995)和生物保护区物种的管理(Corsi et al., 1999)是非常有实践意义的; 但是，由于一些物种不容易采样或可获得的数据不能及时数字化，使得真正能用于模型预测的物种分布数据非常有限(Graham et al., 2004)。已有很多相关研究证实，物种分布数据的样本量显著地影响着物种模型模拟结果的准确度。与样本量充足时所建立的模型相比，小样本量使得统计分析研究面临着许多挑战，其预测能力相对较低。一般情况下，随着样本量的增加，物种分布模型模拟精度增加，增加的幅度慢慢减小直至不再增加，最终趋于达到模型的最大准确度(Hirzel et al., 2002; Stockwell et al., 2002; McPherson et al., 2004; Wisz et al., 2008)。物种分布模型最大准确度和达到最大准确度时的样本量在不同的研究区域、不同的研究尺度、不同的环境变量和空间分辨率以及不同生态环境特征的物种都将会有所不同(Hernandez et al., 2006)。各种物种分布模型在应用时所能达到的最大准确度及趋于最大准确度时的样本量，是生物地理学研究中利用模型模拟进行物种分布预测时重点关注的问题(邵慧等，2009)。由于受到物种分布数据的限制，一般用于物种分布模型精度研究的样本量不大，所用的最大物种分布数据的样本量也只达到100~150个，虽然可以了解物种分布模型模拟精度随样本量大小的变化趋势，但因样本量不足，并没有得出模型预测精度变化的稳定值(Hernandez et al., 2006; Wisz et al., 2008; Stockwell et al., 2002; 邵慧等，2009)。一般情况下，样本量越大，物种分布模型估计精度就越高，但是样本调查所需费用也就越大。为了使模型估计达到一定的精度且模型所用数据的调查费用尽可能少，很有必要对样本量大小对物种分布模型精度进行模拟研究。

本文分别利用稀少群团状分布的沙枣(Elaeagnus angustifolia)、梭梭(Haloxylon ammodendron)、白刺(Nitraria tangtorum)和柽柳(Tamarix chinensis)4个物种的34个不同样本量(最大的为1 200) 研究物种分布模型MaxEnt模型的精度和稳定性。

1 数据来源与整理 1.1 研究地概况与样地设置

研究地位于内蒙古磴口县，地处内蒙古西部，属于黄河河套地区，灌溉区农业发达，境内自然环境分割明显，中心点坐标为40°15'37.8″N，106°56'28.0″ E，位于农垦区与沙漠交界处，分布有典型的沙地植被，是林业治沙技术试验区。研究区地形起伏不大，主要为10 m以下的圆锥形沙丘或新月形沙丘，为浅黄棕色或微红棕色细沙。平均海拔1 050 m。

本文的数据是2007年实地调查的数据。首先在调查区范围内，选择具有代表性的、稀少且呈群团状样地作为试验大样地，设置为方形，面积为1 000 m×1 000 m，在该大样地内按行(编号依次为0，1，2…)、列(编号依次为A，B，C…)交叉设置100块样地，面积为100 m×100 m。样地编号与设置如图 1所示。方形样地4个边界测量以样地的边界西南角为起点，然后用全站仪实测各测点的距离和三维坐标，并严格要求用差分GPS记录样地。在每个样地内再依次细分设置小样方10 000个，面积为10 m×10 m。每个样地全面调查了6个树种，主要调查因子是单株或丛株数、株高、地径、冠幅以及空间相对坐标(x，y)。本文选取呈稀少群团状分布的4个物种沙枣、梭梭、白刺和柽柳作为研究对象(表 1)。沙枣为小乔木树种，梭梭、白刺和柽柳为灌木树种，它们是干旱半干旱地区具有一定的抗盐碱和防风固沙能力的树种。梭梭现在属于渐危种，在我国的西北部地区虽均有分布，但由于长期不合理的放牧、樵采及挖掘肉苁蓉(Cistanche deserticola)，破坏极其严重，分布面积日趋缩小。白刺生长于沙漠或半荒漠的湖盆沙地、河流阶地、山前平原积沙地、有风积沙的黏土地，常见于盐碱荒漠和中重度盐渍土上。柽柳是沙漠地区盐化、沙土化，沙丘上和河湖滩地上固沙的优良树种。这些物种对于沙漠地区的防风固沙、涵养水源、保持水土和绿化都具有重要的经济价值和社会价值。

图 1 样地(100 m × 100 m)编号与设置 Figure 1 Sample size of 4 species used in this study

表 1 4种物种样本容量 Tab.1 Sample size of 4 species used in this study

1.2 地形数据和植被指数

地形数据高程(elevation)、坡度(slope)、坡向(aspect)、地形曲率(curvature)和物种到路的最近距离(distance to road)是从2009最新的全球DEM数据(https://wist.echo.nasa.gov/wist-bin/api/ims.cgi?mode=MAINSRCH&JS=1 获取免费Aster 30 m G-Dem数据)上提取的，采样精度达到了30 m。植被指数是从分辨率达到0.1 m的标准正射影像QuickBird遥感数据上提取的，这些环境变量对物种分布都有重要的影响。

2 研究方法 2.1 环境变量的选择

本研究选取以下8种变量作为模型模拟时的环境变量:地形数据有高程、坡度、坡向、地形曲率、物种到路的最近距离，植被指数有归一化植被指数(NDVI)、比值植被指数(RVI)和差值环境植被指数(DVI/EVI)。因本研究采用的数据都是在1 km²以内，气象因子几乎相同，因此忽略了降水、温度等气象因子对本研究的影响。

2.2 MaxEnt模型及模拟软件

早在1957年，Jaynes曾提出最大熵理论，从此最大熵逐步在计算机科学和统计等领域得到实际应用，尤其是在自然语言处理和识别方面得到广泛应用(Phillips et al., 2004; Berger et al., 1996)，MaxEnt是根据物种现实分布点地理坐标和物种分布地区的环境变量运算得出预测模型，再利用此模型模拟目标物种在目标地区的可能分布情况(Phillips et al., 2006)。熵是一种随机变量的不确定性量，其计算公式为:

式中: x表示环境变量，即为自变量; p(x)为x环境变量出现的概率; H(p)为熵值。满足最大熵原则的概率分布为:

MaxEnt模型预测:将物种分布数据和环境数据导入MaxEnt，随机选取60%的物种分布数据作为训练数据，剩余40%的物种分布数据作为测试数据(test data)，其他参数均为软件默认值，输出格式为ASCII栅格图层(本文研究的最大熵模型基于MaxEnt软件V3.3.1，软件来源于http://www.cs.princeton.edu/~schapire/maxent/)。

2.3 模型评价

本研究采用ROC曲线下的面积AUC值来评判模型模拟结果的优劣。ROC曲线分析方法最初应用于雷达信号接收能力的评价(Leshowitz，1969)，后广泛应用于医学诊断试验性能的评价(Goodenough et al., 1974; Metz，1978; Zweig et al., 1993)，近年来，ROC曲线分析法在物种潜在分布预测模型评价中的应用越来越广泛(Manel et al., 2001; Brotons et al., 2004; McPherson et al., 2004; Elith et al., 2006)。以假阳性率(实际没有该物种分布而被预测为阳性的概率)为横坐标，真阳性率(实际有分布且预测为阳性的概率)为纵坐标，绘制而成的曲线称之为ROC曲线，ROC曲线下的面积即为AUC值，以此反映诊断试验的价值。AUC值不依赖阈值，可以对2个试验进行比较，成为目前公认的评判分布模型预测结果优劣的最佳方法之一(Chen et al., 2006)。AUC值的大小反应模型的预测能力，AUC值越大，模型的预测能力越好(Fielding et al., 1997; Elith et al., 2006)。参考Swets(1988)的标准: 0.5＜AUC＜0.7表示预测能力一般; 0.7＜AUC＜0.9表示预测能力较好; 0.9＜AUC＜1表示预测能力极好。AUC用于模型全面性能的测量，其值一般在0.5~1之间，等于0.5时和随机预测模型的AUC值相等，等于1时具有最好的判断能力，但AUC的值也能低于0.5~1范围，这表示用于预测的模型比随机预测的模型还要差(Engler et al., 2004)。

本文中利用的另一个评价标准是AUC标准差。在利用MaxEnt处理数据过程中，每个物种分布数据的运行处理都有很多次重复，计算出的AUC值也会有多个，AUC的标准差就是由计算出的多个AUC值相对于它们的平均值而定的，计算公式为:

式中: SD为AUC的标准差，N为重复次数，X_i为第i次AUC的大小，X为N次AUC的平均值。AUC的标准差越高，表示所得到的数据越离散，即计算出的AUC值越不稳定，得到的数据越不精确; 反之，AUC标准差越低，表示AUC的值越稳定，所得到的数据越精确。

2.4 数据处理

首先利用ArcGIS工具对下载的DEM数据提取地形因子，再利用QuickBird数据提取植被指数因子，把提取的数据在Excel中转化MaxEnt需要的数据格式为. csv。为统一单元网格，对DEM和QuickBird数据先是利用地理信息系统(geographic information system，GIS)软件进行双线性内插法重采样，重采样后的单元网格为10 m×10 m; 然后利用ERDAS IMAGINE软件进行剪切，并且把栅格数据转化为MaxEnt需要的ASCII格式; 再利用SPSS数据选择select cases模块(尹海洁等，2003)，对每个物种实地调查的所有数据按照样本量为5，6，8，10，15，20，25，30，40，50，60，70，80，90，100，120，150，180，200，220，250，300，350，400，450，500，550，600，650，700，800，900，1 000，1 200随机抽取。为计算AUC值和模型检验，在“设置(setting)”中把随机检验百分比(random test percentage)设置40%，即样本量中有60%的数据为训练数据，40%为检验数据。

3 结果与分析 3.1 不同样本量对MaxEnt模型预测物种分布拟合准确度的影响

图 2显示了MaxEnt模型对物种沙枣、梭梭、白刺和柽柳的训练数据的AUC和检验数据的AUC随着样本量的变化趋势。总体上看，样本量小时，训练数据的AUC和检验数据的AUC的变化趋势并不一致; 但随着样本量的增大，训练数据的AUC和检验数据的AUC慢慢向着相同的值趋近。

图 2 4个物种训练数据和检验数据的AUC值随着样本量变化的比较 Figure 2 Comparing the change of AUC of training data and test data with the sample size change of four species

表 2给出了各个物种模拟结果，沙枣的训练数据的AUC值在样本量为25时最大(0.903 9)，在样本量6时AUC值最小(0.638 9)，在样本量达到100以后AUC值趋于稳定，其值在0.807 8~0.853 5之间; 沙枣的检验数据的AUC值在样本量为15时达到最大(0.838 9)，样本量为5时AUC值最小(0.416 7)，在样本量达到120以后AUC值趋于稳定，在0.747 0~0.808 6之间。梭梭的训练数据的AUC值在样本量为5时最大(0.900 0)，样本量为20时最小(0.638 9)，在样本量达到70以后，AUC值趋于稳定，在0.718 3~0.798 6之间; 梭梭的检验数据的AUC值在样本量为6时最大(0.734 9)，样本量为5时最小(0.300 0)，整体上是呈现缓慢上升趋势，在样本量达到250时AUC值趋于稳定，在0.667 8~0.734 9之间。白刺的训练数据的AUC值在样本量为6时最大(0.901 0)，在样本量为8时最小(0.612 5)，在样本量达到70以后AUC值趋于稳定，在0.683 0~0.774 5之间; 白刺的检验数据的AUC在样本量为80时最大(0.759 4)，在样本量20时最小(0.528 6)，在样本量达到90以后AUC值趋于稳定，在0.609 8~0.696 0之间，样本量达到800以后AUC值基本不再发生什么变化。柽柳的训练数据的AUC值在样本量为8时最大(0.870 8)，样本量为6时最小(0.652 8)，当样本量达到30以后AUC值趋于稳定，在0.743 1~0.827 7之间，当样本量达到500以后AUC值基本不再发生变化; 柽柳的检验数据的AUC值在样本量为25时最大(0.792 0)，样本量为8时最小(0.256 9)，在样本量达到80以后AUC值趋于稳定，在0.666 6~0.749 7之间。从以上的分析可以看出:这4个物种中，有的物种的AUC值在样本量较小时达到最大，而AUC的最小值并没有出现在样本量最小时，这是因为在样本量较小时，物种分布模型的预测不稳定，从而导致预测值不稳定。图 2进一步表明: MaxEnt物种预测模型的精度随着样本量的增加，AUC变化很小，但它的变化趋于越来越稳定，这与Wisz等(2008)和Hernandez等(2006)的研究结果相一致。Wisz等(2008)利用MaxEnt模型等12种模型，对来自世界6个区域的46种动植物在样本量为10，30和100时进行了模拟和评估，在几个模型中，即使在小样本的情况下，MaxEnt模型的效果也比较好，对样本量的敏感性不大。Hernandez等(2006)对美国加利福尼亚州18种动物利用包括MaxEnt在内的4个模型，在6个样本量下的模型模拟效果进行研究，发现即使是在很小的样本量的情况下MaxEnt的效果也最好，这也正说明MaxEnt模型对样本量的要求不高。

表 2 4个物种训练数据和检验数据的AUC值及其对应样本量 Tab.2 AUC and its corresponding sample size of four species for training data and test data in this study

3.2 不同样本量对MaxEnt模型预测物种分布稳定性的影响

图 3是4个物种随着样本量的增加AUC的标准差的变化趋势。随着样本量的增加，曲线的变化越来越平缓，AUC的标准差越来越小，说明预测模型的稳定性越来越高，这与Elith等(2006)的研究结果一致。他们研究发现:对于MaxEnt模型的小样本量与大样本量的预测精度差别不是太大，这说明MaxEnt模型稳定性较好。

图 3 4个物种AUC的标准差随着样本量的增加变化的趋势 Figure 3 The change of AUC SD with the sample size increasing

从表 3的4个物种模拟结果来看:沙枣的AUC的标准差在样本量为5时最大(0.198 7)，样本量达到50以后AUC的标准差小于0.05，样本量达到100以后AUC标准差小于0.04，样本量达到300以后AUC的标准差小于0.02;梭梭的AUC标准差在样本量为5时最大(0.186 0)，样本量达到90以后AUC的标准差小于0.05，样本量达到100以后AUC标准差小于0.04，样本量达到500以后AUC的标准差小于0.02;白刺的AUC的标准差在样本量为6时最大(0.214 2)，在样本量达到80以后AUC标准差小于0.05，样本量达到90以后AUC的标准差小于0.04，样本量达到400以后AUC的标准差小于0.02;柽柳的AUC的标准差在样本量为15时最大为(0.116 0)，样本量达到80以后AUC的标准差小于0.05，样本量达到150以后AUC的标准差小于0.04，样本量达到500以后AUC的标准差小于0.02。

表 3 4个物种训练数据和检验数据的AUC的标准差及其对应样本量 Tab.3 AUC Standard Deviation and its corresponding sample size of four species for training data and test data in this study

4 结论

通过对不同样本量下MaxEnt物种分布模型预测结果的训练数据和检验数据的AUC值的对比分析可以看出:训练数据的AUC值和检验数据的AUC值的最大值和最小值一般都出现在样本量比较小时。在样本量比较小时，物种分布模型的AUC值的变动比较大，稳定性较差。样本量足够大时，AUC值越来越稳定，最后即使随着样本量的变化AUC值也几乎不再变化。每个物种训练数据的AUC值与检验数据的AUC值变化趋势不一致，但最后总是趋向于相同的值。总起来看，在样本量达到120时，4个物种的预测都达到了比较稳定的值。通过对AUC的标准差的分析，可以看出一般在样本量90以后，AUC的标准差就可以小于0.05，若要使预测更稳定，那就需要增大样本量，一般样本量达到500以后，AUC的标准差就小于0.02。综合对训练数据和检验数据AUC值和AUC的标准差的分析，最后得出4个物种用于物种分布预测模型时的样本量取120。

我们只着重研究了MaxEnt模型的精度和稳定性与样本量之间的关系，这是因为此模型是最近几年被广泛用于模拟物种分布。现在预测物种分布的模型很多，但正如Hernandez等(2006)和Engler等(2004)所说，模型只是物种潜在分布的简单估计。物种分布模型并不能代替实地调查，但是为收集更多的分布数据，物种分布模型是一个数据探测的有用工具，帮助识别潜在的知识差距，并为稀少物种的野外调查设计提供指导。

参考文献(References)

李明阳, 巨云为. 2009a. 濒危野生动物潜在生境空间建模方法—以印度野牛(Bos gaurus)为例[J]. 东北林业大学学报, 37(5): 88-91.

李明阳, 巨云为, 吴文浩, 等. 2009b. 气候变化情景下外来森林病虫害潜在生境动态分析—以美国南方松大小蠹为例[J]. 北京林业大学学报, 31(4): 64-69.

邵慧, 田佳倩, 郭柯, 等. 2009. 样本容量和物种特征对BIOCLIM模型模拟物种分布准确度的影响—以12个中国特有落叶栎树种为例[J]. 植物生态学报, 33(5): 870-877.

王颖, 章桂明, 杨伟东, 等. 2009. 基于MAXENT的大豆南北方茎溃疡病菌在中国适生区的预测[J]. 植物检疫, 23(4): 14-17.

王运生, 谢丙炎, 万方浩, 等. 2007. ROC曲线分析在评价入侵物种分布模型中的应用[J]. 生物多样性, 15(4): 65-372.

徐进, 陈林, 许景生, 等. 2008. 香蕉细菌性枯萎病菌在中国的潜在适生区域[J]. 植物保护学报, 35(3): 233-238.

尹海洁, 刘耳. 2003. 社会统计软件SPSS for Windows简明教程[M]. 北京: 社会科学文献出版社.

赵文娟, 陈林, 丁克坚, 等. 2009. 利用MAXENT预测玉米霜霉病在中国的适生区[J]. 植物保护, 35(2): 32-38.

Berger A L, Della Pietra S A, Della Pietra V J. 1996. A maximum entropy approach to natural language processing[J]. Computational Linguistics, 22(1): 39-71.

Bojórquez-Tapia L A, Azuara I, Ezcurra E. 1995. Identifying conservation priorities in Mexico through geographic information systems and modeling[J]. Ecological Applications, 5(1): 215-231. DOI:10.2307/1942065

Brotons L, Thuiller W, Araújo M B, et al. 2004. Presence-absence versus presence-only modelling methods for predicting bird habitat suitability[J]. Ecography, 27(4): 437-448. DOI:10.1111/eco.2004.27.issue-4

Chen P F, Wiley E O, Mcnyset K M. 2006. Ecological niche modeling as a predictive tool: silver and bighead carps in North America[J]. Biological Invasions, 9(1): 43-51. DOI:10.1007/s10530-006-9004-x

Corsi F, Duprè E, Boitani L. 1999. A large-scale model of wolf distribution in Italy for conservation planning[J]. Conservation Biology, 13(1): 150-159. DOI:10.1046/j.1523-1739.1999.97269.x

Goodenough D J, Rossmann K, Lusted L B. 1974. Radiographic applications of receiver operating characteristic(ROC)curves[J]. Radiology, 110: 89-95. DOI:10.1148/110.1.89

Elith J, Graham C H, Anderson P R, et al. 2006. Novel methods improve prediction of species' distributions from occurrence data[J]. Ecography, 29(2): 129-151. DOI:10.1111/j.2006.0906-7590.04596.x

Engler R, Guisan A, Rechsteiner L. 2004. An improved approach for predicting the distribution of rare and endangered species from occurrence and pseudo-absence data[J]. J Appl Ecol, 41(2): 263-274. DOI:10.1111/j.0021-8901.2004.00881.x

Fielding A H, Bell J F. 1997. A review of methods for the assessment of prediction errors in conservation presence/absence models[J]. Environmental Conservation, 24(1): 38-49. DOI:10.1017/S0376892997000088

Graham C H, Ferrier S, Huettman F, et al. 2004. New developments in museum-based informatics and applications in biodiversity analysis[J]. Trends in Ecology and Evolution, 19(9): 497-503. DOI:10.1016/j.tree.2004.07.006

Hernandez P A, Graham C H, Master L L, et al. 2006. The effect of sample size and species characteristics on performance of different species distribution modeling methods[J]. Ecography, 29(5): 773-785. DOI:10.1111/eco.2006.29.issue-5

Hirzel A, Guisan A. 2002. Which is the optimal sampling strategy for habitat suitability modelling? Ecological Modelling, 157(2/3): 331-341. https://www.sciencedirect.com/science/journal/03043800/157

Kumar S, Stohlgren T J. 2009. MaxEnt modeling for predicting suitable habitat for threatened and endangered tree Canacomyrica monticola in New Caledonia[J]. Journal of Ecology and Natural Environment, 1(4): 94-98.

Leshowitz B. 1969. Comparison of ROC curves from one-and two-interval rating-scale procedures[J]. The Journal of Acoustical Society of America, 46(2B): 399-402. DOI:10.1121/1.1911703

Manel S, Williams H C, Ormerod S J. 2001. Evaluating presence-absence models in ecology: the need to account for prevalence[J]. Journal of Applied Ecology, 38(5): 921-931.

McPherson J M, Jetz W, Rogers D J. 2004. The effects of species' range sizes on the accuracy of distribution models: ecological phenomenon or statistical artifact? Journal of Applied Ecology, 41(5): 811-823. https://link.springer.com/chapter/10.1007/978-3-642-25789-6_80

Metz C E. 1978. Basic principles of ROC analysis[J]. Seminars in Nuclear Medicine, 8(4): 283-298. DOI:10.1016/S0001-2998(78)80014-2

Peterson A T. 2001. Predicting species'geographic distributions based on ecological niche modeling[J]. The Condor, 103(3): 599-605. DOI:10.1650/0010-5422(2001)103[0599:PSGDBO]2.0.CO;2

Phillips S J, Dudik M, Schapire R E. 2004. A maximum entropy approach to species distribution modeling ∥ Proceedings of the 21 st International Conference on Machine Learning. Banff, Canada. https://link.springer.com/article/10.1007/s10530-012-0283-0

Phillips S J, Anderson R P, Schapire R E. 2006. Maximum entropy modeling of species geographic distributions[J]. Ecological Modelling, 190(3/4): 231-259.

Shaffer H B, Fisher R N, Davidson C. 1998. The role of natural history collections in documenting species declines[J]. Trends in Ecology and Evolution, 13(1): 27-30. DOI:10.1016/S0169-5347(97)01177-4

Stockwell D R B, Peterson A T. 2002. Effects of sample size on accuracy of species distribution models[J]. Ecological Modelling, 148(1): 1-13. DOI:10.1016/S0304-3800(01)00388-X

Swets J A. 1988. Measuring the accuracy of diagnostic systems[J]. Science, 240(4857): 1285-1293. DOI:10.1126/science.3287615

Wisz M S, Hijmans R J, Li J, et al. 2008. Effects of sample size on the performance of species distribution models[J]. Diversity and Distribution, 14(5): 763-773. DOI:10.1111/ddi.2008.14.issue-5

Zweig M H, Cambell G. 1993. Receiver operating characteristic(ROC)plots: a fundamental evaluation tool in clinical medicine[J]. Clinical Chemistry, 39(4): 561-577.