文章信息
- 地理空间分析技术在肿瘤流行病学研究中的应用
- Application of Geographical Spatial Analysis in Cancer Epidemiology
- 肿瘤防治研究, 2016, 43(9): 814-818
- Cancer Research on Prevention and Treatment, 2016, 43(9): 814-818
- http://www.zlfzyj.com/CN/10.3971/j.issn.1000-8578.2016.09.018
- 收稿日期: 2016-05-12
- 修回日期: 2016-06-27
2015年,中国死于恶性肿瘤的人数高达280万,恶性肿瘤已成为我国面临的重大公共卫生问题[1]。肿瘤的发生与人文、地理以及社会经济因素等外部环境存在密切关联[2]。经典统计方法并不适用于分析这类具有空间关联的数据,因此,近年来地理空间分析技术在肿瘤流行病学中应用越来越广泛。地理信息系统(geographic information system,GIS)为确切描述肿瘤流行的地理分布特征,探寻肿瘤与环境危险因素之间的关系开辟了新的途径。
1 GIS与空间分析基础 1.1 概述GIS是一种信息查询、分析和决策支持系统,其特点是存储和分析的信息是经过地理编码的,地理位置及该位置的有关地理属性信息成为信息检索的主要部分。空间分析是GIS的核心和重要功能之一,也是GIS区别于一般信息系统的主要功能特征。
1.2 肿瘤数据空间化方法肿瘤数据的空间化,即建立空间数据库是进行空间分析的基础,肿瘤流行病学数据收集过程中的位置信息是建立空间数据库的关键。在肿瘤流行病学研究中,可以采用GIS工具将包含疾病分布信息的属性数据转化为包含地理空间实体位置、大小、形状、方向以及几何拓扑关系的空间数据。进行肿瘤数据空间化处理时必须采用合适的地理坐标系统和投影体系,我国目前常用的坐标系统有北京54坐标系、西安80坐标系和WGS-84坐标系[3]。
1.3 探索性空间分析探索性空间分析(explore spatial data analysis,ESDA)一般作为空间分析的先导,进行数据清理、变量筛选、分布检验、趋势探索,从而发现异常值,提示数据分布特征,为深入分析时选择正确方法提供证据。
1.3.1 异常值探测进行异常值探测的方法有直方图、散点图、百分位图、盒状图等,通过数据制图以发现具有特殊意义的极值或错误数值。
1.3.2 数据特征探索正态QQ图可以快速简便的探索数据是否服从正态分布,常规QQ图可以研究两个变量是否具有相同分布。半变异云图和协方差云图常用于初步评估数据集的空间自相关性和空间依赖性。空间自相关系数可以评价数据的空间自相关水平及其统计学差异。分析数据分布特征与空间自相关性可以为选择最佳的空间分析方法提供依据。
1.3.3 地图可视化将目标变量进行制图,在地图上实现符号化,通过符号的大小和颜色直观反映制图数据值的过程称为地图化。绘制疾病地区分布图和三维趋势图可以观测疾病的空间分布趋势,为进一步探索疾病聚集区、高发区提供线索。肿瘤分布受许多因素的影响,通过交叉列表源数据,可以对两个或更多变量制作一系列地图(即条件地图),便于对数据之间相互关系进行理解。
2 空间插值 2.1 空间插值方法肿瘤流行病学数据多是采用抽样方式获得,如何利用有限的抽样点数据对其他缺少数据的地区进行估计是肿瘤流行病学面临的一大难题。空间插值方法即是一种根据已知样本点数据推算区域内其他任意一点的值的技术。
空间插值方法按其实现的数学原理可以分为两类:一类是确定性插值方法,另一类是地统计插值,也就是克里金插值[4],见图 1。
![]() |
图 1 空间插值方法分类示意图 Figure 1 Classification map of spatial interpolation methods |
确定性插值方法又可以分为两种:即全局性插值方法和局部性插值方法。全局性插值方法以整个研究区的样点数据集为基础来计算预测值,局部性插值方法则使用一个大研究区域里较小的空间区域内的已知样点来计算预测值。确定性插值方法以研究区域内部的相似性为基础(如反距离加权插值法)、或者以平滑度为基础(如径向基函数插值法),由已知样点来创建表面。
克里金插值方法利用已知样点的统计特性预测未知点,它以变异函数理论和结构分析为基础,在考虑样本点的形状、大小和空间方位与未知样点的相互空间位置关系,以及变异函数提供的结构信息之后,对未知样点进行的一种线性无偏最优估计。克里金插值方法要求所研究的变量存在空间相关性并且数据满足二阶平稳性假设,所以在进行空间插值之前,需要进行ESDA。
2.2 空间插值的应用1990—1992年我国进行了一次全国死因回顾调查,调查供覆盖263个县(市)。曲宸绪等[5]采用反距离权重(inverse distance weighted,IDW)插值法绘制出我国此次调查的肿瘤地理分布的全国预测图,填补了空白区域,使高发区、低发区显示完整,较为准确的反映出了我国20世纪90年代肿瘤分布规律。Wu等[6]采用IDW插值法对我国1961—1990年的水分蒸发量进行插值,并与此次调查获得的食管癌死亡率数据进行相关分析,发现我国食管癌与干旱存在关联。
1989年,美国宣布对人口少于100 000的县不再发布疾病死亡率统计数据,这导致美国有2 184个县(占70.3%)没有可用的乳腺癌死亡数据[7]。Chien等[7]使用克里金插值方法对美国1989—2004年缺乏数据的2 184个县的女性乳腺癌死亡率进行克里金插值,得出美国1989—2004年女性乳腺癌平均年死亡病例数为40 779例,仅比实际全国死亡数高估了1.5%,并在此基础上找出了美国分种族、分年龄女性乳腺癌死亡风险较高的地区。
样点数据的匮乏,以及缺少空间插值参数设定的参考依据,使得空间插值方法在我国肿瘤流行病中的应用尚处于探索阶段。随着肿瘤登记系统和死因监测系统的完善,空间插值方法将在省级、市县级肿瘤监测中逐渐发挥应有作用。
3 空间自相关空间自相关(spatial autocorrelation,SA)是研究空间中某位置的观察值与其相邻位置的观察值是否相关以及相关程度的一种空间数据分析方法。SA分为全局SA和局部SA,全局SA用于分析整个研究范围内指定空间区域是否具有自相关性,但不能确切的指出聚集在哪些地方,局部SA用来分析特定地点的指定属性是否具有自相关性[8]。
3.1 全局SA全局SA用于描述区域单元某种现象的整体分布状况,以判断该现象在空间上是否存在聚集,常用的统计指标是Moran's I和Geary's C统计量。
3.1.1 Moran's I指数全局Moran's I检验通过空间单元的共变性计算得到,Moran's I指数的值域为[-1, 1],Moran's I值大于零,说明全局空间自相关性是正相关,小于零为负相关关系,其绝对值越大,说明相关程度越大,而I=0,全局空间显著无关[9]。
3.1.2 Geary's C指数 Geary'sC检验是利用空间单元两两比较来得到。Geary's C的取值范围一般为0~2之间,C=1时代表空间无关,小于1时为空间正相关,大于1时为空间负相关,C的值可能存在大于2的情况。当C=0时有很强的空间正相关性,当C=2时有很强的空间负相关性[10]。
3.2 局部SA局部自相关指标用来具体说明属性相似聚集区的空间分布位置,其常用指标包括空间联系的局部指标(local indicators of spatial association,LISA)和G统计量(Local G-statistics),LISA包括局部Moran's I指数(Local Moran's I)和局部Geary's C指数(Local Geary's C)。
3.2.1 局部Moran's I指数全局Moran's I指数按照指定尺度分解可以产生LISA测度,尺度变化对局部Moran's I值的变化的影响是显著的,局部Moran's I的值对尺度具有依赖性[11]。Moran散点图可用来直观反映时空对象的聚集特性与异质特性。
3.2.2 局部Geary's C指数与局部Moran's I相似,全局Geary's C指数按照指定尺度分解可以产生LISA测度,局部Geary's C近似度指数能够发现空间相似性(正关联)或非相似性(负关联)[12]。
3.2.3 局部G系数局部G系数(Local G statistics),又称Getis统计量,是一种基于距离权矩阵的局部SA指标,通过检验G统计量是否有显著性来判断和确定聚集区域[13]。
3.3 SA指标的假设检验SA分析以经典统计学为基础,可以用标准化统计量Z来检验n个区域是否存在空间自相关关系,当Z(I)>Z(α)时,则说明研究范围某种属性的整体分布具有显著的正相关关系,表明在地理分布中具有相似属性值的区域单元倾向于聚集在一起[14]。
3.4 SA的应用SA与肿瘤流行病学结合可以定量分析癌症的空间特性及其聚集特点。王临池等[15]采用全局Moran's I和LISA方法分析了苏州市2012—2013年胃癌死亡空间聚集状况,发现有7个乡镇处于高发聚集区域,这为苏州市胃癌的防治工作、尤其是早诊早治工作确定了重点关注区域。唐咸艳等[16]采用SA方法证实广西肝癌高发区主要聚集在桂西南及桂南沿海地区,桂北为低发区。
SA方法不仅适用于小区域的癌症分布模式研究,也可应用于广泛区域的癌症聚集趋势探索。Rosenberg等[17]使用全局SA和LISA方法对20世纪70年代西欧9国的癌症聚集趋势进行分析,发现丹麦所有癌症死亡率都高于其他8国,意大利南部所有癌症死亡率都较其他地区低,爱尔兰各地区的卵巢癌死亡率存在巨大内部变异,这为西欧整体癌症防治策略的制定提供了参考依据。
我国肿瘤防控系统逐渐完善,肿瘤监测数据更为丰富而可靠,挖掘人群肿瘤大数据、掌握肿瘤整体时空分布规律和局部流行特征需要SA方法的支撑,合理利用SA方法将使肿瘤学家更为明确重点关注区域,使我国肿瘤防治工作更为高效。
4 空间扫描统计 4.1 空间扫描方法空间扫描统计量是一种聚集性探测检验方法,目的是运用一系列扫描圆或不规则形状在研究区域探测出疾病的空间聚集性。空间扫描统计的工作原理是:探测开始后,随机选取研究区域内某一病例点(或中心点),以其为中心生成一系列扫描圆,扫描圆的半径从0逐渐以一定步长增加到规定上限,然后选择研究区域的另一病例点作为中心,开始新一轮的扫描。整个扫描遍历所有病例点,然后对产生的大量大小不一扫描圆的圆内外病例实际值和期望值计算一个似然比,扫描结束后,将所有扫描圆的似然比由大到小排序,对排在前面的若干个聚类进行Monte Carlo检验,通过检验的扫描圆便是所得到的聚集区[18]。
空间扫描统计的类型包括纯空间扫描统计、纯时间扫描统计及时空扫描统计。当进行时间扫描统计时,扫描窗口仍为圆形窗口,扫描范围变成时间长度;当进行时空扫描统计时,扫描窗口是圆柱形,圆柱的底对应空间大小,圆柱的高对应时间长度,同时在时空两个维度上进行分析,检验发病地点邻接的病例其发病时间是否也接近,探测是否存在时空聚集性。
扫描统计量方法实现了尺度自动依次转换,融合了时空技术,能定量评价聚集发生的可能性,但扫描统计量仍然存在一些不足和局限,例如扫描窗口的形状不足以应对千变万化的空间形状,仍需要联合空间自相关方法[19]。
4.2 空间扫描的应用空间扫描为探索肿瘤的时空分布特征提供了自动化方案,避免了行政界线和主观选择尺度的所带来的偏倚。Zhou等[20]采用空间扫描统计方法对深圳市2007—2012年乳腺癌发病状况进行探索,发现深圳市时间跨度为2010—2012年的1个一级聚集区和4个二级聚集区,证明深圳市乳腺癌发病存在时空聚集特性。Peng等[21]采用空间扫描的方法证实海门市肝细胞癌的发病与社会经济水平存在显著关联。Jemal等[22]对美国1970—1989年前列腺癌死亡分布进行了扫描探索,在白人中发现了5个高发聚集区、在黑人中发现了3个高发聚集区;Fang等[23]采用空间扫描的方法对美国1986—1995的脑癌聚集情况进行探索,发现男性的死亡高发聚集区在阿肯色州、密西西比和俄克拉何马州一带,女性的高发区聚集在肯塔基和田纳西州一带、儿童脑癌则未发现明显聚集区;这两项研究为美国前列腺癌、脑癌危险因素研究及其防治提供了线索。
空间扫描方法在我国局域肿瘤流行病的防控中已经发挥出重要作用,联合空间自相关方法,将空间扫描统计应用于更为广泛的区域,为我国肿瘤防治宏观策略的制定提供依据。
5 地理加权回归 5.1 地理加权回归方法地理加权回归(geographically weighted regression,GWR)模型是对普通线性回归模型的扩展,该模型将数据的空间位置嵌入到回归参数中,利用局部加权最小二乘方法进行逐点参数估计。GWR模型实质上是如下形式的一类空间变系数模型:yi=β1(νi)xi1+β2(νi)xi2+…+βp(νi)xip+εi(i=1,2,…,n)其中yi,xi1,xi2,… ,xip ,i=1,2,… ,n是因变量Y和自变量X1,X2,…,Xp的第n组观测值,若xi1=1,则β1(νi)为截距项,ε1,ε2,…,εn 为独立同分布的正态分布误差项。νi为第i组观测(yi,xi1,xi2,… ,xip ,i=1,2,… ,n)的地理位置(如经度和纬度),β(νi) =(β1(νi)+β2(νi)+…+βp(νi))T 是未知回归系数向量,其中各元素的空间位置νi 为未知函数。若β1k=β2k=… =βnk,GWR则退变为普通线性回归模型。
GWR模型的核心是空间权重矩阵,空间权重矩阵在估计回归点i的参数时,由于距离较近的点对该点的影响较大,必须给予离i较近的地区更多的关注,也就是优先考虑较近观测值的影响,常用的空间权函数有距离阈值法、距离反比法、Gauss函数法、截尾型函数法等[24]。扩展的GWR模型可以加入时间变量,将数据的时空特性纳入到回归模型中予以分析,即时空地理加权回归模型[25]。
5.2 GWR的应用董冲亚等[26]采用GWR模型探讨气象因素和大气污染因素影响我国女性肺癌发病的空间属性的状况,发现城乡类型对我国女性肺癌发病的影响强度存在东西地区差异,纬度指向因子(PM10、温度、降水量)影响强度存在南北地区差异。戚晓鹏等[27]使用GWR方法探测淮河流域上消化道肿瘤与各类环境污染因子的关系,发现当地肿瘤高发的深层次原因,为预防控制肿瘤的发生制定了可行的政策和防治措施。Yao等[28]分析了美国泌尿科医生区域分布与前列腺癌死亡率分布的关系,找出了关联强度较高的地区,并指出这些地区应该优先补充泌尿科医生,为合理配置卫生资源提供了依据。
GWR是进行疾病地理相关性研究(生态学研究)的重要方法,可用来研究疾病发病或死亡的空间分布与相关解释变量的关系,对于探索肿瘤的危险因素和病因具有十分重要的作用。
6 小结与展望地理空间分析方法应用于肿瘤流行病学,为描述肿瘤的时空分布及其变化规律提供了新的视角。基于第一次死因调查结果,我国于20世纪70年代末出版了恶性肿瘤地图集[29],第一次详细而直观地描述出我国各种恶性肿瘤的地理分布状况,确定了食管癌、肺癌等高发地区,为我国肿瘤的防治和研究事业奠定了坚实基础。随着我国肿瘤登记系统的不断完善,人群为基础的肿瘤数据质量的不断提高,地理空间分析技术的应用将有助于提升肿瘤数据的利用效率,提高我国对肿瘤流行状况及变化趋势的监测能力,也为肿瘤病因探索和危险因素筛选提供了更多可能。地理空间分析方法的引进将为我国肿瘤流行病学的发展注入新的活力。
[1] | Chen W, Zheng R, Baade PD, et al. Cancer statistics in China, 2015[J]. CA Cancer J Clin, 2016, 66 (2) : 115–32. DOI:10.3322/caac.21338 |
[2] | Wu S, Powers S, Zhu W, et al. Substantial contribution of extrinsic risk factors to cancer development[J]. Nature, 2016, 529 (7584) : 43–7. |
[3] | Xu JK. Analysis and comparison on general geodetic coordinate systems[J]. Hai Yang Ce Hui, 2005, 25 (6) : 71–4. [ 许家琨. 常用大地坐标系的分析比较[J]. 海洋测绘, 2005, 25 (6) : 71–4. ] |
[4] | Yang H. Spatial analysis and modeling[M]. Beijing: Tsinghua University Press, 2013 : 130 -43. [ 杨慧主编. 空间分析与建模[M]. 北京: 清华大学出版社, 2013 : 130-43.] ] |
[5] | Qu CX, Jiang Y, Wu YP, et al. Study on the development of a choropleth atlas on cancer mortality using the inverse distance weight interpolation in the 1990's[J]. Zhonghua Liu Xing Bing Xue Za Zhi, 2006, 27 (3) : 230–3. [ 曲宸绪, 姜勇, 武燕萍, 等. 使用反距离权重内插法绘制中国1990年代肿瘤分布地图[J]. 中华流行病学杂志, 2006, 27 (3) : 230–3. ] |
[6] | Wu K, Li K. Association between esophageal cancer and drought in china by using geographic information system[J]. Environ Int, 2007, 33 (5) : 603–8. DOI:10.1016/j.envint.2007.01.001 |
[7] | Chien LC, Yu HL, Schootman M. Efficient mapping and geographic disparities in breast cancer mortality at the county-level by race and age in the U.S[J]. Spat Spatiotemporal Epidemiol, 2013, 5 : 27–37. DOI:10.1016/j.sste.2013.03.002 |
[8] | Getis A. Spatial Autocorrelation[M]// Fischer MM, Getis A. Handbook of applied spatial analysis: Software tools, methods and applications. Berlin: Springer, 2010: 255-78. |
[9] | Jackson MC, Huang L, Xie Q, et al. A modified version of Moran's I[J]. Int J Health Geogr, 2010, 9 : 33. DOI:10.1186/1476-072X-9-33 |
[10] | Xiong H, Shekhar S. Geary's C[M]// Shekhar S, Xiong H. Encyclopedia of GIS. New York: Springer, 2008: 329-30. |
[11] | Feng JJ, Zhang HG, Hu XJ. The scale dependence of the local Moran's I[J]. Tong Ji Yu Ying Yong, 2015, 4 (3) : 162–8. [ 冯金杰, 张辉国, 胡锡健. 局部Moran's I的尺度依赖性[J]. 统计与应用, 2015, 4 (3) : 162–8. ] |
[12] | Boots B. Local measures of spatial association[J]. Ecoscience, 2002, 9 (2) : 168–76. |
[13] | Ord JK, Getis A. Testing for local spatial autocorrelation in the presence of global autocorrelation[J]. J Regional Sci, 2001, 41 (3) : 411–32. DOI:10.1111/0022-4146.00224 |
[14] | Smith MJD, Goodchild MF, Longley P. Geospatial analysis: A comprehensive guide to principles, techniques and software tools (2nd ed)[M]. Leicester: Metador, 2009 : 187 -8. |
[15] | Wang LC, Ju BQ, Hu YH, et al. Spatial epidemiological analysis on the mortality of gastric cancer in Suzhou, 2012-2013[J]. Zhongguo Zhong Liu, 2014, 23 (11) : 899–902. [ 王临池, 居冰清, 胡一河, 等. 苏州市2012—2013年胃癌死亡空间流行病学分析[J]. 中国肿瘤, 2014, 23 (11) : 899–902. ] |
[16] | Tang XY, Huang TR, Zhu XD, et al. Using spatial autocorrelation analysis to study spatial heterogeneity of liver cancer in Guangxi[J]. Zhonghua Liu Xing Bing Xue Za Zhi, 2009, 30 (2) : 167–70. [ 唐咸艳, 黄天壬, 朱小东, 等. 应用空间自相关分析研究广西壮族自治区肝癌的空间异质性分布特征[J]. 中华流行病学杂志, 2009, 30 (2) : 167–70. ] |
[17] | Rosenberg MS, Sokal RR, Oden NL, et al. Spatial autocorrelation of cancer in Western Europe[J]. Eur J Epidemiol, 1999, 15 (1) : 15–22. DOI:10.1023/A:1007559728848 |
[18] | Kulldorff M. Spatial scan statistics: Models, calculations, and applications[M]. Netherland: Springer, 1999 : 303 -22. |
[19] | Wang PA, Luo WH, Bai YP. Comparative analysis of aggregation detection based on spatial autocorrelation and spatial-temporal scan statistics[J]. Ren Wen Di Li, 2015, 27 (2) : 119–27. [ 王培安, 罗卫华, 白永平. 基于空间自相关和时空扫描统计量的聚集比较分析[J]. 人文地理, 2015, 27 (2) : 119–27. ] |
[20] | Zhou HB, Liu SY, Lei L, et al. Spatio-temporal analysis of female breast cancer incidence in Shenzhen, 2007-2012[J]. Chin J Cancer, 2015, 34 (5) : 198–204. |
[21] | Peng W, Chen Y, Jiang Q, et al. Spatial analysis of hepatocellular carcinoma and socioeconomic status in china from a population-based cancer registry[J]. Cancer Epidemiol, 2010, 34 (1) : 29–33. DOI:10.1016/j.canep.2009.12.013 |
[22] | Jemal A, Kulldorff M, Devesa SS, et al. A geographic analysis of prostate cancer mortality in the United States, 1970-89[J]. Int J Cancer, 2002, 101 (2) : 168–74. DOI:10.1002/(ISSN)1097-0215 |
[23] | Fang Z, Kulldorff M, Gregorio DI. Brain cancer mortality in the United States, 1986 to 1995: A geographic analysis[J]. Neuro Oncol, 2004, 6 (3) : 179–87. DOI:10.1215/S1152851703000450 |
[24] | Brunsdon C, Fotheringham AS, Charlton ME. Geographically weighted regression: A method for exploring spatial nonstationarity[J]. Geogr Anal, 1996, 28 (4) : 281–98. |
[25] | Fotheringham AS, Crespo R, Yao J. Geographical and temporal weighted regression (GTWR)[J]. Geog Anal, 2015, 47 (4) : 431–52. DOI:10.1111/gean.2015.47.issue-4 |
[26] | Dong CY, Kang XP. Analysis of spatial factors of women's lung cancer incidence in China: A geographically weighted regression model approach[J]. Huan Jing Yu Jian Kang Za Zhi, 2014, 31 (9) : 769–72. [ 董冲亚, 康晓平. 基于地理加权回归模型的我国女性肺癌发病空间影响因素分析[J]. 环境与健康杂志, 2014, 31 (9) : 769–72. ] |
[27] | Qi XP, Ji W, Ren HY, et al. Model Analysis of Upper Digestive Tract Cancer and Environmental Pollution in Huaihe River Watershed[J]. Di Qiu Xin Xi Ke Xue Xue Bao, 2012, 14 (4) : 432–41. [ 戚晓鹏, 计伟, 任红艳, 等. 淮河流域上消化道肿瘤与环境污染的模型分析[J]. 地球信息科学学报, 2012, 14 (4) : 432–41. ] |
[28] | Yao N, Foltz SM, Odisho AY, et al. Geographic analysis of urologist density and prostate cancer mortality in the United States[J]. PLoS One, 2015, 10 (6) : e0131578. DOI:10.1371/journal.pone.0131578 |
[29] | Editorial Committee for the Atlas of Cancer Mortality in the People's Republic of China. Atlas of cancer mortality in the People's Republic of China[M]. Shanghai: China Map Press, 1979 : 1 -99. [ 中华人民共和国恶性肿瘤地图集编辑委员会主编. 中华人民共和国恶性肿瘤地图集[M]. 上海: 中华地图学社, 1979 : 1-99.] ] |