中国公共卫生  2017, Vol. 33 Issue (7): 1033-1037   PDF    
多水平模型在肝癌死亡病例与关联因素生态学分析中应用
贾丽军1,2, 于石成1, 胡跃华1, 徐成东3, 冯国双4, 么鸿雁1, 李旭东1, 刘韫宁5    
1. 中国疾病预防控制中心流行病学办公室, 北京 102206;
2. 中国疾病预防控制中心研究生院;
3. 中国科学院地理科学与资源研究所;
4. 北京儿童医院;
5. 中国疾病预防控制中心慢性非传染性疾病预防控制中心
摘要目的 分析肝癌死亡病例的生态学关联因素,为卫生行政部门了解肝癌死亡病例的关联因素、合理配置卫生资源提供依据。方法 利用全国疾病监测系统161个死因监测点的肝癌死亡监测资料、乙肝和丙肝报告发病数据、乙肝血清流行病学调查数据、全国行为危险因素调查数据和有关社会经济指标,采用三水平超Poisson方差模型,以肝癌死亡病例作为第一水平,161个区县作为第二水平,省(自治区、直辖市)作为第三水平,分析肝癌死亡病例的生态学关联因素;应用SAS 9.4和MLwiN 2.30软件,进行单因素和多因素分析,拟合三水平超Poisson方差随机截距模型。结果 同省(自治区、直辖市)不同性别、年龄组间的肝癌死亡率不同,且年龄组间肝癌死亡率的差异在不同性别间也不同,性别与年龄之间存在交互作用;多水平模型在三、二水平的随机截距均有统计学意义,即肝癌死亡在不同省(自治区、直辖市)、不同区县水平上差异均有统计学意义;多因素分析结果显示,在岗职工平均工资、乙肝表面抗原阳性率、乙肝发病率、丙肝发病率、性别、年龄、性别与年龄交互项与肝癌死亡病例之间存在独立的生态学关联关系。结论 在岗职工平均工资高与肝癌死亡病例呈负关联关系;乙肝表面抗原阳性率、乙肝和丙肝报告发病率与肝癌死亡病例呈正关联关系;男性、高年龄组与肝癌死亡病例呈正关联关系。
关键词肝癌     关联因素     生态学研究     多水平超Poisson方差模型     数据综合分析    
Application of multilevel model to ecological study on liver cancer deaths and associated factors
JIA Li-jun, YU Shi-cheng, HU Yue-hua, et al     
Office of Epidemiology, Chinese Center for Disease Control and Prevention, Beijing 102206, China
Abstract: Objective To analyze ecological associated factors of liver cancer deaths and to provide evidences for rational allocation of health resources by health administrators. Methods The study involved 161 counties or districts across China covered by National Disease Surveillance System.The collected data include:liver cancer mortality, hepatitis B and hepatitis C incidence, prevalence of hepatitis B virus (HBV) serological markers, prevalence of behavior risk factors, and relevant social and economic indicators.A three-level extra-Poisson variance model (liver cancer deaths as the first level, 161 study sites as the second level, and the province/autonomous region/municipality directly under the central government as the third level) was adopted to analyze ecological factors associated with liver cancer deaths.SAS 9.4 and MLwiN 2.30 software were used in statistical analyses; the three-level extra-Poisson variance random intercept model was fitted. Results There were gender and between age differences in liver cancer mortality and interactive effect of age and gender on liver cancer mortality for the counties or districts in a same province/autonomous region/municipality.The random intercept of multilevel model was of statistical significance at county/district level and province/autonomous region/municipality level, suggesting that there were significant difference in liver cancer mortality between counties or districts and between provinces/autonomous regions/municipalities.The results of multiple factors analysis revealed that liver cancer mortality was independently and ecologically associated with average wage of on-the-job workers, the prevalence of HBV surface antigen (HBsAg), reported incidence rate of hepatitis B, reported incidence rate of hepatitis C, gender, age, and the interaction between gender and age. Conclusion Higher average wage of on-the-job workers is reversely correlated with liver cancer mortaltiy; while prevalence rate of HBsAg, reported incidence rate of hepatitis B and hepatitis C, male gender, and elder age are positively correlated with liver cancer mortality.
Key words: liver cancer     associated factor     ecological study     multi-level extra-Poisson variance model     comprehensive analysis of data    

GLOBOCAN2012数据库显示,肝癌是世界第6位常见的恶性肿瘤,也是导致死亡的第2位肿瘤;而中国肝癌死亡人数占世界肝癌死亡人数的50%[1]。肝癌在中国所有恶性肿瘤中的发病与死亡顺位分别为第4位、第2位,仅次于肺癌[2-3]。可见,肝癌是危害人类健康的主要恶性肿瘤之一,肝癌发病率随着年龄升高而升高,一般男女发病比为3:1[4]。研究表明,肝癌发生的原因主要包括生物感染、化学因素、个体因素、遗传因素四大类[4]。主要发病危险因素有乙型肝炎病毒(hepatitis B virus,HBV)[5]、丙型肝炎病毒(hepatitis C virus,HCV)[6]、乙肝表面抗原阳性[7]、黄曲霉毒素[8]、饮水污染[9]、饮酒[10]及遗传因素[11]等;社会经济因素对肝癌发病或死亡也有影响,有研究显示,高收入是肝癌发生或死亡的保护因素[12-13]

本研究利用多源数据,包括肝癌死亡病例的年龄和性别,区县水平乙型肝炎和丙型肝炎的报告发病率,以及省级水平的社会经济、行为危险因素和生物学指标:省国民生产总值(gross domestic production, GDP)、人均地区GDP、居民消费水平、城镇居民消费水平、农村居民消费水平、在岗职工平均工资、城镇居民家庭人均可支配收入、农村居民家庭人均纯收入、45岁以上人口比重、医院合计数、医疗卫生机构床位数、日均饮酒量和乙肝表面抗原阳性率,采用三水平超Poisson方差模型,系统分析肝癌死亡病例的关联因素,旨在为肝癌发病或死亡危险因素的识别提供线索,并为肝癌一级预防措施的制定提供参考依据。

1 资料与方法 1.1 资料来源

2012年省级、地市级和区县人口数据及分年龄组人口数据来源于国家统计局的人口抽样数据;2012年覆盖全国31个省(自治区、直辖市)的161个死因监测点的肝癌死亡病例数据来自中国疾病预防控制中心全国疾病监测系统;2012年中国大陆区县的乙肝、丙肝报告发病数据来源于中国疾病预防控制中心法定传染病疫情管理系统;全国各省(自治区、直辖市)社会经济指标数据来自2013中国统计年鉴和中国知网(China National Knowledge Infrastructure, CNKI)中国经济与社会发展统计数据库;全国各省(自治区、直辖市)乙肝病毒血清学标志物检测数据和居民日均饮酒量数据分别来源于2006年全国人群乙型病毒性肝炎血清流行病学调查报告和2010年全国行为危险因素调查。

1.2 方法

按2012年161个死因监测点整理肝癌死亡病例信息,并从法定传染病疫情管理系统提取161个死因监测点乙肝和丙肝报告发病数,计算性别、年龄别乙肝和丙肝发病率、肝癌死亡率。西藏自治区江孜县无2012年肝癌死亡数据和丙肝发病数据,米林县、墨竹工卡县无丙肝报告发病数据。由于江孜县亦无2011年肝癌死亡数据,采用2010年肝癌死亡数据。江孜县、米林县和墨竹工卡县的丙肝发病数据均以缺失值的形式录入数据库。根据文献[14],将年龄组分为0~44岁组(青年组)、45~59岁组(中年组)、60~74岁组(较老年组)和75岁以上组(老年组)。按照《中国海洋统计年鉴2013》[15],中国(港、澳、台除外)沿海地区包括8个省、1个自治区和2个直辖市,分别为河北、辽宁、江苏、浙江、福建、山东、广东、海南、广西壮族自治区、天津、上海,本研究将沿海地区和内陆地区作为二分类变量纳入模型。然后将分性别、分年龄组所对应的区县水平的指标信息分类汇总,并按照行政区域编码与省级水平的社会经济指标信息匹配。整理后,地区、性别为二分类变量,年龄为四分类变量,其他指标均为三分类变量(以三分位数划分);分类变量均以哑变量的形式纳入模型。

1.3 统计分析

采用SAS 9.4、MLwiN 2.30和Excel软件进行统计分析,检验水准为α=0.05。因变量肝癌死亡病例数属于计数数据,且肝癌发生或死亡在人群中为罕见事件;同时,161个死因监测点的肝癌死亡病例信息是个体水平的数据(1水平),乙肝和丙肝报告发病率为区县水平的数据(2水平),社会经济指标为省级水平的数据(3水平),故选用三水平Poisson回归模型来探讨肝癌死亡病例的关联因素。

1.3.1 三水平Poisson回归随机截距模型

设因变量y服从参数为λ的Poisson分布,影响λ取值的m个因素为x1x2,…, xm。在广义线性模型中,对服从Poisson分布的因变量,连接函数一般取为自然对数,则三水平Poisson回归随机截距模型为:

其中,offset为偏移量,cons为常数项;i=1, 2…,njk,表示水平1单位;j=1, 2,…,nk,表示水平2单位;k=1,2,…,K,表示水平3单位;xijk分别为第k个水平3单位的第j个水平2单位的第i个水平1单位的反应变量估计值和解释变量观测值,β0jk为截距,eijk为通常的随机误差项;v0k表示第k个水平3单位的反应变量平均估计值与平均截距的差值或截距的随机效应,u0jk表示第k个水平3单位的第j个水平2单位的反应变量平均估计值与平均截距的差值或截距的随机效应[16-17]

1.3.2 三水平超Poisson方差模型

本研究应用Poisson模型预测的方差大于其均数,即存在过离散现象[17-18],故选用三水平超Poisson方差模型。本文拟合三水平超Poisson方差模型的过程[19-20]为(1) 单因素分析:在仅含截距项的单水平超Poisson方差模型中逐个纳入水平3、水平2和水平1解释变量;(2) 单水平多因素分析:根据各指标间相关性的统计学检验和相关专业知识,将单因素分析中与肝癌死亡病例有关联关系的指标全部纳入单水平超Poisson方差模型;(3) 拟合三水平超Poisson方差随机截距模型:在单水平超Poisson方差模型的基础上增加截距项的随机效应,并比较两者的水平1方差大小。

2 结果 2.1 描述性结果

全国2012年161个死因监测点的肝癌死亡人数为18 843人,死亡率为24.40/10万。其中,男性肝癌死亡人数为13 962人,死亡率为35.49/10万;女性肝癌死亡人数为4 881人,死亡率为12.89/10万;男性肝癌死亡率高于女性。

2.2 模型拟合结果 2.2.1 单因素模型拟合(表 1)

结果显示,卫生技术人员数、医疗卫生机构床位数、乙肝表面抗原阳性率、乙肝发病率、丙肝发病率、性别、年龄与肝癌死亡病例存在关联关系;而地区、省GDP、人均地区GDP、居民消费水平、城镇居民消费水平、农村居民消费水平、在岗职工平均工资、城镇居民家庭人均可支配收入、农村居民家庭人均纯收入、45岁以上人口比重、医院合计数、日均饮酒量与肝癌死亡病例的关联关系无统计学意义(P<0.05)。

表 1 超Poisson方差模型拟合单因素分析

2.2.2 多因素模型拟合(表 2)

结果显示,同省不同性别、年龄组间的肝癌死亡率不同,且年龄组间肝癌死亡率的差异在不同性别间也不同,故需在模型中考虑性别与年龄的交互项。分别拟合单水平超Poisson方差模型和三水平超Poisson方差随机截距模型。随机截距模型较单水平模型的1水平方差更小,表明三水平超Poisson方差随机截距模型拟合优度更好。结果显示,在岗职工平均工资、乙肝表面抗原阳性率、乙肝发病率、丙肝发病率、性别、年龄、年龄与性别交互项与肝癌死亡病例存在关联关系。

表 2 三水平超Poisson方差模型拟合结果

3 讨论

本研究使用多源数据,探讨了肝癌死亡病例与因素的生态学关联,并没有因果关系,但这种联系可提供肝癌发病或死亡的关联因素,为病因研究提供线索。另外,结合数据的特点,使用多水平模型也是合适的方法,为多源数据的综合分析提供方法学借鉴。本研究使用三水平超Poisson方差随机截距模型,虽然负二项方差模型也能够解决资料过离散问题,但实际工作中,一般不以负二项分布或超负二项分布模型的拟合结果作为对实际资料的最终解释,而拟合超Poisson方差模型,因为过离散方差的来源常常未知[17]

本研究单因素分析结果显示,地区变量、45岁以上人口比重、日均饮酒量及多数社会经济指标与肝癌死亡病例无生态学关联,可能与下列原因有关:(1) 收集到的社会经济指标是省层面的数据,代表性不如区县层面的数据或个体水平变量,统计分析结果的准确性受影响;(2) 这些解释变量在不同省份对肝癌死亡病例的关联关系可能不同,如有些属于沿海地区省份的肝癌标化死亡率低于某些内陆地区的省份,而另外一些沿海地区省份的肝癌标化死亡率高于某些内陆地区省份;又如45岁以上人口比重低于35.87%的省份,其肝癌标化死亡率比45岁以上人口比重高于35.87%的省份高;(3) 本研究某些指标本身不构成与肝癌死亡病例的关联因素。如日均饮酒量的最大值为12.27 g/d,而有研究显示, 乙醇摄入量20 g/d为适量饮酒[21-22],虽然国际上相对安全的饮酒界限可能对不同种族的群体适用情况不同,但这很有可能是本研究中日均饮酒量与肝癌死亡病例无生态学关联的原因。

省GDP、人均地区GDP、居民消费水平、城镇居民消费水平、农村居民消费水平、在岗职工平均工资、城镇居民家庭人均可支配收入、农村居民家庭人均纯收入这些变量均可不同程度地代表某省经济发展水平,而且在连续变量的情况下两两之间相关性均具有统计学意义,甚至呈高度相关;虽然在单因素分析中这些经济指标与肝癌死亡病例的关联关系均无统计学意义,但为使模型拟合更优,且在岗职工平均工资作为最接近个体水平的变量,其参数估计值为负值,故考虑将此变量纳入多变量分析中。医院合计数、卫生技术人员数、医疗卫生机构床位数这些变量可在一定程度上代表某省的医疗卫生水平,但卫生技术人员数和医疗卫生机构床位数高度相关,且这2个变量与肝癌死亡病例的多少可能互为因果关系,因此其参数估计值为正值,需要用工具变量技术进行深入分析。

肝癌死亡资料为2012年161个死因监测点的报告数据,所用社会经济指标也是同年的,这里未考虑滞后间隔时间的影响,假设肝癌死亡病例关联因素的地区分布在一个较长时间里恒定或变化不大,实际中,肝癌危险因素如黄曲霉毒素、遗传等因素数据难以获取,本研究采用2012年全国各区县乙肝、丙肝报告发病率数据,2010年全国各省日均饮酒量数据和2006年开展的全国人群乙型病毒性肝炎血清流行病学调查数据。虽然饮酒数据和乙肝血清流调数据有数年的提前,但由于饮酒作为一种地区文化、风俗习惯受时间的影响较小,这种提前对结果不会影响很大。另外,乙肝血清流调数据是原卫生部在全国范围内开展乙肝流行病学调查的第一手资料,调查样本量大、代表性好,可为当前研究提供历史借鉴。

本研究结果显示,在岗职工平均工资、乙肝表面抗原阳性率、乙肝发病率、丙肝发病率、性别、年龄、年龄与性别的交互项与肝癌死亡病例有生态学关联关系。在一定条件下,在岗职工平均工资高与肝癌死亡病例呈负关联;乙肝表面抗原阳性率、乙肝和丙肝发病率与肝癌死亡病例呈正关联;男性、高年龄组与肝癌死亡病例呈正关联。有关部门可有针对性地制定相应措施和策略,提高人群肝癌防治效果。

参考文献
[1] Ferlay J, Soerjomataram I, Dikshit R, et al. Cancer incidence and mortality worldwide:sources, methods and major patterns in GLOBOCAN 2012[J]. International Journal of Cancer, 2014, 136(5): E359–E386.
[2] 中国疾病预防控制中心慢性非传染性疾病预防控制中心. 全国疾病监测系统死因监测数据集2012[M]. 北京: 科学普及出版社, 2013.
[3] 叶胜龙. 2013年肝癌领域新进展[J]. 中华肝脏病杂志, 2013, 21(3): 167–169.
[4] 中国疾病预防控制中心流行病学办公室. 癌症专刊(八, 九)[J]. 流行病学通讯, 2010, 4(1, 2): 1–23.
[5] Su CH, Lin Y, Cai L, et al. Association between mannose-binding lectin variants, haplotypes and risk of hepatocellular carcinoma:a case-control study[J]. Scientific Reports, 2016, 6: 32147. DOI:10.1038/srep32147
[6] 蔡旭玲, 陈思东, 郜艳晖. 肝癌主要危险因素及其协同作用研究进展[J]. 公共卫生与预防医学, 2008, 19(1): 53–55.
[7] 陈建国, 陆建华, 朱源荣, 等. 乙型肝炎病毒感染与肝癌发生的31年随访研究[J]. 中华流行病学杂志, 2010, 31(7): 721–726.
[8] 孙桂菊, 钱耕荪, 金锡鹏. 肝癌高发地区人群黄曲霉毒素暴露水平的评估[J]. 东南大学学报:医学版, 2002, 21(1): 118–122.
[9] 蔡永娥, 乔建锦, 孙晓茹, 等. 我国原发性肝癌研究进展[J]. 现代肿瘤学, 2008, 16(1): 141–143.
[10] 裴广军, 付莉, 崔亚玲, 等. 中国人群饮酒与原发性肝癌关系的Meta分析[J]. 现代预防医学, 2008, 35(14): 2626–2627. DOI:10.3969/j.issn.1003-8507.2008.14.007
[11] 米登海, 罗好曾, 陈学鹏, 等. 肝癌遗传模式与危险因素病例-对照研究[J]. 中国公共卫生, 2006, 22(7): 849–850. DOI:10.11847/zgggws2006-22-07-49
[12] 邹长林, 陈哲京, 金文扬, 等. 肝癌发病与社会因素关系的病例对照研究[J]. 中国行为医学科学, 2003, 12(2): 181–182.
[13] 陈丹丹, 刘媛, 姬旭慧, 等. 原发性肝癌发病影响因素的病例对照研究[J]. 郑州大学学报:医学版, 2013, 48(2): 249–253.
[14] 联合国世界卫生组织. 人类年龄段划分新标准[J]. 现代养生, 2005(9): 16.
[15] 王宏, 李强. 中国海洋统计年鉴2013[M]. 北京: 海洋出版社, 2014: 27-43.
[16] 孙振球, 徐勇勇. 医学统计学[M]. 北京: 人民卫生出版社, 2014: 273-279.
[17] 杨珉, 李晓松. 医学和公共卫生研究常用多水平统计模型[M]. 北京: 北京大学医学出版社, 2007: 6-125.
[18] 曾平, 赵晋芳, 刘桂芬. Poisson回归中过度离散的检验方法[J]. 中国卫生统计, 2011, 28(2): 211–212.
[19] 王济川, 谢海义, 姜宝法. 多层统计分析模型-方法与应用[M]. 北京: 高等教育出版社, 2008: 127-190.
[20] 冯国双, 刘德平. 医学研究中的logistic回归分析及SAS实现[M]. 北京: 北京大学医学出版社, 2015: 122-140.
[21] Dunn W, Sanyal AJ, Brunt EM, et al. Modest alcohol consumption is associated with decreased prevalence of steatohepatitis in patients with non-alcohol fatty liver disease(NAFLD)[J]. Journal of hepatology, 2012, 57(2): 384–391. DOI:10.1016/j.jhep.2012.03.024
[22] 范建高, 朱军, 李新建, 等. 上海市成人饮酒与代谢综合征关系的流行病学调查[J]. 肝脏, 2005, 10(1): 11–15.