2. 北京联合大学应用文理学院
目前,数学模型已成为疾病预防、政府决策以及卫生干预方案效果评价必不可少的工具,其中个体水平的糖尿病发生和糖尿病并发症发生风险预测模型〔1, 2〕在高危人群识别上,已经逐渐被人们所接受〔3〕,美国糖尿病协会曾举办过多次糖尿病及其并发症建模大会〔4〕。本研究对糖尿病相关数学模型建立方法的研究进展进行了综述。
1 多元回归模型多元回归模型是应用比较广泛的一种模型建立方法,既可以横断面分析群体水平糖尿病危险因素〔5〕;也可以用于队列资料预测个体水平糖尿病的发病风险〔6〕。
应用Logistic回归建立糖尿病个体水平预测模型对资料的要求比较宽松,模型建立方法简单,通过常用统计软件均可实现。模型因变量是发生糖尿病和不发生糖尿病概率之比的自然对数,很容易获得未来一定时间发生糖尿病或者某种并发症的概率。自变量可以是分类资料也可以是连续变量。目前利用前瞻性研究,采用非条件Logistic回归建立的数学模型应用最为广泛,可用于糖尿病筛查、糖尿病并发症预测和糖尿病卫生经济学评价。可以获得非糖尿病病人若干年后糖尿病患病风险,识别高危人群;不同糖尿病治疗方案对今后若干年糖尿病并发症的发生概率影响等成本效益分析。如Framingham O ffspring研究就用危险因素评分法以Logistic回归建立了非糖尿病病人10年发生糖尿病可能性的预测模型〔7〕。在糖尿病并发症预测模型的建立中,则以新发糖尿病病人为对象,根据该病人的相关危险因素和治疗信息预测若干年后不同并发症发生概率及死亡概率。并可针对个体不同危险因素干预和不同治疗方案确定个性化干预措施。如英国前瞻性糖尿病预测模型(UKPDSModels)采用Log istic组合方程预测糖尿病和非糖尿病相关死亡〔8〕。在卫生经济学评价模型建立中,可以针对社区健康人群进行糖尿病筛查的卫生经济学评价,也可以糖尿病病人为对象,进行不同治疗方案和干预措施的卫生经济学评价。 2决策树模型决策树(decisiontree)模型是对偶然事件或者决策按照时间顺序列出所有由此而引发的不同结果绘制成图形,由于这个图形就像一棵树干,故称为决策树。每一个偶然事件都给分配一个概率,这种概率是一个静态概率,这也是决策树的缺点所在。对于慢性病而言,随机事件的发生经常随年龄、健康状况和时间不同而发生改变,因此很少应用于慢性病研究,如糖尿病。Tsipouras等〔9〕和Toussi等〔10〕分别采用决策树建立了糖尿病临床治疗决策方法,提高了糖尿病诊治效率和诊断的准确率。Gillies等〔11〕用决策树结合Markov模型建立了一种混合模型,用于评估糖尿病筛查和不同干预策略的卫生经济学评价。
实质上,决策树只是一种决策方法,或者说是一种建模思路,一般并不单独用于模型的建立,而是用其他建模方法,按照决策树的思路建立一个混合模型。
3 状态转移模型(Markov模型)糖尿病的发生是多种因素长期作用的结果,而每一种影响因素包括治疗干预和治疗的作用强度均可随着时间而改变。Markov模型的优点就是可以赋予每一种影响因素能在不同时间设定不同的转移概率,较为符合糖尿病发生过程。 这种模型也叫状态转移模型,可以用来模拟糖尿病的形成和糖尿病并发症形成的长期进程,甚至整个生命过程。糖尿病治疗的近期效果往往与患者远期预后、生命质量甚至期望寿命及将来的治疗费用密切相关,用Markov模型结合临床试验资料,估计临床干预的远期效果可为临床决策者提供宝贵信息。因此,大多数糖尿病临床模型和成本效益分析模型都以 Markov模型为基础。但单独使用Markov模型会出现记忆衰减,且各种并发症的出现会相互影响,使其对糖尿病并发发生的实际过程模拟上有一定缺陷。结合Monte Carlo模拟分析法则可以赋予Markov模型记忆功能,克服了标准Markov模型记忆衰减的可能性,同时允许各种并发症相互影响,较接近糖尿病治疗的实际情况〔12〕,也可以得到人群的期望寿命,但该方法运算复杂。有些则使用Markov ChainMonte Carlo模拟来建立模型,用于糖尿病各种并发症的预测和成本效益分析〔13, 14〕。也有人建立了以社区为基础的多阶段糖尿病筛查和死亡预测模型〔15〕。我国学者李锐也应用Monte Carlo模型进行了糖尿病筛查成本效益分析〔16〕。
在用Markov模型预测个体水平事件的过程中,需要把整个时间序列划分成不同状态,不同的划分标准可能会导致不同的预测结果,因此,状态划分应根据不同实际情况慎重选择,尽可能科学合理,不宜划分过少。另外用arkov模型预测个体水平事件对数据要求与Logistic不同,需要的是一个时间序列,时间跨度不宜过短。
4 Cox比例风险模型在糖尿病相关预测模型中,Cox比例风险模型应用较多,无论是糖尿病发病风险评估,还是糖尿病并发症风险评估和糖尿病的死亡率评估都有应用。这主要是由于Cox比例风险模型能有效利用结局变量所经历的时间信息,可以分析删失数据,比较符合队列研究的实际情况。糖尿病发病风险评估主要是为了识别高危人群,对高危人群有针对性地进行干预。 如Mathias等〔17〕和Chien〔18〕分别用Cox比例风险模型建立了适合德国人群和中国人群的糖尿病发病风险预测模型,Julia Hippisley-Cox〔19〕建立了QDScore模型,都是采用Cox比例风险模型获得相关变量RR值后,转化形成危险评分,避免了数学公式推广应用的局限性,对任何一个人按照评分规则对模型变量进行评分,就可获得今后若干年的糖尿病发病概率。 简单明了,无论是普通居民还是专业人士均可轻松做出自己未来患糖尿病的概率,进而采取相应措施。许多糖尿病并发症预测模型和糖尿病病人死亡风险模型也是基于Cox比例风险模型建立的,如Cardiff糖尿病并发症预测模型、 Sheffield糖尿病并发症预测模型和卫生经济学评价模型等〔20, 21〕,可以预测糖尿病大血管、微血管、神经系统和糖尿病足等各种并发症的发生概率。Kostraba〔22〕则用Cox 比例风险模型预测了糖尿病病人死亡概率。我国也有学者引用Cox回归模型建立了糖尿病病人个体预后的预测模型,并将糖尿病病人分为不同危险因素等级,便于高危人群的管理和治疗〔23〕。
在用Cox比例风险模型建立糖尿病发病概率、糖尿病并发症发生概率或者是成本效益分析时,要求观测起点到终点进行连续观测,确定每一观测对象的结局,并计算相应的人年数,应用该法建立模型,对数据要求高,追踪时间不宜过短,成本较高。
5 人工神经网络人工神经网络(ANN)是20世纪80年代中期基于大脑和神经系统研究而建立的一种计算模型,由许多并行计算、功能简单的单元按照一定的层次排列组成,具有很强的自组织、 自适应和容错能力等特征,在处理非线性问题上,具有独特的优越性。广泛应用在肿瘤、心脏病、糖尿病等慢性病的预测。 如Prez-Ganda等〔24〕用人工神经网络建立了糖尿病病人高血糖事件预测模型。高蔚等〔25〕以糖尿病流行病学调查资料为基础,用人工神经网络模型,对糖尿病的相关危险因素进行了分析,模型中纳入了多达21个危险因素,与之相比Logistic 回归只纳入了7个危险因素。神经网络模型与Logistic模型在纳入少量变量的情况下,预测效能相似,Logistic模型较为简洁,却提供了较好的模型特征的解释性〔26〕。我国也有学者用人工神经网络模型研究了糖尿病并发症的危险因素,认为人工神经网络能克服单因素和多因素Logistic回归分析对资料的过多限制,能较好处理共线性问题,正确反映因素的作用方式及程度,在流行病学病因研究中具有其独特的应用优势〔27〕。甚至有人用身体活动、饮食、压力以及胰岛素的使用情况等预测糖尿病病人的血糖水平,达到了较高的预测精度,并且在不同个体得到了验证〔28〕。Zarkogianni等〔29〕用人工神经网络建立了糖尿病病人胰岛素注射量的查询系统。
6 其他方法糖尿病相关预测模型的建立方法较多,除了上述几种主要方法外,也有人用可加模型、Gompertz模型和模糊模型建立了糖尿病、糖尿病并发症发生概率的预测模型〔30, 8, 31〕。 在实际应用中,各种方法可以相互嵌套,混合使用。如著名的英国UKPDS模型就是使用Gompertz结合Logistic回归建立的糖尿病并发症预测模型,可以预测心脏病、肾病、眼底疾病、末梢神经病变等多种并发症发生概率和相关成本效益〔8〕。Rosato等〔30〕用Cox比例风险模型和Aalen可加回归模型以Markov链预测不用胰岛素治疗的2型糖尿病病人死于心血管并发症的危险。研究发现,对于具有较好形体指数的年轻患者,Cox比例风险预测模型和Aalen相加回归预测模型几乎一样,但对于形体指数较差的患者而言,预测结果不同。 提示Aalen相加回归心血管疾病死因预测模型优于Cox比例风险模型。Ghazavi等〔31〕用3种模糊模型方法对Pima Indians糖尿病数据进行挖掘,使其最好精确度达到了77.65%,仅比实际检测数据低0.13%。Wilson等〔32〕分别用Log istic和Cox 模型建立了未来10年个体水平糖尿病发生的预测模型,发现 2种建立方法建立的模型预测能力几乎一样。所以,不同模型建立方法对于模型的预测能力影响并不重要。
如何在个体水平建立糖尿病发病风险或者糖尿病并发症风险模型,可根据模型建立目的、结合数据特点和模型使用对象综合考虑,来选择建模方法。(1)一般来说,Logistic模型对数据要求较低,只需要起点变量和终点结局,而Cox模型则需要连续观测数据,如果数据条件能够达到Cox模型所需要求,则尽可能用Cox模型,可以充分利用数据信息。(2)从模型纳入的变量数量来看,变量越少,尤其是创伤性检测指标越少,应用范围越广;(3)从模型表达方式来看,模型表达越简单,其推广使用价值越大,如可以通过Logistic或者Cox模型获得RR值之后,转化成各个影响因素危险评分。(4)从模型的验证方法上来看,一般根据预测的敏感度、特异度和使用目的选择,也可通过ROC曲线移动切点优化预测效能。
7 展 望目前,从糖尿病个体水平预测模型建立方法来看,都是基于一个前瞻性的研究建立的。从一个健康个体到糖尿病发生或者一个糖尿病到各种并发症的发生,需要较长时间。所以,模型建立数据应该有一定的时间跨度。一般来说都需要花费至少5~10年的时间收集个体的相关变量,较为费时费力。 纳入变量的多少根据基线收集的变量数量和所用建模方法不同有所差异。研究初始阶段收集的变量越多,越全面,模型的预测能力越好〔33〕。一般而言,Logistic回归模型要求各变量之间相互独立,纳入的变量较少,而神经网络模型则可以同时纳入很多变量。而对于新发现的危险因素,要想纳入模型,Logistic模型、决策树模型、Markov模型、Cox比例风险模型和人工神经网络都无法完成,这些模型纳入的变量必须在研究进行时就要开始收集。然而由Biosignia〔34〕公司建立的合成分析模型建立方法,则可以在现有模型的基础上纳入新发现的危险因素。可以提高模型的预测能力,避免了重新进行前瞻性研究,能够大大节省时间和精力,这种方法可望在糖尿病发病的个体水平预测探索出新途径。
| 〔1〕 | Mann DM,Bertoni AG,Shmibo D,et al. Comparative validity of 3 diabetes mellitus risk prediction scoring models in amultiethnic U S cohort: the Multi-Ethnic Study of Atherosclerosis[J].Am J Epidemiol,2010,171(9):980-988. |
| 〔2〕 | Almeda-Valdes P,Cuevas-Ramos D,Mehta R,et al.UKPDS Risk Engine,decode and diabetes PHD models for the estmiation of cardiovascular risk in patients with diabetes[J].Curr Diabetes Rev,2010,6(1):1-8. |
| 〔3〕 | Jonathan B.Compute-rsimulated modelling in the management of diabetes[J].Diabetes Voice,2003,48(4):33-35. |
| 〔4〕 | Mount Hood 4 Modeling Group.Computer modeling of diabetes and its complications:a report on the Fourth Mount Hood Challenge Meeting[J].Diabetes Care,2007,30(6):1638-1646. |
| 〔5〕 | 舒占坤,蔡乐,叶亚怀,等.石林县农村居民糖尿病患病影响因素分析[J].中国公共卫生,2009,25(12):1529-1530. |
| 〔6〕 | Mehlsen J,Erlandsen M,Poulsen PL,et al. Individualized optmiization of the screening interval for diabeticret inopathy:a new model[J].Acta Ophthamlol,2010,88(4):1-14. |
| 〔7〕 | Nichols GA,Brown JB.Val idating the Framingham Off spring Study equations for predicting incident diabetes mellitus[J].Am J Manag Care,2008,14(9):574-580. |
| 〔8〕 | Clarke PM,Gray AM,Briggs A,et al. Amodel to estmiate the lifetmie health out comes of patients with type 2 diabetes:the United Kingdom Prospective Diabetes Study(UKPDS)Outcomes Model(UKPDS no.68)[J].Diabetologia,2004,47(10):1747-1759. |
| 〔9〕 | Tsipouras M G,Exarchos TP,Fotiadis D.IAutomated creation of transparent fuzzy models based on decision trees-app lication to diabetes diagnosis[J].Conf Proc IEEE EngMed Biol Soc,2008:3799-3802. |
| 〔10〕 | Toussi M,Lamy JB,Le Toumelin P,et al.Using data mining techniques to explore physiciansp therapeutic decisions when clinical guidelines do not provide recommendations:methods and example for type 2 diabetes[J].BMC Med Inform Decis Mak,2009,9:28. |
| 〔11〕 | illies CL,Lambert PC,Abram s K R,et al. Different strategies for screening and prevention of type 2 diabetes in adults:cost effectiveness analysis[J].BMJ,2008,336(7654):1180-1185. |
| 〔12〕 | Br¼ndle M,Herm an WH.The CORE diabetes model[J].Curr Med Res Opin,2004,20(s1):S1-S3. |
| 〔13〕 | Andrew J,William J,Michael E,et al.The CORE diabetes model:projecting long-term clinical out comes,costs and cos-teffectiveness of interventions in diabetesmel litus(types 1 and 2)to support clinical and remi bursement decision-making[J].CurrMed Res Opin,2004,20(s1):S5-S26. |
| 〔14〕 | lmer A J,Valentine W J,Chen R,et al.Ahealth economic analysis of screening and optmial treatment of nephropathy in patients with type 2 diabetes and hyp ertension in the USA[J].Nephrol Dial Transplant,2008,23(4):1216-1223. |
| 〔15〕 | Kuo H S,Chang H J,Chou P,et al. A Markov chain model to assess the efficacy of screening for non-insulin dependent diabetes mellitus(NIDDM)[J].Int.J Epidemiol,1999,28:233-240. |
| 〔16〕 | 王振果,俞顺章.M on te Carlo模型在糖尿病筛查成本效益分析中的应用[J].中国公共卫生管理,2003,19(3):172-176. |
| 〔17〕 | chulze M B,Hofmfann K,Boeing H,et al.Anaccurate risk score based on anthropometric,dietary,and lifestyle factors to predict the development of type 2 diabetes[J].Diab etes Care,2007,30(3):510-515. |
| 〔18〕 | Chien K,Cai T,H su H,et al.Aprediction model for type 2 diabetes risk among Chinese people[J].Diabetologia,2009,52(3):443-450. |
| 〔19〕 | Hippisley-Cox J,Coupland C,Robson J,et al. Predicting risk of type 2 diabetes in England and Wales:prospective derivation and validation of QD Score[J].BMJ,2009(338):b880. |
| 〔20〕 | Kothari V,Stevens R J,Adler A I,et al. Risk of stroke in type 2 diabeteses tmiated by the UK Prospective Diabetes Study Risk Engine(UKPDS 60)[J].Stroke,2002,33:1776-1781. |
| 〔21〕 | aikou M,McGuire A,Colhoun HM,et al. Cos-teffectiveness of primary prevention of cardiovascular disease with atorvastatin in type 2 diabetes:results from the Collaborative Atorvastat in Diabetes Study(CARDS)[J].Diabetologia,2007,50(4):733-740. |
| 〔22〕 | Kostraba JN,Dorman JS,LaPorte RE,et al. The investigation of age at onset as a risk factor for mortality in persons with in sulin-dependent diabetes mellitus using Coxproportional hazards models[J].Am J Epidemiol,1991,133(1):67-72. |
| 〔23〕 | 王翠玲,刘美娜,李永泉.2型糖尿病并发慢性病患者的生存分析[J].中国公共卫生,2005,21(2):142-143. |
| 〔24〕 | Prez-Gand a C,Facchinetti A,Sparacino G,et al.Artificial neural network algorithm for online glucose prediction from continuous glucose monitoring[J].Diabetes Technol Ther,2010,12(1):81-88. |
| 〔25〕 | 王声汤,王自,等.在糖尿病危险因素分析中人工神经网络的应用[J].中华流行病学杂志,2004,25(8):715-718. |
| 〔26〕 | cLaren CE,Chen W P,Nie K,et al.Prediction of malignant breast lesions from MRI features:a comparison of artificial neural network and logistic regression techniques[J].A cad Radiol,2009,16(7):842-851. |
| 〔27〕 | 施侣元,程茂金.人工神经网络应用于糖尿病并发症的影响因素研究[J].现代预防医学,2005,32(12):1625-1628. |
| 〔28〕 | Baghdadi G,N asrabadi AM.Controlling bloodglu cose levels in diabetics by neural network predictor[J].Conf Proc IEEE Eng Med Biol Soc,2007:3216-3219. |
| 〔29〕 | Zarkogianni K,Mougiakakou SG,Prountzou A,et al.An insulin infusion advisory system for type 1 d iabetes pat ien ts based on non-linear model predictive control methods[J].Conf Proc IEEE EngMed Biol Soc,2007:5972-5975. |
| 〔30〕 | Rosato R,Ciccone G,Bo S,et al.Evaluating cardiovascu larmortality in type 2 diabetes patients:an analysis based on competing risks Markov chains and additive regression models[J].J Eval Clin Prac,t2007,13(3):422-428. |
| 〔31〕 | hazavi SN,Liao TW.Medical data mining by fuzzy modeling with selected features[J].Artif Intell Med,2008,43(3):195-206. |
| 〔32〕 | Wilson PW,Meigs JB,Sullivan L,et al. Prediction of incident diabetes mellitus in middle-aged adults:the Framingham Off spring Study[J].Arch Intern Med,2007,167(10):1068-1074. |
| 〔33〕 | Aerican Diabetes Association Consensus Panel.Guidelines for computer modeling of diabetes and its complications[J].Diabetes Care,2004,27(9):2262-2265. |
| 〔34〕 | Smsa G,Hu G,Root M.Combining information from multiple data sources to create multivariable risk models:illustration and prelmiinary assessment of anew method[J].J Biomed Biotechnol,2005(2):113-123. |
2010, Vol. 26
