中华流行病学杂志  2014, Vol. 35 Issue (9): 1028-1031   PDF    
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2014.09.013
中华医学会主办。
0

文章信息

徐新, 谭红专, 周书进, 何玥, 沈琳, 柳祎, 胡丽, 王小娟, 李逊. 2014.
Xu Xin, Tan Hongzhuan, Zhou Shujin, He Yue, Shen Lin, Liu Yi, Hu Li, Wang Xiaojuan, Li Xun. 2014.
BP人工神经网络在早产预测模型中的应用
Study on the application of Back-Propagation Artificial Neural Network used the model in predicting preterm birth
中华流行病学杂志, 2014, 35(9): 1028-1031
Chinese Journal of Epidemiology, 2014, 35(9): 1028-1031
http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2014.09.013

文章历史

投稿日期:2014-3-24
BP人工神经网络在早产预测模型中的应用
徐新1, 谭红专1 , 周书进2, 何玥1, 沈琳1, 柳祎1, 胡丽1, 王小娟1, 李逊1    
1 410008 长沙, 中南大学公共卫生学院;
2 湖南省浏阳市妇幼保健院
摘要目的 基于BP人工神经网络的基本原理和方法,构建早产预测模型。方法 采用前瞻性队列研究方法,通过整群抽样,2010-2012年在湖南省浏阳市随机抽取怀孕妇女作为研究对象。 按2:1:1将调查样本随机分为训练样本、检验样本和测试样本,分别用于建立预测模型、选择最优神经网络和模型预测评价。采用BP人工神经网络和logistic回归分析建立模型,用ROC方法评价 所建立的早产预测模型的优劣。结果 整理6 270例分娩孕妇的数据,结果显示,早产265例,早产发生率为4.22%。将子宫异常及畸形、产次、妊娠胎数、妊娠期高血压、前置胎盘、胎膜早破和定期 产检7个多因素分析有统计学意义的变量选入预测模型。BP人工神经网络模型预测早产的灵敏度、特异度和一致率分别为67.65%、84.87%和84.12%,ROC曲线下面积为0.795;logistic回归模型预测早 产的灵敏度、特异度和一致率分别为64.71%、85.60%和84.69%,ROC曲线下面积为0.783。结论 新建立的BP人工神经网络模型实用可靠,其对早产的预测效能略优于logistic回归模型。
关键词早产     神经网络     预测    
Study on the application of Back-Propagation Artificial Neural Network used the model in predicting preterm birth
Xu Xin1, Tan Hongzhuan1 , Zhou Shujin2, He Yue1, Shen Lin1, Liu Yi1, Hu Li1, Wang Xiaojuan1, Li Xun1    
1 School of Public Health, Central South University, Changsha 410008, China;
2 Liuyang Hospital for Maternal and Child Health Care
Abstract: Objective To establish a practical and effective model in predicting the premature birth,using the Back-Propagation Artificial Neural Network (BPANN). Methods This was a prospective cohort study. Data was gathered from pregnant women selected by cluster sampling method from 2010 to 2012 in Liuyang city,Hunan province and was randomly divided into training sample (to establish the prediction models),validation sample (to select the optimal network) and testing sample (to evaluate the prediction models) by ratio of 2:1:1. BPANN and logistic regression analysis were used to establish models while ROC was applied to evaluate the ‘prediction models’. Results Among the 6 270 pregnant women,265 premature births were seen,with the premature incidence as 4.22%. The 7 variables which entered into the forecasting model would include abnormal uterine or uterine deformity,parity,number of pregnancies,gestational hypertension,placenta previa,premature rupture of membrane and regular prenatal examination. Sensitivity,specificity,agreement rate and area under the ROC curve of BPANN were 67.65%,84.87%,84.12% and 0.795,respectively. However,the sensitivity, specificity,agreement rate and area under the ROC curve of logistic regression were 64.71%,85.60%,84.69% and 0.783,respectively. Conclusion The newly established BPANN model was practical and reliable,which proved that this model was slightly better than the logistic regression in the prediction of premature birth.
Key words: Premature birth     Neural network     Prediction    

早产是一种常见的妊娠时限异常[1]。早产影响 因素较多,采用合适方法进行预测十分关键。本研 究通过大样本的前瞻性队列研究,采用BP人工神经 网络构建早产的预测模型,探索一种早期有效的识 别早产高危个体的方法。 对象与方法

1. 研究对象:采用前瞻性队列研究方法,通过整 群抽样,从湖南省浏阳市37个乡镇中随机抽取14个 乡镇,选取从2010年1月1日起在抽样乡镇妇幼保 健机构进行初次产检且愿意参加本研究的所有孕 妇为研究对象。所有对象随访孕早期(<14孕周)、 孕中期(14~27孕周)、孕晚期(>28孕周)、分娩各 期,直至追踪到其妊娠结局。观察终点为产后24h, 观察终止时间为2012年6月30日。排除死胎和死 产以及观察终止时未能获得活产妊娠结局的研究 对象。

2. 研究方法:采用面对面问卷调查和检查相结 合的方法收集资料。由调查员在当地妇幼保健机构 进行面对面问卷调查,内容为研究对象进行初次产 前检查时获取的孕妇年龄和既往妊娠情况(孕次、产 次和流产次数)。由妇幼保健机构医务人员在初次 产前检查时(近似孕前)获取孕妇身高、体重和血压数 据;负责各次随访时的超声检测宫颈和实验室检查, 以及结合临床表现获取孕妇的妊娠胎数、子宫异常及 畸形、瘢痕子宫、生殖系统炎症、妊娠期糖代谢异常、 病毒性肝炎、贫血情况、胎位异常、前置胎盘、胎膜早 破及妊娠结局资料。参照文献[1,2,3]选择17个早产 可疑影响因素(潜在预测指标)。同时,为保证研究数 据准确可靠,课题组在调查前对所有参与调查人员进 行培训,并统一检测标准和诊断标准[1,2]

3. 指标定义:根据文献[1,2]进行指标的定义与 赋值。早产定义为妊娠满28周至不足37周分娩 者。子宫异常及畸形包括子宫肌瘤和子宫畸形。生 殖系统炎症包括外阴及阴道炎症、宫颈炎症、盆腔炎 性疾病和宫内感染。妊娠期糖代谢异常包括妊娠期 糖尿病和糖耐量异常。定期产检是指根据产前保健 要求,孕期产检次数≥9,其中孕早期≥1、孕中期≥ 3,且孕晚期≥5;不定期产检是指产检次数≥6,其中 孕早期为0,或孕中期<3,或孕晚期<5;产检次数 少是指产检次数≤5。

4. BP人工神经网络预测模型构建:基于人工 神经网络的基本原理[4]和方法,构建早产预测的数 学模型。

5. 统计学分析:运用EpiData3.0软件建立数据 库,按统一标准录入数据,分析前进行逻辑查错和抽 样复核,以确保资料录入的准确性。运用SPSS18.0 软件进行数据分析,使用M(QR)对偏态分布资料进 行统计描述,采用非条件logistic回归分析对潜在预 测变量进行初筛并建立logistic回归模型;运用 MATLAB7.1软件编程建立BP神经网络模型;应用 SPSS18.0软件绘制2个模型的ROC曲线,使用曲线 下面积描述模型的预测判别能力。 结 果

1. 基本情况:进入队列的样本为6693例,最终 追踪到完整活产妊娠结局资料者6270例(排除死胎 31例、死产12例以及观察终止时未追踪到妊娠结局 者380例),有效应答率为93.68%。共诊断早产265 例,早产发生率为4.22%。研究对象的年龄为16~ 43(M=25,QR=4)岁,分娩时孕周为28~42(M= 39,QR=2)周。

2. logistic回归预测模型建立:将样本随机分为 50%的训练样本(共3135例,早产131例)、25%的检 验样本(共1567例,早产66例)和25%的测试样本 (共1568例,早产68例)。利用训练样本,采用非条 件logistic回归方法,以是否早产为应变量,以本研 究收集到的17个早产的可疑影响因素为自变量进 行单因素和多因素分析,筛选出有统计学意义的自 变量。单因素分析结果显示,7个因素与早产的关 系有统计学意义(P<0.05,α=0.05),单因素回归分 析的变量赋值及结果见表 1。将单因素分析有统计 学意义的自变量进行多因素非条件logistic逐步回归 分析(偏最大似然估计后退法,入选标准α=0.05,剔 除标准α=0.10),最终7个变量均进入方程,多因素回 归分析的结果见表 2。以此分析结果建立的logistic 回归模型为logit(P)=ln[P/ (1-P)]=1.259X1+ 0.602X2+2.135X3+1.301X4+0.722X5+1.660X6- 0.736X7-2.813,其中P为发生早产的概率。

3. BP人工神经网络预测模型建立:以logistic回 归分析筛选出的子宫异常及畸形、产次、妊娠胎数、 妊娠期高血压、前置胎盘、胎膜早破和定期产检7个 变量为输入层神经元,以是否早产为输出层神经元, 构建BP人工神经网络预测模型,神经网络的变量赋 值同logistic回归一致。神经网络的输入层神经元 数为7,输出层神经元数为1,隐含层神经元数根据 (a为[1,10]之间的常数)计算而得 (3~13),利用检验样本通过凑试法反复训练发现, 当m=3时,检验样本的MSE最小,因此确定隐含层 的最佳神经元数为3。

表 1 单因素logistic回归分析的变量赋值与结果
表 2 多因素logistic回归分析的结果

4. 最佳临界点的确定:用BP人工神经网络模型 对测试样本进行预测。ROC曲线提示,当输出值为 0.06时,得到最大约登指数(0.5252),即0.06为最佳 临界点,此时预测的灵敏度为67.65%,特异度为 84.87%,一致率为84.12%,即此模型可筛出目标人 群中67.65%的早产患者。将不同输出值作为判别 界值时测试样本的预测效果见表 3

表 3 不同输出值下BP人工神经网络模型的预测效果

5. 模型预测结果的评价:根据建立的logistic回 归模型和BP人工神经网络模型,分别对测试样本进 行预测。其中logistic回归模型的最佳临界点确定方 法与BP人工神经网络相同,选取最大约登指数 (0.5031)对应的输出值0.05为最佳临界点。BP人工 神经网络模型略优于logistic回归模型,见表 4

表 4 2个模型预测结果的评价指标
讨 论

本研究数据来源于大样本的前瞻性队列研究。 结果显示,2010-2012年湖南省浏 阳 市 分 娩 孕 妇 中 早 产 发 生 率 为 4.22%,略 低 于 国 内 其 他 研 究 的 5%~15% [1]

由于临床上早产的并发症发生 率和死亡率均较高,围生医学领域 迫切需要建立一个指标较少、易于 操作以及能早期发现高危个体的预 测模型。本研究旨在构建能优先于 临床诊断的早产预测模型,首先,预 测指标的选择既应考虑其临床意 义,又应考虑其公共卫生学意义和 实际可能性(即选择早期能常规获 得的指标)。根据这些原则,本研究 选择17个能够反映孕产妇一般情 况、既往妊娠情况和此次妊娠情况 的早产的可能预测指标。

为了保证预测模型简化实用, 本研究采用回归分析对可疑影响因 素进行初筛,从17个指标中筛选出 7个与早产发生相关的影响因素, 即子宫异常及畸形、产次、妊娠胎 数、妊娠期高血压、前置胎盘、胎膜 早破和定期产检,可作为预测指标 参与预测,与其他研究相符[5,6,7,8]。子 宫异常及畸形(反映生殖器机能状 况)与产次能反映孕产妇的身体机能状态;较高的产 次预示着较高的早产风险,但无法排除年龄这一混 杂因素的影响。妊娠胎数、妊娠期高血压疾病、前置 胎盘和胎膜早破易诱发早产,能反映此次妊娠情 况。定期产检反映了产前保健情况,充分利用卫生 服务,可减少不良妊娠结局的发生风险。因此,据此 建立的早产BP人工神经网络预测模型和logistic回 归预测模型能较准确的预测早产的发生情况,具有 临床实用价值。

由于早产是多因素疾病,影响因素较多,且各因 素之间可能存在相关关系,因此选择合适的方法建 立预测模型十分关键。而BP神经网络对被分析的 资料特性几乎没有任何要求,并行处理的方式使其 对误差信号具有一定的处理能力,同时还具有自动 学习、识别变量间关系的能力[9],其在疾病预测方面 有较高的应用价值。本研究通过比较BP人工神经 网络与logisitc回归方法建立的预测模型,发现BP 神经网络预测模型较logisitc回归预测模型有更强 的预测判别效能。

本研究建立的BP人工神经网络模型的灵敏度、 特异度、一致率和ROC曲线下面积分别为67.65%、 84.87%、84.12%和0.795。与Catley等[7]构建的早产 BP人工神经网络模型相比,本研究增加了反映身体 机能及此次妊娠情况的指标,从而使模型灵敏度与 ROC曲线下面积较高。与Lee等[8]构建的模型在灵 敏度、特异度和一致率方面相近。

参考文献
[1] Huang YP. Premature delivery[M]//Le J. Obstetrics and Gynecology. 7th ed. Beijing:People's Medical Publishing House,2008:86-89. (in Chinese) 黄引平. 早产[M]//乐杰. 妇产科学. 7版. 北京:人民卫生出版社,2008:86-89.
[2] The Obstetric Group of the Branch of Obstetrics and Gynecology of Chinese Medical Association. The recommended guidelines of clinical diagnosis and treatment of premature (Draft)[J]. Chin J Obstet Gynecol,2007,42(7):498-500. (in Chinese) 中华医学会妇产科学分会产科学组. 早产的临床诊断与治疗推荐指南(草案)[J]. 中华妇产科杂志,2007,42(7):498-500.
[3] Guo LJ,Ye RW,Wang GX,et al. Birth weight distribution among premature infants and related social factors[J]. Chin J Epidemiol,2009,30(12):1243-1247. (in Chinese) 郭丽君,叶荣伟,王桂霞,等. 江苏、浙江省4县(市)早产儿体重分布状况及相关社会因素[J]. 中华流行病学杂志,2009,30(12):1243-1247.
[4] Wang W, Xu W, Zheng YJ, et al. Study on a back propogation neural network-based predictive model for prevalence of birth defect[J]. Chin J Epidemiol,2007,28(5):507-509. (in Chinese) 王玮,许伟,郑亚军,等. 基于BP神经网络的围产儿出生缺陷患病率预测[J]. 中华流行病学杂志,2007,28(5):507-509.
[5] Creasy RK,Gummer BA,Liggins GC. System for predicting spontaneous preterm birth[J]. Obstet Gynecol,1980,55(6):692-695.
[6] Courtney KL,Stewart S,Popescu M,et al. Predictors of preterm birth in birth certificate data[J]. Stud Health Technol Inform,2008,136:555-560.
[7] Catley C,Frize M,Walker CR,et al. Predicting high-risk preterm birth using artificial neural networks[J]. IEEE Trans Inf Technol Biomed,2006,10(3):540-549.
[8] Lee KA, Chang MH, Park MH, et al. A model for prediction of spontaneous preterm birth in asymptomatic women[J]. J Womens Health (Larchmt),2011,20(12):1825-1831.
[9] Li YY,Li R,Shi L,et al. Study on application of back-propagation neural network model in screening for type 2 diabetes Mellitus in community population[J]. J Environ Occup Med,2008,25(4):329-332. (in Chinese) 黎衍云,李锐,施亮,等. 逆反馈人工神经网络在社区糖尿病筛查中的应用[J]. 环境与职业医学,2008,25(4):329-332.