中国辐射卫生  2001, Vol. 10 Issue (3): 169-169  DOI: 10.13491/j.cnki.issn.1004-714x.2001.03.039

引用本文 

王进, 余宁乐, 许翠珍, 侯璧君. 医用诊断X射线工作者肿瘤流行病学调查的数据处理[J]. 中国辐射卫生, 2001, 10(3): 169-169. DOI: 10.13491/j.cnki.issn.1004-714x.2001.03.039.

文章历史

收稿日期:2000-07-18
医用诊断X射线工作者肿瘤流行病学调查的数据处理
王进 , 余宁乐 , 许翠珍 , 侯璧君     
江苏省疾病预防控制中心, 江苏 南京 210009
摘要目的 建立医用诊断X射线工作者肿瘤流行病学调查的数据处理程序。方法 根据《全国医用诊断X射线工作者恶性肿瘤流行病学调查》方案。结果 建立了肿瘤流行病学调查的数据库和统计分析软件。结论 所用软件能极大地提高效率获得较为可信的分析结果。
关键词X射线    肿瘤    流行病学    软件    

根据《全国医用诊断X射线工作者恶性肿瘤流行病学调查》方案, 我们对江苏省第4期医用诊断X射线工作者肿瘤流行病学调查的资料进行汇总分析。

经过对原始资料的复核、汇总整理, 得到1950 ~ 1980年间各类医院医用诊断X射线工作者3 975名, 称为放射组; 同时选取同时期、同医院未参加过放射工作的其他科室(内科、五官科和儿科等)医务人员3 726名, 称为对照组, 共计7 701名。调查截止日期为1996年12月31日。

1 数据库的建立和数据输入 1.1 建立数据库的原则

数据库要求国际通用, 数据便于转换[1]。数据库系统选择Microsoft Access 97关系型数据库, 其优点在于Access 97数据库为windows界面, 使用方便; 数据可转换到许多统计分析软件中使用, 如SAS和SPSS等; 提供了大量的查询与数据录入向导和模板, 便于自动进行录入与查询。

数据库中避免使用汉字。结合江苏省第三次肿瘤流调工作的数据处理, 由于对单位名称、人员姓名、调动原因、肿瘤原因等字段采取的是全部直接输入微机, 虽然流调档案完整, 但数据的录入速度较慢, 易出错, 且不容易归类, 从而影响统计工作。设计数据结构时基本上采用数字形式, 单位名称和人员姓名不输入, 设计了单位所在市国际编码及顺序号和人员的计算机编号字段; 性别用逻辑字符表示; 肿瘤名称和死亡原因汉字保留, 但事先准备好专用数据库供调用。

按分组建立数据库, 对原始资料进行档案化管理[1]。各数据库用唯一标识研究对象个体。流调工作自1981年至今已有多年, 经历多人之手, 整理资料时注意资料的可继承性, 资料档案化显得十分重要。档案管理是原始资料与计算机数据库相结合, 可以相互查询核对, 同时注重对计算机数据库的备份。

1.2 数据库的建立

放射组数据库数据结构为计算机编号(数字型)、性别(逻辑型)、出生年月(日期型)、参加工作日期(日期型)、发病日期(日期型)、肿瘤名称(字符型)、诊断依据(字符型)、死亡日期(日期型)、死亡原因(字符型)、调动日期(日期型)、调动原因(数字型)、调动后专业(逻辑型)。在输入表单上, 肿瘤名称、诊断依据和死亡原因由列表框实现, 调动原因由复选框实现, 其余字段由文本框实现。对照组数据处理类似放射组。数据库格式为mdb文件, 数据转移时转为ASCII格式。

肿瘤名称数据结构为肿瘤名称(字符型)、肿瘤编码(字符型)。数据库的作用是为放射组数据库中发病原因字段提供数据。肿瘤分类按ICD-9编码, 肿瘤编码主要是为了方便统计。死亡原因数据库类似肿瘤原因数据库。

1.3 数据的录入与核对

数据录入采用人工键盘输入, 通过多次的人工核对、数据逻辑检查保证录入质量, 确保统计关键字段没有错误。

2 数据分析

经过对数据多次核对修改, 进行分析工作, 根据全国统一方案, 本次调查为回顾型定群研究, 先后做了基本分层分析和模型分析。

2.1 传统分层分析

传统分层分析具有快速、准确的优点, 通过分析可对数据资料有一个直观的了解, 同时它也是进行模型分析的基础。根据回顾型定群研究的特点, 分层分析采用Mantel-Haenszel方法[2], 软件为Microsoft Excel 97 Visual Basic for Application和StaXact 4.0统计软件。

人年数计算: 1950年以前参加工作者进入队列日期为1950年, 其他人员为参加工作年, 出队列年分别是1996年、死亡年份、癌症诊断年和失访年。

小剂量低剂量率照射流行病学调查关心慢性暴露和随访观察[3], 此时时间变量显得十分重要, 故选择暴露年限、首次暴露时的年龄、暴露年代和随访年代进行分层刻画, 经计算相对危险度(RR)和显著性检验(χ2检验)。确定随访年代和首次暴露年龄为效应修正因子。

2.2 模型分析

由于时间变量在调查中起十分重要的作用, 传统的分层分析已不能满足需求, 故借助泊松模型进行拟合分析, 估算医用诊断X射线相对危险, 用似然比法计算χ2统计量, 进行显著性水平检验和可信限估计。分析软件为Epicure交互计算程序AMFIT和SAS统计软件。检验了随访年代、参加工作时年龄, 年龄的平方项和年龄性别的交互作用。

随着肿瘤流行病学调查的持续与深入, 使用计算机建立数据库进行数据存储、修改、分析时, 选择数据库软件和统计分析软件十分重要, 手工编程逐渐成为过去, 使用专用的统计软件已成为必然。确定正确的分析方法, 使用统计软件能极大地提高效率, 并获得可信度较高的分析结果。

参考文献
[1]
孙全富, 邹剑明, 刘玉升, 等. 阳江高本底地区居民健康流行病学调查数据库与统计分析方法[J]. 中华放射医学与防护, 1997, 17(6): 381.
[2]
李伟林. 辐射流行病学[M]. 北京: 原子能出版社, 1996: 138-144.
[3]
王继先. 中国医用诊断X射线工作者恶性肿瘤的危险评价[J]. 中华放射医学与防护, 1999, 19(6): 151.