中华流行病学杂志  2022, Vol. 43 Issue (10): 1666-1670   PDF    
http://dx.doi.org/10.3760/cma.j.cn112338-20220701-00584
中华医学会主办。
0

文章信息

林云志, 张隆垚, 陈峰, 魏永越.
Lin Yunzhi, Zhang Longyao, Chen Feng, Wei Yongyue
医学研究中的统计图形规范
Specification of statistical graphics in medical research
中华流行病学杂志, 2022, 43(10): 1666-1670
Chinese Journal of Epidemiology, 2022, 43(10): 1666-1670
http://dx.doi.org/10.3760/cma.j.cn112338-20220701-00584

文章历史

收稿日期: 2022-07-01
医学研究中的统计图形规范
林云志1 , 张隆垚2 , 陈峰1 , 魏永越1     
1. 南京医科大学公共卫生学院生物统计学系, 南京 211166;
2. 南京医科大学公共卫生学院全球健康中心, 南京 211166
摘要: 统计图形历史悠久,是呈现医学研究设计、结果、结论的重要方式。纵观近年来中英文学术期刊中的统计图形可知,当前医学研究人员对统计图形的科学性和规范性的把握尚有不足。本文以NEJMLancetJAMAThe BMJ四大权威医学期刊中统计图形的要求为切入点,总结出统计图形的技术要求、设计要点以及常见统计图形的实用条件、注意事项,以供医学研究者参考。
关键词: 医学研究    统计图形    规范化    
Specification of statistical graphics in medical research
Lin Yunzhi1 , Zhang Longyao2 , Chen Feng1 , Wei Yongyue1     
1. Biostatistics Department, School of Public Health, Nanjing Medical University, Nanjing 211166, China;
2. Center for Global Health, School of Public Health, Nanjing Medical University, Nanjing 211166, China
Abstract: Statistical graphics has a long history and is an important mean to present study design, analysis results and conclusions of medical research. A survey of statistical graphs of recent publications in Chinese and English academic journals shows that scientific and technical specifications of statistical graphics are still lacking. Based on the requirements of statistical graphics in prestigious medical journals (NEJM, Lancet, JAMA and The BMJ), this paper summarizes the technical requirements, key points of design of statistical graphs and practical conditions of common statistical graphs to provide reference for clinical researchers.
Key words: Medical research    Statistical graph    Specification    
一、背景

统计图形历史悠久,其使用最早可追溯到公元前1400年的尼罗克族[1]。而科学界公认的首次出现的统计图形,是1686年Halley[2]绘制的海拔和气压关系图。在17世纪,统计图形所表达的内容多为数字间的函数关系[3]。18世纪伊始,随着统计理论方法的发展,新的图形逐渐问世[4]。苏格兰经济学家William Playfair,其一生创作了折线图、柱状图、饼图等若干种统计图形,至今仍被广泛运用[5]。19世纪初,地图被引入统计图形,最为著名的是Snow[6]的霍乱地图(通过在地图上标注病例,发现被污染的水源是伦敦霍乱传播途径)。19世纪下半叶,图形的发展迎来第二波热潮,涌现了更多图形种类,包括三维图形[7]。此阶段最为著名的统计图形,当属法国工程师Minard[8]绘制的拿破仑行军图(亦被认为是最早的桑基图),统计图形和信息可视化领域领军人物Edward Tufte在其著作Beautiful Evidence中称赞该图为“有史以来最好的统计图形之一”[9]。同期,还有著名的南丁格尔玫瑰图,这是流行病学研究结果展示的重大创新。直至20世纪初,随着计算机科学的飞速发展,和Tukey[10]对新统计图形的深入探索,数据可视化逐渐映入眼帘[11],统计图形的发展迎来第三次热潮。如今,数据可视化,是医学研究中不可或缺之元素。

可视化是人与数据沟通的桥梁,也是人类观察数据的放大镜,是认识数据、发现规律的重要工具,是洞悉数据背后规律的有效方法。作为科研成果展示的关键组成部分,统计图形发挥着不可替代的作用。当今多数医学权威期刊中的高水平研究论文,多配有恰如其分且赏心悦目的插图,大为增色。统计图形的价值在于加深人们对其背后数据规律的认识,一图胜千言,意义重大。

各大医学权威期刊对统计图形有各自的要求,但多重于技术性参数要求,而缺乏统计图形的科学性和设计相关的规范化要求和指导意见。中文期刊亦是如此。此外,由于研究团队中可能缺乏专业的统计学人员,而医学研究人员的统计学技能和绘图技术亦有所欠缺,对统计图形的选择和绘制方面尚存不足[12],影响了统计图形的规范性甚至科学性,进而影响了研究整体质量。本文以医学权威期刊对统计图形的要求为切入点以及结提炼出绘制统计图形的技术要求、设计要点以及常见统计图形的实用条件、注意事项,以供医学研究者参考。

二、医学权威期刊对统计图形的要求

以新英格兰医学杂志(The New England Journal of MedicineNEJM)、柳叶刀(Lancet)、美国医学会杂志(The Journal of the American Medical AssociationJAMA)、英国医学期刊(The British Medical JournalThe BMJ)这四本医学领域国际权威期刊为例,可归纳为对制图的技术参数要求和图形设计要求。

1. 技术参数要求:医学权威期刊对统计图形的制图参数要求大同小异,可分为:文件类型、分辨率、字体字号、坐标轴、标注和图例六类要求。见表 1

表 1 医学权威期刊对统计图形的技术参数要求

2. 图形设计要求:各医学期刊都有自己独特的图形设计要求。以用色举例,Lancet期刊要求森林图(forest plot)为黑白色调,而其他期刊对此并没有严格要求;在常见颜色组合的选择中,JAMA期刊采用了橙-浅蓝配色[13-15],这是一对互补色,视觉效果较好。四大权威期刊的配色方案见图 1。不同期刊会有一些特殊要求。如JAMA期刊不接受饼图或堆积条形图,而是要求使用能传达同等含义的其他图形;又如,JAMALancet期刊对三维图形均持不同程度的拒绝态度。中文期刊对图形的选择一般没有明文要求,可以参考其他权威期刊综合考虑。

图 1 四大医学权威期刊配色方案
三、常见统计图形的适用范围和注意事项

统计图形的样式繁多,可以根据形状或功能将其分类。一类统计图形可以应用于多种分析目的,某一分析目的也可以引用多种统计图形来展现。目的与功能的分类,是多对多的关系,这使得统计图形的选择变得稍有困难。图形的选择,应充分考虑可视化或统计分析的目的。本文将常见统计图形的可视化分为:10类数据可视化(以展示数据为主,见表 2)图形和8类统计可视化(以展示统计分析结果为主,见表 3)图形,并逐一说明其常见衍生图种和相应的注意事项。

表 2 常见数据可视化图形及其注意事项
表 3 常见统计可视化图形及注意事项
四、统计图形设计要点

1. 结构设计:统计图形设计,要简约而不简单,需清晰体现设计者的逻辑结构。尽量少用复杂的、难以解读的元素。非必要的纹理、无潜在信息的渐变色、花哨的配色等冗余的设计元素,被统计图形先驱Tufte称为“图形垃圾(chatjunk)”[9]。法国图形语言理论学者(graphic language theorist)Jacques Bertin为图形结构设计制定了一个理论框架,即考虑:形状、方向、颜色、纹理、体积、大小[16]。统计图形专家Cleveland认为,图形中的“准确性”并非指从图形中读出精确的数值,而是通过调整设计框架,来凸显应该被关注的重点。从神经生理学角度考虑,图形中需强调的元素应当与其他元素有着显著不同的视觉特征[17-18]

2. 布局考虑:绘图和撰文一样,需要清晰体现设计者的逻辑思路,在用图形“叙述”一件事情时,既要考虑整体连贯,又要考虑局部内聚,而不是零散地展示一些信息。有些通用的设计可以考虑三点原则:①适当留白。留白契合视觉心理学经典原则——格式塔原则(Gestalt Principles),留白的空间是另一种组织内容的机制,能合并成更规则的区域,并进一步描述设计者所定义的分组。②视觉完形。视觉完形是指读者总是先看到整体,然后去关注局部,人脑的视觉系统总是在不断地试图在感官上将图形进行闭合。③文字引导。按照某种既定逻辑顺序,使用一致的符号、编码、文字,以协助读者快速理解图形之含义[19]

3. 用色考究:颜色是信息重要性的重要影响因素之一。用好颜色,可将用户的注意力快速吸引到重点上,若颜色误用则会导致读者对信息理解偏差[20]。一般来说,分类数据可以使用颜色传达起分类信息(用色原则:显著对比)。而定量数据,亦可用色阶反映数据的大小(用色原则:渐变进阶)[21]

挑选合适的颜色时可以借助色轮工具。通过旋转色轮或调整饱和度滑块来获得一组易于区分的颜色[22]。另外,仅选择了合适的颜色也是不够的,需要根据图形中元素背后信息的重要性和视觉效果进行适当调整。R中的RImagePalette包和Adobe Photoshop等专业图像工具可以从画作中提取色相和色阶信息[23]

4. 善用元素:

(1)箭头:是图形中常用的重点元素,因其能显著增进图形的可读性,而被运用在超过一半的图形中。箭头有多种含义,一般为指示变化、移动轨迹或因果关系。箭头应少而精。在生物医学研究中,部分箭头类型有特殊含义(例如,带有直角线段的箭头通常表示一个分子负向调节另一个分子),故应避开此类符号。标签指向线段,不建议带有箭头。Wong[24]建议使用实心箭头,同时避免箭头过大。

(2)坐标轴和网格线:坐标轴用来准确衡量比例和尺度,辅助网格线用来衬托数据间细微差异。多张图形共同展示时,应尽量采用相同的坐标轴尺度,以便比较。格式塔原则中提到,非主体部分不应占用过多笔墨,因此在使用网格线时,其密度不应过大,颜色宜浅,设置足够的透明度(建议在15%~45%之间)更好,否则将增加阅读难度[25]

(3)标签:使用标签要遵循两个原则:一致和对齐。标签需按一定的原则统一命名,可以将一组标签的公共文本部分删除以简化,但也不能因为过于简略而造成歧义。标签的位置应与对应的指代物对齐。在连接图形与标签时,连接线应尽可能水平或垂直,且彼此间平行。另外,不要给标签添加任何例如爆炸、气泡等视觉背景特效,这样会分散读者的注意力。图形的多样性应由数据和结果来表现,而非无实际意义的格式[26]

(4)具有专业意义的符号:在绘制散点时,形状的选择对图形视觉效果的影响最为直观。众多形状中,空心圆是一个较常用的选择。如果数据组别之间有明确而简单的区别,则可以使用组别名称首字母作为绘图符号[例如,ATCG表示4种碱基型所绘制的转录因子结合域图(transcription factor binding motif)]。若含有多种符号,它们的大小、透明度等参数应尽量一致。如果图形中的类别过多,应考虑用分图展示[27]

5. 慎用三维:三维图形,在视觉上似乎比二维平面图形更有吸引力。然而,科学研究媒介上通常为静态图像,是通过二维透视图来模拟三维效果,图形中元素的高度和长度不可避免地会因遮挡或透视而扭曲,进而导致信息传递出现偏差[28]。需要通过旋转图形,选择合适的展示角度,而尽可能的降低遮挡或透视扭曲所造成的影响[28]。正因此,JAMALancet等期刊对三维图形持谨慎态度。

事实上,三维图形可用二维可视化手段来替代,如散点图矩阵和平行坐标图。散点图矩阵,是散点图的高维拓展,将多个变量的两两散点图以矩阵的形式排列,在一定程度上克服了平面展示高位数据的困难。平行坐标图,跳出了笛卡尔坐标系(Cartesian coordinates)的思维局限,将相互垂直的坐标轴改为平行的坐标轴,平面上可容纳多条平行线,因此可展示多维数据。上述两方法的区别在于在二维平面上展示多维数据特征的方式不同,可在同一个研究中综合使用,从而更全面地展示高维数据[29]

五、讨论

中国近代启蒙思想家、翻译家严复提出,翻译力求信、达、雅。统计图形亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。最后,在设计好一张图形后,应反复考量和修正,或许会得到更好的结果[30]。需注意的是,图形无法挽救数据上的固有缺陷,可通过层次和结构设计,弱化缺陷。

国内学者亦探索过医学研究中的统计图形规范[31-33],介绍了特定分析或某类图形的实现步骤和简要绘制要求,但涉及的图种较少。本文总结了统计图形的设计要点和使用规范。首先总结了各大医学期刊对统计图形的要求;进而,提出从数据可视化和统计可视化两个维度列举图形并总结其使用中的注意事项;最后跳出具体的图形,从图形设计学角度,探讨设计要点。为广大生物医学研究者认识统计图形学(statistical graphics)提供了较好的素材。

本研究亦存在不足。本研究仅总结了常见统计图形,难免以偏概全;同时,本研究尚未考虑多种图形组合时的设计要点。但本文所提供的原则性思考,具有一定的通用性。另外,本研究归纳的制图技术参数建议是基于四大医学期刊所总结的,具有一定的代表性,建议研究者根据实际情况进行调整以达到最佳效果。

在大数据时代,数据可视化将成为窥探数据背后之规律的重要手段[34],而数据复杂度的增加,对图形的可解释性乃至信息传递的准确性提出了更高的要求。本研究总结了常见统计图形的设计要求、使用条件、注意事项,以期加深研究者对统计图形的认识,以更好地理解并使用统计图形。

利益冲突  所有作者声明无利益冲突

作者贡献声明  林云志、张隆垚:图形绘制、程序撰写、论文撰写;陈峰:研究设计、论文修改;魏永越:研究设计、程序审核、论文修改、经费支持

参考文献
[1]
Wainer H, Velleman PF. Statistical graphics: mappingthe pathways of science[J]. Annu Rev Psychol, 2001, 52: 305-335. DOI:10.1146/annurev.psych.52.1.305
[2]
Halley E. On the height of the mercury in the barometer at different elevations above the surface of the earth, and on the rising and falling of the mercury on the change of weather[J]. Phil Trans, 1686, 181: 103-116. DOI:10.1098/rstl.1686.0017
[3]
Spence I. William Playfair and the psychology of graphs [M]. American Statistical Association; papers presented at the Joint Statistical Meetings, American Statistical Association, 2006: 2426-2436.
[4]
Friendly M. A brief history of data visualization [M]. Handbook of Data Visualization, 2008: 15-56.
[5]
Playfair W. Playfair's commercial and political atlas and statistical breviary[M]. Cambridge University Press, 2005.
[6]
Snow J. On the mode of communication of cholera[J]. Edinb Med J, 1856, 1(7): 668-670.
[7]
Zeuner G. Abhandlungen aus der mathematischen Statistik[M]. Felix, 1869.
[8]
Minard CJ. Des tableaux graphiques et des cartes figuratives[M]. Paris: E. Thunot et Cie, 1861.
[9]
Tufte ER, Schmieg GM. The visual display of quantitative information[J]. Am J Phys, 1985, 53(11): 1117-1118. DOI:10.1119/1.14057
[10]
Tukey JW. The future of data analysis [J]. Ann Math Stat, 1992. DOI: 10.1007/978-1-4612-4380-9_31.
[11]
Becker RA, Cleveland WS. Brushing scatterplots[J]. Technometrics, 1987, 29(2): 127-142. DOI:10.1080/00401706.1987.10488204
[12]
谷鸿秋. 临床研究统计分析思路与统计图表概述[J]. 中国循证心血管医学杂志, 2018, 10(7): 785-788.
Gu HQ. A brief introduction of statistical analysis strategy and statistical charts for clinical research[J]. Chin J Evid Based Cardiovasc Med, 2018, 10(7): 785-788. DOI:10.3969/j.issn.1674-4055.2018.07.04
[13]
Connors JM, Brooks MM, SciurbaF C, et al. Effect of antithrombotic therapy on clinical outcomes in outpatients with clinically stable symptomatic COVID-19: the ACTIV-4B randomized clinical trial[J]. JAMA, 2021, 326(17): 1703-1712. DOI:10.1001/jama.2021.17272
[14]
Lawrence JM, Divers J, Isom S, et al. Trends in prevalence of type 1 and type 2 diabetes in children and adolescents in the US, 2001-2017[J]. JAMA, 2021, 326(8): 717-727. DOI:10.1001/jama.2021.11165
[15]
Zampieri FG, Machado FR, Boindi RS, et al. Effect of intravenous fluid treatment with a balanced solution vs 0.9% saline solution on mortality in critically ill patients: the BaSICS randomized clinical trial[J]. JAMA, 2021, 326(9): 1-12. DOI:10.1001/jama.2021.11684
[16]
Eastman JR, Bertin J. Semiology of graphics[J]. Econ Geogr, 1986, 62(1): 104. DOI:10.2307/143508
[17]
Wong B. Points of view: gestalt principles (part 1)[J]. Nat Methods, 2010, 7(11): 863. DOI:10.1038/nmeth1110-863
[18]
Marschark M. Erratum to: semantic congruity in ymbolic comparisons: salience, expectancy, and ssociative priming[J]. Mem Cognit, 1984, 12(6): 642. DOI:10.3758/BF03213354
[19]
Wong B. Points of view: points of review (part 2)[J]. Nat Methods, 2011, 8(3): 189. DOI:10.1038/nmeth0311-189
[20]
Wong B. Points of view: avoiding color[J]. Nat Methods, 2011, 8(7): 525. DOI:10.1038/nmeth.1642
[21]
Gehlenborg N, Wong B. Points of view: mapping quantitative data to color[J]. Nat Methods, 2012, 9(8): 769. DOI:10.1038/nmeth.2134
[22]
Wong B. Points of view: color coding[J]. Nat Methods, 2010, 7(8): 573. DOI:10.1038/nmeth0810-573
[23]
Carlson J. RImagePalette: Extract the colors from images[J]. Adsorption from Solutions of Non Electrolytes, 2016, 1(85): 164-190. DOI:10.1109/IEMBS.2001.1018905
[24]
Wong B. Points of view: arrows[J]. Nat Methods, 2011, 8(9): 701. DOI:10.1038/nmeth.1676
[25]
Krzywinski M. Points of view: Axes, ticks and grids[J]. Nat Methods, 2013, 10(3): 183-183. DOI:10.1038/nmeth.2337
[26]
Krzywinski M. Points of view: labels and callouts[J]. Nat Methods, 2013, 10(4): 275. DOI:10.1038/nmeth.2405
[27]
Krzywinski M, Wong B. Points of view: plotting symbols[J]. Nat Methods, 2013, 10(6): 451. DOI:10.1038/nmeth.2490
[28]
Gehlenborg N, Wong B. Into the third dimension[J]. Nat Methods, 2012, 9(9): 851. DOI:10.1038/nmeth.215
[29]
Gehlenborg N, Wong B. Power of the plane[J]. Nat Methods, 2012, 9(10): 935. DOI:10.1038/nmeth.2186
[30]
Krzywinski M. Points of view: elements of visual style[J]. Nat Methods, 2013, 10(5): 371. DOI:10.1038/nmeth.2444
[31]
郑康杰, 施侣元, 陆云霞. 常用统计图表的绘制方法与常见错误辨析[J]. 公共卫生与预防医学, 2006(3): 96-98.
Zheng K, Shi L, Lu Y. Methods of drawing common statistical graphics and discrimination of common errors[J]. Journal of Public Health and Preventive Medicine, 2006(3): 96-98. DOI:10.3969/j.issn.1006-2483.2006.03.055
[32]
谢佳斌, 金勇进. 探索性数据分析中的统计图形应用[J]. 统计与信息论坛, 2009, 24(7): 13-17, 56.
Xie J, Jin Y. Issues on the exploratory data analysis of complex survey data[J]. Statistics & Information Forum, 2009, 24(7): 13-17, 56. DOI:10.3969/j.issn.1007-3116.2009.07.003
[33]
谷鸿秋. 临床研究中基线信息的统计分析与统计图表[J]. 中国循证心血管医学杂志, 2018, 10(8): 910-912.
Gu H. Statistical methods and statistical charts for effect estimation in clinical research[J]. Chin J Evid Based Cardiovasc Med, 2018, 10(8): 910-912. DOI:10.3969/j.issn.1674-4055.2018.08.04
[34]
Messner W. Visual statistics: Seeing data with dynamic interactive graphics[J]. Psychometrika, 2008, 73(1): 159-161. DOI:10.1007/s11336-007-9030-3