中华流行病学杂志  2023, Vol. 44 Issue (11): 1815-1819   PDF    
http://dx.doi.org/10.3760/cma.j.cn112338-20230410-00224
中华医学会主办。
0

文章信息

张隆垚, 林云志, 黄丽红, 陈峰, 魏永越.
Zhang Longyao, Lin Yunzhi, Huang Lihong, Chen Feng, Wei Yongyue
医学研究中统计图形的构成要素和设计要点
Essential elements and design principles of statistical graphics in medical research
中华流行病学杂志, 2023, 44(11): 1815-1819
Chinese Journal of Epidemiology, 2023, 44(11): 1815-1819
http://dx.doi.org/10.3760/cma.j.cn112338-20230410-00224

文章历史

收稿日期: 2023-04-10
医学研究中统计图形的构成要素和设计要点
张隆垚1 , 林云志1 , 黄丽红2 , 陈峰1 , 魏永越3,4     
1. 南京医科大学公共卫生学院生物统计学系, 南京 211166;
2. 复旦大学附属中山医院生物统计学室, 上海 200032;
3. 北京大学公众健康与重大疫情防控战略研究中心, 北京 100191;
4. 重大疾病流行病学教育部重点实验室(北京大学), 北京 100191
摘要: 统计图形作为医学研究结果可视化的重要方法,可清晰地展示研究结果和重点。然而,如何设计一幅好的统计图形,目前国内外尚无权威且统一的原则,且对于统计图形设计原则缺乏认识,可能会掩盖成果亮点甚至曲解研究结果。鉴于此,本文结合实例,阐述统计图形的构成要素和设计原则,供国内医学研究者参考。
关键词: 医学研究    统计图形    基本要素    设计要点    复合图形    
Essential elements and design principles of statistical graphics in medical research
Zhang Longyao1 , Lin Yunzhi1 , Huang Lihong2 , Chen Feng1 , Wei Yongyue3,4     
1. Department of Biostatistics, School of Public Health, Nanjing Medical University, Nanjing 211166, China;
2. Department of Biostatistics, Zhongshan Hospital, Fudan University, Shanghai 200032, China;
3. Peking University Center for Public Health and Epidemic Preparedness & Response, Beijing 100191, China;
4. Key Laboratory of Epidemiology of Major Diseases (Peking University), Ministry of Education, Beijing 100191, China
Abstract: As an important means of data visualization, statistical graphics can potentially convey scientific findings and key points. However, authoritative graphic guidelines are lacking currently, and medical researchers still have shortcomings in mastering graphic design principles and drawing skills, which may obscure some key research findings and even misinterpret the research findings. Based on statistical examples, we summarized the essential elements and design principles of statistical graphics to address these challenges and to provide a reference for medical researchers.
Key words: Medical research    Statistical graphics    Essential elements    Design principles    Composite graphics    

统计图形是数据可视化的重要手段,可显著提高研究论文的可读性和吸引力,引导读者快速领会统计数据所蕴含的规律。当前医学权威期刊对于图形的要求仅限于技术参数,缺乏较为具体的医学统计图形设计要求。继“医学研究中的统计图形规范”一文后[1],笔者以统计图形构成要素和设计要点为主题,总结医学研究中统计图形的基本要素、设计原则和美化建议,供医学研究者参考。

1. 统计图形的基本要素:一幅完整的统计图形,包括6个部分(图 1):

图 1 统计图形基本要素示意图

(1)图题:即统计图的标题,用简明扼要的文字说明统计图所要传达的主要内容[2]

(2)坐标:在二维平面图形中,坐标系默认采用笛卡尔坐标系,并以数据的原始尺度绘制图形[3]。坐标轴范围通常在值域基础上适当放大(如5%~10%),不可比实际数据的值域小,导致部分数据无法显示,亦不可过大,导致绘图区域利用率过低。坐标刻度的疏密可根据画幅大小适度调整,数据点较密时可采用加有标签说明的主次刻度。根据实际需要可对坐标尺度施以对数、开方等函数变换。

(3)标目:即坐标轴标题,通常用简洁准确的文字说明横轴和纵轴所代表的数据含义,常用变量名称及其计量单位表示[4]

(4)图体:是统计图形中最核心的部分,通常由点、线、矩形等几何图形构成。根据变量特点(实际数值或者变量的统计量),将其映射至几何图形的大小、长度、形状、颜色、透明度等元素特征中[5]

(5)图例:即对图中各种点、线、块、颜色等做简要注释,让读者理解图中各几何图形含义,从而更快地接受图形传达的信息。根据整体构图,可置于图形上方、侧面或图体空白处。

(6)图注:统计图形应有一定的自明性。图注通常指对图形的研究背景、数据特征、分析方法、主要结果、缩写的简要注释,以便于读者在不参考其他资料的前提下,能够读懂图形,抓住重点[6]

2. 绘图的一般原则:制作一幅恰当的统计图形需要遵循的一般性原则:

(1)数据准确:统计图形基于统计资料,数据的严谨性和正确性是一幅统计图形的灵魂。

(2)内容简要:一幅图形阐明一个结果(或规律)即可,少则聚,多则散,内容过多将会分散图形的焦点[7-8]

(3)主次分明:突出图形的中心思想,可通过调整图体中几何图形的大小(点的大小或线的粗细和样式),或设置具有强对比度的颜色,辅以指导线或注释文字,弱化其他区域的非主导元素,构造视觉焦点,吸引读者注意力[9-10]

3. 统计图形的设计原则:格式塔原则(Gestalt Principles)是视觉心理学中的经典原则[11-12],其观点为人们能够通过视觉活动,将观察到的对象加以简化、组合、抽象以及分离,如人们观察到各种颜色时,往往会联想到具体的与之有关的事物。基于这种原则,将其应用于图形设计过程中可赋予图形艺术性和视觉效果。

格式塔原则包括7项:

(1)简单性:人的知觉对图形具有简化的功能,如同Cleveland[13]的观点:点相对于线、条形等元素更简单,更易吸引注意(图 2A)。

图 2 格式塔原则示意图

(2)相似性:对于同类或相关性很强的资料,可在几何图形元素空间位置上设置相近或设置相同的形状或颜色。如图 2B,以不同形状、不同颜色的散点区分不同属性的数据,展示更富逻辑。

(3)对称性:人们观察事物过程中,更倾向于简单且对称的图形(图 2C)。

(4)连续性:在展示趋势性特征时,考虑到视觉惯性,常选择连续形式的图体元素,如图 2D,两组散点在平面上的排列,以直线相连展示其连续性趋势,更加直观。

(5)邻近性:在二维平面或三维空间内,位置邻近的物体更易被视为一体,见图 2E,人们通常第一印象会认为是3组球,而不是6个独立的球。

(6)闭合性:又称为“完形”原则,人们在观察熟悉的视觉形象时,倾向于将不完整的局部形象自行补充为一个整体的形象。如不完整的两个环形排列,观察时会自补齐为圆形,见图 2F。卡尼萨三角形作为格式塔原则的著名代表图形[14],几个“豆状”图形排列,形成中间的空白域,实际图形中并未绘制三角形边线,但人眼观察时,会将不完整的局部形象补全,自动捕捉到中间的三角形。

(7)图片与背景的对比:利用主从关系,强调对比,设置不同的图体与背景颜色,如对比色(黑白、红蓝等),以留白等方式突出主体形象。如以黑色为背景色,白色的主题字样更加清晰,见图 2G

格式塔7项原则相辅相成、密不可分,在其基础上设计出符合人群视觉特点的图形,使人们产生对图形的共鸣,才是统计图形的艺术性的体现。

4. 统计图形的形式变换:艺术性是图形的生命[15]。通过对图形进行变换,可提升其视觉冲击力,更准确地表达数据蕴含的规律和想要传递给读者的关键信息。图形变换具有多种方式,例如:

(1)条形图的极坐标变换:条形图经极坐标变换后,将条形不同高度转化为饼图不同扇形角度,以各角度的大小体现数值大小;以此为基础,结合条形图、饼图特点,设置相同的扇形角度,用扇形的半径长度代替数值的大小,衍生为著名的玫瑰图。以2016年中国癌症死亡人数数据为例,展示条形图-饼图的极坐标变化(图 3A),图形变换后,可清楚观察到死亡人数排名靠前的癌症(肺癌、肝癌和胃癌),对视觉产生更大的吸引力[16]

注:AUC:曲线下面积 图 3 几种统计图形的极坐标变换示意图

(2)线图的极坐标变换:将线图的横轴进行极坐标变换,形似雷达屏显,即为雷达图。如图 3B,以5个模型在不同验证数据集下的曲线下面积(AUC)为例,分别绘制线图和雷达图,线图中以线条围成的面积比较AUC大小,转化为雷达图后,以不同顶点所处位置来判断模型AUC大小,由图可见模型4表现最佳,模型1表现最差。

(3)直方图的阿基米德螺旋坐标变换:螺旋直方图基于阿基米德螺旋坐标系,常用于绘制时间序列数据,用来展示数据的周期性或变化趋势,以2017-2020年某城市每日平均PM2.5浓度变化为例,图形变化后,螺旋直方图由内至外,顺时针旋转一周即为一年,可对比不同年份同一时期的数据差异,数据变化趋势更加直观,艺术性和可读性大大提升。见图 3C

5. 图形的美化:图形的美化基于视觉语言的完美传达,其中色彩、质感、空间均是可考虑的元素,可从几个方面来美化:

(1)图形比例:艺术设计领域默认宽高比为4∶3,符合“黄金分割”比例,视觉效果较好。科学出版物中,应根据图形类别而定,如:饼图建议用1∶1的画幅,横和纵轴尺度范围相同的散点图和线图推荐1∶1的画幅;若横轴范围较大,则可用6∶4、10∶7甚至64∶27(43∶33)的宽幅[17]

(2)图形色彩:在平面设计中,色彩起着强化主题的作用。简要的数据,可以用单色呈现;同一类别而程度有别的数据,可以用同一色系的渐变色来呈现;若含有不同类别的数据,则建议用彩色呈现。色彩有主次之分,画面基调采用次要色彩,焦点几何图形元素或结果采用主体色彩。一幅图形中尽量不超过3种色系[18]

(3)图形主题:统一的图形背景,协调的标签字体字号,统一的坐标轴、参考线粗细,重点突出的几何图形,主次分明的色彩搭配,构成了一幅图的设计主题。形和色的完美搭配,方能呈现图形之美。

6. 复合统计图形:一项医学研究,可产生各类丰富的分析结果。往往单一图形展示效果有限,以图层叠加多种统计图形是常用的方法。例如:通过设置左右双纵坐标轴,将两个图形融合,在共同横轴数据上相互比较不同类别纵轴指标(图 4A);多个图共用纵坐标轴,以便于横轴所示指标的相互比较(图 4B);将画布网格化,每一区域可分配不同的比例,放置不同的图形,多图拼接,以全面展示数据特征(图 4C);多个子图的拼装形成集成统计图形,子图内容应具有一定联系,以更为全面地展示分析结果(图 4D)。

图 4 复合图形的形式示例

不同复合统计图形,在设计上需注意:

(1)风格一致:不同子图图体的类别、色系、背景特点、标签字体和字号等设计风格需保持一致;多个子图的排列要考虑图形在报告中的排版形式,轮廓对齐,宽高比尽量符合设计美学要求。在各子图同一个相对位置上(正上方或左上角)用Ⓐ、Ⓑ、Ⓒ等序号标识,以便于文中引用。

(2)去冗求精:若有共同的几何图形的图例、文字标注或注释,切勿重复,可抽提置于整个复合图形的上方、右侧或图体的空白区域[19]

(3)排列有序:多幅子图排列时,顺序应有一定逻辑,可按结果的重要程度进行排序。

(4)直观和精确兼顾:图形可结合表格共同展示,图形的优势在于直观,表格的优势在于精确。有些图形下方放置表格(如Kaplan Meier生存曲线图形下用表格展示各时点的人数)两者互补,可更直观、精确地展示研究结果。

7. 讨论:关于统计图形,国内外学者均有总结相关的绘图原则[6, 20],但仅针对简单的线图、点图等图形,涉及图种较少且绘制要求较为简略。绘制一张图,不仅是为了画图,而是引导读者更好地理解图形的内容。针对图形中的每个元素和细节,反复打磨,最大程度地达到“一图胜千言”的效果[21]。本文以医学统计图形的构成要素和设计要求为主题,整理了统计图形中的基本要素,总结了绘图需遵守的设计原则,最后从图形设计角度出发,提出图形变化、美化的常用方法以及复合统计图形的一般形式,为广大医学研究者提供了较实用的建议。

本研究结合统计学角度和图形美学角度,总结了图形的基本要素和一般性绘图原则,难以做到面面俱到。但本文提供的思路及设计要点,具有一定的科学性和通用性,所总结的绘图的经验原则值得医学研究者参考和应用。数据可视化手段已在当今时代大放异彩,如何以精准、简约、优美的统计图形去匹配丰富多样的科学研究结果,值得深入研究与思考。

利益冲突  所有作者声明无利益冲突

作者贡献声明  张隆垚、林云志:论文撰写/修改、配图制作;黄丽红:论文修改;陈峰:论文构思/审核;魏永越:论文构思/撰写/修改、经费支持

参考文献
[1]
林云志, 张隆垚, 陈峰, 等. 医学研究中的统计图形规范[J]. 中华流行病学杂志, 2022, 43(10): 1666-1670. DOI:10.3760/cma.j.cn112338-20220701-00584
Lin YZ, Zhang LY, Chen F, et al. Specification of statistical graphics in medical research[J]. Chin J Epidemiol, 2022, 43(10): 1666-1670. DOI:10.3760/cma.j.cn112338-20220701-00584
[2]
李康, 贺佳. 医学统计学[M]. 北京: 人民卫生出版社, 2016.
Li K, He J. Medical statistics[M]. Beijing: People's Health Publishing House, 2016.
[3]
Krzywinski M. Axes, ticks and grids[J]. Nature Methods, 2013, 10(3): 183. DOI:10.1038/nmeth.2337
[4]
方积乾. 卫生统计学[M]. 7版. 北京: 人民卫生出版社, 2012.
Fang JQ. Health statistics[M]. 7th ed. Beijing: People's Health Publishing House, 2012.
[5]
Bertin J. Semiology of graphics[M]. Madison: University of Wisconsin press, 1983.
[6]
Krzywinski M. Labels and callouts[J]. Nature Methods, 2013, 10(4): 275. DOI:10.1038/nmeth.2405
[7]
McGurgan K, Fedoroksaya E, Sutton TM, et al. Graph design: the data-ink ratio and expert users[C]// America: Proceedings of the 16th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. IVAPP, 2021.
[8]
Tufte ER. Beautiful evidence[M]. Cheshire: Graphis Press, 2006.
[9]
Peng RD, Matsui E. The art of data science: a guide for anyone who works with Data[M]. Victoria: Leanpub, 2016.
[10]
Kozak M. Basic principles of graphing data[J]. Sci Agricola, 2010, 67(4): 483-494. DOI:10.1590/S0103-90162010000400017
[11]
Wong B. Gestalt principles (Part 1)[J]. Nat Methods, 2010, 7(11): 863. DOI:10.1038/nmeth1110-863
[12]
Wong B. Gestalt principles (Part 2)[J]. Nat Methods, 2010, 7(12): 941. DOI:10.1038/nmeth1210-941
[13]
Cleveland WS. The elements of graphing data[M]. Monterey: Wadsworth Advanced Books and Software, 1985.
[14]
Sakiyama T, Sasaki A, Gunji YP. Origin of Kanizsa triangle illusion[M]//Rhee SY, Park J, Inoue A. Soft computing in machine learning. Cham: Springer, 2014: 95-103.
[15]
Tufte ER, Robins D. Visual explanations[M]. Cheshire: Graphis Press, 1997.
[16]
Zheng RS, Zhang SW, Zeng HM, et al. Cancer incidence and mortality in China, 2016[J]. J Nat Cancer Center, 2022, 2(1): 1-9. DOI:10.1016/j.jncc.2022.02.002
[17]
Christodoulou D. Heuristic criteria for selecting an optimal aspect ratio in a two-variable line plot[J]. Stata J, 2017, 17(2): 279-313. DOI:10.1177/1536867X1701700203
[18]
Wong B. Points of view: color blindness[J]. Nat Methods, 2011, 8(6): 441. DOI:10.1038/nmeth.1618
[19]
Tufte ER. The visual display of quantitative information[J]. J Healthcare Qual, 1985, 7(3): 15.
[20]
谢佳斌, 金勇进. 探索性数据分析中的统计图形应用[J]. 统计与信息论坛, 2009, 24(7): 13-17, 56. DOI:10.3969/j.issn.1007-3116.2009.07.003
Xie JB, Jin YJ. Issues on the exploratory data analysis of complex survey data[J]. Stat Inf Forum, 2009, 24(7): 13-17, 56. DOI:10.3969/j.issn.1007-3116.2009.07.003
[21]
Krzywinski M. Elements of visual style[J]. Nature Methods, 2013, 10(5): 371. DOI:10.1038/nmeth.2444