随着地震监测预报预警业务的快速发展及地震烈度速报与预警服务的深入推进,国家地震台网数据中心作为行业骨干网与办公网的核心枢纽,其信息系统稳定性已成为保障地震数据实时处理、预警信息快速发布及业务连续性的关键(赵国峰等,2022)。当前,很多行业的数据中心机房需要24小时不间断运行,仅依赖人工值守保障设备的稳定运行,不适应当前高速发展的需求,对故障预警的时效性要求显著提升,传统运维模式面临严峻挑战(吴亚楠等,2014;孔小燕等,2016;汪啸,2020;张甲昊,2020;顾小勇等,2021)。地震预警系统需依赖海量数据的秒级汇聚与智能化处理,而机房环境异常(如温湿度波动、电力中断)可能导致硬件故障,进而影响地震参数速报、预警信息发布、烈度图生成等核心业务(张建勇等,2024)。为此,亟需构建覆盖设备状态、环境参数的全方位监控体系,实现故障的告警与自动化处置,以提升机房运行的稳定性与应急响应效率。
1 系统设计原则数据中心机房智能监控系统设计针对多地分布、多期建设、设备激增的特点,遵循“一体化、集约化、智能化、实用化”的设计原则,将动环实时监控报警、三维展示及视频监控等整合在统一平台上,实现对数据中心机房基础设施和动环设备进行全面综合监测管理,可及时感知设备故障、辅助管理人员决策排障,保障系统安全稳定运行。整个数据中心机房最终可实现通用、可靠、安全、开放、实时、可扩充和可维护等7个方面特点。
1.1 通用性系统具有开放性,符合国际工业的监控设计标准,广泛兼容各类厂商设备,实现监控项目的远程集中管理、维护及升级,确保各分控点全天候稳定运行,为后续监控规模的灵活扩展奠定坚实基础。
1.2 可靠性系统采用模块化结构,可在线修改部分软硬件参数,监控过程不影响被监控设备的正常运转。系统选用工业控制级的产品,可24小时×365天连续工作,平均无故障时间可超过12万小时,故障告警准确率可达99%。系统采用国际网络协议标准,支持各类数据库。
1.3 安全性系统具有自检功能,可对本系统与被监控设备的通信状态、故障状态、数据库、动态库等进行全面自检测。系统告警形式丰富多样,可采用声光告警、电话告警、语音告警、短信告警、网络E-MAIL告警和SNMP信息告警等方式。系统管理和维护设置多级权限分类,密码管理严格,系统设备与被监控设备具备安全隔离功能。
1.4 开放性系统具有开放的数据库接口,支持各种不同类型的数据库,与各类通信接口的设备可方便挂接。系统支持网络管理协议(SNMP),能通过SNMP的管理信息库(MIB)来访问被监控的对象或子系统。系统采用标准的TCP/IP网络传输协议,数据接口开放,支持ODBC、SNMP、DDE、ADVACE DDE等。
1.5 实时性系统数据传输实时性高,传送数据采用RS485总线或RS232的方式进行自动轮巡检测和有值变化传送。系统设计3 s内完成本地数据采集、所有命令的响应和执行,实现实时性需求,可以查询任一监测对象的历史监控记录,并生成该设施各时间段的历史曲线图。
1.6 可扩充性系统设计采用分散控制、集中管理模式,充分考虑了未来数据中心的扩容需求、升级换代以及监控点位的调整。系统软件功能模块化,便于升级与扩容。系统支持各种智能设备,不需要重新进行软件的开发,提供与其他系统进行数据交换的接口。
1.7 可维护性系统通过采用模块化结构和规范化标识,确保了高度的可维护性。系统对自身在线运行的状态进行自诊断和自检测,可及时发现系统各子单元的故障情况,便于运管人员的维护处理。
2 系统构架设计数据中心机房智能监控系统涵盖了机房环境、动力系统及安防设备的全面监控,包括告警响应、报表管理、工单处理及三维可视化等功能,从而实现无人值守、自动报警、智能分析以及高效集约的现代管理模式。
数据中心机房智能监控系统共设计3层架构:接入层、应用层和呈现层(图 1)。
![]() |
图 1 机房智能监控系统设计架构 Fig.1 Intelligent monitoring system design architecture diagram for computer room |
底部的接入层为监控采集传感器和被监控设备接口,监控对象包括环境监控(温湿度、漏水、精密空调、列间空调、机柜温度和新风等)、动力监控(不间断电源、配电柜和发电机等)和安防监控(视频和烟感)。
2.2 应用层中部的应用层主要为监控数据传输处理、事件处理和联动处理,硬件包括分析处理平台、串口、交换设备等,软件基于.NET Framework平台,C#语言开发,搭建MySQL数据库,集中处理分析采集传感器和被监控设备接口调用数据,实现报警响应、报表工单、智能分析趋势等功能。
2.3 呈现层顶部的呈现层将管理和展示功能合一突出便捷服务,主要包括B/S结构模式的Web呈现服务,无需安装客户端通过浏览器便可远程监控浏览管理,更适合多个机房的远程集中监控管理,同时兼备短信服务、微信服务和三维可视化服务。
3 系统功能实现系统功能主要包括传感器监控、报警与事件响应、报表管理、工单处理、可视化管理等组成部分。
3.1 传感器监控利用通信数据采集终端设备,集中采集监控对象的运行设备参数(表 1),实现远程查看动环运行系统。通过监控客户端,用户可查看动环系统并进行相关配置,从而及时、准确地掌握机房设备的运行状态(图 2)。
![]() |
表 1 传感器监控目标及相关参数表 Table 1 Sensor monitoring targets and related parameters |
![]() |
图 2 传感器管理界面 Fig.2 Sensor management interface |
系统采用多种方式并行报警,在发生事件进行报警时可同时发出语音报警、电话报警、短信报警、网络报警、E-MAIL报警等多种信息。针对报警点定义报警级别,可对各类报警类别进行灵活定义或单独屏蔽。报警先后根据级别高低进行优先选择,当有不同级别的多个报警同时发生时,优先提示级别高的报警,再依次根据级别对其他的报警进行提示。报警信息可进行可视化管理,在平台维护窗口中对报警信息进行查看管理。系统自动记录历史数据、报警状态、生成历史曲线(图 3)。
![]() |
图 3 报警事件和响应管理界面 Fig.3 Alarm event and response management interface |
报表管理兼顾采集和保存数据功能。保存数据方式可选择定时保存或数据变化间隔量变化保存,便于降低系统负担,进行全面管理。保存时全面保留告警相关的完整数据,以便于后续进行高效的常规告警管理,系统平台所有数据均保存18个月以上。数据报表是机房监控运转状态的综合记录,报表查询可以按照时间段、告警地点、告警类型等限制条件进行查询。报表产出可以分时段、分监控项、分障碍类型进行统计产出。
系统可生成多种数据报表,如能源统计报表、各级设备及区域耗能报表、配置信息表、物料报表、工单报表等,能够按照监控项、障碍类型等多种方式进行分组分条显示,同时支持细分、汇总以及各类查询和统计功能,可生成能耗、事件、问题、变更、容量、告警、巡检完成率、巡检异常等情况的报告,同时可生成资产设备数量表、库存情况汇总分析表、使用分析表等统计结果;系统提供数据表格、饼图、柱状图、曲线——可以生成表格、饼图、柱状图、曲线等方式展现,自定义报表、预设报表以定时或手动方式存储在管理平台主机,亦可导出成数据表格,支持在线打印(图 4)。
![]() |
图 4 报表管理界面 Fig.4 Report management interface |
系统可以实现对传统日常巡检工作的替代,灵活便捷地生成各类巡检报表、图表和系统运维报告,并能有效制定并管理设备巡检标准及任务,同时确保巡检提醒的及时发送,为数据中心设备和资产维护、保养、采购提供决策依据,达到科学管理目的。
工单管理流程可以实现重要报警自动派单、人员排班处理结果存档、工单统计、知识库导入导出。在管理页面,用户可以操作、访问并查看如下内容:人员报修、报警信息、值班安排、工单来源、工单审核、事件记录、历史查询、故障优先级划分以及指派方式等(图 5)。
![]() |
图 5 工单管理界面 Fig.5 Work order management interface |
系统可进行三维可视化管理,能以三维虚拟现实技术对机房的各楼层区域、设备安装部署情况和动环设施等进行360度视角展示,实时动态呈现设备运行参数和各类告警信息。三维可视化虚拟场景和真实数据有机结合,增强了机房设备各项数据的直观性,可直观快速定位故障设备,便于运维人员集中控制和远程管理。同时,3D虚拟仿真技术可以展示机房环境的温湿度情况,以云图形式表达专业机房温度分布状况并用色彩直观展示温度测量值。容量管理也采用可视化管理,能够按机柜为单位,通过树形结构或三维场景直观展示数据容量整体使用情况,对机柜和机房的数据已用空间和剩余可用空间进行可视化展现。
机房信息可视化与底层数据采集系统进行集成,支持对温湿度监测点位置、漏水监测点位置进行展示,对温湿度、漏水情况等动态数据可进行实时查看,并支持以云图形式展示机房的温度分布情况。同时,系统支持实时查看动环监控告警信息,在故障发生时能调用故障点附近摄像头查看相关情况,并生成设备运行和故障报表(图 6)。
![]() |
图 6 三维可视化管理界面 Fig.6 3D visualization management interface |
中心机房智能监控系统开发集成了“运行、报警、处置、管理”业务功能于一体的信息化平台,包括传感器侦测、监控管理软件、双机热备模块、电话语音报警系统、短信息报警系统、现场语音报警系统、移动终端管理软件、微信推送功能模块等。系统部署后,涵盖了环境设备、动力设备、安防监控等多方面管理功能,包括门户管理、日志管理、联动管理、知识库、工单管理等,并支持告警实时打印、事件过滤、告警服务、定时巡检、容量管理及能效管理等。同时与第三方OPC接口短信平台、大楼安防系统实现了监控报警数据和信息的实时对接。
该系统自2021年部署以来,一直保持稳定运行,未发生宕机故障和主要监控数据中断等情况,运行稳定性符合要求,有效保障了国家地震台网数据中心基础设施的安全、连续、可靠和高效运行。
据2023年1月1日—2024年12月31日系统运行记录的重大报警统计(表 2)分析,与实际发生的故障统计结果相符,也与各类机房的建设历史和运行实际隐患相符,为机房改造和设备更新提供了翔实依据。系统运行后,机房故障报警的响应时间由原来的巡检间隔时间缩短为实时,故障的处置时间也大幅缩短,有力保障了地震核心技术系统的稳定运行和监测预报预警应急业务的顺利开展和服务。
![]() |
表 2 机房监控系统重大报警次数(2023—2024年) Table 2 Number of major alarms in the computer room monitoring system (2023-2024) |
根据系统对环境监控的综合统计分析(图 7),中心业务机房、办公机房的4台精密空调压缩机、风扇和电源频繁出现故障,尤其是每年6—8月超负荷运转期间,故障率显著上升。机房管理人员借助该分析结果将此时段作为重点保障时段,加强巡检排查并提前采取应急措施,有效降低了空调重大故障造成机房环境超限影响业务的风险。同时根据系统分析报告,制定了个别区域更新空调和调整风道的方案,目前正在实施过程中。
![]() |
图 7 机房空调重大故障类型和报警次数 Fig.7 Types of air conditioner faults and alarm frequency |
根据系统对动力监控的综合统计分析(图 8),大楼机房不间断电源系统的3台主机发生多次电压不稳、负载不受保护等问题,同时电池间电池多次报警故障,与实际运行年限临近使用寿命相符,通过更换不间断电源主机及电池组,成功解决了上述问题。
![]() |
图 8 配电重大故障类型和报警次数 Fig.8 Types of power faults and alarm frequency |
机房智能监控系统在国家地震台网中心机房的实践应用中,通过构建集约化监控体系实现了大核心功能:①基于物联网传感器网络整合多期建设的动力环境、安防及网络设备监控节点,构建统一的多维度实时监测平台,实现环境参数(温湿度、烟雾、水浸等)、设备状态(UPS、精密空调、配电柜等)及网络流量全要素融合监控;②采用自适应阈值设定算法,结合设备运行基线数据动态调整告警阈值,使故障检测准确率提升,平均故障响应时间从传统人工巡检的4小时缩短至18 min;③建立故障趋势预测模型,实现告警记录自动归档、故障时段分布热力图生成及设备联动关系可视化分析,为运维决策提供多维数据支撑。
该系统运行以来,国家地震台网数据中心机房设备连续运行率和故障修复效率大幅提升,为地震数据实时处理与预警信息快速发布提供了高可靠性的基础设施支撑。未来将深化人工智能算法在异常模式识别中的应用,整合网络性能监控、硬件健康度评估及专业应用系统监控,构建智慧化监控中枢,实现从被动响应到主动防御的跨越式升级。
孔小燕, 戴梦青. 机房系统自动化监测预警平台的设计与实现[J]. 电子质量, 2016(10): 65-70. |
顾小勇, 唐文勇. 电视播控系统机房动力环境监控设计与实现[J]. 中国传媒科技, 2021(8): 152-154. |
吴亚楠, 袁贺超, 王明昊. 加强主站自动化机房建设, 支撑地区电网平稳快速发展[J]. 城市建设理论研究(电子版), 2014(21): 1 351-1 351. |
汪啸. 数据中心基础设施及日常运维综合管理系统的实现[C]//中国新闻技术工作者联合会2020年学术年会论文集. 成都, 2020: 283-290.
|
赵国峰, 高楠, 杨大克. 国家地震烈度速报与预警工程建设进展[J]. 地震地磁观测与研究, 2022, 43(3): 165-171. DOI:10.3969/j.issn.1003-3246.2022.03.023 |
张甲昊. 通信机房动力环境监控系统应用[J]. 中国新通信, 2020, 22(5): 114. |
张建勇, 席楠, 徐泰然, 等. 国家中心地震烈度速报与预警技术平台[J]. 中国地震, 2024, 40(1): 54-68. |