2) 中国宁夏回族自治区 750001 宁夏回族自治区地震局固原地震监测中心站;
3) 中国宁夏回族自治区 756000 宁夏回族自治区地震局银川地震监测中心站
2) Guyuan Center Station, Earthquake Agency of Ningxia Hui Autonomous Region, Ningxia Hui Autonomous Region 750001, China;
3) Yinchuan Center Station, Earthquake Agency of Ningxia Hui Autonomous Region, Ningxia Hui Autonomous Region 756000, China
我国是世界上震害严重的国家之一,提高地震预测预报水平是国家和社会公众的迫切需求,地震的孕育、产生与地壳形变之间存在紧密的关联性(巩丹丹等,2019),随着对地震发生机制的深入研究,这种理论得到了进一步证实和发展。事实上,在地震孕育过程中,地壳形变是直观、突出的一种线性变化。通过对地壳形变状态进行检测,能够为地震监测以及预报提供至关重要的依据(刘文义等,2012)。
我国于1963年开始应用大地形变测量技术,该测量手段在地震监测中发挥了重要作用。经过多年发展,地壳形变观测已成为地震观测中有效而直观的几种方法之一,也是地震监测预报重要的几大支撑学科之一,并广泛应用于地震监测和预报工作中(顾国华,2012;王庆良,2018)。目前,我国地震行业形变观测仪器多为“十五”期间架设,如DSQ型水管倾斜仪、SS-Y型洞体应变仪、重力仪、垂直摆等,均具有独立的Web请求页面,具有查看仪器部分工作状态及当前数据和下载数据等功能,为获取有效数据提供了便利条件(马士振等,2015;方传极等,2018)。
地壳形变观测数据获取模式基本固定,一般零点后自动形成数据包并传输至服务器,次日进行人工处理。该模式受仪器自身固有条件及外部条件限制较大,如突发性网络中断、断电、死机、仪器超量程等,一般故障出现次日才会被发现,对数据的连续性和完整性造成影响。为此,通常采用Web监视和Ping IP地址等人工操作进行监控,不仅工作量大而且失误仍有发生。随着科学技术的发展,利用网页数据结构实现数据的自动下载和提取成为可能,不仅能绕开数据零点入库造成的时间延迟,而且可从根本上解决数据不能实时获取并分析处理的问题,还能在一定程度上保障数据的完整率和连续率,从而提高数据利用率。
1 形变网页结构目前,全国形变观测仪器Web网页均由HTML语言编写,提取运行网页内容和数据,首先需了解网页的结构和构成。互联网是由无数个相互链接在一起的网页组成的,这些页面又称为Web文档。Internet的普及和WWW的广泛使用,使得大量HTML网页被开发并应用到实际工作中,在这些网页中,既有文本型网页,也有数据型网页。然而,HTML网页主要具有浏览功能,其中的数据难以被程序直接调用,需要通过有效提取才能应用在实际工作中(王茹等,2004)。
HTML即超文本标记语言(hyper text markup language,HTML),是网页编写的基本语言,主要由控制语句与显示内容组成。显示内容主要组成部分是文本,而控制语句由一些标注(Tag)组成,用来描述显示内容展示的形式,标注以<>括起来,一般成对出现,浏览器能自动识别这些标记,并根据标记要求的格式显示内容(赵欣欣等,2007;赵文等,2008;常红要等,2010)。HTML应用广泛的主要语法结构格式如下:
<html>
<head>
网页标题及其他与网页标题无关的信息等
</head>
<body>
正文标题,正文内容及其他与网页正文标题,正文内容无关的信息等
</body>
</html>
2 形变网页的数据提取以宁夏回族自治区地震局石嘴山台水管倾斜仪(其他形变仪器只需修改仪器IP地址即可)作为实验对象,设计形变观测Web网页数据提取流程。鉴于网页整体架构较一致且数据来源单一,无需重新构造URL,基于仪器网页自身URL,利用网络爬虫技术,提取网页信息(信息一般以字符串形式存放,内容包括数据、标题、符号等),利用正则表达式,对字符串型文本进行过滤和匹配,获取实际所需数据,并存放至相应表中,根据需要进行相应的统计分析,如绘制折线图、计算相关系数、设置预警门阀等。
正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串(于满泉等,2005;高丙坤等,2008)。Matlab、Python、C++和Java等程序设计语言均支持利用正则表达式进行字符串操作,其中Matlab具有强大的数据处理功能,而Python获取数据过程则更加简单,可根据实际需要应用不同的语言进行编码。文中以Python为例进行演示说明,即将网页字符串中的\r、\n、<b>等,利用函数Replace替换成为空格,调用正则表达式进行匹配,主要核心代码如下:
content = requests.get(URL)#解析网页信息
rePattern = r’-?\d+\.\d+\.*\d’#正则表达式
其中URL即为需要获取数据的IP地址,在实际工作中可根据需要设置不同的IP地址。若需提取分钟值或小时值,设置相应的时间定时器即可。设计每2 s提取一次数据,则网页数据提取结果见图 1。
为了更好地使用和获取实时观测数据,需要将在HTML文本中提取的数据及时存储至指定的Excel表格中,以便后期调用。以形变仪器超量程、缺数等造成的错误数据和全天数据连续作图、数据分析为例,介绍提取数据的相关应用功能。
3.1 形变数据超量程、断电等报警形变观测仪器易受人为活动、超量程、断电、断网、刮风、爆破等因素影响,其中断电和超量程影响较显著,易导致数据完整率和连续率下降。对于DSQ型水管仪和SS-Y型伸缩仪而言,观测数据超出一定测量范围,若及时发现并报警,则可避免数小时甚至十几小时的数据超量程和断记现象。因此,只需设置相应的阀门值和网页提取周期,在与阀门值不断对比过程中,一旦发现数据不符合设置条件,则返回判断结果并发送报警信息至指定用户和企业,达到形变观测仪器数据异常的报警目标。
以石嘴山形变观测水管仪和伸缩仪作为实验对象,企业微信作为告警工具,并按照形变仪器在±2 000 mV以内线性度最好的原则,设置1 800 mV为量程报警触发阀门,若数据出现异常则发送报警信息,并在每日固定时间检查仪器工作状态。实验结果见图 2。
从网页实时获取数据并存储,有利于数据的即时应用。在震情形势较为严峻的情况下,可随时提取并分析当前观测数据,为地震监测预报提供数据支持。数据以Excel格式保存,支持大部分软件进行数据读取及绘图等功能,可直接进行数据处理并成图,缩短了实时测量数据延迟入库再提取的过程。文中仅以少量形变数据为例,展示Excel存储及绘图功能,见图 3。
文中选用合适的计算机语言,实现了形变观测实时数据的自动提取,并对网页提取数据巨大的应用前景展开了详细讨论,论证了基于网页结构提取数据实现形变故障报警的可能,为产出高质量观测数据打好基础。另外,数据的实时存取避免了零点入库再调取分析而造成的数据滞后,为数据的及时查看、分析提供了一种方法。当实际测量数据丢失无法入库时,这种数据提取方法相当于为数据做备份。测试发现,该方法适用于当前大部分台站的观测仪器,由于不同仪器运行网页的构成文本不同,需根据实际调整相应代码。需要注意的是,有些学科的仪器运行网页访问过多,有可能造成仪器死机,将对正常观测产生一定影响。
论文在撰写过程中得到曾宪伟高级工程师和李新艳师姐的指导和帮助,在此向他们表示衷心感谢。
常红要, 朱征宇, 陈烨, 等. 基于HTML标记用途分析的网页正文提取技术[J]. 计算机工程与设计, 2010, 31(24): 5187-5191. |
方传极, 林苗禄, 全建军. 基于企业微信垂直摆超量程报警的设计与实现[J]. 科学技术创新, 2018, 11061106(31): 67-68. |
高丙坤, 成战刚, 李倩. 基于正则表达式的信息滤除算法[J]. 现代计算机, 2008, 11061106(2): 54-55. |
巩丹丹, 尚俊斌. 地壳形变观测在地震监测预报中的发展与应用研究[J]. 甘肃科技纵横, 2019, 48(4): 12-14. |
顾国华. 地壳形变与地震前兆探索回顾和展望[J]. 地震, 2012, 32(2): 22-30. |
刘文义, 张文涛, 李丽, 等. 光纤传感技术——未来地震监测的发展方向[J]. 地震, 2012, 32(4): 92-102. |
马士振, 林向东, 白永福, 等. 基于Django框架的两种Web地震目录分页方法[J]. 地震地磁观测与研究, 2015, 36(1): 135-139. |
王庆良. 地壳形变观测在地震监测预报中的发展与应用研究[J]. 地震研究, 2018, 41(3): 343. |
王茹, 宋瀚涛, 陆玉昌. 网页数据自动抽取系统[J]. 计算机工程与应用, 2004, 40(19): 135-138. |
于满泉, 陈铁睿, 许红波. 基于分块的网页信息解析器的研究与设计[J]. 计算机应用, 2005, 25(4): 974-976. |
赵文, 唐建雄, 高庆峰. 基于统计的中文网页正文抽取的研究[J]. 电脑知识与技术, 2008, 11061106(1): 120-123. |
赵欣欣, 索红光, 刘玉树. 基于标记窗的网页正文信息提取方法[J]. 计算机应用研究, 2007, 24(3): 144-145. |