机器学习在海底管道信号识别中的探索

引用本文

施健, 蔡春麟. 机器学习在海底管道信号识别中的探索[J]. 海洋石油, 2018, 38(1): 90-94. DOI:10.3969/j.issn.1008-2336.2018.01.090 复制到剪切板

SHI Jian, CAI Chunlin. Application of Machine Learning in the Recognition of Submarine Pipeline Signal[J]. OFFSHORE OIL, 2018, 38(1): 90-94. DOI:10.3969/j.issn.1008-2336.2018.01.090 复制到剪切板

机器学习在海底管道信号识别中的探索

[PDF全文]

施健, 蔡春麟

中石化海洋石油工程有限公司, 上海 201208

收稿日期: 2017-10-31; 改回日期: 2018-01-09

第一作者简介: 施健, 男, 1979年生, 工程师, 2002年毕业于中国地质大学(武汉)石油及天然气地质勘查, 现从事质量管理工作。E-mail:shij.shhy@sinopec.com.

摘要: 文章通过研究机器学习方法在浅剖管道信号识别中的应用，探索了海底管道资料解释自动化可行性。文中对六种机器学习算法在浅剖数据集中的应用效果进行了测试，并根据测试结果，优选四种算法对实际资料进行了应用，实际应用中管道识别率最高可达95.3%。通过研究认为机器学习在物探资料解释领域有着广阔的应用前景。

关键词：机器学习浅剖迭代决策树 K近邻

Application of Machine Learning in the Recognition of Submarine Pipeline Signal

SHI Jian, CAI Chunlin

SINOPEC Offshore Oilfield Service Company, Shanghai 200120, China

Abstract: By studying the application of machine learning in the recognition of pipeline signal collected by sub-bottom profle, the authors discussed the feasibility of the automatic processing of submarine pipeline data. According to the testing effect of six kinds of machine learning algorithms in the processing of sub-bottom profle dataset, four of them were elected and applied to the actual processing, with the recognition rate up to 95.3%. It's believed that machine learning has a broad application prospect in the feld of geophysical data interpretation.

Keywords: Machine learning sub-bottom profle Gradient Boosting Decision Tree K-Nearest Neighbor

随着海洋勘探技术的不断进步，海上油气资源的开发利用得到了长足发展。作为海上油气田的“生命线”，海底管道在油气生产集输和储运系统中起着重要的作用。与陆地管道相比，海底管道的运行环境更加恶劣，受自然因素和人为因素所带来的危害影响十分突出，一旦受到损伤，将带来巨大的经济损失和环境问题。因此，按相关规范要求，必须采用有针对性的调查方法，对海底管道进行定期检测，以确保其安全运行。

目前，海底油气管道的检测主要采用浅地层剖面测量方法（以下简称浅剖）对海底管道进行外部检测，按要求以5~100 m的间距布设垂直管道路由走向的检测测线。浅剖能穿透一定深度的浅部地层，获取地层中的管道信号，从而了解管道的空间状态及其附近海底的地质灾害信息^[1-3]。

后期的资料解释过程中对管道位置及其空间状态的判读目前大都还是以人工为主，存在效率低且繁琐等问题。本文尝试利用机器学习的方法，通过对以往检测数据的整理学习，建立合适的模型，以达到电脑自动识别管道位置的效果，提升资料解释效率。

1 机器学习算法简介

机器学习作为一种实现人工智能的方法已得到广泛的运用，作为研究计算机模拟人类学习活动的一门学科，其目的是通过对众多的数据进行归纳学习，建立相应模型，利用模型对目标进行预测。从机器学习的定义可以看出，影响机器学习效果有两个重要的因素：一是数据，数据的数量和质量决定了机器学习可达到的高度；二是算法，算法是帮助达到这一高度的阶梯。两者相辅相成，缺一不可^[4-5]。

目前机器学习算法较多，针对海底管道检测，本文采用了六种常用算法对管道信号进行识别，分别是K近邻（KNN）、随机森林（RF）、逻辑回归（LR）、决策树（DT）、支持向量机（SVM）和迭代决策树（GBDT）^[6-7]，各种算法的定义见表 1。

表 1 机器学习算法的定义

2 数据提取与数据集的建立

通过对机器学习方法的了解，首先从浅剖资料中提取相关信息数据，然后对数据进行分类和标识，最终形成可供机器学习使用的数据集。

2.1 浅剖反射信号特征

在海管检测采集到的浅剖资料中，有3种反射信号较为常见：

（1）管道信号。由于海管材质多由钢材制成，与海底地层存在较大的声阻抗差异，当浅地层剖面仪发射声波时，管道能形成较强的反射，且声波信号无法有效穿透管道，导致下部地层反射信息被屏蔽。因此，绕射弧信号及其下部地层屏蔽现象是判断管道位置的重要特征。

（2）地层信号。不同地层沉积物性、压实程度和含水量存在差异，形成强弱程度各异的波阻抗，在剖面上形成连续程度不等的波阻抗界面。

（3）空白带（信号缺失）。受船只姿态、噪音、水中物体等因素影响，接收器无法采集到有效的反射信号，在剖面中反映为一宽窄不一的条带状弱反射现象。各种反射信号在剖面中的特征见图 1。

图 1 浅剖资料中的不同反射信号

2.2 数据格式介绍

目前常用的管道检测仪器有德国INNOMAR公司生产的SES2000系列参量阵浅剖仪，其所采集资料为SES格式文件，经转换后可保存为ASC文件。ASC文件将数据按采集先后顺序依次进行存储。其中每个反射信号数据第1行为数据采集的时间；第2至第9行为外部仪器输入的数值，如涌浪补偿仪数据、GPS位置信息等，位置可自行调整；第10和11行为剖面的起始深度和剖面的垂向长度；第12行为采集频率；第13行为脉冲长度；第14行为采样频率；第15行为反射信号的数据量；第16行开始为反射信号数据。

从ASC文件中提取的典型的反射信号形态见图 2，图中蓝色曲线为不同地下情况所获得的单ping振幅记录（每一个反射信号即为一个ping），可以看到这几种信号反射形态上具明显区别：掩埋管道反射信号表现为海底和管顶之间是正常的地层反射，管道为一强振幅反射，下方由于屏蔽作用，均为弱振幅反射；而裸露的管道信号在管道处表现为一强振幅反射，管道下方是弱振幅反射。

图 2 典型反射信号示意图

2.3 数据提取及建立数据集

根据ASC文件的格式，分别提取管道、地层及空白带等反射信号，根据信号的类型不同加以不同的标识，如地层信号为1，管道信号为2……等，以此建立数据集。

为了更好地对比，以不同的信号提取方式建立了两个数据集：一个数据集是由单ping反射数据组成；另一个数据集则提取某位置及两侧各3个ping的反射数据，形成由7个ping反射数据组成的数据集合。为保持数据的一致性，提取过程中将不同采样长度的数据信号处理成相同长度（每个ping 480个值）。

3 机器学习算法测试

为分析机器学习算法对反射信号识别的效果，对不同提取方式形成的数据集首先进行测试。为此，将数据集分为训练集和测试集。机器学习首先通过对训练集的学习，建立相应的模型，再根据模型对测试集进行预测判断。最后对比判断值与测试集的分类标识，分析其准确度（图 3）。

图 3 数据集测试流程示意图

本文中，每个数据集中约有2 000个样本，将其中500个设为测试集，其余则设置为训练集。为分析样本数量对结果的影响，对训练集进行了进一步的分割。

图 4和图 5分别为不同算法在单ping和多ping数据集的测试结果。如图可见，各种算法随着测试集样本数的增加，其准确率总体上是呈增加的趋势，但随着样本数的逐渐增多，准确率的增速逐渐趋缓。在单ping的数据集测试中，K近邻（KNN）表现最佳，迭代决策树（GBDT）其次；在多ping的数据测试中迭代决策树（GBDT）表现最好，其次为随机森林（RF）。在两个数据集的测试中，有四种算法的准确率可达到80%以上，而另有两种算法：逻辑回归（LR）和决策树（DT）的准确率欠佳，均在80%以下，原因可能有以下几种：一是数据集的规模太小；二是样本的数据比较复杂（单ping每个样本有480个值，7ping的每个样本有7×480个值）；三是该算法可能不适合对这种类别数据集进行分类。

图 4 单ping数据集测试准确率对比

图 5 多ping数据集测试准确率对比

训练集样本数的增多有助于提高各种算法的准确率，但是也增加了其运行时长。如图 6、图 7中，单ping和多ping数据集的测试皆以迭代决策树（GBDT）的运行时间最长，逻辑回归（LR）和随机森林（RF）次之，其余几种算法运行时长相对较少。

图 6 单ping数据运行时长对比

图 7 多ping数据运行时长对比

4 实际应用

根据不同算法准确度测试对比，选择了准确率较高的K近邻（KNN）、随机森林（RF）、支持向量机（SVM）、迭代决策树（GBDT）四种算法应用在实际的检测数据中。目标区域为东海南部的某海底管道，选取其中一天的检测数据：共85条测线，每条测线约有3 000个ping的数据。实际的检测数据具有如下特征：①数据量大；②数据中地层信号占90%以上，管道信号和跳点占比低于10%；③由于海况、底质、仪器、采集参数等多种外在和内在因素的影响，实际采集到的信号的特征复杂度、种类数量远超数据集。需指出的是，前文进行的数据集测试优先考虑的是对各种信号识别的整体准确率，而在实际数据中主要考虑的是管道信号识别的准确率，所以两者运用时选择的参数有所差别。

通过对实际数据的检测，最终结果显示：单ping数据检测中，地层识别率相对较低，即将更多的地层信号识别为管道信号，但管道信号的识别率较高；而多ping数据检测中，地层的识别率较高，一般可达到100%，但管道信号的识别率则总体较低，即漏掉了更多的管道信号。就四种机器学习方法而言，迭代决策树（GBDT）的测试效果是最好的，不仅管道识别率是最高的，可达95.29%，而且地层识别率也相对较高；K近邻（KNN）方法表现亦不错，其稳定性较好，识别率较高，但不足之处在于该算法的计算机资源占用率较高，运行时CPU占有率将近100%，且预测速度较慢；随机森林（RF）和支持向量机（SVM）则识别效果相对较差（图 8、表 2、表 3）。针对单ping管道识别率高，而多ping地层识别率高的特点，可采取用单ping信号进行识别，而后根据各点与管道轴线间的距离剔除识别错误的地层信号；亦可逐步提高数据集中ping的数量，根据地层及管道识别率折中选择合适ping数量。

(注：绿色圆形代表正确的管道判断结果，蓝色圆形代表错误的管道判断结果，红色线段为人工判断获得的管道坐标连线。) 图 8 东海南部管道位置测试效果

表 2 东海南部管道位置测试精度对比表

表 3 机器学习方法效果对比表

5 结论

（1）机器学习运用在管道检测数据中，对管道信号进行自动判断识别，不仅有助于对资料的解释，而且大大提高了工作效率，通过机器学习方法在浅剖资料中的应用，展现了其在物探资料解释领域良好的应用前景。

（2）根据文中测试效果，各种机器学习方法对不同类型的数据效果不尽相同，应根据实际情况选用相应的算法。

（3）通过多种机器学习方法在管道信号识别中的初步探索，获得的结果还是令人满意的，下一步工作将继续补充数据集，并提取信号的特征作为参数加入数据集，以进一步提高识别的准确率。

参考文献

[1]	李斌, 杨文达, 张异彪, 等. 海底管道的浅地层剖面图上反射特征与判读方法[J]. 海洋测绘,2010, 30 (5) : 56-58. (0)
[2]	蔡春麟, 张异彪, 顾兆峰. 参量阵浅地层剖面技术在海底管道检测中的应用[J]. 海洋地质动态,2007, 23 (4) : 38-42. (0)
[3]	张兆富. SES-96参量阵测深/浅地层剖面仪的特点及其应用[J]. 中国港湾建设,2001, 21 (3) : 41-44. (0)
[4]	Harrington P. 机器学习实战[M]. 李锐, 李鹏, 曲亚东, 等译. 北京: 人民邮电出版社, 2013. (0)
[5]	郭亚宁, 冯莎莎. 机器学习理论研究[J]. 中国科技信息,2010 (14) : 208-209, 214. (0)
[6]	孙万龙. 基于GBDT的社区问题标签推荐技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2015. (0)
[7]	ALAVI A H, GANDOMI A H, LARY D J. Progress of Machine Learning in Geosciences:Preface[J]. Geoscience Frontiers,2016, 7 (1) : 1-2. doi: 10.1016/j.gsf.2015.10.006 (0)