概率神经网络(Probabilistic Neural Network, PNN)是1990年由SPECHT[1]提出的一种前馈分类网络, 它以贝叶斯决策和概率密度函数估计为理论基础, 在运算过程中通过Parzen窗估计得到类条件概率密度, 从而提供对样本的分类。该方法由平滑参数σ, 隐含层神经元个数, 隐含层中心矢量(隐中心矢量, 即训练样本)等要素确定, 其拓扑结构简单, 算法设计容易, 被广泛应用于模式识别领域[2]。在石油勘探中, PNN可用于储层产能预测[3]、物性参数预测[4]、成岩相预测[5]、岩性反演[6]、地震多属性反演[7]、裂缝识别[8]及沉积物类型识别[9]。
就传统PNN而言, 其拓扑结构的复杂度与训练样本的数目成正比, 训练样本的选取和平滑参数的取值都会对网络的模式识别效果产生影响。
在大样本量情况下, 为避免网络体系过于庞大, 一些学者对其结构进行了优化, BURRASCANO[10], KRISHNA等[11], MA等[12]分别提出利用学习矢量量化法、K均值聚类法、期望最大化法从训练样本中估算PNN的隐中心矢量, 从而降低隐含层神经元个数, 简化网络结构; STREIT等[13]将最大似然算法引入PNN, 以较小的训练样本集来表示各个类别, 进一步优化网络结构; 邢杰等[14]以概率乘法公式为理论依据, 根据训练样本的主成分分析(PCA)结果对PNN进行结构优化。
在平滑参数取值方面, MAO等[15]利用前向正交回归法确定PNN的隐含层神经元, 用遗传算法来选取平滑参数的值, 获得了较高的分类符合率; 马运勇[16]利用PNN的分类结果来调整隐中心矢量, 并提出以某隐中心到其他所有隐中心距离的平均值作为平滑参数取值的方法。
在勘探初期, 利用地震属性资料进行储层相关参数预测时往往会遇到多解性问题, 这时应用有监督的PNN比无监督的神经网络更具可靠性。在这个阶段, 常常面临训练样本数很少的情况, 若不对训练样本进行合理选择, 会导致网络的分类符合率偏低, 无法进行有效的预测。与此同时, 平滑参数的值对PNN分类效果也会产生影响, 因而对其分布规律的认识显得尤为重要。还需说明的是, 当参与预测的地震属性较多时, 可能会出现过度拟合的问题[17], 该问题可通过交叉验证法加以解决[18]。
为获得较高的分类符合率, 本文基于模糊自组织神经网络(FSOM)[19]对S工区地震属性资料聚类分析的结果, 对概率神经网络训练样本的选取方法及样本归一化情况下平滑参数的分布规律进行了分析和研究, 并将研究结果应用于X工区, 以已钻井和井点处的地震敏感属性为训练样本, 利用PNN在少井情况下对工区含气、含水和干井区的分布情况进行了预测, 并对预测效果进行了讨论。
1 方法原理概率神经网络由输入层、隐含层、求和层和输出层组成, 其拓扑结构如图 1所示。输入层各神经元与隐含层各神经元之间均有连接; 求和层各神经元只与属于自己类别的隐含层神经元相连; 输出层神经元与求和层的每一个神经元相连。输入层与隐含层之间的连线代表可修改的权系数, 可通过训练得到; 隐含层与求和层之间以等权值连接, 权系数通常取1;求和层与输出层之间的权系数为各类训练样本数的倒数。
|
图 1 概率神经网络拓扑结构 |
设有n个随机选自m个类别的训练样本, 单个训练样本由d个地震属性和一个期望输出构成。期望输出通常来自钻井资料, 可以是沉积物类型、岩性或地震相等, 其值通常取1或2等数字, 代表训练样本属于期望输出的第一类或第二类。此时, 输入层有d个神经元, 隐含层有n个神经元, 求和层有m个神经元, 输出层神经元表示期望输出。
为避免地震属性值之间的数量级差异引起大数“吃”小数的情况, 训练前应对每一种属性做[0,1]归一化处理。之后, 将各样本按下式进行单位长度归一化:
|
(1) |
式中:xij和x′ij分别为归一化前、后第i个训练样本的第j个属性。
归一化后, 将第一个训练样本的各属性值分别置于输入层神经元上。同时, 输入层和隐含层第一个神经元间的权系数被初始化为该训练样本中对应的属性值, 即:
|
(2) |
式中:ω1j为输入层和隐含层第一个神经元间的权系数。此时, 在隐含层第一个神经元和求和层中代表第一个训练样本所属类别的那个神经元间就建立了一个连接, 该神经元到输出层之间的连接也随即建立, 如图 2所示。
|
图 2 第一个训练样本初始化权系数示意 |
类似上面的过程, 对输入层与隐含层其它神经元之间的权系数进行初始化, 即:
|
(3) |
式中:ωij代表输入层神经元和第i个隐含层神经元之间的权系数, 记为Wi。通过这样的训练, 就得到了输入层和隐含层之间的权系数。至此, 便完成了对PNN的训练。
网络训练完成后, 可按如下步骤对工区任意样本X的期望输出值进行预测:
第一步, 输入层将归一化后的X中的各地震属性值分配给对应的神经元。
第二步, 输入层与隐含层第一个神经元之间的权系数W1同X做标量积, 记为Inet1, 即:
|
(4) |
第三步, 以高斯核函数为隐含层的激活函数, Inet1为隐含层第一个神经元的输入, 其输出为:
|
(5) |
式中:g1为隐含层第一个神经元上的输出值; σ为平滑参数, 也称作高斯窗宽度。
第四步, 重复第二、三步, 输入层与隐含层余下每一个神经元之间的权系数Wi都同X做标量积得到隐含层相应神经元的输入Ineti, 经过高斯核函数的激活后得到该神经元的输出gi, 其中, i=2, 3, …, n, 如图 3所示。
|
图 3 计算隐含层神经元输入、输出值示意 |
第五步, 在求和层对隐含层中属于同一类别的神经元进行累加运算。
第六步, 在输出层比较求和层各神经元输出值yk的平均值的大小, X的期望输出值为最大平均值所代表类别的类别号, 即:
|
(6) |
式中:yk为求和层神经元的输出值; Nk为第k类的训练样本数。至此, PNN对X的模式识别就完成了。
可见, 概率神经网络训练过程简单, 无复杂计算, 几乎就是给权系数赋值的过程, 这样的特性使得新的训练样本很容易被加入到之前训练好的网络中来, 这对“实时”应用特别有意义。
2 平滑参数分析及样本选取试验为确定平滑参数的值及研究训练样本的选取方法, 我们在S工区进行了一系列参数试验。结合工区地震资料中提取出的44个地震属性[20](振幅类16个, 瞬时类5个, 高阶类2个, 非线性类2个, 小波系数类7个, 层序类9个, 频谱类3个), 利用FSOM将研究区划分为三种类别的组合区(图 4a); 从工区井资料中选取100口井作为训练和检验样本(图 4b), 其中一、二、三类分别为40, 30, 30口井; 用井点处的地震敏感属性(采用粗糙集(RS)[21]或三参数(SDC)[22]方法进行属性优选)和井所对应的类别构成训练样本来训练PNN并将其用于全工区模式识别, 网络的分类符合率由预留的检验样本确定。
|
图 4 FSOM对S工区44个地震属性聚类结果(a)和100口井位置(b) (红色为一类, 黄色为二类, 蓝色为三类) |
从原理来看, 当待测样本与某类的训练样本相似时, 求和层中代表该类别神经元上的求和值就最大, 对应于隐含层中, 代表该类别神经元上的激活函数的输出值也较大。因此, 在模式识别时总希望待测样本所属类别在隐含层对应神经元上的激活函数有较大的输出值。
实际应用中, 当样本经过两次归一化后, 内积Ineti的值在0到1之间变化。根据(5) 式可绘制出不同σ对应的激活函数输出值gi的曲线(图 5)。从图 5可以看出, σ不变, gi随Ineti增大而增大; gi不变, Ineti随σ的减小而增大。换言之, 只要σ足够小, 就能使Ineti不断增大(趋近于1), 从而得到较大的激活函数输出值。
|
图 5 不同平滑参数情况下激活函数的输出值曲线 |
下面通过试验对上述认识做进一步分析。随机抽取30口井作为训练样本, 余下70口井作为检验样本, 作为训练样本的30口井中一、二、三类分别取10口井, 讨论不同地震属性组合情况下(原始属性组合、RS优选属性组合和SDC优选属性组合), 平滑参数与PNN分类符合率之间的关系, 并绘制出相关曲线图(图 6)。从图 6中可大体看出, 随σ增加, 分类符合率先增加后减小, 最后保持在一个数值上。这说明当训练样本确定后, σ并非越小越好, 其必然存在一个最优取值区间, 使PNN获得较高的分类符合率。对比图 6中3幅曲线不难发现, 当σ位于[0.01, 0.10]这个区间内时, PNN的分类符合率可达到一个相对较高的值。在后续的试验中, 可以参考这个区间来选取平滑参数。
|
图 6 平滑参数与分类符合率关系曲线 a原始44个属性测试结果; b RS优选属性测试结果; c SDC优选属性测试结果 |
除了平滑参数, 训练样本的选取也决定着PNN的模式识别准确率。下面从样本选取的随机性、均匀性等角度讨论训练样本的选取方法。以下各试验中, 平滑参数的取值参考上述试验结果, 经过多次试验对比, 发现将σ取为0.02 5较为合适。
2.2.1 随机抽取训练样本试验如表 1, 10次随机抽取训练样本和检验样本, 在各次试验中样本数目保持不变(各为50口井)。可以看出, PNN分类符合率的高低与样本抽取的随机性之间没有必然联系。
| 表 1 随机抽取训练样本试验结果 |
如表 2, 每次试验随机且均匀地抽取各类训练样本。从表中可以看出, 在前6次试验中, 分类符合率均在90%以上; 从第1次到第3次试验, 分类符合率随训练样本总数的减少呈先减后增的变化趋势; 从第3次到第7次试验, 分类符合率和训练样本总数之间成正比关系。
| 表 2 训练样本数减少选取试验结果 |
如表 3, 每次试验中训练样本随机抽取且总数不变(22口井)。当某类训练样本数相对其它两类更少时(即不均匀情况, 这里达到了5倍的差距), PNN分类符合率比各类训练样本均匀选取时更低。
| 表 3 不同类别训练样本数不均匀试验结果 |
试验表明, 在最优区间内选取平滑参数可使PNN具有较高的模式识别精度; 在选取训练样本时, 应尽量满足各类均匀选取的原则。
3 实际工区应用基于上述试验结果, 将PNN应用于X工区以检验其模式识别能力。平滑参数的取值参考试验得出的最优区间, 训练样本按各类均匀选取的原则进行选取。X工区已钻有8口井, 其中气井5口, 水井2口, 干井1口。工区地震相分布见图 7, 其中灰色为致密砂体发育的丘状-透镜状地震相, 黄色为有利砂体发育的席状地震相。
|
图 7 X工区地震相分布(井点颜色:红色为气井, 绿色为水井, 黑色为干井) |
先对工区提取的46个地震属性进行野值剔除和平滑滤波等预处理操作并利用RS地震属性优选方法从中优选出5种地震敏感属性, 即峰谷面积比、复合包络差、平均波谷振幅、平均频率和平均振幅; 再在井点处抽取地震道特征属性并与已钻井组合构成训练样本集(训练样本集包含三种类型, 即含气区、含水区和干井区)来训练已构建好的PNN, 从而确定连接网络各层之间的权系数; 用训练好的PNN对整个工区进行模式识别, 最终得到各类型区域的分布图(图 8)。
|
图 8 PNN预测X工区各类型区域分布(井点颜色:红色为气井, 绿色为水井, 黑色为干井) a 3口训练样本井; b 8口训练样本井 |
图 8是PNN预测的X工区各类型区域的分布图, 其中的含气区与图 7中的席状地震相对应, 含水区和干井区与丘状-透镜状地震相对应。图 8a中的预测网络是由已钻井中的3口(每种类型各1口)训练得到, 它对其余5口已钻井所属类型的预测完全准确(表 4); 图 8b中的预测网络是由全部已钻井训练得到。从图 8可看出, 已钻井均位于其所属类型的预测区内, 各类型区域分布明显, 彼此之间界限清晰, 所预测的含气区、含水区和干井区大都能与图 7中的席状地震相和丘状-透镜状地震相吻合, 取得了较好的预测效果。结合图 7地震相, 对比图 8a和图 8b可知, 对各类型分布区的预测大体一致, 但就局部区域而言, 图 8a的预测效果要优于图 8b。如图 8a中北部和中部的含气区与图 7对应位置处席状地震相的吻合度比图 8b中的更高。相对图 7所示地震相, 预测图在各类型区域的连续性上要差一些, 存在小部分预测不准确的区域(如工区东部), 其主要原因还是训练样本的总数受限, 若能在各类训练样本选取均匀的前提下获得更多的训练样本, 那么预测效果将会得到进一步改善。
| 表 4 预测网络检验表 |
由此可见, 在勘探初期面对少井情况时, 均匀选取各类训练样本并在平滑参数的最优区间内合理取值, 可使PNN对工区参数的模式识别取得良好的效果且具有一定的指示作用。
4 结论本文在理论分析和试验的基础上, 研究了PNN的平滑参数和训练样本的选取方法, 并利用所得结论指导了PNN在实际工区中的模式识别。本次研究的结论如下:
1) 平滑参数通过调节隐含层神经元上激活函数的输出值来影响模式识别结果, 其值的选取非常关键。在研究中发现平滑参数存在最优取值区间, 其间的值可使PNN具有最佳模式识别效果。
2) 油田开发阶段拥有大量钻井资料, 为利用PNN进行地震资料储层预测提供了许多训练样本。当各类型训练样本均匀选取时, 训练样本的总数与分类符合率之间没有严格的正比关系且样本抽取的随机性对分类符合率无影响。因此, 为提高训练效率, 可按各类型训练样本均匀选取的原则从样本集中抽取一部分参与训练。
3) 在勘探初期, 当井资料特别少时, 利用地震属性进行PNN模式识别具有一定的应用潜力, 这为少井情况下实际工区的储层参数预测提供了一种选择。
| [1] | SPECHT D F. Probabilistic neural networks[J]. Neural Network, 1990, 3(1): 109-118 DOI:10.1016/0893-6080(90)90049-Q |
| [2] |
黄德双.
神经网络模式识别系统理论[M]. 北京: 电子工业出版社, 1996: 121-124.
HUANG D S. System theory of neural network pattern recognition[M]. Beijing: Publishing House of Electronics Industry, 1996: 121-124. |
| [3] |
杜红斌, 郭巧占. 概率神经网络及其在储层产能预测中的应用[J].
石油仪器, 2005, 19(4): 54-56 DU H B, GUO Q Z. Application of probabilistic neural network in reservoir productivity forecasting[J]. Petroleum Instruments, 2005, 19(4): 54-56 |
| [4] |
孙翠娟, 张文. 概率神经网络技术在油气藏物性参数预测中的应用[J].
中国海上油气(地质), 2002, 16(5): 349-354 SUN C J, ZHANG W. An application of probabilistic neural network technique to parameter prediction for oil and gas reservoir[J]. China Offshore Oil and Gas (Geology), 2002, 16(5): 349-354 |
| [5] |
庞国印, 唐俊, 王琪, 等. 利用概率神经网络预测成岩相——以鄂尔多斯盆地合水地区延长组长8段储层为例[J].
特种油气藏, 2013, 20(2): 43-47 PANG G Y, TANG J, WANG Q, et al. Prediction of diagenetic facies with probabilistic neural network—taking member Chang 8 of Heshui area in Ordos basin as an example[J]. Special Oil and Gas Reservoirs, 2013, 20(2): 43-47 |
| [6] |
张绍红, 林昌荣. 砂泥岩地层概率神经网络岩性反演技术应用研究[J].
西安石油大学学报(自然科学版), 2008, 23(4): 1-4 ZHANG S H, LIN C R. Application of probabilistic neural network technique in the lithology inversion of sandstone-mudstone strata[J]. Journal of Xi'an Shiyou University (Natural Science Edition), 2008, 23(4): 1-4 |
| [7] |
刘淑华, 谢占安, 刘建武, 等. 叠前地震多属性反演在南堡油田火成岩研究中的应用[J].
石油物探, 2008, 47(1): 83-88 LIU S H, XIE Z A, LIU J W, et al. Application of pre-stack multi-attribute inversion technology on igneous rock investigation in Nanpu oilfield[J]. Geophysical Prospecting for Petroleum, 2008, 47(1): 83-88 |
| [8] |
王晓, 周文, 王洋, 等. 新场深层致密碎屑岩储层裂缝常规测井识别[J].
石油物探, 2011, 50(6): 634-638 WANG X, ZHOU W, WANG Y, et al. Conventional log identification of fractures in the deep tight clastic reservoir in Xinchang area[J]. Geophysical Prospecting for Petroleum, 2011, 50(6): 634-638 |
| [9] |
郝立波, 蒋艳明, 陆继龙, 等. 利用多目标地球化学数据识别第四纪沉积物类型——基于概率神经网络方法[J].
吉林大学学报(地球科学版), 2008, 38(6): 1081-1084 HAO L B, JIANG Y M, LU J L, et al. Identification of quaternary sediments types used by multi-purpose geochemical data—with probabilistic neural networks method[J]. Journal of Jilin University (Earth Scienc Edition), 2008, 38(6): 1081-1084 |
| [10] | BURRASCANO P. Learning vector quantization for the probabilistic neural network[J]. IEEE Transactions on Neural Networks, 1991, 2(4): 458-461 DOI:10.1109/72.88165 |
| [11] | KRISHNA K, MURTY M N. Genetic K-means algorithm[J]. IEEE Transaction on Systems, Man, and Cybernetics—Part B:Cybernetics, 1999, 29(3): 433-439 DOI:10.1109/3477.764879 |
| [12] | MA S, JI C Y, FARMER J. An efficient EM-based training algorithm for feedforward neural networks[J]. Neural Networks, 1997, 10(2): 243-256 DOI:10.1016/S0893-6080(96)00049-4 |
| [13] | STREIT R L, LUGINBUHL T E. Maximum likelihood training of probabilistic neural networks[J]. IEEE Transactions on Neural Networks, 1994, 5(5): 764-783 DOI:10.1109/72.317728 |
| [14] |
邢杰, 萧德云. 基于PCA的概率神经网络结构优化[J].
清华大学学报(自然科学版), 2008, 48(1): 141-144 XING J, XIAO D Y. PCA-based probabilistic neural network structure optimization[J]. Journal of Tsinghua University (Science and Technology), 2008, 48(1): 141-144 |
| [15] | MAO K Z, TAN K C, SER W. Probabilistic neural-network structure determination for pattern classification[J]. IEEE Transactions on Neural Networks, 2000, 11(4): 1009-1016 DOI:10.1109/72.857781 |
| [16] |
马运勇. 概率神经网络的结构优化研究及其应用[D]. 哈尔滨: 哈尔滨工业大学, 2008
MA Y Y.The optimization of probabilistic neural network structure and its applications[D]. Harbin:Harbin Institute of Technology, 2008 |
| [17] | KALKOMEY C T. Potential risks when using seismic attributes as predictors of reservoir properties[J]. The Leading Edge, 1997, 16(3): 247-251 DOI:10.1190/1.1437610 |
| [18] | HAMPSON D P, SCHUELKE J S, QUIREIN J A. Use of multiattribute transforms to predict log properties from seismic data[J]. Geophysics, 2001, 66(1): 220-236 DOI:10.1190/1.1444899 |
| [19] |
古发明. 地震属性的优化方法研究与地震相分析[D]. 成都: 西南石油大学, 2009
GU F M.Optimization of Seismic Attribute and Seismic Facies Analysis[D]. Chengdu:Southwest Petroleum University, 2009 |
| [20] |
魏艳, 尹成, 丁峰, 等. 地震多属性综合分析的应用研究[J].
石油物探, 2007, 46(1): 42-47 WEI Y, YIN C, DING F, et al. Synthetic analysis of seismic multi-attribute and its application[J]. Geophysical Prospecting for Petroleum, 2007, 46(1): 42-47 |
| [21] |
古发明, 尹成, 丁峰. 应用粗集理论优选地震属性的方法研究[J].
西南石油大学学报, 2007, 29(S2): 1-4 GU F M, YIN C, DING F. Applying rough set theory to optimize seismic attributes[J]. Journal of Southwest Petroleum University, 2007, 29(S2): 1-4 |
| [22] |
鲍祥生, 尹成, 赵伟, 等. 储层预测的地震属性优选技术研究[J].
石油物探, 2006, 45(1): 28-33 BAO X S, YIN C, ZHAO W, et al. Optimizing seletion of seismic attributes in reservoir prediction[J]. Geophysical Prospecting for Petroleum, 2006, 45(1): 28-33 |
