应用气象学报  2006, 17 (3): 325-332   PDF    
数据仓库技术在天气预报决策中的应用探讨
谭晓光     
中国气象局北京城市气象研究所, 北京 100089
摘要: 文章概述了数据仓库的概念和特点。讨论了数据仓库的数据存储、联机分析处理 (OLAP) 和数据挖掘 (DM) 要解决的主要技术问题, 侧重于数据仓库技术在天气预报领域中的应用。数据仓库技术将原始数据转换为便于分析的数据, 并增强了管理和使用历史数据及特种观测数据的能力, DM能够帮助预报员快速积累经验, OLAP使预报员的分析突破了过去固有框架的限制。文章针对天气预报决策特点提出以天气系统分析为主的数据聚集处理、在OLAP的多维分析之外增加比较分析、多元分析和相似分析功能等扩展, 还指出关联规则的挖掘是目前预报方法研究中值得尝试的新方法。
关键词: 天气预报    数据仓库    联机分析处理    数据挖掘    
Data Warehouse and Its Potential in Weather Forecast
Tan Xiaoguang     
Beijing Institute of Urban Meteorology, CMA, Beijing 100089
Abstract: An important problem of current forecaster's forecasting platform is that although the system provides lot of data (over 2GB, several thousand weather fields data one day) forecasters only use a few of them (less than 1%) in operational forecast. And how to enable the system to have a flexible data management ability for forecasters to efficiently use historical data is another important issue. Data warehouse is a good solution to these problems. The data warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process. The data in the warehouse are processed ones called "analytic data" correspond to original operational data: "Subjects" are defined as objects to be analyzed in weather forecast, e.g. those concepts in forecaster's experiences. "Analytic data" are referred to as the real values corresponding to the "subjects" transformed from original operational data according to the definitions of subjects (for weather forecast, transformation based on the weather system is of the most importance). By creating a subject system from the concept set of forecaster's knowledge, defining the data transformation to change operational data into analytic data for each subject in the subject system, running the transformation program on operational data every day to get real-time analytic data and save them in a database, a data warehouse is built. Data warehouse is a data set of "analytic data". In this way, from concept to subject to analytic data, the data used in analyses directly match the concepts in forecaster's mind, and make data analysis more quickly and use more data in operational forecast. There are two important analysis tools in data warehouse. Data Mining (DM) is an exploring tool. The relationships among the subjects (i.e., concepts from forecasters) are automatically explored from the analytic data set in DM system. The resulting relationship is saved in the knowledge base of data warehouse, and reinforce forecaster's knowledge. Mining of association rules is noteworthiness because sometimes it is more reasonable than linear regression analysis. On-line analysis process (OLAP) is another analysis tool, an interactive validating tool. Forecasters use it to view data, validating relationships (including forecaster's guess and results from DM) and then make forecast decisions. The kernel technology is multi-dimensional analysis. Especially for weather forecast, "Compare analysis", "Multi-analysis" and "Analog analysis" based on multi-dimensional analysis are also used in OLAP. OLAP will be the main workbench for forecasters in data warehouse. In data warehouse, metadata is used. Data management and maintenance become easier and flexible, historical data and heterogeneous data such as special observation data, even Internet data, will be easier to use by applications. The bottleneck of traditional knowledge base system is knowledge acquirement. In data warehouse, forecasters put their concepts into subject system of data warehouse firstly, then get relationships between concepts from DM (or manually input some certain relationships) and validate them by OLAP. The knowledge of forecasters will be systematically used in forecast process, and the bottleneck problem will be moderated.
Key words: weather forecast     data warehouse     OLAP     data mining    
引言

目前国内外的预报员工作平台在天气预报决策支持方面主要是以提供数据查询为主, 将预报员常用的预报图表在计算机中集成地显示出来, 同时也提供了一些初步的数据分析功能。但只有这些功能还是不够的。首先, 现代化天气预报业务系统提供的很多数据 (例如500 hPa以上的天气图) 预报员基本没有使用经验, 同时在业务工作中预报员每次汇总分析数据和会商的时间很有限, 使预报员既无时间也无经验充分利用现代化系统提供的丰富数据; 其次, 各台站在长期的业务工作中积累了大量历史数据, 要有效利用这些数据, 就必须增加管理和分析历史数据的工具; 第三, 随着探测技术的迅速发展, 中尺度观测网和特种观测网的建立, 增加了许多非常规的气象数据, 要有效地管理和应用这些数据, 也必须增加管理和分析这些特种数据的能力。20世纪90年代兴起的数据仓库技术作为新一代决策支持技术, 为我们提供了一个非常好的解决方案。虽然仅靠数据仓库不可能完成预报决策的所有任务, 但将其作为新一代预报决策系统的核心技术是值得尝试的。

1 数据仓库技术简介

数据仓库 (Data Warehouse) 的概念是Inmon[1]首先提出来的, 将数据仓库定义为一个支持管理决策过程的、面向主题的、集成的、稳定的、随时间而变的数据集合。

在业务流程中通过接收、解码、插入、修改、删除、质量控制、推导等操作获取的最原始、最详细的实时数据储存在各种数据库中, 把它们直接用于分析时效率一般是很低的。数据仓库则根据人们的知识, 针对决策过程的要求对数据库中的这些操作型数据进行进一步加工处理并按主题 (即在分析数据时经常用到的各种概念) 重新组织, 使它们成为便于分析的数据, 即分析型数据, 从而大大提高分析数据的效率。因此, 数据仓库就是一个针对具体决策任务的分析型数据集合 (支持管理决策过程的、面向主题的、集成的), 其中的数据只用于分析, 一般不再进行修改 (稳定的), 数据是时间序列 (随时间而变) 的。因此, 数据仓库并不是保存海量数据的大仓库, 而是针对具体决策任务从各个数据库中抽取需要的数据重新处理组织, 使它们便于在决策中被快速、充分利用的强大数据源。

Inmon的数据仓库定义只是狭义的。经过十几年的发展, 数据仓库往往还要包括相应的数据分析工具, 比如联机分析处理 (OLAP, On-Line Analysis Process) 和数据挖掘 (Data Mining) 系统等。联机分析处理 (OLAP)[2]是将决策支持功能与传统的联机事务处理功能 (OLTP) 明显区分开来, 它从人类分析数据的一般规律出发, 形成了基于多维分析的决策支持工具。其独特之处在于多维分析的维可以是我们需要观察数据的任何角度, 没有传统的、固定的框架。因此OLAP与传统的气象图形系统 (MICAPS, VIS5D等) 有本质的区别, 其视野要开阔得多。数据挖掘 (Data Mining) 是将人工智能技术 (神经网络、模糊逻辑、遗传算法等) 应用于大规模数据, 自动地发现隐含在数据中的趋势、模型和关系等。它将基于数据库的知识发现 (KDD) 学科中较成熟的技术在实际决策中应用, 形成了一类新的决策支持工具。

目前大多数数据库厂商提供的数据仓库完整解决方案都包括了上述数据存储 (狭义的数据仓库)、联机分析处理和数据挖掘3个部分[3], 体系结构如图 1所示。

图 1. 数据仓库体系结构

目前许多领域都开始使用数据仓库技术[4-7], 并使数据仓库有了新的发展。例如, 能够存储和使用地理信息空间非结构化数据的空间数据仓库[8]、将联机分析处理和数据挖掘相结合的联机分析挖掘 (OLAM) 系统[9]等。在天气预报领域, 数据仓库根据预报专家的经验将原始数据转换为分析型数据, 并按主题统一管理, 使预报员能够快速查询和分析各种数据; 以元数据为核心的数据管理技术能够有效地管理大量历史数据和特种观测数据, 甚至是分布在Internet上的数据; 数据挖掘功能可以在预报员未使用过的数据中自动发现数据之间的联系, 帮助预报员快速积累经验; 联机分析处理的多维分析能够开阔预报员的视野, 整合已有的分析工具。因此, 数据仓库技术能够很好地解决目前预报决策支持系统存在的问题。

2 数据存储系统

数据仓库的数据存储系统任务就是将数据从各数据源抽取出来, 转换为分析型数据, 存储并提供数据检索和管理的界面。其数据流程图如图 2所示。

图 2. 数据存储系统数据流程图

2.1 抽取、集成和聚集

数据存储系统首先从9210数据、本地观测的自动站数据、MM5模式数值产品和气象台的各种预报方法计算结果中抽取 (Extract) 数据。抽取后的原始数据首先要进行整合集成 (Integration), 使同样的数据在量纲、精度和意义等方面达到一致, 以便于分析。

然后进行数据的聚集 (Aggregation)。聚集的目的是将原始细致的数据场信息浓缩成为易于分析的数据, 这是数据仓库将操作型数据转变为分析型数据的关键一步。通用的聚集方法是在时空维上将原始数据集成为较粗的数据, 例如每隔5 d或10 d求一个时间平均或在经纬网格上每隔5°或10°求一个空间平均等。聚集的粗细程度称为粒度, 粒度越粗, 分析的数据量越小, 速度越快, 预报员能够很快掌握天气形势整体的特征; 粒度越小, 则分析得越细。预报员可以先观察较粗的时间倾向或空间分布, 然后再对关键地区和时段进行逐步细致的观察。

对天气预报决策来说, 最重要的是把原始数据场转换为天气系统的描述。实际上, 数据的聚集是按主题的定义来进行的。主题是分析数据时使用的概念, 可以按数据来源、数据类型、天气分析过程、预报时效等设置主题。主题系统是一个树状结构, 大概念下可以包含若干小概念, 形成主题、子主题、子子主题等。聚集后的数据成为分析型数据, 是各主题的实时取值。

目前确定的聚集处理包括如下几项:

① 每隔5 d, 10 d, 30 d求一个平均值、最大值、最小值。

② 每隔2°, 5°, 10°, 20°经纬度求一个平均值、最大值、最小值。

③ 对每个标量场 (包括前面计算的平均场) 自动识别高中心、低中心、鞍形区和大梯度区等天气系统以及某等值线 (例如588 dagpm线) 上各顶点的经纬度坐标。

④ 对每个矢量场 (包括前面计算的平均场) 自动识别辐合线、辐散线、辐合中心、辐散中心、切变线、正涡旋中心、反涡旋中心、急流轴、急流中心等天气系统。

⑤ 对每个标量场 (包括前面计算的平均场) 利用历史数据进行经验正交分解, 取前1, 2, 3, 5, 7阶特征场。

⑥ 对每个标量场 (包括前面计算的平均场) 进行小波分析, 小波函数使用BIOR 4.4, 取前10阶系数。

当然系统应能够根据预报员的需要随时定义新的主题, 并根据主题定义进行聚集计算, 以获得相应的分析型数据。下文中分析型数据是特指经过上述聚集处理后的数据, 特别是天气系统数据。

2.2 存储

聚集后的分析型数据存储在数据仓库的数据库中。目前数据仓库普遍使用关系数据库存储数据, 但为了多维分析方便, 必须在其中设计维表, 有星形模式和雪花模式等方案可选[10]。另外一种数据存储方案是采用多维数据库, 即多维数组的文件 (类似VIS5D格式的文件)[10], 便于OLAP的多维分析。这两种存储方式可以结合使用, 一般是正在被OLAP分析的数据采用多维数据库存储, 历史数据则采用关系数据库存储。值得注意的是, 天气系统相当于地理信息中的空间实体, 属于非结构化的空间数据。对这类数据的存储可以借鉴空间数据仓库的成果 (例如文献[11])。近年来关系数据库已经可以有效存储空间数据。

2.3 以元数据为核心的数据存储管理

数据仓库对数据进行有效管理的核心是元数据库。元数据是数据的数据, 在元数据库中的数据是对数据仓库中所有数据的全面描述 (数据来源、时空特征、质量、精度、经过哪些变换和存储位置等), 就像数据的目录一样。预报员通过元数据可以快速、全面地了解数据仓库中大量、繁杂的数据的总体情况。2002年WMO国际集成数据管理专家组 (Expert Team on Integrated Data Management) 就提出了一个WMO核心元数据标准[12], 2004年在这个标准基础上又实现了一个气候数据的元数据标准[13]

数据仓库的元数据除包含数据的信息外, 还包含许多系统结构信息:数据源和数据存储服务器的IP (或URL) 地址、数据具体位置 (目录、文件名定义、数据格式或数据库的库名、表名、属性列表等)、数据聚集等变换所使用的方法和参数等。通过这些参数, 用户和应用程序可以准确地定位数据, 并将数据正确地写入、读出和使用。实际上整个数据仓库的存储系统就是根据元数据库生成的。当存储系统还是一个空白磁盘时, 数据仓库的管理系统将根据元数据库从指定的服务器抽取数据, 进行元数据指定的变换, 然后将数据存入指定的目录和文件 (或数据库的库、表) 中。当没有这些目录 (或数据库的库、表) 时, 就自动创建它们。这样随着系统不断运行, 数据不断增加, 整个存储系统就逐步建立起来了。当修改元数据时 (例如增加新数据等), 存储系统的结构也相应的改变。当然, 此时管理系统必须根据前、后元数据的差别对已有数据进行必要的迁移和变换等。

数据仓库中数据是按主题组织的, 这也体现在元数据中。由于采用了以元数据库为核心的数据存储管理机制, 使得数据仓库具有强大的管理大量历史和特种观测数据的能力。如果采用XM L语言实现元数据库, 还可增强数据在网络上的共享和交换能力。

3 联机分析处理系统 (OLAP)

在天气预报数据仓库中, 数据处理、存储和数据挖掘都是后台运行的, 而直接面向预报员的工作界面就是联机分析处理系统 (OLAP)。

OLAP的核心是多维分析。所谓多维分析其实就是对多维空间中的数据进行观察的工具。多维分析中的维可以是观察数据的任何一个角度, 可以是平常所说的时空维, 也可以是傅立叶变换中的正交基, 还可以是某个空间点上随时间变化的要素值等。这些维组成了一个高维空间的网格框架, 网格框架中的每个网格构成一个高维的超级立方体。OLAP就是提供工具对网格内的数据进行各种观察, 寻找数据之间的关系、规律。由于历史数据量巨大, 必须对超级立方体的原始数据进行聚集处理 (是一般聚集处理的特例), 使它们成为易于分析的分析型数据。在商务领域, 一般是采用对立方体各维进行计数、求和、求平均等统计, 数据的规约等手段降低维数和数据量, 研究的热点是快速聚集算法、数据规约算法等。一般来讲, 业务天气预报中实时数据量不太大, 由于分析时间短暂 (几个小时) 预报员无法充分利用数据, 因此研究重点不必放在处理海量数据的快速算法上, 而是放在能够更好反映大气物理特性的聚集方法 (例如天气系统分析、正交变换等) 上。

高维空间的数据是无法直接显示的, 所以OLAP提供了切片 (Slice)、切块 (Dice) 和旋转 (Pivoting) 等降维操作功能。切片就是在多维数组中在其他维取固定值的情况下取一个二维子集。类似, 切块就是在多维数组中其他维取固定值的情况下取一个三维子集。旋转则可以看成是交换多维数组中各维的顺序, 使朝向用户的二维坐标改变。另外还可以改变观察数据的粒度。粒度越来越小时称为下钻 (Drill down), 越来越大时称为上卷 (Roll up)。

针对天气预报决策特点, 在多维分析基础上我们增加了比较分析及专门分析历史数据的多元分析和相似分析。其中增加比较分析是考虑预报员经常要对不同时间、不同层次、不同要素的场进行比较, 比较分析功能就是预报员选取多个数据同时进行多维分析, 并凸显数据间差异。多元分析是将某空间点上随时间变化的要素值 (例如北京上空500 hPa高度) 作为多维分析的维, 然后对历史样本进行多维分析。相似分析则是预报员利用相似指标在历史样本中选择一批相似数据来进行比较分析。下面介绍这4种分析的功能设计要点。

3.1 多维分析

在设计中, 多维分析中的维包括要素和空间维。要素是指要分析的物理量数据, 例如气压、温度等, 是分析的应变量。空间维是指要素存在的空间的正交基, 一般是经纬度、高度和时间, 是分析的自变量。

设计中切片、切块和旋转功能是通过维选择实现的。虽然整个数据集可以包含许多个维, 但用户可以选择只显示其中的几个维。图形的显示方式按如下规则进行:①如果用户只选择了两个维, 则第一维和第二维组成一个二维坐标, 图形中显示第二维对第一维的变化曲线; ②如果用户选择了三个维, 则第一维和第二维组成一个二维坐标, 第三维在坐标中显示等值线, 即前三维形成一个二维等值线图; ③如果用户选择超过三维, 则第四维以上, 按该维的显示间隔显示多个二维等值线图, 排列顺序是按先四维、然后是五维、六维等, 形成二维等值线图的矩阵。

用户没有选择的维将自动显示其扫描标尺。用户用鼠标拖动扫描标尺的滑块, 就可以改变这些维的值。通过这种显示方式, 预报业务中常用的各种图表, 几乎都可以通过不同的维选择实现。例如前三维选择经度、纬度、要素。则前两维构成经纬度坐标, 其中显示要素的等值线图。层次和时间则显示扫描标尺, 预报员可以方便地改变层次和时间; 若前三维选择纬度、层次、要素。则横坐标为纬度、纵坐标为层次, 图中显示各要素的等值线, 等值线的意义就是沿一个固定的经线, 各要素对纬度的垂直剖面图。通过经度和时间的扫描标尺可以方便地改变经度和时间。

多维分析也可以显示许多预报员没有用过的图表。例如前三维选择经度、要素、纬度。则横坐标为经度、纵坐标为要素, 图中显示各纬度的等值线, 等值线的意义就是对于一个固定的纬度, 在不同经度上要素值的变化; 前三维选择时间、纬度、要素。则横坐标为时间、纵坐标为纬度, 图中显示各要素的等值线, 等值线的意义就是对于一个固定的要素值, 其纬度随时间的变化, 这时经度是由扫描标尺确定的。例如扫描标尺将经度固定在110°E, 层次固定在500 hPa, 要素为位势高度, 则将显示500 hPa位势高度各值 (如588 dagpm) 在经度110°E上其所处纬度对时间的变化曲线。由此可见, 多维分析显示的图表已经不再是将预报员在手工操作时代的几种图表从墙上搬到屏幕上, 而是能够通过预报员的选择, 按预报员的思路真正从各种角度观察数据, 彻底脱离手工操作时代的痕迹, 充分发挥计算机的作用。

预报员在多维分析中还可进行其他操作:选择显示的要素、改变要素的显示特征、改变维顺序、改变维特征、选择分析时间段和基准时间、选择要素图形按某一维叠加显示、设置决策目标要素等。

特别要注意的是, 在数据仓库中预报员主要观察的是聚集后生成的分析型数据, 特别是天气系统数据, 而不是原始数据。这些数据容易被快速和大量的分析。对这些数据还可以利用粗看 (上卷) 和细看 (下钻) 功能, 对天气系统数据还设置了系统组合等功能。

3.2 比较分析

比较分析是对多个数据同时进行多维分析, 并可以进行比较。被比较的数据图形前两维必须一样, 被比较的是第三维以上的各维。当用户选择“比较分析”后, 系统先将图形显示窗口内现有的图形加入比较队列中, 其中第一个图形缺省成为基图形。基图形是比较的基准, 所有图形都将与基图形比较差异。比较分析中可进行的操作有:成批或单个地添加/删除参与比较的图形、改变基图形、显示平均图形和方差图形、计算图形间的差值场、概率、图形变换 (标准化、滤波、正交变换) 等。

3.3 多元分析

多元分析可以看成是将空间位置固定, 只随时间变化的要素值 (称为因子) 作为维的多维分析。它是分析多个因子之间的关系, 每个因子一维。预报员进行维选择后, 多元分析的窗口内将显示前两维的坐标, 在其中填入第三维的值, 形成二维点聚图。其他功能与前面的多维分析相同。多元分析中增加的操作主要是能够选择二值化 (或多值化) 临界值、改变分析数据的时段等。

3.4 相似分析

相似分析是比较分析的特例。参与分析的数据是根据用户选择的相似指标、相似函数、分析范围、相似临界值和分析时段, 系统自动在指定的时段内查找与当前窗口内数据相似的历史数据, 当前窗口内数据自动变为比较分析的基数据。

4 数据挖掘技术 (DM)

数据挖掘技术是数据仓库的核心技术之一。它是将KDD中较成熟的技术应用于大规模数据, 自动寻找数据的发展趋势、数据中隐含的模型及数据之间的关联关系等。数据挖掘研究的主要问题包括系统的体系结构、预处理、挖掘算法、挖掘结果的评估和显示等。其作用是帮助预报员自动寻找数据 (特别是过去使用较少的数据) 之间的规律, 加快积累预报经验的速度。

挖掘算法主要包括了预报员较熟悉的多元分析、Bayes统计、决策树、各种分类和聚类算法、神经网、各种时间序列预测方法等, 以及预报员还不太熟悉的粗集 (Rough set) 方法、遗传算法等。实际上, 预报员在统计预报和模式释用的研究中对气象数据已经“挖掘”了几十年, 积累了大量经验。因此传统统计方法完全可以应用在数据挖掘中。而近年来数据挖掘研究积累的大量成果, 又为我们打开了一个挖掘算法新眼界。

在挖掘算法中关联规则 (Association rules)[14]的研究最值得注意, 其形式为蕴涵关系A→B, 而产生式规则的陈述“如果A则B”与其在形式上完全一样。区别在于关联规则只注意A出现时B也同时出现, 而产生式规则要求A与B之间有因果关系。因此关联规则的挖掘算法完全可以用于寻找产生式规则。关联规则挖掘的研究热点是发展在大规模数据中寻找规则的快速算法。目前发展了很多算法, 最基本和常用的算法是采用递推技术的Apriori算法及其改进算法[14]

对关联规则 (产生式规则) 的挖掘是目前天气预报方法研究中所欠缺的。在传统统计预报和模式释用研究中, 通常普查的是相关关系, 相当于逻辑上的等价关系A~B。这种关系要求同时满足“如果A则B”和“如果非A则非B”。这是很严格的条件, 有时是很荒谬的, 很难找到好的相关。例如设A为“北京附近有冷涡”, B为“北京地区有降水”。则相关关系要求同时满足“如果北京附近有冷涡则北京地区有降水”和“如果北京附近没有冷涡则北京地区没有降水”, 其前一半是合理的, 而后一半显然是荒谬的, 因为北京地区的降水并非只有冷涡造成。而蕴涵关系则要求满足前一半关系, 因此容易找到较好和稳定的关系。因此利用目前发展的多种挖掘关联关系的算法普查蕴涵关系, 是在预报方法研究中值得尝试的新方法。

除关联规则的挖掘之外, 数据挖掘还有许多适合天气预报领域的算法。如处理小样本和小概率事件的挖掘算法[15-16]、使用遗传算法对非结构化信息进行分类的算法[17]、专门发现异常数据的支持向量机 (SVM) 算法[18]。对挖掘数据进行聚类预处理的算法[19]、用于图像数据聚类的图像数据比较算法[20]、用于分类的决策树算法[21-23]、聚类关系的挖掘算法[24]、基于遗传算法的模糊聚类算法[25]、利用遗传算法进行趋势预测的算法[26]、把数据挖掘用于Web网挖掘的技术[27]等。这些算法将为统计预报和模式释用技术的研究带来新的思路。

将联机分析处理与数据挖掘技术相结合的联机分析挖掘 (OLAM) 系统是近几年来研究的一个热点[9][28]。从数据分析角度来说, OLAP是验证型工具, 数据挖掘则是挖掘型工具。OLAM将它们紧密结合在一起, 在OLAP的观察结果启发下设置新的挖掘任务或克服组合爆炸, 对挖掘结果也将用OLAP进行验证, 是一个值得尝试的新方向。与预报决策数据挖掘相关的另一个热点是针对天气系统数据挖掘问题的空间数据挖掘技术[29]

基于上述分析, 我们的数据挖掘系统设计要点为:

① 数据挖掘针对数据聚集后不同粒度的分析型数据, 特别是天气系统数据进行, 不对原始数据进行。挖掘内容包括关联规则、分类和聚类分析、时间序列分析。关联规则的挖掘还将沿主题树的各个层次进行多层关联规则的挖掘。

② 吸收OLAM的思想, 数据挖掘系统与OLAP系统是紧密联系的。当选择了OLAP界面上的“挖掘提示”按钮时, 将弹出数据挖掘的用户界面。在这个界面上预报员可以定义挖掘内容和参数, 启动挖掘过程、显示挖掘结果等。预报员可以根据挖掘结果指导其进一步的分析。

③ 各种挖掘算法都在挖掘算法库中, 包括:各种统计预报方法, 发现关联关系、分类和聚类关系及发展趋势的算法等。

④ 挖掘服务器负责整个系统的管理和完成挖掘的计算任务。它从数据存储系统获取数据, 根据元数据库中的参数进行整个系统的管理和调度。

⑤ 数据挖掘的结果以文字加图形的方式显示给预报员。文字部分说明关系的内涵、挖掘的数据集、挖掘的条件组、挖掘方法、关系的参数 (如关联关系的可信度、聚类关系的离散差等)。图形部分则是突出了数据之间关系的示意图。

5 小结

数据仓库的数据存储、联机分析处理 (OLAP) 和数据挖掘 (DM) 3个部分紧密联系, 共同工作。其业务运行的前景是:数据存储模块后台实时地将数据转换为分析型数据, 数据挖掘在后台定时或实时地产生规则或其他知识, 预报员则通过OLAP界面对分析型数据进行快速的分析, 并在需要时可随时定义、启动、获得和评估DM的知识提示, 最后做出预报决策。当增加新数据时, 只要修改元数据即可, 系统将根据元数据库自动进行调整。通过元数据库, 各部门或各地的数据仓库系统可以方便地交换数据, 甚至联成一体。

数据仓库技术本质上是一种人工智能技术, 它根据预报专家在业务中使用的各种概念 (主题) 把原始数据转换为分析型数据; DM技术自动在分析型数据集上寻找各种概念之间的关系, 帮助预报员快速积累经验; OLAP使预报员的分析突破了过去固有框架的限制; 元数据库增强了系统管理历史数据和特种观测数据的能力。

数据仓库中, 预报员经验中的概念和概念之间的关系被分开输入和存储。预报员首先将概念定义为主题, 即可在日常业务中不断实时得到相应的分析型数据。DM将在这些分析型数据中自动寻找概念之间的关系, 预报员也可随时将概念之间的关系输入DM的知识库中。预报员可以利用OLAP验证和使用这些关系。通过这个过程, 预报员的经验较容易地被储存并在预报决策中使用, 缓解了一般知识库系统在知识获取方面的瓶颈。

数据仓库技术的采用形成以预报员的经验为核心的预报决策支持, 比原来以图形技术为核心的系统在技术上提高了一个新的台阶。当然, 仅靠数据仓库是无法完成预报决策的所有任务, 但其可以作为新一代预报决策系统的核心技术。另外, 数据仓库技术在增强预报系统分析能力的同时, 也要求预报员具有较丰富的专业知识和较强的科研能力才能充分利用OLAP和数据挖掘工具。

本文只给出了一个天气预报数据仓库的大框架, 至于其中深入的技术问题, 如:元数据库的详细内容及其用XML语言的实现技巧以及主题系统如何设置等、OLAP的4种分析方法和其他分析工具的设置思想、对数据挖掘算法全面详细的讨论及其在天气预报中的使用以及如何设计挖掘参数和显示挖掘结果使挖掘结果具有明确的物理意义等问题, 将做进一步研究。

参考文献
[1] Inmon W H. Building the Data Warw house. John Wiley & Sons Inc, 1993.
[2] Codd E F, Codd S B, Salley C T. Providing OLAP (OnLine Analysis Processing) to user analysis. PC World, 1993.
[3] Michael Corey.施平安译. Oricle 8i数据仓库.北京:机械工业出版社, 2001.
[4] 赵俊三, 赵耀龙. GIS发展的最新趋势及其应用前景. 测绘工程, 2000, 9, (2): 21–25.
[5] 詹小国. 长江防洪减灾空间数据仓库初步研究. 人民长江, 2001, 32, (4): 19–21.
[6] 王俊. 基于空间数据仓库的城市交通规划研究. 西北大学学报 (自然科学版), 2000, 30, (3): 201–204.
[7] 李满春, 高丽, 陈刚. 空间信息数字图书馆初论. 科技通报, 2002, 18, (3): 177–183.
[8] 邹逸江. 空间数据仓库研究综述. 测绘学院学报, 2002, 19, (4): 287–289.
[9] 石磊, 石云, 刘欲晓, 等. 基于影响域的OLAM模型的研究. 郑州大学学报 (自然科学版), 2000, 32, (2): 16–20.
[10] 王珊. 数据仓库技术与联机分析处理. 北京: 科学出版社, 1998.
[11] 谭念龙. 空间数据存储技术及其应用. 微电子学与计算机, 2002, (1): 15–18.
[12] Metadata Standard (incl ET-IDM Report). ICT-ISS 2002/Doc.7 (1), http://www.wmo.ch/web/www/TEM/ICT-ISS2002/7(1)-metadata.doc, 2002.
[13] WMO Core Metadata Implementation for Climate Data. ETIDM-IV/Doc.3-1 (7), http://www.wmo.int/web/www/WDM/ET-IDM-4/Doc-3-1(7).doc, 2004.
[14] 秦亮曦, 史忠植. SFP-Max基于排序FP树的最大频繁模式挖掘算法. 计算机研究与发展, 2005, 42, (2): 217–223.
[15] 黄文玲, 陈德军. 灰色趋势灾变预测及其在数据挖掘中的应用. 华中科技大学学报 (自然科学版), 2005, 33, (1): 55–57.
[16] 尹群, 王丽珍, 田启明. 一种基于概率的加权关联规则挖掘算法. 计算机应用, 2005, 25, (4): 805–807.
[17] 刘明吉. 基于协同演化的文本特征获取算法. 计算机工程, 2005, 31, (4): 85–87.
[18] 王婉湘. 一种基于一类支持向量机的时序异常检测算法. 微型机与应用, 2005, (1): 55–57.
[19] 陈莉, 焦李成. 基于自适应聚类的数据预处理算法Ⅰ. 计算机应用与软件, 2005, 22, (3): 28–29.
[20] 钱少华, 蔡勇, 钱雪忠. 聚类分析中图像数据量化比较的研究. 计算机应用与软件, 2005, 22, (3): 93–94.
[21] 李宁, 乐琦. 决策树算法及其常见问题的解. 计算机与数字工程, 2005, 33, (3): 60–64.
[22] 颜宏文, 马瑞, 龙际珍, 等. 数据挖掘中判定树算法SLIQ的设计与应用. 计算机工程, 2005, 36, (6): 60–62.
[23] 赖邦传, 陈晓红. 一种基于决策树的多属性分类方法. 计算机工程, 2005, 31, (5): 88–89.
[24] 陈燕, 耿国华, 郑建国. 一种改进的基于密度的聚类算法. 微机发展, 2005, 15, (3): 17–19.
[25] 白莉媛, 胡声艳, 刘素华. 一种基于模拟退火和遗传算法的模糊聚类方法. 计算机工程与应用, 2005, (9): 56–58.
[26] 李康顺, 李元香, 滕冲, 等. 遗传算法在数据挖掘中的应用. 计算机工程与应用, 2005, (9): 219–223.
[27] 宋中山, 曾广平. 基于XML的Web数据挖掘技术. 中南民族大学学报 (自然科学版), 2005, 24, (1): 64–67.
[28] 蒲晓湘, 刘文才. 联机分析挖掘 (OLAM) 技术的现状与发展. 重庆大学学报, 2004, 27, (3): 36–40.
[29] 周海燕, 王家耀, 吴升. 空间数据挖掘技术及其应用. 测绘通报, 2002, (2): 11–13.