顾及地理信息云服务领域知识的空间分析任务日志识别方法

引用本文

李江, 刘朝辉, 宋旭颖, 李锐, 吴华意. 顾及地理信息云服务领域知识的空间分析任务日志识别方法[J]. 测绘地理信息, 2023, 48(1): 86-92. DOI:10.14188/j.2095-6045.2021702

LI Jiang, LIU Zhaohui, SONG Xuying, LI Rui, WU Huayi. A Spatial Analysis Task Log Recognition Method Considering Domain Knowledge of Geographic Information Cloud Service[J]. Journal of Geomatics 2023, 48(1): 86-92. DOI:10.14188/j.2095-6045.2021702

顾及地理信息云服务领域知识的空间分析任务日志识别方法

[PDF全文]

李江^1,2, 刘朝辉¹, 宋旭颖¹, 李锐¹, 吴华意¹

1. 武汉大学测绘遥感信息工程国家重点实验室，湖北武汉，430079;
2. 湖北省自然资源厅信息中心，湖北武汉，430071

收稿日期: 2022-12-15

基金项目: 国家自然科学基金(U20A2091, 41771426);湖北省科技攻关计划(ZRZY2021KJ13)

第一作者: 李江，博士，教授级高级工程师，研究方向为自然资源智能服务。E-mail：Johnlee1124@126.com

通讯作者: 刘朝辉，博士，研究方向为地理信息空间智能等。E-mail：liuzhaohui@whu.edu.cn

摘要: 现代地理信息云服务平台在处理高强度空间分析事件的同时，通常依据到达时序记录来自不同用户、围绕不同分析目的的事件日志。这种混杂的日志记录方式模糊了用户的分析意图，破坏了围绕同一分析目的的计算行为的时间关联性，削弱了服务日志对从用户需求角度理解用户行为和优化服务的重要作用。提出了一种顾及地理信息云服务领域知识的空间分析任务日志识别方法，对围绕同一分析目的的服务日志进行自动化聚合。首先，基于历史任务数据集对地理信息云服务中的日任务量时序变化规律和图层关联性等领域知识进行建模；然后，借助层次编码和超参数设定的方式建立基于领域知识的聚类经验约束；最后，通过k-means聚类及后处理得到空间分析任务日志的识别结果。基于地理信息云服务平台产生的大量空间分析日志进行实验，结果显示，利用所提方法对空间分析任务日志进行识别，F₁值可达到0. 895，相比无领域知识支持的基线方法，其整体精度提升了8.7% 以上，可有效提高空间分析任务日志识别精度。

关键词: 领域知识任务识别日志聚合地理信息云服务

A Spatial Analysis Task Log Recognition Method Considering Domain Knowledge of Geographic Information Cloud Service

LI Jiang^1,2, LIU Zhaohui¹, SONG Xuying¹, LI Rui¹, WU Huayi¹

1. State Key Laboratory of Information Engineering in Surveying Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China;
2. Information Center of Department of Natural Resources of Hubei Province, Wuhan 430071, China

Abstract: While dealing with high-intensity spatial analysis events, the modern geographic information cloud service platforms usually record data from different users with different analysis purposes based on the arrival sequences. This mixed log recording method obscures the users'analysis intention, destroys the time correlation of computing behaviors with the same analysis purpose, and weakens the importance of platform log in understanding users'behaviors and optimizing service from the perspective of users'needs. Therefore, we propose a spatial analysis task log recognition method considering domain knowledge of geographic information cloud service to automatically aggregate the service logs with the same purpose. First, based on the historical task data set, we model the time series change rule of daily tasks and the layer correlation in the geographic information cloud service. Then, we establish the clustering experience constraint with domain knowledge by means of hierarchical coding and hyper-parameter setting. Finally, the recognition results of spatial analysis task logs are obtained by k-means clustering method and post-processing. Experiments are carried out based on a large num ber of spatial analysis task logs generated by the geographic information cloud service platform. The results show that the F₁ value can reach 0. 895 when using the proposed method to recognize the spatial analysis task logs. Compared with the baseline method without domain knowledge intervention, its overall accuracy is improved by more than 8. 7%, which can effectively improve the recognition accuracy of spatial analysis task logs.

Key words: domain knowledge task identification log aggregation geographic information cloud service

地理信息云服务平台采用分布式管理方式应对高强度的空间分析请求^[1]，各种空间分析请求可对点、线、面等不同类型，建设用地、矿产、基本农田等不同专题的数据进行缓冲区分析、压盖分析、领域分析、栅格计算、分区统计、面积制表等多种空间分析操作。对某一类型的专题数据进行一次空间分析操作被记作一次空间分析事件；在自然资源管理过程中，用户围绕规划分析、开发分析、执法分析等不同应用目的，对各种空间分析事件的自由组合则形成了空间分析任务。空间分析任务是用户一个阶段内围绕某一应用目的的连续操作，反映了用户真实的分析意图，具有种类多样且随自然资源管理业务的变化而变化的特点，难以仅通过规则的方式进行总结，人工识别依赖专家领域知识和业务经验，且耗时耗力。在云平台系统中，后台以空间分析事件为粒度，记录任务开始的时间、任务耗时及状态等日志信息，不同空间分析事件的日志往往按照空间分析事件发生的时序被依次记录下来，使得围绕不同分析目的的空间分析事件的日志信息混杂在一起，模糊了日志反映出来的不同用户的分析意图^[2]。同时，用户围绕同一分析目的进行的不同空间分析事件的计算关联性被打断，使得难以从用户任务粒度监测平台的运行效率，减弱了平台日志对用户体验的反馈能力，日志对平台性能优化方向的指示作用被削弱。因此，如何从大量系统日志中识别出围绕同一分析目的且具有计算关联的空间分析任务日志，对于地理信息云服务平台的性能监测及服务优化具有重要研究意义^[3]。

日志数据通常是记录服务运行信息的唯一可获得的数据源，各种云服务平台往往以最精细的粒度详细记录平台中各空间分析事件的运行状态^[4]，但随着事件日志规模的急剧扩大，日志数量远远超过了人工处理能力^[5]，分析人员难以从大量的日志数据中发现有用的信息。因此，不少学者对日志聚合技术进行了大量研究，以期对日志进行有效组织，降低信息获取的难度。Asif-Iqbal等^[6]提出了一种日志解析框架，通过聚类的方式来识别和删除不需要的日志条目，从而在极大程度上进行日志关联。刘绍廷^[7]对异构日志的关联和分类方法进行了研究，提出了一种基于改进的Dempster-Shafer(DS)证据理论的日志处理方法，该方法综合考虑了日志的多维属性，从不同的维度对日志进行挖掘分析，可以有效地将无法确定类别的日志进行丢弃。Hamooni等^[8]针对没有先验知识的海量日志消息，提出了一种快速提取日志模式的挖掘方法，从日志中分析事件模式，从而更好地发现系统事件的时序模式，预测和刻画系统行为，解决系统性能调试等问题。Makanju等^[9]提出了一种基于迭代划分的日志挖掘算法，可以自动将日志消息分成不同的组，每组代表一种特定的事件类型，在一定程度上实现了日志的自动分析。

以事件类型划分^[9]、关键日志筛选^[10]、安全等级评估^[11]、错误异常发现^[12]等为目的的日志聚合问题，往往仅需要关注如何对日志数据进行粗粒度的模式发现。与这些日志聚合问题不同，在地理信息服务领域中，地理信息云服务平台为自然资源管理从业者提供了诸多基础空间分析功能，协助用户完成各项分析意图，而用户分析意图的灵活多样促成了空间分析任务类型多样的特点，空间分析任务日志识别具有更精细化的日志划分粒度要求。

地理信息云服务的特点给空间分析任务日志识别带来挑战的同时，也带来了机遇。其特定的分析意图往往需要特定图层的配合完成，导致访问分析图层间存在着较强的关联关系，从分析内容层面对分析事件的任务归属进行了约束。较为稳定的服务规模使得地理信息云服务平台往往具有规律的空间分析任务的负载变化，可从任务划分粒度层面对空间分析任务日志识别进行约束。这些特定的领域特色为精细化的空间分析任务日志识别提供了必要的领域知识，使得对地理信息云服务平台的空间分析任务日志进行细粒度的准确识别成为可能。

而以往的日志聚合研究大多关注日志筛选分类、索引关联^[13-15]、模式提取^[16-18]等方法本身，注^[19-21]重算法的通用性和处理性能，对日志所属领域的知识进行挖掘并将其运用到日志聚合过程的研究较少。因此，如何基于日志数据挖掘访问图层的关联特征、平台任务负载的稳定规律等领域知识，并将其融合到空间分析任务日志识别方法中，是对地理信息云服务平台的空间分析任务日志进行细粒度精细化识别，并进一步挖掘用户意图，从需求角度分析平台效能的关键。

本文提出了一种融合领域知识，将记录单次空间分析事件的日志聚合为空间分析任务日志的聚合方案。首先，提出时间序列分解-自回归移动平均(time series decomposition-autoregressive moving average，TSD-ARMA)任务负载时序建模预测算法，从历史数据中捕捉空间分析日任务负载的时序变化规律，基于层次聚类算法挖掘任务内部图层关联性，从而得到地理信息服务领域内的相关领域知识；然后，以日任务负载的预测值为聚类的超参数建立聚类约束，基于空间分析事件的时间、面积字段进行聚类，发现空间分析任务；最后，利用挖掘到的图层关联性知识对初步得到的空间分析任务进行剪枝和生长后处理，得到最终的空间分析任务日志识别结果。实验结果表明，融合领域知识可有效提升空间分析任务日志识别精度，本文提出的融合领域知识的空间分析任务日志识别方法可较好地识别围绕同一分析目的、具有计算关联性的空间分析任务，对更好地理解地理信息服务领域的用户行为和服务优化具有一定的借鉴作用。

1 融合领域知识的处理任务识别方法

领域知识是一个范畴较广的概念，一般指特定领域的概念、公理、命题、方法技巧(算法、策略)、经验等^[22]。在地理信息云服务中，同属于某一空间分析任务的空间分析事件是围绕一定的分析目的进行的，其中包含的各个空间分析事件间存在较强的关联性，主要表现为同属于某一空间分析任务的空间分析事件在发生时间上存在聚集性，参与计算的图层间相互链接。利用地理信息云服务进行空间分析时，依照用户分析意图而存在的图层之间的特定搭配，反映了地理信息云服务领域中分析图层的关联，是地理信息云服务领域在空间分析内容方面的知识。同时，由于自然资源领域的业务存在一定的业务周期，且易受政策调控的影响，业务往往存在持续性和阶段性，使得平台每日处理的任务量存在时序上的统计规律。这种任务负载的变化规律反映了用户在分析行为上的聚集和分散特征，是地理信息云服务领域空间分析行为方面的知识。本文首先对分析内容方面的空间分析图层关联性知识、分析行为方面的日任务负载的时序规律进行挖掘，得到反映图层关联性的层次编码以及任务负载时序预测模型，并以此作为知识约束，提出了一种融合领域知识的空间分析任务日志识别方法。算法方案见图 1。

图 1 融合领域知识的空间分析任务日志识别方法 Fig.1 A Spatial Analysis Task Log Recognition Method Integrating Domain Knowledge

对日任务负载时序进行提取和时间序列分解，建立趋势拟合、ARMA等多方法组合的时序模型，捕捉日任务量的时序规律，用于每日任务数的精确预测。同时，在补全数据属性特征后，基于层次聚类捕捉同一任务中各空间分析事件图层属性之间的关联关系，并以层次编码的方式将关联关系固定下来。基于以上挖掘到的地理信息云服务的领域知识，利用日任务量建立聚类的类别数约束，基于空间分析事件的事件和面积字段进行聚类，得到空间分析任务日志识别的初步结果，并借助图层层次编码对识别结果进行剪枝和生长后处理，实现融合领域知识的空间分析任务日志识别。其中，准确的日任务负载可以对聚类进行粒度约束，保证在聚类迭代过程中，类别归并条件保持在一个较为合理的范围内。通过基于图层组合约束的后处理操作，保证了划分结果符合图层关联规律，可进一步提高识别的精度。

1.1 地理信息云服务中的领域知识挖掘

为探究地理信息云服务领域蕴含的领域知识，并据此进行空间分析任务日志识别，本文采用湖北省自然资源厅“一张图”地理信息云服务平台在2019-11-08—2019-12-29期间产生的444 359条日志数据作为实验数据，通过规则和人工结合的方式进行任务划分，得到包含13 403个任务的历史任务数据集，并对空间分析任务量时序规律和属性关联特征进行探究。

1.1.1 日任务量时序规律建模

用户围绕一个分析目的的一组操作形成一个空间分析任务，如果以天为粒度对群体用户的空间分析任务数进行统计，便可得到如下日任务量时序L(R，t)：

$ L(R, t)=\{R(1), R(2), \cdots, R(t)\} $

(1)

式中，t表示以天为粒度的时序；R(t)表示第t天平台的任务请求量。

时间序列分解方法的理论基础是将一个时间序列看成趋势部分、周期波动、循环波动、不规则变动部分的叠加或者耦合，而随机因素的影响可通过移动平均的方法进行削弱或剔除，时间序列可以表示为以上因素的函数^[23]。结合时间序列分解的理论和式(1)，将日任务量时序中的数据成分归结为以下几类：①平台建设情况、用户规模等较稳定因素影响下的平台日任务量的长期趋势项T(t)；②用户工作节律等周期因素影响下的周期特征项S(t)；③稳定性因素的变动引起的循环波动项C(t)；④用户工作选择等随机因素影响下的随机波动项I(t)。

通过时间序列分解方法，期望在众多复杂的平台任务量影响因素中，降低其他因素的影响，单纯测度出某一类因素对序列的影响，并在此基础上，通过趋势拟合、ARMA等方法对分解得到的各项数据成分进行逐项建模预测，构建TSD-ARMA组合预测模型，对日任务量时序进行预测，基于时间序列分解理论给出的日任务量时序表达模型如下：

$ D(t)=T(t) \times S(t) \times C(t) \times I(t) $

(2)

图 2展示了日任务量时序分解结果，可以看出，长期趋势项T(t) 具有显著的线性特征，可以借助最小二乘法进行线性拟合；周期特征项S(t) 具有显著的周模式特征，根据时间分解理论，可基于移动平均提取日周期特征；随机波动I(t) 可借助移动平均的方法进行消除；而循环波动项C(t) 可基于ARMA模型进行预测。以上各项预测结果基于式(2)进行组合，便形成了基于TSD-ARIMA组合模型的预测结果，实现对日任务量时序变化规律的捕捉。

图 2 日任务量时序分解结果 Fig.2 Decomposition Result of Time Series of Daily Task Volume

1.1.2 空间分析事件图层属性关联关系挖掘

围绕同一分析目的的空间分析任务，所用的分析图层往往存在着较强的关联关系，所有图层共同配合完成同一分析目的。因此，图层属性对于任务识别具有重要的指示作用。针对如何对地理信息云服务领域图层属性建立统一参考系下的量化表达这一问题，本文首先通过层次聚类的方式挖掘到地理信息云服务任务视角下，各图层属性的相似相异程度这一领域知识；然后借助层次聚类中的层次距离划分层次类别，区分图层差异，依据层次间的继承关系表达图层的相似程度；最终借助层次编码建立图层这一离散属性在同一参考系下的量化表达。

本文假设某两种图层属性在同一空间分析任务中的共现程度反映了图层的关联性，共现频次越高说明图层的关联性越强。首先，基于历史任务提取到58个独立图层，通过历史任务集计算图层的共现频次，形成58×58维的图层共现频次矩阵；然后，基于各图层的出现总频次计算图层共现概率矩阵；最后，将图层共现概率矩阵输入层次聚类算法，得到图层的层次聚类结果。

图 3为图层层次聚类结果，展示了58个图层的类簇划分结果，图中横线代表了将类簇进行两两合并时的聚类距离阈值。从图 3中可以得到在不同聚类距离阈值下的图层类簇划分方式，聚类距离阈值越小的图层，具有越强的图层关联性。因此，类簇聚类距离的大小表征了图层在任务视角下的关联强度信息。

图 3 图层层次聚类结果 Fig.3 Hierarchical Clustering Result of Layers

1.2 融合领域知识的任务识别方法

空间分析任务日志识别是指从海量日志数据中找出属于同一空间分析任务的日志数据，在本质上是对代表空间分析事件的日志的划分问题，可以抽象为日志聚类问题来解决。识别是指根据业务和计算关联性，将随时序依次记录的日志数据划分为不同类簇的过程。而k-means聚类是基于样本集合划分的聚类算法，k-means聚类将样本集合划分为k个子集。在构成的k个子集中，使得每个样本到所属子集的中心距离最小。k-means聚类算法在原理上很好地适应了任务识别需求，因此，本文选择k-means聚类算法作为任务识别的方法，将挖掘到的领域知识应用到k-means聚类算法中。

1.2.1 数据预处理

地理信息云服务平台的后台日志会记录项目ID、操作类型、项目面积、响应耗时等属性，对于时间和面积两个数值型特征，为消除单位量纲对聚类结果的影响，本文先将时间转换为以秒为单位的时间戳，再对时间戳和面积值进行归一化，得到较为标准的聚类特征。同时，对部分入库操作相关日志的面积属性进行了补全。对基于不同特征得到的聚类结果进行精度评价，本文选择时间和面积这两类对空间分析任务具有较强区分作用的属性维度作为聚类维度，进行空间分析任务日志识别。

1.2.2 融合任务量约束的k-means的任务识别

对日任务量时序进行分析，发现日任务量时序存在较为明显的趋势性、周期性特征，通过建立组合模型，可以很好地对日任务量的变化规律进行捕捉，而k-means算法中对k值的预定义可以很好地将日任务量时序挖掘到的领域知识应用到基于k-means算法的任务识别场景中。因此，通过日任务量时序建模的方式给聚类算法提供相对准确的聚类个数，从而对聚类结果起到约束优化的作用。以日任务量预测值为聚类中心数k，将聚类特征数据代入k-means算法中进行聚类。

1.2.3 基于图层关联性的剪枝和生长后处理

为了给图层关联关系表达选择合理的划分层次，本文将不同类簇划分的层次距离阈值进行排序，根据排序结果，将58个图层划分为5个一级类，11个二级类，58个三级类。为定量描述以上挖掘到的图层属性的关联关系，本文引用层次编码方法，用一位编码表示属性的一级类别，两位编码表示图层的二级类别，两位编码表示图层的三级类别，最终得到5个一级任务图层单元和11个二级图层任务单元。

针对以上固定空间分析任务的图层任务单元知识，本文分别指定了剪枝和生长两种后处理策略来优化空间分析任务的识别结果。

剪枝处理：基于图层层次聚类挖掘到的图层任务单元，对聚类中存在重复图层的结果按照图层到达时序进行切割，在聚类结果中切割出固定图层任务单元对应的事件集合，并将该集合作为一个新任务。

生长处理：检查剪枝处理后的聚类结果，对于图层集合不能对应一个完整图层任务单元的任务，以层次聚类挖掘到的固定图层任务单元为目标，借助时序上临近的任务进行图层组合，对组合后可组成一个完整图层任务单元的任务进行合并。

2 实验与分析

为检验日任务时序建模和图层关联性知识的融入对空间分析任务日志识别的有效性，本文采用2019-12-15—2019-12-29共15天的数据作为验证数据，选择精确率、召回率来评价识别结果的精度。其中，精确率指在每个识别任务所包含的事件范围内，拥有最多事件数的真实任务所包含的事件数与识别任务所包含事件总数的比值，反映了任务识别结果所包含真实任务的事件纯度。召回率指在每个真实任务包含的事件范围内，拥有最多事件数的识别任务所包含的事件数与真实任务所包含事件总数的比值，反映了真实任务中所包含识别任务的事件纯度。此外，由于精确率和召回率此消彼长，很难兼得，在大规模数据集合中相互制约，需要综合考虑。本文使用F₁值作为评价指标进行评价。它是精确率和召回率的加权调和平均，计算公式如下：

$ F_1=\frac{2 p r}{p+r} $

(3)

式中，p为识别精确率；r为识别召回率。

基于周序历史均值聚类、基于TSD-ARMA预测值聚类、基于TSD-ARMA预测值聚类+图层关联性后处理的F₁值分别为0. 823、0. 870、0. 895。时序规律和图层关联性知识的融入可稳步提升空间分析任务日志识别的精度，F₁得分从0. 823提升至0. 895，精度提升8. 7% 以上。

2.1 日任务量时序建模规律有效性验证

为了检验日任务量时序建模结果对于空间分析任务日志识别的有效性，本文分别以日任务量的周序历史平均值、TSD-ARMA模型的预测结果以及日任务量真值作为聚类的任务数，进行任务识别对比实验。日任务量是存在明显周期性和节假日模式的时序数据，周序历史均值法将周序上多个历史同期值的平均值作为本天日任务量的预测值，该种预测方式在一定程度上可以捕捉到日任务量时序强度，同时可有效区分出工作日和周末不同的时序模式。本文将基于周序历史均值的空间分析任务日志识别作为基线方法，与基于TSD-ARMA预测结果的空间分析任务日志识别进行对比，检验地理信息云服务领域日任务量时序建模对于空间分析任务日志识别的有效性。图 4展示了TSD-ARMA模型预测值、周序历史均值和日任务量真值的对比情况。可以看出，本文提出的TSD-ARMA方法对日任务量时序有更好的拟合效果。

图 4 日任务量时序预测对比 Fig.4 Comparison of Time Series Prediction Results of Daily Task Volume

图 5对比了基于周序历史均值聚类、基于TSD-ARMA预测值聚类和基于日任务量时序真值聚类的准确率、召回率和F₁值。可以看出，基于日任务量真值聚类的识别精度最佳，基于TSD-ARMA预测值聚类的识别精度次之，基于周序历史均值聚类的识别精度最差，这说明日任务量时序规律的融入可较好地提升空间分析任务的识别效果。相较于基线方法，本文提出的基于TSD-ARMA预测值的聚类识别方法在识别准确率和召回率上都有明显提升，其中预测准确率的提升在5% 以上。这主要是因为准确的日任务量的约束可协助聚类算法更好地把握类簇间距，保证在聚类迭代过程中，类别归并条件保持在一个较为合理的范围内，增强了聚类算法对类簇划分的准确性。同时，基于TSD-ARMA预测值的空间分析任务日志识别结果与基于日任务量时序真值的空间分析任务日志识别结果相差不大，这说明本文提出的TSD-ARMA预测方法可有效挖掘日任务量时序规律对空间分析任务日志识别的潜在作用。

图 5 不同聚类方法下空间分析任务的识别精度 Fig.5 Recognition Precision of Spatial Analysis Task Using Different Clustering Methods

2.2 基于图层关联性的聚类后处理有效性验证

为进一步探究图层关联性知识对空间分析任务日志识别的具体作用，本文对后处理前后结果的精度进行了比较。图 6展示了依据图层关联性知识对空间分析任务日志识别结果进行不同后处理操作前后的精度结果，从图中可以看出，基于图层关联性知识的剪枝操作在基于TSD-ARMA预测值聚类结果的基础上进一步提升了空间分析任务的识别效果，这主要是因为在地理信息云服务平台中，空间分析事件集中到达，使得从属于不同任务的空间分析事件在到达时间上十分接近，并且即使在面积补全处理后，依旧存在大量面积属性缺失的空间分析事件，这种时间和面积字段的模糊性容易造成空间分析事件的错误聚类。但不同空间分析任务存在着不同的图层搭配，即使是发生时间非常接近的空间分析任务，其图层的发生时间也存在时序上的相对先后。因此，对于初步识别后存在重复图层的聚类任务，按照图层在时序上到达的先后分割出固定任务图层单元对应的空间分析任务，可在一定程度上有效解决空间分析事件的时间和字段的模糊性造成的任务误识别，从而有效提升空间分析任务的识别效果。

图 6 后处理前后空间分析任务日志识别的F₁分数对比 Fig.6 F₁ Scores of Spatial Analysis Task Log Recognition Before and After Post-Processing

对比剪枝和生长后处理的识别精度结果可以看出，在剪枝基础上进行生长，可进一步提升空间分析任务日志识别的精度，这主要是因为地理信息服务领域的用户意图存在不同的分析粒度，用户的一个完整的空间分析任务可被拆解为几部分，剪枝过后，存在将一个完整任务分割为几个固定图层单元的过度剪枝的情况。因此基于剪枝的结果，对时序上相邻的空间分析任务按照大粒度分析意图进行生长，将对应大粒度空间分析任务的聚类结果进行合并，可以更有效地发现用户的大粒度意图。通过以上基于图层组合约束的剪枝及生长后处理操作，保证了划分结果符合图层关联规律，提升空间分析任务的识别效果。

3 结束语

针对地理信息云服务任务识别问题，本文提出了一种顾及地理信息云服务领域知识的空间分析任务日志识别方法，将挖掘到的地理信息云服务领域知识融入日志聚合过程，可更加精确地识别属于同一空间分析任务的日志数据。首先，基于历史任务数据集，采用TSD-ARMA模型和层次聚类对地理信息云服务中的日任务量时序变化规律和图层关联性等领域知识进行建模和挖掘；然后，借助层次编码和超参数设定的方式建立基于领域知识的聚类经验约束；最后，通过k-means聚类算法及后处理策略得到空间分析任务的识别结果。将日任务量时序规律和图层关联性逐步融入空间分析任务日志识别过程，并进行对比。实验结果显示，在地理信息云服务领域内，日任务量时序规律和图层关联特征等领域知识的挖掘和应用，可有效提高地理信息云服务中空间分析任务的识别效果。在空间分析任务的基础上，自动化抽取用户意图，挖掘系统优化知识将是下一步的重点工作。

参考文献

[1]	乐鹏, 吴昭炎, 上官博屹. 基于Spark的分布式空间数据存储结构设计与实现[J]. 武汉大学学报·信息科学版, 2018, 43(12): 2295-2302.
[2]	Li X, Zhang L, Luo P, et al. Mining User Tasks from Print Logs[C]. 2014 International Joint Conference on Neural Networks(IJCNN), Beijing, China, 2014
[3]	李德仁. 论时空大数据的智能处理与服务[J]. 地球信息科学学报, 2019, 21(12): 1825-1831.
[4]	郭舒婷. 多粒度日志自动解析方法研究[D]. 南京: 南京邮电大学, 2019
[5]	张颖君, 刘尚奇, 杨牧, 等. 基于日志的异常检测技术综述[J]. 网络与信息安全学报, 2020, 6(6): 1-12.
[6]	Asif-Iqbal H, Udzir N I, Mahmod R, et al. Filtering Events Using Clustering in Heterogeneous Security Logs[J]. Information Technology Journal, 2011, 10(4): 798-806. DOI:10.3923/itj.2011.798.806
[7]	刘绍廷. 面向多源异构日志的关联与分类研究[D]. 郑州: 郑州大学, 2019
[8]	Hamooni H, Debnath B, Xu J W, et al. LogMine: Fast Pattern Recognition for Log Analytics[C]. Proceedings of the 25th ACM International on Conference on Information and Knowledge Management, Indianapolis, Indiana, 2016
[9]	Makanju A A O, Zincir-Heywood A N, Milios E E. Clustering Event Logs Using Iterative Partitioning[C]. Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, 2009
[10]	朱宝金. 面向云计算系统的日志过滤系统的设计与实现[D]. 杭州: 杭州电子科技大学, 2014
[11]	苏蓉. 基于Hadoop平台的安全日志聚类挖掘算法研究与应用[D]. 西安: 西北大学, 2015
[12]	程世文, 裴丹, 王长进. 互联网软件错误日志聚类[J]. 小型微型计算机系统, 2018, 39(5): 865-870.
[13]	徐家慧, 张明, 白静洁, 等. 基于双向LSTM的电网调度日志分类[J]. 计算机应用与软件, 2019, 36(1): 142-146. DOI:10.3969/j.issn.1000-386x.2019.01.026
[14]	年素磊, 黎铭, 杜科, 等. 基于主动半监督学习的智能电网信调日志分类[J]. 计算机科学, 2012, 39(12): 167-170.
[15]	Zou D Q, Qin H, Jin H. UiLog: Improving Log-Based Fault Diagnosis by Log Analysis[J]. Journal of Computer Science and Technology, 2016.
[16]	徐开勇, 龚雪容, 成茂才. 基于改进Apriori算法的审计日志关联规则挖掘[J]. 计算机应用, 2016, 36(7): 1847-1851.
[17]	Zhang Z L, Liu Z C, Tian M F. Network Behavior Analysis Based on Association Rules[C]. 2015 International Conference on Automation, Mechanical and Electrical Engineering, Phuket, Thailand, 2015
[18]	崔双双, 王宏志. 基于日志结构合并树的轻量级分布式索引实现方法[J]. 计算机应用, 2021, 41(3): 630-635.
[19]	王晓东, 赵一宁, 肖海力, 等. 高性能计算环境中日志模式提炼方法的研究[J]. 计算机科学与探索, 2022, 16(10): 2264-2272.
[20]	Ibrahim A, Sastry S, Sastry P S. Discovering Compressing Serial Episodes from Event Sequences[J]. Knowledge and Information Systems, 2016, 47(2): 405-432.
[21]	王晓东, 赵一宁, 肖海力, 等. 多节点系统异常日志流量模式检测方法[J]. 软件学报, 2020, 31(10): 3295-3308.
[22]	领域知识. 术语在线[EB/OL]. [2021-11-18]. https://www.termonline.cn/word/7845/1#s1
[23]	West M. Time Series Decomposition[J]. Biometrika, 1997, 84(2): 489-494.


测绘地理信息 2023, Vol. 48 Issue (1): 86-92	0