基于机器学习的军事信息系统用户画像研究

引用本文

刘静涛, 周万宁, 李俊达. 基于机器学习的军事信息系统用户画像研究. 舰船科学技术, 2024, 46(24): 143-148 复制到剪切板

LIU Jingtao, ZHOU Wanning, LI Junda. Research on user portrait of military information system based on machine learning. Ship Science and Technology, 2024, 46(24): 143-148 复制到剪切板

基于机器学习的军事信息系统用户画像研究

刘静涛¹, 周万宁¹, 李俊达²

1. 中国人民解放军 91977部队，北京 100036;
2. 中国舰船研究院，北京 100101

收稿日期: 2023-09-18.

作者简介: 刘静涛（1981 – ），男，硕士，高级工程师，研究方向为数据工程、大数据

摘要: 针对军事信息系统用户对于软件使用底数不清、使用习惯不明的问题，结合海军信息系统用户工作特点，提出一种基于机器学习的军事信息系统用户画像技术。该技术基于海军信息系统用户的大量历史数据，运用机器学习技术构建用户软件使用标签和用户网页关注动态标签，更为清晰地描述海军信息系统用户特征和使用习惯，能为海军信息系统需求迭代和改进完善提供有益支撑。仿真结果表明，提出的方法可有效支撑军事信息系统应用需求。

关键词: 机器学习海军军事信息系统用户画像数据标签大数据

Research on user portrait of military information system based on machine learning

LIU Jingtao¹, ZHOU Wanning¹, LI Junda²

1. No. 91977 Unit of PLA, Beijing 100036, China;
2. China Ship Research and Development Academy, Beijing 100101, China

Abstract: A machine learning based military information system user profiling technology is proposed to address the issue of unclear software usage and habits among military information system users, combined with the working characteristics of naval information system users. This technology is based on a large amount of historical data of naval information system users, and uses machine learning technology to construct user software usage tags and dynamic tags for user webpage attention, which can more clearly describe the characteristics and usage habits of naval information system users and provide beneficial support for the iteration and improvement of naval information system requirements. The simulation results show that the proposed method can effectively support the application requirements of military information systems.

Key words: machine learning navy military information system user portrait data label big data

0 引　言

随着互联网进入大数据时代^[1]，用户行为给企业的产品和服务带来了一系列的改变和重塑，为了更好地了解用户特征和使用习惯，用户画像^[2]技术逐步走入实际应用。基于积累的大量业务数据，运用大数据技术^[3]，建立用户画像以便精确掌握用户特征、精准推荐产品和服务。近年来，随着海军信息化建设^[4]的深入开展，海军信息化建设目前也存在海军信息系统结合业务工作需求建设^[5]。海军信息化建设过程中收集了大量业务数据，并且针对典型领域开展了分析挖掘，但上述数据的分析挖掘大多是面向相关业务领域应用，缺乏对于用户特征和使用习惯的关注，难以及时掌握用户需求，存在用户使用底数不清、使用习惯不明的问题，容易造成系统研制和改进人员对于用户需求了解不够，系统研制和使用脱节。因此，结合海军业务特点，提出一种基于机器学习的军事信息系统用户画像技术。该技术能基于大量海军用户历史数据，运用机器学习技术^[6]进行用户画像处理，清晰描述海军军事信息系统用户特征和使用习惯，能为海军军事信息系统需求迭代和改进完善提供有益支撑。

1 用户画像原理和主要流程 1.1 用户画像

用户画像，即用户信息标签化，通过收集用户的社会属性、消费习惯、偏好特征等各个维度数据，进而对用户或产品特征属性进行刻画，并对这些特征进行分析、统计，挖掘潜在价值信息，从而抽象出用户的信息全貌^[7]。用户画像能提供个性化推荐、精准营销、个性化服务等多样化服务，是大数据落地应用的一个重要方向。

海洋军事信息系统用户画像^[8]主要是从海军用户自身属性信息、软件操作所表现出的行为特征等方面进行描述，由于军事信息系统用户在业务工作、安全保密等方面有更为严格的要求，其用户画像更多是从其业务工作角度对其特征进行描绘，主要目的是深入了解用户使用需求，以便改进完善软件功能。这与一般互联网商业用户画像侧重于了解用户喜好、提升营销业绩有一定区别。

1.2 用户画像系统架构

用户画像主要是基于大数据平台提供的海量数据存储和计算能力，其系统架构与大数据平台基本相同，具体包括数据处理、数据平台和用户画像应用等，如图1所示。

图 1 用户画像系统架构 Fig. 1 User portrait system architecture

1）用户画像应用

用户画像应用包括用户标签^[9]生成、用户分析和产品推荐等。用户标签主要是基于相关数据、运用标签建模模型计算得出；用户分析是根据赋予用户的标签，对用户的使用习惯、兴趣特点等进行进一步的综合分析；产品推荐是基于用户分析的结果，关联相关产品并精准推荐给用户。

2）数据平台

数据平台中分布式文件系统为Hadoop的HDFS，计算框架选用Spark以及RHadoop，Spark的主要用途有2个：一个是对于数据处理与上层应用所指定的规则的数据筛选过滤；一个是服务于上层应用的SparkSQL^[10]。RHadoop的应用主要在于对标签数据打分，其可利用协同过滤等各种推荐算法对数据进行各方面评分。MongoDB主要用于用户画像标签的存储和对于单个用户数据的实时查询。MySQL用于上层应用标签规则的存储，以及页面信息的展现。

3）数据处理

用户画像数据来源于各个数据源系统产生的日志记录，通过Sqoop导入HDFS；也可通过将数据写入本地文件，然后通过Spark SQL的load或Hive的export等方式导入HDFS^[11]。对于用户数据、行为数据、媒体数据等，通过数据清洗、数据转换等处理，生成标准统一、格式规范的标准数据，便于后续的数据计算和查询。

1.3 海军信息系统用户画像的主要流程

海军信息系统按照软件功能可分为业务应用软件和海军军事信息网站等。业务应用软件主要是定制界面的软件，海军军事信息网站内容主要是定期更新的网页，用户对于上述2种软件的操作不同，需使用不同的标签建模技术生成相应数据标签^[12]。

海军信息系统用户画像主要流程包括建立海军用户画像框架树、海军用户相关数据收集处理、海军用户基本信息标签建模、业务应用软件操作标签建模、网页关注动态信息标签建模等，海军信息系统用户画像主要流程如图2所示。

图 2 军事信息系统用户画像主要流程 Fig. 2 The main process of user portraits of military information systems

2 海军信息系统用户画像 2.1 建立用户画像框架树

海军信息系统用户在日常工作中主要使用定制化的业务软件、查询海军信息网站，因此从用户基本信息、业务应用软件操作、网页关注动态信息等方面建立用户画像框架树，如图3所示。图中的业务应用软件以指挥信息系统为例，把指挥信息系统的功能模块作为业务应用软件操作标签的下级节点。

图 3 用户画像框架树 Fig. 3 Portrait frame tree

2.2 用户相关数据收集处理

1）海军用户基本信息数据收集。从海军人员档案信息系统以全量获取、增量更新的数据同步方式，抽取相关用户的个人信息，包括身份证号、姓名、籍贯、性别、年龄、民族、职务等。

2）海军用户软件操作行为数据收集。通过软件埋点等技术手段，对用户使用业务应用软件的操作行为进行收集，包括用户使用的软件功能模块、软件访问数据库数据记录等。

3）海军用户网页浏览行为数据收集。用户在工作中浏览访问军事信息网站时，通过嵌入网页页面的JavaScript脚本等工具手段，对相应的用户页面交互数据（如点击跳转页面、关闭页面、页面滚动、框选文字、点击放大图片，以及相应的操作时间等数据）、网页页面展现数据进行采集。

4）相关数据存储处理。建立具备结构化和非结构化存储能力的数据仓库^[13]，统一存储用户基本信息数据、用户软件操作行为数据和用户网页浏览行为数据等。以军事信息系统用户ID为核心，建立上述数据与相应的用户ID的映射关系，实现数据仓库内数据的用户ID统一标识。

2.3 用户基本信息标签建模

根据收集到海军信息系统用户的个人信息，直接放置到用户基本信息标签下相应的位置，如性别、年龄、职务、军衔等。

2.4 业务应用软件操作标签建模

根据所承担的业务工作要求，用户使用海军业务应用软件中的相关软件模块进行数据访问和计算操作。海军用户软件使用标签主要综合考虑用户使用的软件模块和所访问的数据对象实体进行建模。

1）软件功能分类树构建

按照海军军事业务应用软件的模块、功能进行分类，构建业务应用软件功能分类树。软件操作是一级节点，二级节点是软件的主要组成模块，以指挥信息系统为例，主要包括态势掌握、作战筹划、指挥控制等。对于各软件模块按照模块功能进行逐级划分和展开。软件功能分类树建立完成后作为用户画像的下级节点，纳入用户画像框架树中。

各节点以三元组（软件模块名称、软件模块标识码、软件模块层次码）进行标识。其中，软件模块标识码、软件模块层次码均为全局唯一值。

2）实体对象分类树构建

实体对象分类为一级节点，业务应用软件所使用的实体对象主要包括海军作战部队、武器装备、军事设施等，作为第二级节点，按照业务属性进行逐级划分和展开。最末端的叶子节点是具体的数据属性，表示“数据表名.属性名称”，如“部队情况表.编制数”。

假设实体对象分类树有$ n $层，则第$ n-1 $级某节点的属性是其下层数据属性组成的集合，第$ n-2 $级的节点是其下级各节点属性的并集。对于某个实体对象，如驱逐舰部队，用向量$v{'}_1 $={表1. 属性名称1, 表2. 属性名称2, ··· ,表n}进行表示，如{部队情况表. 编制数, 部队情况表. 实有数, ··· ,部队位置表.位置}。

根据实体对象分类树，以业务应用软件主要使用的实体对象实例$ \mathrm{ID} $为核心（如驱逐舰$ A $的舷号），建立与相关数据表中数据记录$ \mathrm{ID} $的映射关联，记为（实体对象实例$ \mathrm{ID} $，数据表，数据记录$ \mathrm{\mathrm{ID}} $）。

3）用户访问数据记录筛选和分类

一般来说，海军用户使用业务应用软件在一段时间内对某些数据进行密集的访问，且不会访问数据表中的全部属性字段。把用户所访问的数据记为（时间戳、软件模块、数据表名、数据记录ID、属性名称集合），属性名称集合是被访问数据表中属性名称组成的集合。

在业务应用软件功能分类树中选取某个非叶子节点（软件模块$ A $），对于一段时间内（如1个月，以时间戳进行判定）的用户访问数据记录，以“软件模块=该软件模块及其所有下级模块”为条件进行筛选过滤，筛选后的结果为该软件模块访问的数据记录，记为（某时间段、软件模块A、数据表名、数据记录ID、属性名称集合）。

根据2.4节中（实体对象实例ID、数据表、数据记录ID）的映射关联关系，对于按照软件模块筛选后的用户访问数据记录（某时间段、软件模块A，数据表名、数据记录ID、属性名称集合）按照实体对象实例$ \mathrm{ID} $进行分类，得到相应的数据记录集合。

4）实体对象实例相似度计算

对于2.4节中每个实体对象实例$ \mathrm{ID} $相应的数据记录集合，循环执行以下步骤：

步骤1　根据相应数据集合中的数据记录，针对不同的“数据表名.属性名称”分别计算其出现次数m，得到向量v= {m₁, m₂, ··· , m_k}，k为不同的“数据表名.属性名称”的数量；

步骤2　将步骤1处理后得到的向量v参照某实体对象向量$ v_{\text{1}}^{'} $中元素顺序进行排序，排序后得到的向量记为$ {v}_{2}\text{,}{v}_{2}=\{{n}_{1},{n}_{2},\dots ,{n}_{k}\} $。由于实体对象的各属性名称只出现一次，实体对象向量$ {\nu }_{1}^{\mathrm{'}}=\{{\omega }_{1},{\omega }_{2},\dots ,{\omega }_{k}\}，{\omega }_{i}=1\text{,} i=\mathrm{1,2},...,k $，对于向量$ {v}_{2} $的元素进行转换处理，$ {\nu }_{2}^{ {'}}= \{{n}_{1}^{ {'}}, {n}_{2}^{ {'}},\dots ,{n}_{k}^{ {'}}\},{n}_{i}^{ {'}}={{n}_{i}}/{n}，\bar{n}=({\sum _{i=1}^{k}{n}_{i}})/{k}，i=\mathrm{1,2},\dots ,k $。利用余弦函数计算$ v_{\text{1}}^{'} $和$ v_2^{'} $的相似度：

${\rm{cos}}\left( {{v_1},v_2^\prime } \right) = \frac{{V_1^\prime {\rm{ \times }}V_2^\prime }}{{|V_1^\prime |{\rm{ \times }}|V_2^\prime |}} = \frac{{\displaystyle \sum\nolimits_{j = j;j = 1, \ldots ,k;j = 1, \ldots ,k} {{\omega _j}{\rm{ \times }}n} _j^\prime }}{{\sqrt {\displaystyle \sum\nolimits_{i = 1}^k {\omega _i^2} {\rm{ \times }}\sum\nolimits_{j = 1}^k {n_j^{\prime 2}} } }}。$

(1)

当$ \mathrm{c}\mathrm{o}\mathrm{s}({\nu }_{1}^{\mathrm{ {'}}},{\nu }_{2}^{ {'}}) > \theta $时，认为二者相似，实体对象实例$ \mathrm{ID} $被该软件模块所使用。结合用户使用实际情况，$ \theta $取0.5。将该实体对象实例$ \mathrm{ID} $放置到用户画像框架树中软件操作相应软件功能模块节点下，作为用户软件使用标签。

2.5 网页关注动态信息标签建模

1）网页正文内容抽取

网页中除包括网页标题、网页正文文字外，还包括导航信息、网页链接、版权信息等，导航信息、导航信息、网页链接、版权信息等信息对于用户画像没有帮助，需予以剔除，从网页中抽取出网页标题、网页正文文字内容。由于网页使用$ \mathrm{H}\mathrm{T}\mathrm{M}\mathrm{L} $文件格式保存相关数据，使用HTML解析器对$ \mathrm{H}\mathrm{T}\mathrm{M}\mathrm{L} $网页进行解析，找到其中的HTML标签。HTML标签包括标题标签$ < title > $、块标签$ < div > $、图片标签$ < img > $、脚本标签$ < script > $、链接标签$ < link > $等。根据相关$ \mathrm{H}\mathrm{T}\mathrm{M}\mathrm{L} $标签，将网页的$ \mathrm{H}\mathrm{T}\mathrm{M}\mathrm{L} $文件转换成$ \mathrm{D}\mathrm{O}\mathrm{M} $树^[14]结构。对$ \mathrm{D}\mathrm{O}\mathrm{M} $树的各个节点进行遍历，根据规则抽取出网页标题和网页正文文字内容。

2）用户平均浏览速度计算

根据经验统计，一般人的阅读速度约为每分钟300～500字，取平均值为400字/分钟。基于所存储的用户浏览记录数据，计算每个网页浏览参考时间$ {t}_{c}= pw{n}_{i}/ 400 $，$ pw{n}_{i} $为网页$ {p}_{i} $正文长度（page word number）。对于浏览时间极短（如某些网页打开就关掉）、浏览时间过长（如网页打开后一直未关闭）等情况，不能准确反映用户浏览速度，应予以过滤。经筛选过滤处理后的用户浏览关注网页集合记为{$ {p}_{i} $, $ {t}_{c}\times \alpha \leqslant {t}_{i}\leqslant {t}_{c}\times \beta \} $, $ {t}_{i} $为用户浏览网页$ {p}_{i} $所用实际时间，$ \alpha 、\beta $为可变系数。用户平均浏览速度$ r{s}_{c} $的计算公式如下：

${s_c} =\frac{{{\displaystyle \sum}_{i=1}^{n}pw{n_i}}}{{{\displaystyle \sum}_{i=1}^{n}{t_i}}}。$

(2)

其中，$ n $为用户浏览关注网页的数量。

3）网页关注度计算

一般而言，用户对于所关注的网页能读完全部正文内容，并且对某些内容会放慢速度或反复阅读，使得用时较长。当实际浏览速度低于用户平均浏览速度，说明用户看的较为仔细，关注度高；反之，实际浏览速度高于用户平均浏览速度，说明用户关注度低。此外，用户在阅读所关注的网页内容时，可能会出现页面滚动、框选文字、点击放大图片等操作。综合考虑上述因素，用户对某网页p_i的关注度uf_i的计算公式如下：

$ \begin{array}{c}{c}r{s}_{i}=\dfrac{p{l}_{i}}{{t}_{i}}\end{array} ，$

(3)

$ \begin{array}{c}\begin{array}{c}u{f}_{i}=\dfrac{r{s}_{c}}{r{s}_{i}}+\dfrac{\alpha \times p{s}_{i}}{p{l}_{i}}+\dfrac{\beta \times s{w}_{i}}{p{l}_{i}}+\mu \times e{p}_{i}\end{array}\end{array} 。$

(4)

式中：$ {t}_{i} $为浏览网页$ {p}_{i} $ 的实际时间；$ p{l}_{i} $为网页$ {p}_{i} $正文文字长度；$ r{s}_{i} $为用户实际浏览速度；$ p{s}_{i} $为页面滚动次数；$ s{w}_{i} $为框选文字次数；$ e{p}_{i} $为点击放大图片次数；$ \alpha 、\beta 、\mu $均为可变参数，根据用户使用习惯经训练学习后确定。

4）词语权重计算

网页和网页标题由众多的词语组成，要从中提取出用户关注的信息，需对相关网页的文字进行预处理。对于用户浏览某网页$ p $的标题、网页正文进行停用词删除（包括不表示语义的冠词、助词、语气词等）、标点符号删除，基于汉语和术语词库进行同义词归一化处理，运用分词工具对网页标题、网页正文进行分词和去重^[15]，得到$ m $个词语$ p{w}_{1},p{w}_{2},\dots ,p{w}_{m} $。某网页p的词语向量$ {v}_{p}=\{p{w}_{1},p{w}_{2},\dots ,p{w}_{m}\} $。

军事网站网页的标题一般较为简洁、精炼，体现是高度概括性，网页正文是对内容的详细描述，体现是信息全面性。在$ \mathrm{T}\mathrm{F}-\mathrm{I}\mathrm{D}\mathrm{F} $（文本频率—逆文本频率）公式基础上，综合考虑上述因素，以及出现在标题中词语的重要性，网页$ p $中某词语$ pw $的权重$ \omega (pw,p) $计算公式为：

$ \omega \left(pw,p\right) = \left\{ \begin{array}{l}\dfrac{n}{\left|pwn\right|} \times \mathrm{log}\left(\dfrac{N}{{N}_{pw}+1}\right),pw\notin \left\{k{w}_{p}\right\}，\\ \dfrac{n}{\left|pwn\right|} \times \mathrm{log}\left(\dfrac{N}{{N}_{pw}+1}\right)\times \theta ,pw\notin \left\{k{w}_{p}\right\}。\end{array}\right. $

(5)

词语$ pw $在网页$ p $中出现的次数为$ n $，$ N $为用户浏览关注网页的总数，$ {N}_{pw} $为网页正文中出现词语$ pw $的用户浏览关注网页数，$ pwn $为网页$ p $正文长度。$ \theta $为可变参数，根据用户使用习惯经计算后确定。$ \left\{k{w}_{p}\right\} $为网页$ p $的标题经过分词后得到词语所组成的集合。

5）词语权重向量表示

对于用户浏览关注的所有网页逐一进行预处理后，将得到的所有$ M $个词语进行统一排序。按照上述词语排序结果，对于某网页$ p $的词语向量$ {v}_{p}=\{p{w}_{1}, p{w}_{2},\dots ,p{w}_{m}\} $进行元素排序和填充空值，得到$ v{p}^{\mathrm{{'}}}= \{p{w}_{1}^{\mathrm{{'}}},p{w}_{2}^{\mathrm{{'}}},\cdots ,p{w}_{M}^{\mathrm{{'}}}\} $。计算词语向量$ v{p^{'}} $中各词语的词语权重，得到词语权重向量$ v=\{{\omega }_{1},{\omega }_{2},...,{\omega }_{M}\}。$

6）词语权重向量聚类处理

由于用户浏览的网页可能属于不同的领域，需要对词语权重向量进行聚类处理。在这里，采用无监督的$ \mathrm{K}-\mathrm{Means} $聚类算法对词语权重向量进行处理。算法如下：

输入为用户所有浏览关注网页的词语权重向量集合$ D=\{{v}_{1},{v}_{2},...,{v}_{n}\} $，n为D中词语权重向量的数量，聚类的簇数为$ k $，输出为聚类簇划分$ \{{C}_{1},{C}_{2},...,{C}_{k}\} $。

步骤1　在词语权重向量集合$ D $中随机选择$ k $个词语权重向量$ {\mu }_{1},{\mu }_{2},...,{\mu }_{k} $，作为初始的$ k $个质心。对于$ \{{C}_{1},{C}_{2},...,{C}_{k}\} $进行初始化，$ {C}_{\lambda }=\left\{{\mu }_{\lambda }\right\} $，$ \lambda =\mathrm{1,2},...,k $。

步骤2　计算词语权重向量$ v_i\left(i=\mathrm{1,2},...,n\right) $与各质心$ \mu_j\left(j=\mathrm{1,2},...,k\right) $的距离：

$ \begin{array}{*{20}{c}} {dist\left( {{V_i},{U_j}} \right) = \sqrt {\displaystyle \sum\limits_{m = 1}^n {{{\left( {{V_{i,m}} - {U_{j,m}}} \right)}^2}} } }。\end{array}$

(6)

步骤3　计算上述距离中的最小距离，其对应的质心为$ {\mu }_{\lambda } $，将$ {v}_{i} $分配到该质心所在的簇，$ {C}_{\lambda }={v}_{i}\cup {C}_{\lambda } $。

步骤4　对于$ {C}_{j}\left(j=\mathrm{1,2},\dots ,k\right) $，计算向量更新后的质心：

$ {C}_{j}^{{'}}=\frac{1}{\left|\begin{array}{c}{C}_{j}\end{array}\right|}\sum _{{V}_{i}\in {C}_{j}}{V}_{i} 。$

(7)

其中，$ \left|{C}_{j}\right| $为第$ j $个聚类簇中词语权重向量的个数，$ {v}_{i} $的求和是指聚类簇中词语权重向量的各对应元素分别求和。

重复执行步骤2～步骤4，直到向量更新后的簇质心与原簇质心的距离值在预定范围内或达到预定的迭代次数，得到$ \{{C}_{1},{C}_{2},...,{C}_{k}\} $。

7）用户关注信息标签生成

各聚类簇代表的是用户关注的多个领域，由于其包含的词语权重向量的数量多，且向量维度多，需对其分别进行整合降维处理，以得到用户关注的各领域关键词的标签。聚类簇C_i(i=1,2, ··· ,k)内的词语权重向量$ {v}_{1},{v}_{2},...,{v}_{q} $，可表示为：

$ \begin{array}{c}\left\{{V}_{1},{V}_{2},\dots ,{V}_{q}\right\} = \left[\begin{array}{cc}\begin{array}{cc}{\omega }_{\mathrm{1,1}} & {\omega }_{\mathrm{1,2}}\\ {\omega }_{\mathrm{2,1}} & {\omega }_{\mathrm{2,2}}\end{array} & \begin{array}{cc}\dots & {\omega }_{1,m}\\ \dots & {\omega }_{2,m}\end{array}\\ \begin{array}{cc}\dots & \dots \\ {\omega }_{q,1} & {\omega }_{q,2}\end{array} & \begin{array}{cc}\dots & \dots \\ \dots & {\omega }_{q,m}\end{array}\end{array}\right]。\end{array} $

(8)

式中：$ q $为聚类簇$ {C}_{i} $中词语权重向量的数量；$ m $为每个聚类簇$ {C}_{i} $词语权重向量中元素个数；$ \omega $为某词语的权重。

依次对聚类簇$ {C}_{i}(i=\mathrm{1,2},...,k) $执行以下步骤：

步骤1　词语权重向量整合处理。对于各词语权重向量中的元素进行整合计算，最终得到了一个词语权重向量。由于用户对于各网页的关注度$ u{f}_{i} $不同，整合计算要考虑其影响。聚类簇$ {C}_{i} $整合后得到一个词语向量$ {v}_{i} $，计算公式如下：

$ {{V_i} =\left\{ {\dfrac{{\displaystyle\sum _{i = 1}^q\left( {{\omega _{i,1}} \times u{f_i}} \right)}}{q},\dfrac{{\displaystyle\sum _{i = 1}^q\left( {{\omega _{i,2}} \times u{f_i}} \right)}}{q},} \ldots , { \dfrac{{\displaystyle\sum _{i = 1}^q\left( {{\omega _{i,m}} \times u{f_i}} \right)}}{q}} \right\} 。}$

(9)

式中：$ q $为聚类簇$ {C}_{i} $词语权重向量的数量；$ m $为聚类簇$ {C}_{i} $中每个词语权重向量的元素数量。

步骤2　词语权重向量降维处理。将步骤1处理得到的词语权重向量$ {v}_{i} $中的各元素$ \omega $从大到小进行排序，加入对应词语，得到向量$ {V}_{\mathrm{i}}^{'}=\{\left(p{w}_{1},{\omega }_{1}\right), \left(p{w}_{2},{\omega }_{2}\right),\dots , \left(p{w}_{n},{\omega }_{m}\right)\} $, $ p{w}_{k} $为$ {\omega }_{k} $对应的词语，$ k=1,...,m $。取向量$ {v}_{i}^{{'}} $中的前$ r $个元素$ (r < m) $，得到聚类簇$ {C}_{i} $中热度最高的前$ r $个关键词$ pw $和热度值$ \omega $。

步骤3　将步骤2处理得到的前$ r $个关键词$ pw $和热度值$ \omega $作为标签，放置到系统用户画像框架树中网页访问节点下。

3 实　验

本文基于上述算法和模型建立了基于机器学习的军事信息系统用户画像模拟系统。通过收集海军用户使用某军事业务系统和访问军事信息网站1个月的历史数据，进行相应的清洗和处理后作为训练样本数据集，对本文中相关算法模型进行训练和验证。

用户关注网页式(5)中的$ \alpha 、\beta 、\mu $计算，本实验中聚焦用户访问热度最高的50个网页，以用户浏览相关网页时的页面滚动次数、框选文字次数、点击放大图片次数等形成样本数据集，使用最小二乘估计进行参数估计，得到$ \alpha =5.65，\beta = 1.78，\mu =1.22 $。

网页$ p $中某词语$ pw $的权重式(4)中$ \theta $的计算，选取国际时事、国内时事、军事训练、军事教育、人物事迹等5个典型领域相关的200个热度最高的网页，对其标题进行停用词删除、标点符号删除等预处理操作，经分词后分别计算标题中词语$ w{p}_{i} $出现的频率$ {f}_{i}=n/200 $，计算$ {f}_{i} $的平均值$ +1 $，得到$ \theta =1.05 $。

使用本文设计的用户画像算法，得到用户$ \mathrm{A} $的用户画像，如图4所示。

图 4 用户画像示例结果 Fig. 4 Example results for user portraits

4 结　语

基于海军军事信息系统用户软件操作行为数据和海军网页浏览行为数据，运用机器学习技术，建立软件功能分类树和实体对象分类树，进行相似度计算生成业务应用软件操作标签；通过网页关注度计算、词语权重计算和词语权重向量聚类处理，产生网页关注动态信息标签，进而构建海军军事信息系统用户画像。下一步，通过进一步收集更为广泛的数据，对相关模型和参数进一步调优和完善，并提升计算的时效性。

参考文献

[1]	涂子沛. 数据之巅: 大数据革命, 历史, 现实与未来[M]. 北京: 中信出版社, 2019.
[2]	田秀娟. 互联网用户图像资源加密安全保护仿真[J]. 计算机仿真, 2017, 34(11): 439-442. DOI:10.3969/j.issn.1006-9348.2017.11.096
[3]	陈昊, 赵斐. 一种基于用户画像的态势信息精准推荐技术[J]. 火力与指挥控制, 2021, 46(2): 143-149. DOI:10.3969/j.issn.1002-0640.2021.02.025
[4]	刘文军. 基于大数据技术下信息系统指挥控制研究[J]. 电子质量, 2018(10): 8-10. DOI:10.3969/j.issn.1003-0107.2018.10.003
[5]	肖金石, 刘方, 苗壮. 军队信息化建设中的能力生成模式研究[J]. 海军工程大学学报(综合版), 2018, 15(4): 69-73.
[6]	朱特浩. 边缘计算在军事信息系统智能化发展中的应用[J]. 火力与指挥控制, 2021, 46(8): 5-11. DOI:10.3969/j.issn.1002-0640.2021.08.002
[7]	陈奡, 谢俊杰, 赵梅, 等. 基于机器学习的军事装备知识分类方法[J]. 指挥信息系统与技术, 2020, 11(4): 34-39.
[8]	赵宏田. 用户画像: 方法论与工程化解决方案[M]. 北京: 机械工业出版社, 2021.
[9]	俞凯兰, 洪小娟. 基于 Spark框架的智慧实验室系统构建[J]. 软件, 2022, 43(11): 1−3.
[10]	李鸿飞, 魏勇, 赵彦庆, 等. 语义模型支持的战场环境数据集成方法[J]. 测绘科学技术学报, 2019, 36(6): 632-636.
[11]	谢少辉, 段旭磊, 张仰森, 等. 基于用户画像的军事信息推荐方法[J]. 指挥信息系统与技术, 2022, 13(3): 72-77.
[12]	崔春生, 王辉, 李群. 基于用户标签和信任关系的协同过滤推荐算法研究[J]. 系统科学与数学, 2019, 39(3): 437-448.
[13]	张涛. 数据标签在共享数据溯源中的应用研究[J]. 通信技术, 2020, 53(1): 221-224. DOI:10.3969/j.issn.1002-0802.2020.01.037
[14]	姚鹏飞. 数据仓库技术在装备试验信息集成中的应用研究[J]. 信息技术, 2019, 43(1): 146-150.
[15]	张莹. 基于DOM结构聚类的钓鱼网页检测方法研究[D]. 西安: 西安科技大学, 2019.


舰船科学技术 2024, Vol. 46 Issue (24): 143-148 DOI: 10.3404/j.issn.1672-7649.2024.24.024	PDF