广东工业大学学报  2020, Vol. 37Issue (6): 41-49.  DOI: 10.12052/gdutxb.200027.
0

引用本文 

梁观术, 曹江中, 戴青云, 黄云飞. 一种基于注意力机制的无监督商标检索方法[J]. 广东工业大学学报, 2020, 37(6): 41-49. DOI: 10.12052/gdutxb.200027.
Liang Guan-shu, Cao Jiang-zhong, Dai Qing-yun, Huang Yun-fei. An Unsupervised Trademark Retrieval Method Based on Attention Mechanism[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2020, 37(6): 41-49. DOI: 10.12052/gdutxb.200027.

基金项目:

国家自然科学基金资助项目(U1701266);广东省自然科学基金资助项目(2018A030313751);广东省知识产权大数据重点实验室项目(2018B030322016)

作者简介:

梁观术(1993–),男,硕士研究生,主要研究方向为计算机视觉。

通信作者

曹江中(1976–),男,副教授,博士,主要研究方向为计算机视觉、机器学习、知识产权大数据,E-mail: cjz510@gdut.edu.cn

文章历史

收稿日期:2020-02-20
一种基于注意力机制的无监督商标检索方法
梁观术1, 曹江中1, 戴青云1,2, 黄云飞1    
1. 广东工业大学 信息工程学院,广东 广州 510006;
2. 广东技术师范大学 广东省知识产权大数据重点实验室,广东 广州 510665
摘要: 针对现有商标特征提取方法无法有效捕捉重点区域的关键信息和图像标注成本过高的问题, 提出一种基于注意力机制的无监督商标检索方法。该方法基于实例区分算法, 将注意力模块同时运用在神经网络特征映射层的空间维度和通道维度上, 通过对各个通道进行权重的分配以及对空间变换参数的学习, 增强无监督网络的特征表达能力。该方法在公开的商标数据集上进行了验证, 实验表明检索效果优于传统的商标检索方法, 甚至优于一些有监督商标检索方法。
关键词: 注意力机制    实例区分    商标检索    
An Unsupervised Trademark Retrieval Method Based on Attention Mechanism
Liang Guan-shu1, Cao Jiang-zhong1, Dai Qing-yun1,2, Huang Yun-fei1    
1. School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China;
2. Guangdong Key Laboratory of Intellectual Property Big Data, Guangdong Polytechnic Normal University, Guangzhou 510665, China
Abstract: In order to solve the deficiency in capturing key information in key areas and the high cost of image annotation in the existing trademark retrieval methods, this paper proposes an unsupervised trademark retrieval method based on attention mechanism. The method applies the attention module to both the spatial dimension and the channel dimension of the feature map layer in the neural network of instance discrimination. Through assigning weights to each channel and learning the spatial transformation parameters, the unsupervised network improve its ability of extracting feature. We further validate the effectiveness of our method on the public trademark datasets and the experiments demonstrate that the proposed method in the paper is better than the traditional trademark retrieval methods, and even surpasses some supervised trademark retrieval methods.
Key words: attention mechanism    instance discrimination    trademark retrieval    

商标是一种重要的知识产权。随着商品经济的快速发展和知识产权保护意识的增强,无论是商标注册的申请量、商标注册审查量还是有效注册商标量的数目都在不断增加。截至2019年上半年,我国的有效注册商标量已达到2 274万件,近五年来,商标申请量多达2 643万件,而且每年以约500多万件的速度在增长。如何从海量的商标库中快速有效地查找感兴趣的商标是开展商标应用和保护的基础和关键。目前,主要的商标检索系统均采用关键字(文本)检索,但由于商标的主要信息载体是图像,简单的文字难以完整地描述商标图像,并且通过文本描述图像的过程中极易受到主观因素的影响,因此,基于关键字(文本)的商标检索效果并不理想。近年来,随着图像检索技术的发展,基于图像内容的商标检索方式也得到广泛关注。图像内容的特征表达是影响图像检索的关键,早期表达商标图像的特征主要基于颜色直方图(Color Histogram,CH)[1-2]、局部二值模式(Local Binary Patterns,LBP)[3-4]、通用搜索树(Generalized Search Trees,GST)[5],视觉词袋(Bag of Visual Words,BOVW)[6],尺度不变特征变换(Scale Invariant Feature Transform,SIFT)[7],形状上下文(Shape Context,SC)[8]等。随着深度学习技术的发展,基于深度特征的图像检索正在被越来越多的学者研究,并且取得了较传统特征更好的效果[9]。Tursun[10]首次把深度神经网络运用于商标特征提取方法上,实验表明其效果明显优于传统的方法。在文献[10]的基础上,Perez等[11]通过两个神经网络分别学习商标的视觉和语义特征,取得了显著优于单神经网络模型的结果,实验也表明基于神经网络的特征提取效果优于传统的特征提取方法。

然而,目前大部分基于深度神经网络的商标特征提取方法都是使用有监督方法[10-11]。有监督的特征学习方法对数据要求过于严苛,数据必须带有标注,对于大规模的商标数据而言,标注数据是一项非常耗时的任务,甚至是一项无法完成的工作。因此,有监督的特征提取方法并不适合大规模商标检索。最近,Wu等[12]提出了一种无监督特征学习算法−实例区分,它能够自动学习类别间的视觉相似性,而不依赖数据标注信息,该方法已成功应用于无监督特征学习方面[12]。同时,商标图像中包含的内容并不一定具有同等重要性,例如以人脸为主体的商标,通常面部区域会得到更多关注;对于含有复杂背景的商标,则前景的信息更容易被关注。然而,大部分的商标特征提取方法在处理商标图像时,无法有区分性地关注一些重要信息。Bahdanau等[13]曾在机器翻译领域提出注意力机制,引起研究者的大量关注,最近,Woo等[14]以此为基础提出了通道和空间混合的注意力模型−卷积块注意力模型,并通过实验验证了卷积块注意力模型不仅能够增强训练网络的空间特征表达能力,而且能够区别出不同位置的重要性关系。

针对现有商标特征提取方法无法有效捕捉重点区域的关键信息和图像标注成本过高的问题,本文提出一种基于注意力机制的无监督商标图像检索方法。该方法基于实例区分算法,将注意力模块同时运用在神经网络的特征映射层的空间维度和通道维度上,通过对各个通道进行权重的分配以及对空间变换参数的学习,增强了无监督网络的特征表达能力,同时,使用噪声对比估计[15]逼近非参数softmax函数,该方法能够大大降低计算量,提高算法的学习速度[12]。实验表明本文提出的商标检索方法要优于基于传统设计特征的商标检索方法,甚至优于一些基于监督学习的商标检索方法。

本文的主要工作包括:(1) 将实例区分方法运用在商标检索,解决了商标大数据特征学习时商标数据标注难的问题,节省了标注需要的资源和时间;(2) 将注意力机制融入实例区分算法,提高商标特征无监督学习网络的特征表达能力,解决了商标特征无区分性的问题。

1 注意力机制

注意力机制是模仿人类视觉机制的一种机器学习策略。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所见信息的一部分,同时忽略其他可见的信息。2014年,Bahdanau等[13]提出了注意力机制,并成功应用于机器翻译领域,目前注意力机制已经广泛地应用在自然语言处理[16]、推荐系统[17]、语音[18]和计算机视觉[19-20]等领域。按照原理来区分,注意力机制主要分为3种模型:通道注意力模型、空间注意力模型、通道和空间混合的注意力模型。通道注意力模型关注“什么”是有意义的,它通过建模各个特征通道的重要程度,使模型能够针对不同的任务增强或者抑制不同的通道。Hu等[21]基于此观点提出了压缩和激励网络(Squeeze-and-Excitation Networks,SENet),建立了特征通道之间的相互依赖关系,使得网络能够从全局特征中选择更大价值的特征通道并屏蔽无用的通道。不同于无差别地考虑每一个图像区域,空间注意力模型更侧重于相关信息的位置,它通过学习空间变换参数,使输入信息在执行空间变换后依旧保留着关键部分。Laskar等[22]提出了一种针对实例检索任务的空间注意力模型,解决了对关键部分权重分配的问题,让模型注意力更集中于重要部分的内容。Max等[23]提出一个空间变换网络(Spatial Transformer Networks,STN),该网络具有空间不变性,通过对特征映射层进行空间转换,能够把输入图像转换成理想的图像,是一种典型的空间注意力模型。空间和通道混合的注意力模型由Woo等[14]提出,在空间和通道上同时使用了全局池化和最大池化操作提升了注意力模型的效果,实现了注意力模块与卷积神经网络架构的无缝集成。

通道注意力使每个通道拥有不同的权重,但忽略了空间层面的变换;空间注意力解决了信息的空间变换问题,但无法区分各个通道的贡献大小。通道和空间混合的注意力模型不仅增强空间特征的表达能力,而且能够区别出不同位置的重要性关系,告诉网络关注“什么”和关注“哪里”[24],综合了通道注意力模型和空间注意力模型的特点,本文所采用的卷积块注意力模型正是一种最具代表性的通道和空间混合的注意力模型。该注意力模型将通道、空间两个维度的注意力模块以先通道域后空间域的顺序进行组合,再与无监督网络融合,让网络根据损失函数自主地学习特征的权重,聚焦图像的关键特征,解决了传统商标特征提取方法在对图像进行处理时,捕捉重点区域的关键信息能力不足的问题,同时,在不显著增加计算量和参数量的前提下,该网络能够重点关注更有区分能力的特征,提高特征的表达能力。

通道和空间混合的注意力模型如图1所示[14],对于通道注意力模块 ${M_c}$ 而言,给定一个中间特征映射层 ${f'} \in {{R}^{c \times h \times w}}$ 作为输入,其中,c代表每一层的通道数,h代表每个通道的高,w代表每个通道的宽,即通道对应的权重。同时使用平均和最大的并行池化操作,然后经过多层感知器,最后对这两个通道的特征使用sigmoid激活函数,得到通道注意力特征,具体计算公式为

${M_c}({{f}}') = {\rm{\delta }}({\rm{MLP}}({\rm{AvgPool}}({{f}}')) + {\rm{MLP}}({\rm{MaxPool}}({{f}}'))),$ (1)

其中, $\rm{\delta }( \cdot )$ 是sigmoid激活函数,MLP(Multi-Layer Perceptron)代表多层感知器, ${\rm{Avg}}{\rm{Pool}}({{f'}})$ ${\rm{Max}}{\rm{Pool}}({{f'}})$ 代表对特征映射层 ${{{f}}'}$ 进行平均池化和最大池化操作。

图 1 通道和空间混合的注意力模块 Figure 1 Channel and spatial mixed attention module

同理,对于空间注意力模块 ${M_S}$ 而言,给定1个中间特征映射层 ${f''} \in {R^{c \times h \times w}}$ 作为输入,同时使用平均和最大的并行池化进行压缩操作,得到2个特征,并将其按照通道维度拼接在一起,组合成1个二维的特征,最后对二维的特征进行卷积处理,确保最后得到的特征 ${f'''}$ 与原来输入的特征 ${f''}$ 在空间维度是一致的,具体过程见式(2)。

${M_s}({f'}) = {\delta }({{f}^{n \times n}}([{\rm{AvgPool}}({f'});{\rm{MaxPool}}({f'})])),$ (2)

其中, ${{f}^{n \times n}}$ 是卷积核为 $n \times n$ 大小的卷积运算。中间特征映射层 ${f'}$ 分别依次经过通道注意力模块和空间注意力模块的表达式为

${f''} = {M_c}({f'}) \otimes {f'},$ (3)
${f'''} = {M_s}({f''}) \otimes {f''}$ (4)

其中, $ \otimes $ 代表向量元素依次相乘(element-wise multiplication)。

Woo等[14]通过实验表明卷积块注意力模型比单通道注意力模块或者单空间注意力模块体现出更好的捕捉关键特征能力,同时,也验证了通道注意力模块或者空间注意力模块同时使用平均和最大的并行池化比单一平均池化操作丢失信息更少,效果更有优越性。图2显示了卷积块注意力模型的优点[14]图2(a)为ResNet50的热力效果图,图2(b)为加入了注意力模块的ResNet50热力效果图,在热力图中,模型越感兴趣的区域,显示的温度越高,即红色的比重越大,对于不关注的区域,则显示的温度越低,即颜色向浅蓝色靠近,显然,图2(a)只对船桨部分进行了重点关注,图2(b)的网络则关注了物体更多的关键信息,如人物、河水、船只等。鉴于卷积块注意力模型在捕捉关键特征能力上的优势,本文将这种卷积块注意力模型运用于商标特征训练学习中。

图 2 注意力机制效果示意图 Figure 2 Attention mechanism schematic diagram
2 基于注意力机制的商标检索方法

为了解决传统无监督商标特征提取过程中对商标图像关键特征获取能力不足的问题,本文将注意力机制引入到实例区分算法,提出了一种基于注意力机制的无监督商标检索方法。该方法把注意力机制同时运用在神经网络特征映射层的空间维度和通道维度上,使网络学习到更多关键元素,聚焦于更多关键的特征,从而提高神经网络对商标特征的表达能力。此外,该方法不需要标注数据,同时解决了商标检索中的标注难题。实验结果表明,该方法的特征提取效果优于常用的商标特征提取方法,甚至优于一些有监督的特征提取方法。

2.1 实例区分

实例区分是一种无监督特征学习方法。它的学习任务和思想是通过在所有数据下最大化实例本身的后验概率,间接地训练神经网络的特征提取能力。具体地说,实例区分算法将每个图像的实例作为一个独立的类来处理,并训练一个分类器来区分不同的实例类,这种方法不需要任何标签信息,文献[12]在ImageNet的分类结果上通过实验表明了实例区分算法能够自动学习类别间的视觉相似性,而不依赖数据标注信息,该方法在无监督特征学习方面取得了成功应用。

实例区分算法的目标是学习一个无监督的嵌入函数 ${v} = {f_\theta }(x)$ ,其中图片 $x$ 来源于图像数据, ${f_\theta }(x)$ 为神经网络学习的函数,旨在将图片 ${X} = \{ {x_1},{x_2}, \cdots ,{x_n}\}$ 映射成特征 ${V} = \{ {v_1},{v_2}, \cdots ,{v_n}\}$ ,在视觉上将相似的图像映射到靠近的位置。因此,实例区分的重点在于神经网络学习到较好的嵌入函数,将视觉相似的图像映射在接近的地方。

实例区分算法主要流程如图3所示,具体步骤为:

图 3 实例区分方法主要流程图 Figure 3 Main flow chart of Instance discrimination

(1) 选取 $n$ 张图像 ${X} = [{x_1},{x_2}, \cdots ,{x_n}]$

(2) 对无监督网络进行向前计算,提取图像特征 ${V} = {\rm{\{ }}{v_1},{v_2}, \cdots ,{v_n}{\rm{\} }}$ ,并存储为该训练批次的特征;

(3) 在特征内存记忆模块进行负样本采样,得到负样本 $s$

(4) 使用对比噪声估计的方法对实例和负样本进行计算近似损失值;

(5) 根据步骤(4)计算的损失值进行反向传播,更新参数;

(6) 当训练阶段次数n > 120时,停止训练网络,否则返回步骤(2)。

步骤(4)的损失函数是最小化数据和噪声样本的负对数后验分布,具体如式(5)所示。

${J_N}\left( {\theta } \right) = - {E_{{P_{\rm{d}}}}}[\log h(i,{v})] - s{E_{{P_{\rm{k}}}}}[\log (1 - h(i,{v'}))]$ (5)

其中, ${P_{\rm{k}}}$ 是噪声分布,假设噪声分布为均匀分布时, ${P_{\rm{k}}} = {\rm{1/}}K$ ${P_{\rm{d}}}$ 是真实样本的采样分布, $s$ 为采样样本的个数。 $h(i,{v})$ $h(i,{v'})$ 为样本的特征为 ${v}$ 的后验概率以及负样本特征 ${v'}$ 的后验概率,分别由式(6)、(7)计算得到。

$h(i,{v}) = P(D = 1|i,{v}) = \frac{{P(i|{v})}}{{P(i|{v}) + s{P_{\rm{k}}}(i)}},$ (6)
$h(i,{v'}) = P(D = 1|i,{v'}) = \frac{{P(i|{v'})}}{{P(i|{v'}) + s{P_{\rm{k}}}(i)}},$ (7)

式(6)和(7)中的 $P(i|{{v}})$ 表示对于图像 ${x_i}$ 所对应为第 $i$ 种类图像的概率,其具体计算如式(8)所示:

$P(i|{v}) = \frac{{\exp ({{v}^{\rm{T}}}{{v}_i}/\tau ))}}{{{Z_i}}},$ (8)
${Z_i} = \sum\limits_{j = {\rm{1}}}^n {\exp ({{v}_j^{\rm{T}}}{{v}_i}/\tau } ),$ (9)
${Z_i} \cong k{E_j}[{\rm{exp}}({{v}_j}^{\rm{T}}{{v}_i}/\tau )] = \frac{k}{s}\sum\limits_{g = {\rm{1}}}^s {{\rm{exp}}({v}_{jg}^{\rm{T}}{{v}_i}/\tau )} )$ (10)

其中, ${{v}_i}$ 表示商标图片 ${x_i}$ 经过实例区分算法后的特征值, ${{v}_j}$ 是代表负样本的特征,来源于商标特征内存记忆模块, ${Z_i}$ 是归一化常数,可采用蒙洛卡罗方法进行估计, $\tau $ 是温度参数,它的作用在于使得softmax函数在归一化后仍能处于合理的取值范围内,同时也是训练过程有效优化不可缺少的参数[25]

实例区分算法还面临一个巨大的挑战,即类别数量就是整个数据集的大小,对于本文实验商标数据集而言,类别数量高达90多万,显然,简单地将无参数分类器扩展更多类是不可取的。为了解决这个挑战,Wu[12] 通过使用对比噪声估计模块[15]来近似计算在softmax分类器下的交叉熵损失大小,并采用近端正则化方法来达到一个稳定的训练过程[26],避免了在计算损失时,对商标数据库的全体数据进行遍历。同时,实例区分算法在噪声对比估计框架下,通过采样恒定的负样本的数量,避免了在大数据环境下计算量的爆炸性增长,实现了针对大规模数据集的快速检索功能,而其他的非监督方法难以解决大数据背景下的计算量问题,并且无法保证检索的精度。噪声对比估计在不降低表现的情况下将计算复杂度从O(n)降低到O(1),使实例区分算法能够应用在大型商标的数据集上。

2.2 基于注意力机制的无监督商标检索方法

实例区分方法可以实现商标图像特征的无监督学习,在不需要任何标签信息的情况下,可学习得到图像显著的视觉相似性。然而实例区分方法无法有效地捕捉重点区域的关键信息,针对这个问题,本文提出了一种基于注意力机制的无监督商标检索方法。该方法在实例区分算法的基础上,引入基于卷积块的注意力模块,通过对各个通道进行加权处理以及对空间变换参数的学习,增强了无监督网络的特征表达能力,同时解决了商标图像关键信息获取和图像标注问题。该方法的流程如图4所示,整个方法包含3个关键模块,分别为注意力模块、无监督网络的训练模块和商标检索模块。注意力模块主要用于提高网络对输入图像关键信息的捕捉能力。以第1层卷积块和第2层卷积块为例,如图1所示。商标图像 $x$ 经过第1层卷积块 ${\rm{con}}{{\rm{v}}_{\rm{1}}}$ 生成商标特征 ${{f}_1}$ ,作为注意力模块 ${A_{\rm{1}}}$ 的输入,在注意力模块 ${A_{\rm{1}}}$ 中, ${{f}_1}$ 先经过一层卷积层 ${\rm{conv}}$ 生成新的特征 ${{f}_1}'$ ,特征 ${{f}_1}'$ 然后依次经过空间注意力模块 ${M_c}$ 和通道注意力模块 ${M_s}$ ,根据式(1) ~ 式(4)生成特征 ${{f'''}_1}$ ${{f'''}_1}$ 加上原来特征 ${{f}_1}$ 得到注意力模块 ${A_{\rm{1}}}$ 的特征 ${{F}_1}$ ,最后传输到下一层卷积块 ${\rm{con}}{{\rm{v}}_{\rm{2}}}$ 。无监督网络的训练模块的主要目的是训练商标特征提取器,用于提取商标特征。该模块使用ResNet50[27]作为无监督网络,并使用噪声对比估计替代非参数分类器。如图4所示, ${\rm{con}}{{\rm{v}}_{\rm{1}}} \sim{{\rm{conv}}_{\rm{4}}}$ 表示残差网络的第1层卷积块至第4层卷积块, ${A_{\rm{1}}} \sim {A_{\rm{3}}}$ 表示第1层注意力模块至第3层注意力模块,其中注意力模块中 ${\rm{conv}}$ 表示卷积层。训练网络时,首先,利用商标数据库 $M$ 来训练带有注意力模块的ResNet50,通过反向传播算法不断优化权重来提高正例样本的概率,最后通过更新式(6)和式(7)来最小化式(5)的目标函数 ${J_N}({\theta })$ 。商标检索模块主要是计算商标图像的相似性并排序输出检索结果。首先,将商标数据集 $M$ 经过已训练好的商标特征提取器ResNet50进行特征提取,形成商标特征库,同样地,利用训练好的ResNet50网络提取检索图像的特征,最后将待检索商标的特征与商标特征库进行距离计算,并根据距离从小到大对商标库的商标图像进行排序,排序商标图像即为检索结果。提出方法的商标检索流程如算法1所示。

图 4 基于注意力机制的商标检索框架图 Figure 4 Framework of trademark retrieval method based on attention mechanism

算法1基于注意力机制的无监督商标检索方法

输入:检索图片 $I$

输出: 商标数据库中与 $I$ 相似的图像序列 $R$

Step1:训练基于注意力的特征提取网络

for i = 1 to 120 do

(1) 从商标数据集 $M$ 中选取商标图像 ${X} = [{x_1},{x_2}, \cdots ,{x_n}]$ ,形成训练批次;

(2) 商标图像 ${X}$ 经过ResNet50的卷积块 ${\rm{con}}{{\rm{v}}_i}$ 得到特征 ${{f}_i}$ ,根据式(1) ~ 式(4)计算得到特征 ${{f'''}_i}$

(3) 由 ${{f}_i}$ ${{f'''}_i}$ 组成注意力模块特征 ${{F}_i}$

(4) 不断迭代更新商标特征 ${V}$ 对ResNet50网络进行前向传播,由式(5)计算更新损失值 ${J_N}({\theta })$ .

end for

Step2: 特征提取与检索

(1)利用Step1训练好的ResNet50网络提取商标数据集 $M$ 的特征,形成商标特征库 ${F'} = \{ {{F'}_1},{{F'}_n}, \cdots ,{{F'}_n}\}$ ,其中 ${F'} \in {{\rm{R}}^{n \times {\rm{128}}}}$ ,利用ResNet50网络提取检索图像 ${\rm{I}}$ 的特征 ${F''}$ ,其中 ${F''} \in {R^{{\rm{1}} \times {\rm{128}}}}$ ;

(2)计算检索图像特征 ${F''}$ 与商标特征库 ${F'}$ 的距离,并按照距离从小到大将 $M$ 中的图像进行排序得到输出结果 $R$ .

3 实验结果及分析

为了验证本文提出方法的有效性,本文在目前最大的公开商标数据集——METU商标数据集进行对比实验[10]

3.1 数据集

METU商标数据集包含923 343张商标图像,其中包含1个含有417张商标图像的测试集,该测试集分为35组,每组包含10~15张商标。在本文实验中,商标的训练集和测试集均缩小至 $32 \times 32$ 。为了比较的公平性,本文采用与文献[10]相同的方式,用417张商标测试集来对比检索效果。

3.2 评测指标

本文使用归一化平均排名(Normalized Average Rank,NAR)[10]作为评测指标。该指标是一种衡量检索效果优劣的常用指标,其计算公式为

${\rm{NAR}} = \frac{{\rm{1}}}{{N{N_{{\rm{rel}}}}}}\left(\sum\limits_{i = 1}^{{N_{{\rm{rel}}}}} {{R_i} - \frac{{{N_{{\rm{rel}}}}({N_{{\rm{rel}}}} + {\rm{1}})}}{{\rm{2}}}} \right)$ (11)

其中, $N$ 是整个数据集的大小, ${N_{{\rm{rel}}}}$ 是与待检索图像相关的图像数量, ${R_i}$ 是与待检索图像相关的图像在结果中的排名。NAR的均值越小,检索的效果越好,标准差的值越低,算法的性能越稳定。

3.3 网络参数设置

本文使用实例区分作为无监督特征学习的算法,选取网络层数相对适中的ResNet50作为无监督学习网络[27],ResNet引入残差结构,解决了深层网络梯度消失的问题,便于研究注意力机制与不同深度的残差网络结合的检索效果。在实验中,为了与文献[10]形成公平的对比,实验参数保持与文献[10]相同,学习率 $\alpha $ 为0.003,从80个阶段(epoch)开始,每40个阶段衰减原来的0.1倍,式(8)中的温度参数 $\tau $ 设置为0.07,式(5)中的负样本 $s$ 为4 096,特征的维度为128,训练集批次为256,测试集批次为100。此外,算法1中的训练阶段为120,训练至该阶段的算法趋于收敛,满足对检索的需求。

3.4 实验结果对比及分析

为了验证提出方法的有效性,本文将提出的检索方法与目前常用的几种商标检索方法进行了对比实验,同时也研究了注意力机制对特征提取网络的影响。在对比实验中,加入注意力模块的实例区分方法为本文的方法,未加入注意力模块的实例区分方法记为ResNet50(RS)。

(1) 与基于传统特征提取的检索方法对比。与文献[10]类似,本文选取了颜色直方图(CH)[28]、局部二值模式(LBP)[4],通用搜索树(GIST)[29]、形状上下文(SC)[30]、尺度不变特征变换(SIFT)[7]、快速鲁棒特征(Speeded Up Robust Features,SURF)[31]、梯度方向直方图(Histogram of Oriented Gradient,HOG)[32],方向限制尺度不变特征变换(Orientation-Restricted SIFT,OR-SIFT)等常用的特征进行对比检索[33]。这些方法在METU商标数据集上的测试结果来源于文献[10],为了公平起见,本文方法所使用的验证数据集和评测指标与文献[10]保持一致。实验结果如表1所示。表1中NAR均值和标准差是通过35组实验中的NAR计算得来。由表1可以看出,本文所提出的方法对比传统的特征设计方法体现出更好的优越性,NAR均值为0.101,因为传统的特征提取方法缺少了对商标图像特性的考虑,对所有图像提取方法均一致,没有分配关键特征权重,而本文的方法在实例区分算法的基础上,引入注意力模块,能有效地捕捉商标图像中重点区域的关键信息,检索效果明显提升。

表 1 与无监督商标检索方法对比结果 Table 1 Comparison with unsupervised trademark retrieval methods

(2) 与基于深度特征的商标检索方法对比。实验选取文献[10]和文献[34]中的有监督特征提取方法进行对比实验,其中包括在ImagNet上的预训练模型AlexNet[35]、GoogLeNet[36]、VggNet16[37]和ResNet[27]等主流的深度神经网络。此外,还选取文献[38]中VggNet16(Conv5)和ResNet50(Pool4)的有监督特征提取方法,该方法将NPU商标数据集作为训练集,通过对图像变换整体的学习,来增强网络的特征不变性。实验中,AlexNet(FC7)表示使用AlexNet的FC7进行提取特征,其他网络同理。对比实验结果如表2所示。从表2中可以看出,尽管本文的方法稍逊色于VggNet16(Pool5)、VggNet16(FC7)和ResNet50(Pool5)等有监督检索方法,但是本文的方法优于AlexNet(FC7)、GoogLeNet(77S1)、VggNet16(FC8)、ResNet50(FC1000)等有监督方法,并且优于未加入注意力模块的实例区分方法ResNet50(RS)。对比于AlexNet和GoogLeNet[37],表明VggNet具有更广泛的感受野,捕获了更多的上下文信息,因此VggNet的检索效果比AlexNet和GoogLeNet更优,此外。本文的方法与残差网络(ResNet)的另外几种有监督方法对比,实验结果表明了使用同样的残差网络,本文无监督方法效果优于大部分的有监督方法。众所周知,无监督方法在前期工作中节省了大量人力和时间,不用标注即可训练网络。有监督方法对数据要求太苛刻,需要标注信息,对于具有庞大数据量的商标数据集来说,人工标注数据是一件困难的事,甚至可能是一项几乎无法完成的工作。因此,综合标注成本和检索效果来看,本文提出的方法整体上仍具有明显优势。

表 2 与有监督商标检索方法对比结果 Table 2 Comparison with supervised trademark retrieval methods

(3) 注意力机制对残差网络的影响。为了研究注意力机制的有效性,本文使用了ResNet18、ResNet34和ResNet50 3种不同深度的残差网络进行实验,如图5所示。商标图像的分辨率为 ${\rm{32}} \times {\rm{32}}$ ,从ResNet18至ResNet50,随着残差网络的加深,NAR值逐渐降低,与之相比,当残差网络融合注意力机制模块后,随着网络深度的增加,NAR值降低的更加显著。说明了随着网络深度增大,注意力机制对提升残差网络的特征表达能力更加明显。

图 5 注意力机制对残差网络的影响 Figure 5 Impact of attention mechanism on ResNet

此外,为了具体证实注意力机制对商标检索的提升效果,本文也给出了4个待检索样本在METU商标数据集上检索到的前10个结果。如图6所示,每一行的第1张商标均为检索图像,第2张至第11张为商标检索排序结果,其中,第1、3、5、7行表示无注意力机制的无监督ResNet50模型的检索结果,第2、4、6、8行表示有注意力机制的无监督ResNet50模型的检索结果,其中红色框标识的商标图像是在无注意力机制时没有出现在前10个检索结果中。通过图6可以直观地看到,注意力机制能够有效地提升商标的检索结果。

图 6 部分样本的商标检索结果 Figure 6 Retrieval results of some trademark samples
4 结论

本文将注意力机制引入到实例区分算法,实现了利用深度神经网络进行商标特征无监督学习,提出了一种基于注意力机制的无监督商标检索方法,试图解决海量商标检索中当前存在的数据标注成本大和商标重点区域特征信息难提取的问题。该方法通过对各个通道进行权重的分配以及对空间变换参数的学习,增强了网络的特征表达能力。在公开的商标数据集上的对比实验表明本文的方法优于传统的商标检索方法,甚至超越一些有监督学习的商标检索方法,验证了提出方法的有效性。未来,我们将会考虑通过少量标注信息提升商标检索效果,研究注意力机制与弱监督学习结合的商标检索方法。

参考文献
[1]
PHAN R, ANDROUTSOS D. Content-based retrieval of logo and trademarks in unconstrained color image databases using color edge gradient co-occurrence histograms[J]. Computer Vision and Image Understanding, 2010, 114(1): 66-84. DOI: 10.1016/j.cviu.2009.07.004.
[2]
LAM C, WU J, MEHTRE B. STAR−A system for trademark archival and retrieval[J]. World Patent Information, 1996, 4(18): 249-249.
[3]
OJALA T, PIETIKÄINEN M, MÄENPÄÄ T. A generalized local binary pattern operator for multiresolution gray scale and rotation invariant texture classification[C]//Proceedings of the International Conference on Advances in Pattern Recognition. Brazil: Springer, 2001: 399-408.
[4]
OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987. DOI: 10.1109/TPAMI.2002.1017623.
[5]
OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175. DOI: 10.1023/A:1011139631724.
[6]
SIVIC J, ZISSERMAN A. Video Google: A text retrieval approach to object matching in videos[C]// Ninth IEEE International Conference on Computer Vision. France: IEEE, 2003: 1470-1477.
[7]
LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI: 10.1023/B:VISI.0000029664.99615.94.
[8]
HER I, MOSTAFA K, HUNG H K. A hybrid trademark retrieval system using four-gray-level zernike moments and image compactness indices[J]. International Journal of Image Processing (IJIP), 2011, 4(6): 631-646.
[9]
张皓, 吴建鑫. 基于深度特征的无监督图像检索研究综述[J]. 计算机研究与发展, 2018, 55(9): 1829-1842.
ZHANG H, WU J X. A survey on unsupervised image retrieval using deep features[J]. Journal of Computer Research and Development, 2018, 55(9): 1829-1842.
[10]
TURSUN O, AKER C, KALKAN S. A large-scale dataset and benchmark for similar trademark retrieval[J]. arXiv preprint arXiv: 170105766, 2017.
[11]
PEREZ C A, ESTÉVEZ P A, GALDAMES F J, et al. Trademark image retrieval using a combination of deep convolutional neural networks[C]// Proceedings of the 2018 International Joint Conference on Neural Networks (IJCNN). Rio de Janeiro: IEEE, 2018: 1-7.
[12]
WU Z, XIONG Y, YU S X, et al. Unsupervised feature learning via non-parametric instance discrimination[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 3733-3742.
[13]
BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv: 14090473, 2014.
[14]
WOO S, PARK J, LEE J-Y, et al. Cbam: convolutional block attention module[C]// Proceedings of the Proceedings of the European Conference on Computer Vision. Munich: ECCV, 2018: 13-19.
[15]
[16]
YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]// Proceedings of the Association for Computational Linguistics. North American: human language technologies, 2016: 1480-1489.
[17]
ZHOU G, ZHU X, SONG C, et al. Deep interest network for click-through rate prediction[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London: ACM, 2018: 1059-1068.
[18]
KIM S, HORI T, WATANABE S. Joint CTC-attention based end-to-end speech recognition using multi-task learning[C]// Proceedings of the 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New Orleans, LA: IEEE, 2017: 4835-4839.
[19]
[20]
FU J, ZHENG H, MEI T. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C]// IEEE Conference on Computer Vision & Pattern Recognition. Honolulu, HI: IEEE, 2017: 4438-4446.
[21]
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.
[22]
LASKAR Z, KANNALA J. Context aware query image representation for particular object retrieval[C]//Proceedings of the Scandinavian Conference on Image Analysis. Scandinavian: Springer, 2017: 88-99.
[23]
JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial transformer networks[C]// Proceedings of the Advances in Neural Information Processing Systems. Lake tahoe Nevada: NIPS, 2015: 2017-2025.
[24]
CHEN L, ZHANG H, XIAO J, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 5659-5667.
[25]
WANG F, XIANG X, CHENG J, et al. Normface: L2 hypersphere embedding for face verification[C]// Proceedings of International Conference on Multimedia. Multimedia: ACM, 2017: 1041-1049.
[26]
PARIKH N, BOYD S. Proximal algorithms[J]. Foundations and Trends® in Optimization, 2014, 1(3): 127-239. DOI: 10.1561/2400000003.
[27]
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2016: 770-778.
[28]
LEI Z, FUZONG L, BO Z. A CBIR method based on color-spatial feature[C]//Proceedings of IEEE Region 10 Conference. Cheju Island: IEEE, 1999: 166-169.
[29]
DOUZE M, JÉGOU H, SANDHAWALIA H, et al. Evaluation of gist descriptors for web-scale image search[C]// Proceedings of the ACM International Conference on Image and Video. Retrieval. Santorini Island: ACM, 2009: 1-8.
[30]
RUSIÑOL M, LLADÓS J. Efficient logo retrieval through hashing shape context descriptors[C]//Proceedings of the 9th IAPR International Workshop on Document Analysis Systems. Boston: ACM, 2010: 215-222.
[31]
BAY H, ESS A, TUYTELAARS T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359. DOI: 10.1016/j.cviu.2007.09.014.
[32]
DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//proceedings of Conference on Computer Vision and Pattern Recognition. California: IEEE, 2005: 886-893.
[33]
VURAL M F, YARDIMCI Y, TEMIZEI A. Registration of multispectral satellite images with orientation-restricted SIFT[C]//Proceedings of IEEE International Geoscience and Remote Sensing Symposium. Cape Town: IEEE, 2009: 243-246.
[34]
AKER C, TURSUN O, KALKAN S. Analyzing deep features for trademark retrieval[C]//Signal Processing and Communications Applications Conference. Antalya: IEEE, 2017: 1-4.
[35]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]// Proceedings of the Advances in neural information processing systems. Curran Associates Inc: NIPS, 2012: 1097-1105.
[36]
SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 1-9.
[37]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv Preprint arXiv: 14091556, 2014.
[38]
TURSUN O, DENMAN S, SRIDHARAN S, et al. Enhancing feature invariance with learned image transformations for image retrieval[J]. arXiv Preprint arXiv: 200201642, 2020.