2. 清华大学 计算机科学与技术系,北京 100084;
3. 清华大学 智能技术系统国家重点实验室,北京 100084
2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China;
3. State Key Laboratory of Intelligent Technology and System, Tsinghua University, Beijing 100084, China
现实世界是由不同类别的材质组成的,人类在与外界的交互中,不断评价不同材质表现出来的特性。比如可以通过材质识别确定物体能否在微波炉中安全加热,识别物体材质属性有助于人类感知细粒度的世界,然而对机器人来说却极具挑战性[1]。为了让机器人像人类一样可以观察、抚摸和揉捏来感受物体的材质属性,研究者为其配备了各种各样的传感器。但是单一的视觉、触觉或者听觉信息在材质特征的表达上具有局限性,比如仅通过视觉,观察不到物体的硬度和表面粗糙度。多模态数据融合充分利用多种传感器提供的信息,实现不同模态数据优势互补,提高了人机交互的多样性、鲁棒性和有效性[2],多模态特征融合被广泛应用在情感分析[3]、视频检索[4]、触觉物体分类[5]等领域。近年来,国内外很多学者采用多模态融合的方法全面地分析和利用不同模态提供的特性完成材质识别任务。文献[6]建立了一种用于弱配对多模态数据融合的投影字典学习框架,在包含视觉和触觉信息的53个家用物品上证明了算法的有效性。除了视觉和触觉融合的情况,使用振动频率和热特征两种触觉模态的数据融合也可以提高材质识别的准确率[7]。文献[8]使用深度全卷积网络对图像数据与加速度数据进行了融合。文献[9]提出了一种半监督的材料识别方法,使机器人能在与家庭常见物体的交互中学习未标记的力、温度和振动声音3种模态的触觉数据。
然而,上述研究大多基于深度学习算法,考虑到深度学习训练时间长,容易得到局部最优解,难以收敛,并且在小样本数据的情况下无法发挥其优势。另一方面,宽度学习[10](broad learning, BRL)因其结构简单、训练速度快,泛化性能好等优点为深度学习提供了可替代的方案而引起学术界的广泛关注。众多学者针对具体问题的应用背景对宽度学习进行了改进[11-17],并将其应用在图像识别[18]、分类和回归[19]以及数据建模[20]等领域。然而由于其单层前馈神经网络的设计以采用线性映射形成特征节点,很难捕捉到相关的高级抽象特征来完成多种模态数据的材质识别任务。因此,本文基于级联宽度学习提出一种多模态材质识别算法来解决小样本数据集的材质识别问题。首先网络的输入是串联成一个向量的同构数据,然后通过级联宽度学习算法提取融合特征,最终得到分类输出,该算法在佐治亚理工学院的光谱数据集上进行验证。实验结果表明,在数据量较少的情况下,相比于深度学习,本文算法付出了较少的时间代价并且提高了识别精度,说明了级联宽度学习方法的快速性和有效性。
1 相关工作 1.1 机器人多模态融合传感器技术的不断发展推动了多模态传感器在机器人领域的广泛应用。多模态数据的融合是将多个传感器的单模态集成到一个紧凑的多模态表示中的过程[21],从而提供比单一模态更有价值的信息。因此,开发能够集成来自多个传感器信息的方法以提高机器人感知的性能是人们非常期待的[23]。如何有效融合多模态信息以提高感知能力的问题对研究者来说具有很大的吸引力和挑战性。文献[24]提出了一种视触觉交叉模态检索框架,将触觉信息与材料表面的视觉信息相关联,用于机器人的感知估计。文献[25]基于宽度学习方法提出了一个能够学习和融合两种模态特征的框架用于机器人抓取实验。
然而,在实际应用中,多模态数据存在异构性,不同模态数据具有相关性和模糊性,预处理数据也具有复杂性[26],这些都是制约多模态学习的因素。
1.2 宽度学习由陈俊龙教授于2017年提出的宽度学习系统是基于随机向量函数链神经网络(random vector functional link neural network, RVFLNN)的思想设计的,他为深度学习提供了一个替代的方案。如图1所示,整个网络由4部分组成:输入、特征节点、增强节点和输出。
Download:
|
|
BRL的基本结构和计算步骤如下,给定输入数据为:
${{{F}}_i} = g({{X}} \cdot {{{W}}_{fi}} + {{{\beta }}_{fi}}),i = 1,2, \cdots ,M$ | (1) |
式中:
${{{E}}_j} = \varphi ({{{F}}^M} \cdot {{{W}}_{ej}} + {{{\beta }}_{ej}}),j = 1,2, \cdots ,m$ | (2) |
其中,
$\begin{array}{*{20}{c}} {{{Y}} = [{{{F}}_1},{{{F}}_2}, \cdots ,{{{F}}_M}|{{{E}}_1},{{{E}}_2}, \cdots ,{{{E}}_m}]{{{W}}^M} = }\\ {[{{{F}}^M}|{{{E}}^m}]{{{W}}^M} = }{[{{A}}_m^M]{{{W}}^M}} \end{array}$ | (3) |
其中,
${[{{A}}_m^M]^{\rm{ + }}}{\rm{ = }}\mathop {\lim }\limits_{\lambda \to 0} {(\lambda {{I}} + {{A}}_m^M \cdot {[{{A}}_m^M]^T})^{ - 1}}{[{{A}}_m^M]^{\rm{T}}}$ | (4) |
如果测试精度不符合要求或输入新的数据,则需要使用增量学习算法扩展网络而无需再训练。
1.3 级联特征节点的宽度学习宽度学习是一种灵活的模型,可以在多种约束条件下进行改进。级联特征映射的宽度学习(cascade of feature mapping nodes of BRL, CFBRL)是一种改变特征节点连接方式的一种改进结构,如图2所示。将前一组特征节点的输出作为后一组特征节点的输入,以此类推。生成的
$\begin{array}{c} {{{F}}_2} = g({{{F}}_1} \cdot {{{W}}_{f_2}} + {{{\beta }}_{f_2}}) = \\ g(g({{X}} \cdot {{{W}}_{f_1}} + {{{\beta }}_{f_1}}){{{W}}_{f_2}} + {{{\beta }}_{f_2}}) = \\ {g^2}\left( {{{X}};{{\{ {{{W}}_{f_i}},{{{\beta }}_{f_i}}\} }_{i = 1,2}}} \right) \\ \end{array} $ | (5) |
Download:
|
|
按照这个规律,可以得到第
$\begin{array}{c} {{{F}}_n} = g({{{F}}_{n - 1}} \cdot {{{W}}_{fn}} + {{{\beta }}_{fn}}){\rm{ = }} \\ {g^n}\left( {{{X}};\{ {{{W}}_{fi}},{{{\beta }}_{fi}}\} _{i = 1}^M} \right),\;\;\;\;n = 1,2, \cdots ,M \end{array} $ | (6) |
得到映射特征后,生成增强节点和计算输出矩阵的步骤同BRL。
2 数据处理及特征提取方法 2.1 数据获取及预处理实验所用的数据来自商用手持微型光谱仪,它们都可以由机器人的末端执行器控制或连接。光谱仪Lumini ONE有4个光源,波长测量范围是
在这些实验中,两个传感器都与一个位于旋转平台上的目标接触,获得理想的光谱测量,以表征最佳的材料识别性能。在数据采集的过程中,Lumini的曝光时间是0.5 s,可以在信号强度和噪声之间做出合理的权衡。与Lumini不同的是,Scio的曝光时间是不可获取的,但根据经验,可以发现它的曝光时间约为1 s。Scio测量的维度为331(
根据采集数据所用传感器类型的差异,多模态数据通常可以分为同构数据和异构数据。不同类型的数据,往往有不同的融合模型[21]。若多个模态数据具有类似的数学统计规律,称之为同构数据。文中用到的两组数据都是光谱数据,属于同构数据。因此,学习低层次的相关性可以得到更加鲁棒的特征[22]。本文将串联的多模态数据作为级联宽度学习网络的输入,然后通过宽度网络提取融合特征,最终得到材质类别。
3 实验结果与分析为了验证本文提出的基于级联宽度学习的多模态材质识别算法的有效性,在佐治亚理工学院的材质光谱数据集[18]上展开了实验对比。该数据集的收集工作揭示了一种利用光谱学来估计物体材料的机器人技术。光谱学的研究包括测量电磁辐射和物质之间的相互作用。通俗地说,这是一个测量物体反射回来的光强度的过程,它是光波长的函数。光谱仪(或光谱学传感器)为机器人的材料识别提供了几个好处,包括具有快速的传感能力和精确且可重复的测量。此外,与许多触觉传感器不同,光谱仪不需要与物体进行直接的物理接触,这使得机器人在物体接触之前就得出该物体的材质属性。
3.1 实验数据该数据集包含2个子数据集,都是日常生活用品的光谱测量数据,数据采集样本如图3所示。
Download:
|
|
这些物体涵盖了金属、塑料、木材、纸和布料5种类别,每个光谱仪采集来自5种类别的50个物体信号,每个物体测量100次,2个传感器共计测量10 000个光谱数据。数据集样本如图3所示。实验采用5倍交叉验证的方式,即每个子数据集的训练数据均为4 000个测量值,每种材质800个,剩下的1 000个测量值为测试数据。为了验证本文提出的算法在小样本数据集上的性能,实验的训练数据量仅为200个,并且评估了随着训练样本从每个物体1~4个测量值依次增加,模型的分类性能如何变化。
3.2 实验结果为了检验宽度学习算法在材质识别任务上的性能,主要是验证宽度学习算法在该任务中能否作为深度学习的替代方法完成识别任务,因此本文与文献[21]算法做了对比。具体而言,主要在识别率、训练和测试时间以及参数敏感性等方面做了评估,材质识别实验流程如图4所示。
Download:
|
|
对比实验中增加了一种基于宽度学习的改进算法:宽度学习中级联特征节点与增强节点之间的有限连接(broad learning: the limited connection between the groups of cascaded feature nodes and the enhancement nodes, LCFBRL) 具体结构为特征节点级联,最后一组特征节点用来生成增强节点。对于3种宽度学习算法,为了提高实验的可比性,实验设置了相同的参数:每个窗口的特征节点数为9,特征节点窗口数为6,增强节点1 000,收敛因子0.7,正则化因子1,从表1可以看出,在使用多模态样本进行实验时,在每个物体只有一个训练样本的情况下,深度学习和宽度学习分别达到了92.20%和98.64%的识别精度,可以看出宽度学习具有良好的泛化能力。随着训练样本的增加,识别精度均有所提高,这说明在实际应用中,如果机器人无法获得大量的光谱学习样本,在小样本的情况下可以选择宽度学习来完成材质识别任务。另一方面,对比5次交叉验证的运行时间,从表2可以看到,宽度学习随训练样本增加运行时间总共是14 s左右,仅仅是深度学习的1/25,宽度学习不仅避免了深度结构耗时的训练过程,还能较好地完成材质识别任务。这足以说明了宽度学习方法的快速性和有效性。
从图5可以看到,在训练样本为50时,4种算法在单模态和多模态数据上的分类精度。整体来看,不管是宽度学习还是深度学习算法,多模态数据结果好于单一模态的分类结果,这证明了多模态融合方法在材质识别领域的有效性。
Download:
|
|
为了比较不同参数对CFBRL模型性能的影响,对参数正则化因子C,收敛因子S,特征节点
Download:
|
|
将C(1)和S(0.7)固定,分别在{100,200,300,400,500,600}和{500,600,700,800,900,1 000}范围内对特征节点和增强节点进行参数调节,分类结果如图7所示。随特征节点数量的增加,分类精度大致呈正态分布,而分类精度跟增强节点数量是正相关的,在
Download:
|
|
最后,从图8中可以看到本文的算法分别在纸、塑料、布料、木材和金属5种材质上的分类性能。布料容易错分成塑料。原因是Scion光谱仪采集到的信号非常相似。这一点可以在图4中得到印证。在实际应用中,可以增加经常混淆的材质的样本数量,来提高识别率。
Download:
|
|
为了使机器人更好地完成材质识别任务,本文采用多模态融合的方法提出了基于级联宽度学习的材质识别算法来提高机器人的感知性能。受外界因素限制,当传感器不能获取足够的数据供机器人训练学习时,本文提出的算法可以取代深度学习,以较少的时间代价获得高识别率,实验结果验证了该框架在多模态平面材料识别中的有效性,为材料表面的触觉感知提供了一种有效的工具,由于其快速性和有效性,该算法可在机器人材质识别领域广泛应用。
[1] | BELL S, UPCHERCH P, SNAVELY N, et al. Material recognition in the wild with the materials in context database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Massachusetts, Boston, 2015: 3479−3487. (0) |
[2] |
齐静, 徐坤, 丁希仑. 机器人视觉手势交互技术研究进展[J]. 机器人, 2017, 39(4): 565-584. QI Jing, XU Kun, DING Xilun. Vision-based hand gesture recognition for human-robot interaction: a review[J]. Robot, 2017, 39(4): 565-584. (0) |
[3] |
吴钟强, 张耀文, 商琳. 基于语义特征的多视图情感分类方法[J]. 智能系统学报, 2017, 12(5): 167-173. WU Zhongqiang, ZHANG Yaowen, SHANG Lin. Multi-view sentiment classification of microblogs based on semantic features[J]. CAAI transactions on intelligent systems, 2017, 12(5): 167-173. DOI:10.11992/tis.201706026 (0) |
[4] |
温有福, 贾彩燕, 陈智能. 一种多模态融合的网络视频相关性度量方法[J]. 智能系统学报, 2016, 11(3): 359-365. WEN Youfu, JIA Caiyan, CHEN Zhineng. A multi-modal fusion approach for measuring web video relatedness[J]. CAAI transactions on intelligent systems, 2016, 11(3): 359-365. DOI:10.11992/tis.201603040 (0) |
[5] |
马蕊, 刘华平, 孙富春, 等. 基于触觉序列的物体分类[J]. 智能系统学报, 2015, 10(3): 362-368. MA Rui, LIU Huaping, SUN Fuchun, et al. Object classification based on the tactile sequence[J]. CAAI transactions on intelligent systems, 2015, 10(3): 362-368. DOI:10.3969/j.issn.1673-4785.201408026 (0) |
[6] | LIU H, WU Y, SUN F, et al. Weakly paired multimodal fusion for object recognition[J]. IEEE transactions on automation science and engineering, 2017, 15(2): 784-795. (0) |
[7] | EGUÍLUZ A G, RAÑÓ I, Coleman S A, et al. A multi-modal approach to continuous material identification through tactile sensing[C]//2016 IEEE/RSJ International Conference on Intelligent Robots and Systems. Daejeon, Korea, 2016: 4912−4917. (0) |
[8] | ZHENG H, FANG L, JI M, et al. Deep learning for surface material classification using haptic and visual information[J]. IEEE transactions on multimedia, 2016, 18(12): 2407-2416. DOI:10.1109/TMM.2016.2598140 (0) |
[9] | ERICKSON Z, CHERNOVA S, KEMP C. Semi-supervised haptic material recognition for robots using generative adversarial networks[J]. arXiv: 1707.02796, 2017. (0) |
[10] | CHEN C L P, LIU Z. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE transactions on neural networks and learning systems, 2017, 29(1): 10-24. (0) |
[11] | LIU Z, ZHOU J, CHEN C L P. Broad learning system: Feature extraction based on K-means clustering algorithm[C]//2017 4th International Conference on Information, Cybernetics and Computational Social Systems. London, UK, 2017: 683−687. (0) |
[12] | LIU Z, CHEN C L P. Broad learning system: Structural extensions on single-layer and multi-layer neural networks[C]//2017 International Conference on Security, Pattern Analysis, and Cybernetics. Shenzhen, China, 2017: 136−141. (0) |
[13] | JIN J, LIU Z, CHEN C L P. Discriminative graph regularized broad learning system for image recognition[J]. Science China information sciences, 2018, 61(11): 112209. DOI:10.1007/s11432-017-9421-3 (0) |
[14] | CHEN C L P, LIU Z, FENG S. Universal approximation capability of broad learning system and its structural variations[J]. IEEE transactions on neural networks and learning systems, 2018, 30(4): 1191-1204. (0) |
[15] | LI D, SHUJUAN J, CHUNJIN Z. Improved broad learning system: partial weights modification based on BP algorithm[J]. Materials science and engineering, 2018, 439(3): 032083. (0) |
[16] | ZHANG T L, CHEN R, YANG X, et al. Rich feature combination for cost-based broad learning system[J]. IEEE access, 2018, 7(1): 160-172. (0) |
[17] | ZHAO H, ZHENG J, DENG W, et al. Semi-supervised broad learning system based on manifold regularization and broad network[J]. IEEE transactions on circuits and systems I: regular papers, 2020, 67(3): 983-994. DOI:10.1109/TCSI.2019.2959886 (0) |
[18] | KONG Y, WANG X, CHENG Y, et al. Hyperspectral imagery classification based on semi-supervised broad learning system[J]. Remote sensing, 2018, 10(5): 685. DOI:10.3390/rs10050685 (0) |
[19] | FENG S, CHEN C L P. Fuzzy broad learning system: A novel neuro-fuzzy model for regression and classification[J]. IEEE transactions on cybernetics, 2018, 50(2): 414-424. (0) |
[20] | JIN J, CHEN C L P. Regularized robust broad learning system for uncertain data modeling[J]. Neurocomputing, 2018, 322(1): 58-69. (0) |
[21] | LIU Z, SHEN Y, LAKSHMINARASIMHAN V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[J]. arXiv: 1806.00064, 2018. (0) |
[22] |
魏洁. 深度极限学习机的研究与应用[D]. 太原: 太原理工大学, 2016. WEI Jie. Research and application of deep extreme learning machine[D]. Taiyuan: Taiyuan University of Technology, 2016. (0) |
[23] | ERICKSON Z, LUSKEY N, CHERNOVA S, et al. Classification of household materials via spectroscopy[J]. IEEE robotics and automation letters, 2019, 4(2): 700-707. DOI:10.1109/LRA.2019.2892593 (0) |
[24] | ZHENG W, LIU H, WANG B, et al. Cross-modal surface material retrieval using discriminant adversarial learning[J]. IEEE transactions on industrial informatics, 2019(1): 1-1. (0) |
[25] |
贾晨, 刘华平, 续欣莹, 等. 基于宽度学习方法的多模态信息融合[J]. 智能系统学报, 2019, 14(1): 154-161. JIA Chen, LIU Huaping, XU Xinying, et al. Multi-modal information fusion based on broad learning method[J]. CAAI transactions on intelligent systems, 2019, 14(1): 154-161. DOI:10.11992/tis.201803022 (0) |
[26] |
方静. 基于LRF-ELM算法的研究及其在物体材质分类中的应用[D]. 太原: 太原理工大学, 2018. FANG Jing. The research based on LRF-ELM algorithm and its application in the object material classification[D]. Taiyuan: Taiyuan University of Technology, 2018. (0) |