2. 河北工业大学 河北省电磁场与电器可靠性重点实验室,天津 300130;
3. 清华大学 智能技术与系统国家重点实验室,北京 100084
2. Key Laboratory of Electromagnetic Field and Electrical Apparatus Reliability of Hebei Province, Hebei University of Technology, Tianjin 300130, China;
3. State Key Lab of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China
智能无人系统是通过先进技术进行操作或管理而无需人为干预的自主系统,主要由机械、控制、计算机、通信、材料等多种技术融合而成的复杂系统,其主要特点是智能化和自主性。人工智能是发展智能无人自主系统的关键技术之一,通过人工智能的各种技术,可以实现和不断提高系统的2个特征。随着计算机硬件的发展和先进计算模型的提出,人工智能和机器学习在计算机视觉、听觉和其它学习难题领域中迅速发展,机器学习通过以下2种方式支持无人自主系统:通过类人的方式与外界进行交互和控制,并接收外界信息,然后分析和控制;获得外面世界的信息来源于各感官知觉,如视觉、声觉和触觉[1]。触觉传感对机器人在工业、教育、医疗及家庭服务等各方面的的灵巧精细操作至关重要,主要包括压阻式、压电式、电容式、光式、量子隧道效应式等各类模态的触觉传感器[2-3]。在机器人对物体材质进行识别时,视觉有时受到光照、物体颜色、遮挡等因素影响,难以挖掘物体材质信息。触觉传感器在与物体交互接触时产生碰撞的声音或加速度等信息可以探索到视觉传感器无法感知的物体材质属性。已有相关研究采用麦克风作为触觉传感器采集声音模态来识别物体材质,识别效果较好,如文献[4]利用敲击物体产生的声音对物体材质进行识别。本文提出的识别框架正是解决开放环境下利用声音模态信号对物体进行材质识别的问题。
1 触觉识别技术目前随着机器人精细操作对触觉传感器感知的依赖越来越强烈,对触觉物体识别的研究也不断发展。例如文献[5]利用多层触觉传感器采集物体纹理信息,并利用支持向量机等分类器对其进行识别。文献[6]在考虑手指间内在联系下,开发了一种联合核稀疏编码模型解决多指触觉序列识别问题。文献[7]利用机器人皮肤嵌入触觉传感元件阵列,基于压缩感知(compressed sensing, CS)和压缩学习(compressed learning,CL)的理论基础,采集压缩的触觉阵列信号,利用支持向量机对物体纹理进行识别。文献[8]开发设计了 64 组触觉传感模块并制作了阵列式触觉传感器,将其安装在灵巧手手指上抓取物体采集触觉数据集,并利用触觉时间序列的动态时间规整(dynamic time warping, DTW)作为距离度量,使用了最近邻分类算法对物体进行识别。
与本文工作最接近的文献[9]指出触觉包括动觉和接触,在敲击物体或在物体上滑动时产生振动信号,可以采集不同模态的触觉信息,例如加速度和声音,同时文献[9]指出触觉中动觉信息与语音信号相似,采用了语音处理中常用的梅尔频率倒谱系数来提取特征,对触觉物体进行材质识别。大多数研究者都采用不同模态的信息代替传统的压觉和力觉来采集物体特征,并借助机器学习的方法来对物体进行识别。其中最近邻、支持向量机作为最成熟的机器学习算法被广泛地应用于触觉物体识别及各领域,例如文本识别[10],并且有许多学者依然在对这2种算法进行扩展,例如文献[11-12]。
上述研究虽然已经取得了很大的进步,但依然没有关于开放环境下未知触觉物体材质识别的研究。目前只有开放环境下对未知物体进行拒绝并识别已知物体的少数研究,并没有对未知类别进行识别。例如文献[13]采用稀疏表示的分类方法对人脸进行开放环境下识别已知类别。现实世界中机器人接触的物体都是在不断变化,动态增加的,如何让机器人系统像人一样,遇到未知的物体时可以很好地与已知的物体分开,并对未知的物体重新学习其相关知识。因此开发一种可以识别未知物体,并通过不断学习未知物体属性,达到识别所有物体的系统对机器人来说至关重要。本文正是为了解决这样的问题开发了一种区分已知类物体材质和未知类物体材质,并不断学习识别物体材质的框架。
2 识别框架流程本文利用距离度量的方法区分未知类物体材质类别和已知类物体材质类别,形成开放环境识别框架,该框架可以识别新类别、收集新数据、对新数据进行训练学习,达到识别新类别的目的。开放环境下未知材质识别框架如图1所示,其中测试数据中包含未知类物体材质。
Download:
|
|
该框架符合人不断学习的过程,当一个儿童在学习时,由自己的父母或者老师告诉他每种物体。当这个儿童认识了一些物体后,在他遇到没有见过的物体时,他可以知道这个物体他没见过。本文利用距离度量解决这个问题,判断没见的物体。但是,要想让这个儿童认识这个未知的物体,需要父母或老师告诉他这是什么,这样他就认识了这个物体。本文采用监督学习的方式,在收集了大量的未知类样本后,人为地给出各未知类样本的标签,再学习识别未知类样本。
2.1 识别测试利用提出的框架进行测试,测试过程如下:
1)计算包含未知类别的测试数据集与已知训练数据集之间的距离dc。同时利用已知的训练数据集训练分类器1;
2)对距离dc进行升序排列;
3)从最小开始依次选择前k项距离,并计算距离的前k项平均值
4)根据距离
5)将已知类样本保留,将未知类样本分解为新的测试数据集和新训练数据集,利用新的训练数据集训练分类器2,并利用新训练的分类器2测试新的测试数据集。利用分类器1测试保留下来的已知类样本;
6)最后整合所有测试结果给出整体的测试结果。
识别框架算法:
输入 训练数据
输出
1)计算距离并训练分类器1:
2)按行升序排序:
3)计算前
4)判断样本是已知类还是未知类:
for
if
else
end
end
5)分割未知类数据:
6)训练分类器2并测试全部数据:
上述过程分类器采用支持向量机,分类器也可以换成其他分类器。
2.2 距离度量从识别框架中可以看出区分已知类样本和未知类样本的关键步骤是距离的选择,也是本文的核心思想。当测试样本中出现未知类样本时,怎样判断这个样本不属于已知类样本,利用距离进行相似性判断。
如图2所示,已知的训练样本类别为3类,分别为圆形、三角形、正方形。当出现测试样本时,需要计算测试样本与训练样本中所有样本之间的距离,然后选择距离中最小的前k项,再计算平均值,通过实验确定合适的阈值,当距离的平均值大于阈值时,这个测试样本就被判断为未知类样本。在图2中五边形为未知类样本,正方形为已知类样本,可以看出3个距离都比正方形的距离大,平均值必然也很大,只要阈值设置的合适,就可以判断五边形为未知类样本,正方形为已知类样本。
Download:
|
|
假设2个n维向量
欧氏距离:
$d = \sqrt {\sum\limits_{k = 1}^n {{{({x_{1k}} - {x_{2k}})}^2}} } $ |
曼哈顿距离:
$d = \sum\limits_{k = 1}^n {\left| {{x_{1k}} - {x_{2k}}} \right|} $ |
切比雪夫距离:
$d = \mathop {\max }\limits_k (\left| {{x_{1k}} - {x_{2k}}} \right|)$ |
夹角余弦距离:
$\cos (\theta ) = \frac{{\displaystyle\sum\limits_{k = 1}^n {{x_{1k}}{x_{2k}}} }}{{\sqrt {\displaystyle\sum\limits_{k = 1}^n {x_{1k}^2} } \sqrt {\displaystyle\sum\limits_{k = 1}^n {x_{2k}^2} } }}$ |
马氏距离,有m个样本
$d = \sqrt {{{({{{X}}_i} - {{{X}}_j})}^{\rm{T}}}{{\mathbf{S}}^{^{ - 1}}}({{{X}}_i} - {{{X}}_j})} $ |
式中S为协方差矩阵。
2.3 分类器本文采用了2种常见的分类器,分别为最近邻、支持向量机。最近邻(k-nearest neighbor, KNN)算法进行分类识别时,样本集中每组数据对应标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,提取样本最相似数据(最近邻)的分类标签。它是一种惰性学习算法,没有显式的学习过程。支持向量机(support vector machine, SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数计算经验风险并在求解系统中加入正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法进行非线性分类。
3 实验结果及分析本文实验的数据集主要有2个,分别为人为产生的随机数据集和慕尼黑工业大学采集的触觉纹理数据集[14]。
人为产生的随机数据集如图3所示,数据集包括7个类别,每个类别为1000个样本,数据特征维度为3。每类中500个样本作为训练集,500个样本为测试集。
Download:
|
|
慕尼黑工业大学采集的触觉纹理数据集按物体材质和表面特征分为固体网状物(13种物体)、石头(9种物体)、玻璃陶瓷(9种物体)、木材(13种物体)、橡胶(5种物体)、纤维(15种物体)、泡沫(12种物体)、塑料纸片(15种物体)、纺织面料(17种物体)等9大类108种物体,具体每类物体的图像如图4所示,按照上述顺序排列。采集的信息主要有图像、声音、加速度、摩擦力以及红外感应扫描。本文重点关注听觉模态替代触觉采集振动信号。数据集中的每个声音样本长度为0.2 s,训练样本集由一个人敲击每种物体10次,共得到1080个声音样本,测试样本集中每个物体由10个人敲击1次,共得到1080个声音样本。数据采集过程中不加约束条件,不限制采集者施加力的大小和滑动的速度。
Download:
|
|
本文采用的声音特征提取方法是梅尔频率倒谱系数(Mel frequency cepstrum coefficient, MFCC),梅尔频率倒谱系数是语音处理中最常用的特征之一。该特征提取方法可以减少数据的噪声,并对声音信号降维。已有相关研究成功地将梅尔频率倒谱系数应用于敲击物体产生的声音识别中,并利用提取的特征对物体材质进行识别,如文献[4,9]。标准的MFCC特征只能提出声音的静态特征[15-16],为了更好地体现声音的动态特征,本文采用静态MFCC特征的一阶和二阶差分特征求得39维梅尔频率倒谱系数动态特征。图5中(a)为柚木图像、(b)为敲击的柚木声音时域信号、(c)为提取的声音特征。
Download:
|
|
通过上述特征提取后利用距离度量可以很好地将未知类样本和已知类样本分开。本文提出的框架关键步骤是选择哪种距离度量,如2.2节介绍的5种距离。利用提出的框架结合最近邻分类器在开放环境下将人为产生的随机数据集分为4类已知类样本和3类未知类样本进行实验,实验结果如表1所示。将慕尼黑工业大学的9大类数据集按物体材质分为5类已知类样本和4类未知类样本进行实验,实验结果如表2所示。
从表1中可以看出在人工数据集上采用夹角余弦距离物体的分类效果较差,而其他4种距离的分类效果较好。分类准确率几乎没有差别,在0~1%的范围内波动,但从运行效率考虑,利用欧氏距离时运行效率较高。
从表2中可以看出在慕尼黑工业大学数据集上,无论从识别准确率还是运行效率上看欧氏距离都比其它距离的效果好,所以选择欧氏距离作为距离度量方式。由于本文重点关注利用声音模态在开放环境下对物体材质进行识别的问题,所以后续实验只在慕尼黑工业大学触觉纹理数据中的声音集上进行实验。
3.3 验证已知类与未知类的分离效果采用文献[13]中的开集稀疏表示分类(open set sparse representation classification, OSSRC)与本文的方法进行对比,因为文献[13]中的方法是在开放环境识别已知类并对未知类进行判断,无论未知类中包含几类都不进行分类,只是判断为未知即可。所以如下实验对其作相同设置,实验中只将未知类判断出即可。训练只采用5类已知,测试是9类,其中包含4类未知。实验结果如图6、7所示。图6是将2.1节中的分类器换为最近邻分类器的实验结果,图7为OSSRC 的实验结果。从实验结果中可以得出本文的方法可以很好地将未知类挑选出来,且已知类和未知类不易混淆,已知类与未知类的分离效果较好,而OSSRC 虽然也可以将未知类挑选出来,效果却较差,将大部分已知类判断为未知类,已知类与未知类的分离效果较差。
Download:
|
|
Download:
|
|
影响框架的另一个重要因素是阈值T的设置,合理的阈值设置才能成功地将已知类物体和未知类物体分离开,只有将测试集中已知类别和未知类别分开,才能训练性能较好的分类器,才能成功地学习识别所有的物体。
利用分类器结合本文的框架验证阈值对开放环境下识别准确率的影响。框架中分类器为最近邻时的实验结果如图8所示,框架中分类器为支持向量机时的实验结果如图9所示。
Download:
|
|
Download:
|
|
从图8、9可以看出随着阈值的增加已知类别的识别准确率都在不断下降,这是由于阈值越大已知的测试数据中出现的未知类样本越多,分类器1越难识别已知类别样本。随着阈值的增大未知类别的识别效果越好,这是因为阈值越大未知类中已知类别样本越少,识别的准确率不再受样本类别影响,只依赖于分类器2的性能。整体的识别准确率先上升,后下降,这是因为在上升阶段已知类识别率下降的幅度较小同时未知类别识别率在上升,且上升的幅度大于已知类下降的幅度。后下降是因为已知类识别率下降的幅度大于未知类上升的幅度。
通过实验可以得出阈值在0.3~0.33范围内,框架的整体识别效果较好,对比图8、9可以看出在该框架下结合支持向量机对声音模态的物体材质识别效果较好。在阈值设置为0.33时,得出2种分类器的分类混淆矩阵分别如图10、11所示,对比图10、11发现利用支持向量机的分类效果较好,其中未知的材质类别为石头、玻璃陶瓷、纤维、塑料纸片。
Download:
|
|
Download:
|
|
在阈值设置为0.33时,提出的框架主要解决开放环境下未知物体材质的识别问题,所以在不同开放程度下对比整体识别准确率,开放程度指的是已知类和未知类的比例,所以影响识别准确率的因素是未知类别数和已知类别数。按照物体材质分为9类的实验结果如图12所示,从测试结果可以看出未知类越多整体识别效果在不断下降,已知类越多整体识别效果保持稳定趋势,分类器采用支持向量机时识别准确率受未知类别影响较最近邻小。因此,在该框架下利用支持向量机可以很好地解决开放环境下未知材质识别的问题。
Download:
|
|
随着机器人灵巧手不断探索未知物体,触觉信息也在不断地发生变化,出现未知的物体触觉信息,不能再做封闭的机器学习训练假设。本文提出的框架可以很好地解决开放环境下触觉物体材质识别的问题,在慕尼黑工业大学的声音数据集上利用该框架结合支持向量机取得了很好的识别效果,虽然设计的框架中区分已知类和未知类的方法有一定的缺陷,但为机器人探索未知物体进行灵巧精细操作的算法理论提供了一种思想,以后随着不同触觉传感器的发展和不同模态信息的采集,再经过更好的特征提出,只要通过稳定可靠的特征提取,融合多模态信息及解决不同模态的相关性,基于距离判断未知类样本是可行的。该框架可以很好地解决未知触觉物体材质识别问题。未来需要开发更好的方法来区分未知类别和已知类别。开发的系统框架合理稳定便可以投入机器人灵巧精细操作中。
[1] | ZHANG Tao, LI Qing, ZHANG Changshui, et al. Current trends in the development of intelligent unmanned autonomous systems[J]. Frontiers of information technology and electronic engineering, 2017, 18: 68-85. DOI:10.1631/FITEE.1601650 (0) |
[2] | ZHENG Wendong, LIU Huaping, WANG Bowen, et al. Cross-modal surface material retrieval using discriminant adversarial learning[J]. IEEE transactions on industrial informatics, 2019, 15(9): 4978-4987. DOI:10.1109/TII.2019.2895602 (0) |
[3] | ZHENG Wendong, WANG Bowen, LIU Huaping, et al. Bio-inspired magnetostrictive tactile sensor for surface material recognition[J]. IEEE transactions on magnetics, 2019, 55(7): 4002307. (0) |
[4] | STRESE M, SCHUWERK C, IEPURE A, et al. Multimodal feature-based surface material classification[J]. IEEE transactions on haptics, 2017, 10(2): 226-239. DOI:10.1109/TOH.2016.2625787 (0) |
[5] | NGUYEN H, OSBORN L, ISKAROUS M, et al. Dynamic texture decoding using a neuromorphic multilayer tactile sensor[C]//Proceedings of 2018 IEEE Biomedical Circuits and Systems Conference (BioCAS). Cleveland, USA, 2018: 1−4. (0) |
[6] | LIU Huaping, GUO Di, SUN Fuchun. Object recognition using tactile measurements: kernel sparse coding methods[J]. IEEE transactions on instrumentation and measurement, 2016, 65(3): 656-665. DOI:10.1109/TIM.2016.2514779 (0) |
[7] | DENG Cheng, TANG Xu, YAN Junchi, et al. Discriminative dictionary learning with common label alignment for cross-modal retrieval[J]. IEEE transactions on multimedia, 2016, 18(2): 208-218. DOI:10.1109/TMM.2015.2508146 (0) |
[8] | DRIMUS A, KOOTSTRA G, BILBERG A, et al. Design of a flexible tactile sensor for classification of rigid and deformable objects[J]. Robotics and autonomous systems, 2014, 62(1): 3-15. DOI:10.1016/j.robot.2012.07.021 (0) |
[9] | STRESE M, LEE J Y, SCHUWERK C, et al. A haptic texture database for tool-mediated texture recognition and classification[C]//2014 IEEE International Symposium on Haptic, Audio and Visual Environments and Games (HAVE) Proceedings. Richardson, USA, 2014: 118−123. (0) |
[10] |
古丽娜孜·艾力木江, 乎西旦·居马洪, 孙铁利, 等. 基于支持向量的最近邻文本分类方法[J]. 智能系统学报, 2018, 13(5): 799-807. GULNAZ Alimjan, HURXIDA Jumahun, SUN Tieli, et al. The nearest neighbor text classification method based on support vector[J]. CAAI transactions on intelligent systems, 2018, 13(5): 799-807. (0) |
[11] | CHE Huimin, DING Bo, WANG Huaimin, et al. IKNN-SVM: a hybrid incremental algorithm for image classification[C]//Proceedings of 2016 2nd International Conference on Artificial Intelligence and Industrial Engineering (AⅡE 2016). Beijing, China, 2016. (0) |
[12] | DEMIDOVA L, SOKOLOVA Y. A novel SVM-kNN technique for data classification[C]//Proceedings of 2017 6th Mediterranean Conference on Embedded Computing (MECO). Bar, Montenegro, 2017: 1−4. (0) |
[13] | STRESE M, BOECK Y, STEINBACH E. Content-based surface material retrieval[C]//2017 IEEE World Haptics Conference (WHC). Munich, Germany, 2017: 352−357. (0) |
[14] | CAO Jiuwen, ZHAO Tao, WANG Jianzhong, et al. Excavation equipment classification based on improved MFCC features and ELM[J]. Neurocomputing, 2017, 261: 231-241. DOI:10.1016/j.neucom.2016.03.113 (0) |
[15] |
张毅, 谢延义, 罗元, 等. 一种语音特征提取中Mel倒谱系数的后处理算法[J]. 智能系统学报, 2016, 11(2): 208-215. ZHANG Yi, XIE Yanyi, LUO Yuan, et al. Postprocessing method of MFCC in speech feature extraction[J]. CAAI transactions on intelligent systems, 2016, 11(2): 208-215. (0) |
[16] | LIU Huaping, SUN Fuchun, FANG Bin, et al. Multimodal measurements fusion for surface material categorization[J]. IEEE transactions on instrumentation and measurement, 2018, 67(2): 246-256. DOI:10.1109/TIM.2017.2764298 (0) |