一种空间仿生柔性机器人设计与智能规划仿真方法

目录摘要全文 图/表

PDF

DOI：10.13973/j.cnki.robot.210126

引用本文

刘物己, 敬忠良, 陈务军, 潘汉. 一种空间仿生柔性机器人设计与智能规划仿真方法[J]. 机器人, 2022, 44(3): 361-367.

LIU Wuji, JING Zhongliang, CHEN Wujun, PAN Han. Design and Intelligent Planning Simulation Method of a Space Bionic Soft Robot[J]. ROBOT, 2022, 44(3): 361-367.

一种空间仿生柔性机器人设计与智能规划仿真方法

刘物己¹ , 敬忠良¹ , 陈务军² , 潘汉¹

1. 上海交通大学航空航天学院，上海 200240;
2. 上海交通大学船舶海洋与建筑工程学院，上海 200240

收稿日期：2021-04-07；录用日期：2021-07-05; 修回日期：2021-09-17

基金项目：国家自然科学基金(61673262);上海市科学技术委员会重点项目(16JC1401100)。

作者简介：刘物己（1994-），男，博士生。研究领域：柔性机器人，空间机器人;
敬忠良（1959-），男，博士，教授。研究领域：多源信息获取、处理与融合，航空航天信息处理与控制;
陈务军（1969-），男，博士，研究员。研究领域：空间可展开结构分析理论，展开动力分析理论研究与柔性机器人。

通信作者：刘物己, lkk728@sjtu.edu.cn。

摘要：针对传统空间刚体机器人存在的自由度有限和环境适应性差等缺陷，基于生物体结构提出了一种受“尺蠖”与“蛇”启发的适用于空间在轨服务的柔性机器人。首先，搭建了柔性机器人原型样机，研究了镍钛形状记忆合金（SMA）驱动器的驱动特性，设计了可视化控制界面并通过实物实验验证了机器人原型样机的可操控性。然后，设计了一种基于所提柔性机器人结构的Q学习算法和相应的奖励函数，搭建了柔性机器人仿真模型并在仿真环境中完成了基于Q学习的机器臂自主学习规划仿真实验。实验结果显示机器臂能够在较短时间内收敛到稳定状态并自主完成规划任务，表明所提出算法具有有效性和可行性，强化学习方法在柔性机器人的智能规划与控制中具有良好的应用前景。

关键词：仿生机器人形状记忆合金 Q学习智能规划

中图分类号：TP249 文献标志码：A 文章编号：1002-0446(2022)-03-0361-07

Design and Intelligent Planning Simulation Method of a Space Bionic Soft Robot

LIU Wuji¹ , JING Zhongliang¹ , CHEN Wujun² , PAN Han¹

1. School of Aeronautics and Astronautics, Shanghai Jiao Tong University, Shanghai 200240, China;
2. School of Naval Architecture, Ocean & Civil Engineering, Shanghai Jiao Tong University, Shanghai 200240, China

Abstract: Conventional space rigid-body robots are subject to defects such as limited degree of freedom and low environmental adaptability. For those problems, a soft robot based on the organism structure is designed inspired by inchworm and snake, which is applicable to space in-orbit service. Firstly, the prototype of the soft robot is built and the drive characteristics of the Ni-Ti shape memory alloy (SMA) as the actuators are studied. A visual control interface is designed and the manoeuvrability of the soft robot prototype is verified by physical experiments. Besides, the Q-learning algorithm and the corresponding reward function based on the designed soft robot structure are designed. A simulation model of the soft robot is built, and autonomous learning and planning experiment of the robot arm model based on Q-learning is completed in the simulation environment. The experiment results show that the robot arm can converge to a stable state in a short time and complete planning tasks independently. Therefore, the proposed algorithm is effective and feasible, and the reinforcement learning method has a good application prospect in the intelligent planning and control of soft robots.

Keywords: bionic robot shape memory alloy (SMA) Q-learning intelligent planning

1 引言（Introduction）

受生物特性的启发，具有高度灵活性和强变形能力的柔性机器人在学界得到广泛研究^[1-3]。尤其是在非结构化和复杂环境中^[4]，相比基于传统电机驱动的刚体机器人，受益于柔性材料，柔性机器人具有较强的弯曲能力和伸缩能力，能够更好地处理复杂任务。柔性机器人是一个新颖且高速发展的领域，涉及机器硬件、柔性材料和集成系统等领域。其中，柔性材料在柔性机器人的发展中，尤其是驱动器（例如仿生肌肉、形状记忆合金等）和变形能力上起着重要作用。柔性材料对仿生机器人学的机器和结构设计至关重要，将柔性材料“肌肉”驱动器与中枢神经系统结合才能构建完整的神经机器控制系统。

目前，已有多种受生物启发的仿生机器人面世，其中“Oct Arm”是一种仿章鱼设计的柔性机器人^[5]，如图 1(a)所示。该柔性机器人使用一种嵌入了合金的柔性材料作为执行器，具有多自由度运动能力，并可在水中自由变形和弯曲伸缩。另一类仿生机器人GoQBot是仿毛虫机器人^[6]，如图 1(b)所示。该柔性机器人模仿毛毛虫蠕动，并将形状记忆材料和信号线嵌入在类似毛毛虫的结构内。另外还有多步态软体机器人^[7]，如图 1(c)所示，由电活性聚合物（EAP）材料（弹性体聚合物）和相对坚硬的内部骨架组成。这种软体机器人的特殊之处在于它无需额外的驱动器，仅需5个执行器就可以完成机器人驱动。另一种仿蚯蚓的软体机器人^[8-9]通过模拟蚯蚓蠕动的方式进行移动，如图 1(d)所示。合金驱动机器人^[10]采用镍钛合金作为执行器，可以在运动过程中通过温度、压力等操作量控制仿蚯蚓机器人的运动状态。另一种新的仿海星柔性机器人设计采用硅胶柔性材料和气动网络^[11]，使得该柔性机器人可以产生各种各样的抓取动作和驱动形态，如图 1(e)所示。

图 1 仿生柔性机器人实例 Fig.1 Examples of bionic soft robots

特殊材料的柔性致动器能为机器人提供驱动动力，因此在柔性机器人结构中十分重要。如现有的EAP^[12-14]是一种可通过变换电场来改变尺寸或形状的软质材料。此外，电缆驱动器^[15-16]被广泛用于超冗余机器人中，可嵌入机器人体内进行变形驱动。流体致动器^[17-19]也是一种具有快速变形能力的致动材料，使用压缩空气或加压液体产生压力差达到致动目的。目前，SMA ^{[5-6, 20]}因具有相对较大的形变力和较短的响应时间，近年来在柔性机器人结构设计中得到了广泛应用。本文所介绍的柔性机器人GS-Bot（great soft robot）结合了生物体骨关节扭动和形变弯曲的特性，利用了镍钛柔性SMA受热形变的物理、化学特性，大大提升了GS-Bot机器人的形变能力和操控能力。

本文的主要贡献如下：

1) 提出了一种具有高形变和耦合弯曲能力的新型柔性机器人结构，设计建造了一种仿生柔性GS-Bot机器人原型样机。利用镍钛SMA作为驱动器，使得GS-Bot机器人具有相对较高的形变和驱动力。同时通过实物实验验证了其具有可操控能力。

2) 设计了一种针对GS-Bot机器人的Q学习方法，并在仿真环境中验证了GS-Bot机器人仿真模型在训练后能够自主智能地完成目标任务。

2 GS-Bot柔性机器人系统组成（Composi- tion of the GS-Bot soft robot system）

柔性机器人GS-Bot受2种生物的机体特性启发制成，其仿生机理和原型如图 2所示。躯体结构模仿生物“尺蠖”的骨关节，该骨关节可以提供承重作用以及实现多自由度运动。另一仿生对象为“蛇”的肌肉，使得机器人能够像“蛇”一样弯曲并使躯体朝向目标物体运动。这种设计使得机器人在空间在轨非结构化环境中能够有效抵抗外界冲击并完成高自由度复杂形变运动。

图 2 机器人仿生机理和原型样机 Fig.2 Bionic mechanism and prototype of GS-Bot

GS-Bot原型样机如图 2(c)所示，每节关节由2个光敏树脂材料制成的骨架连接构成，3根SMA弹簧连接在相邻2节之间用于提供驱动力。同时，为了达到骨关节扭转效果，骨架连接处被设计为“球窝”结构，并使用橡胶管来约束偏转角的范围。GS-Bot机器人能够在传统刚体机器人扭转操作受限的非结构化空间和限制空间中发挥重要的作用。

2.1 GS-Bot系统架构组成

整个GS-Bot系统可分为3部分：上位机与下位机控制器、硬件电路和GS-Bot机器人原型样机。下位机由MCU（micro control unit）组成，通过串行通信与上位机进行控制数据的通信。硬件电路将根据时控电信号给GS-Bot机器人输送电流。GS-Bot机器人样机见图 3，原型样机模块通过加热单根或多根SMA弹簧来驱动GS-Bot机器人改变运动状态。另外，在GS-Bot机器人顶端安装一个微型摄像机用于提供视觉反馈，视觉系统集成了YOLO（you only look once）^[21]目标检测算法。

图 3 机器人样机 Fig.3 GS-Bot prototype

SMA弹簧相对其他柔性材料具有相对较高的变形性能、高功重比和可恢复性，常被选为驱动器。SMA弹簧加热时会收缩，冷却后可由外力拉伸恢复到初始形状。为了测试SMA物理性能和材料的可重复性，本文使用立式和卧式橡胶拉伸试验机验证SMA弹簧受温度影响的伸缩特性及在驱动电压和不同温度方面的恢复特性。当驱动电压为3 V时，SMA弹簧对不同室温的敏感程度不大，对于不同驱动电流大小表现十分敏感，20 s以后才开始产生较大形变。当驱动电压为6 V时，SMA从第10 s开始急剧变化，直到第20 s趋于稳定。以上结果表明SMA的形变性质对于电压变化更加敏感。

3 GS-Bot机器人智能规划仿真（Simulation of GS-Bot intelligent planning）

GS-Bot机器人的姿态与运动规划控制主要通过SMA弹簧的伸缩带动骨节间的角度偏转来实现，实际运动具有非常大的非线性。因此将GS-Bot机器人简化为2维平面中的机器臂连杆模型进行自主规划仿真，如图 4所示。利用机器臂的关节角度控制机器臂的位置和姿态。图 4中红色部分代表 2根机器臂连杆，通过连杆间的角度变化控制机器臂姿态和端点位置。2维平面内设置一个蓝色目标物，用于表示机器臂被期望到达的目标位置。仿真模型中$ O(x_{0}, y_{0}) $表示机器臂基座固定点，$ l_{1} $和$ l_{2} $分别表示2根机器臂连杆的长度。连杆端点分别为基座固定点$ O(x_{0}, y_{0} ) $、第1节连杆端点$ E_{1} (x_{1}, y_{1}) $和第2节连杆的末端点$ E_{2} (x_{2}, y_{2}) $。2根连杆可以分别围绕点$ O $和$ E_{1} $在2维平面中以任意角度旋转，直到机器臂末端点$ E_{2} $自主到达蓝色目标物区域$ G(x_{G}, y_{G}) $。其中，$ \alpha $和$ \beta $分别表示2根连杆与水平轴的夹角，用于表示2根连杆的旋转角度。

图 4 简化仿真模型示意图 Fig.4 The schematic diagram of GS-Bot simplified simulation model

为描述仿真环境中机器臂的姿态和位置，本文选用2维物理量进行定量分析：机器臂长度和旋转角度。因此可得到3个端点的点坐标关系式如下：

$ \begin{equation} \begin{aligned} (x_{1}, y_{1}) &=(l_{1} \cos \alpha, l_{1} \sin \alpha) +(x_{0}, y_{0}) \\[-3pt] (x_{2}, y_{2}) &=(l_{2} \cos \beta, l_{2} \sin \beta) +(x_{1}, y_{1}) \end{aligned} \end{equation} $

(1)

通过3个端点$ O $、$ E_{1} $和$ E_{2} $能够准确且完整地描述机器臂的位置和姿态信息。

本文采用Q学习智能规划方法对机器臂进行自主学习和驱动，通过所建立的奖励函数对仿真智能体进行训练，并最终达到机器臂自主规划和驱动的目的。在Q学习中，针对被控对象智能体，定义在$ t $时刻智能体采取的动作为$ a_{t} $，对应状态和奖励分别为$ s_{t} $和$ r_{t} $，衰减因子为$ \gamma \in (0, 1) $。同时定义智能体的策略函数为$ \pi ( {a_{t}} |s_{t} ) $，表示智能体在状态$ s_{t} $下选取动作$ a_{t} $的概率。算法如图 5所示。

图 5 基于Q学习的规划算法 Fig.5 Planning algorithm based on Q-learning

一般地，用神经网络反映状态到动作的映射关系，对应于智能体在环境中$ t $时刻产生的一系列反馈数据信息$ (s_{t}, a_{t}, r_{t}, s_{t+1}) $。在该算法中，策略函数$ \pi ( {a_{t}} |s_{t}) $分为随机策略

$ \begin{equation} P_{{\rm r}} = \begin{cases} \pi ( {a_{t}} |s_{t}) <1 \\ \sum \pi ( {a_{t}} |s_{t}) =1 \\ \end{cases} \end{equation} $

(2)

和确定性策略

$ \begin{equation} P_{{\rm d}} =\pi ( {a_{t}} |s_{t}): s\to a \end{equation} $

(3)

确定性策略在特定状态$ s_{t} $下会输出唯一的确定动作$ a_{t} $，在训练过程中易陷入局部最优。同时定义状态值函数$ V_{\pi} (s) $，表示在策略$ \pi ( {a_{t}} |s_{t} ) $下各状态所获得的累计加权奖励，用于评价智能体在环境中各状态下表现的优劣情况，状态值函数一般表示为

$ \begin{equation} V_{\pi} (s)=E_{s_{t}, s_{t+1}, \cdots } \left({\sum\limits_{k=0}^T {\gamma ^{k}r_{t+k} (s_{t+k}) }} \right) \end{equation} $

(4)

其中，衰减因子$ \gamma \in (0, 1) $表示对未来奖励的权重值，而引导智能体选择最优动作的则是动作值函数$ Q_{\pi } (s, a) $，动作值函数的表达式为

$ \begin{equation} Q_{\pi} (s, a)=E_{s_{t}, a_{t}, s_{t+1}, a_{t+1}, \cdots} \left( {\sum\limits_{k=0}^T {\gamma^{k}r_{t+k} (s_{t+k}) }} \right) \end{equation} $

(5)

该函数表示在策略$ \pi $的条件下，到达时刻$ T $时智能体的累计奖励值，用于评价智能体在环境中一系列动作表现的好坏。同时$ Q $函数会引导智能体在特定状态$ s $下选取最优的动作$ a $。

$ a=\underset{a\sim \pi (a\mid s)}{\mathop{\arg \max }}\,{{Q}_{\pi }}\left( {{s}_{t}},{{a}_{t}} \right) $

(6)

式(6) 表明智能体会在$ t $时刻到达状态$ s_{t} $，并选取令累计回报最大的动作$ a_{t} $，从而引导智能体在环境中取得优秀的表现。在仿真实验中，定义目标函数为

$ \begin{equation} J(\pi) =E_{s_{0}, a_{0}, s_{1}, \cdots } \left({\sum\limits_t^T {\gamma ^{t}r(s)}} \right) \end{equation} $

(7)

在Q学习中，另一个要素为设计奖励函数$ r $，奖励函数$ r $会对智能体在环境中的行为表现进行评价。在本文仿真设计中，定义环境中的机器臂末端点$ E_{2} (x_{2}, y_{2}) $到达蓝色目标区域$ G(x_{G}, y_{G} ) $时会得到值为1的奖励，若保持10个时间步将获得值为10的奖励并结束本周期训练。未到达目标区域的其奖励值为负，且与欧氏距离$ d $成反比，表示为$ f(d) $，奖励函数$ r $表达式为

$ \begin{equation} r=\begin{cases} 1, &t_{\rm a} <10, (x_{2}, y_{2}) \in M \\ 10, & t_{\rm a} \geqslant 10, (x_{2}, y_{2}) \in M \\ f(d), & \rm{其他} \\ \end{cases} \end{equation} $

(8)

其中$ M $为坐标满足条件，表示为

$ \begin{equation} M=\begin{cases} x_{G} -\dfrac{G_{{\rm w}}} {2}<x_{2} <x_{G} +\dfrac{G_{{\rm w}}} {2} \\[4pt] y_{G} -\dfrac{G_{{\rm h}}} {2}<y_{2} <y_{G} +\dfrac{G_{{\rm h}}} {2} \\ \end{cases} \end{equation} $

(9)

式中，$ t_{\rm a} $定义为智能体在环境中的时间步数，$ G_{{\rm w}} $与$ G_{{\rm h}} $分别为目标物的宽与高。同时定义智能体在每一次训练周期中训练是否继续的判别条件$ F $为

$ \begin{equation} F=\begin{cases} \rm{True}, &r=10 \\ \rm{False}, &T^{'}=T^{'}_{\rm m} \\ \end{cases} \end{equation} $

(10)

式中，$ T^{'}_{\rm m} $为智能体在一个训练周期中的最大训练步数，即训练次数$ T^{'} $到达$ T^{'}_{\rm m} $时结束本周期训练并开始下一周期训练。仿真环境中机器臂偏转角度为智能体输出的单一动作变量$ a\in (-180^{{\circ}}, 180^{{\circ}}) $，并定义学习率为$ L $，用于表示动作$ a $作用于偏转角度的更新速率，表示为

$ \begin{equation} R_{t+1} \leftarrow R_{t} +L\cdot a_{t} \end{equation} $

(11)

学习率的设定决定了智能体的收敛速率，学习率过大容易越过全局最优点，过小容易陷入局部最优点。通过在仿真环境中加入学习速率，能让智能体在环境中不断试错并修正自身的行动策略，从而在完成目标任务时达到自主规划和学习的效果。

4 GS-Bot机器人验证实验与仿真结果（GS-Bot experimental verification and simulation results）

本节阐述GS-Bot系统可操控性验证实验和仿真实验结果。

4.1 GS-Bot机器人可操控性验证实验

为验证GS-Bot机器人具有扭转和弯曲形变能力，本文通过实物原型样机实验和可视化控制界面对验证结果进行阐释。在相对理想的实验条件下，将GS-Bot机器人的基座固定在实验平台上，开启电源对SMA驱动器供电，实验过程记录了0~30 s中GS-Bot机器人的形态随时间的变化，其中4个姿态轨迹如图 6所示。

图 6 GS-Bot机器人实验图 Fig.6 Experimental images of GS-Bot

GS-Bot机器人可操控性验证实验总时长约30 s，通过高帧率图片可以发现，GS-Bot机器人的姿态改变主要集中在实验后10 s，形变趋势与图 4中SMA的形变特性相吻合。另外，将一个微型摄像机固定在机器人顶端用于观测外界环境并进行反馈，编写可视化模块对机器人进行实时状态反馈，并集成到目标检测软件中。

如图 7所示，在软件中点击“测试1号SMA”按钮并点击“开始”，可观测到1号SMA驱动器开始弯曲变形。点击“目标检测”按钮，软件图形界面即显示实时的摄像机图像，“运动控制输入图像”显示实时目标检测结果和检测信息$ (x, y, w, h) $，$ x $、$ y $、$ w $、$ h $分别表示目标物左上角点在相机坐标系中的坐标值以及目标物的宽度和高度。GS-Bot机器人的可操控性实验验证了所设计的GS-Bot机器人具有可操控性和较好的运动形变性能。为进一步实现软体机器人智能规划控制打下基础。

图 7 GS-Bot软件可视化界面图 Fig.7 Visual interface of GS-Bot software

4.2 Q学习仿真结果

在仿真实验中，设定最大训练步数$ T^{'}_{\rm m} = $ 2000，最大训练周期数$ E_{\rm m} = $ 500，衰减因子$ \gamma = $ 0.9，神经网络隐藏单元数$ U= $ 1024。同时为了保证算法的泛化效果，取随机探索概率$ e= $ 0.95，即智能体在$ e $的概率下按照式(6) 输出对应动作，以$ 1-e $的概率选择随机动作$ a\in (-180^{{\circ}}, 180^{{\circ}}) $作为输出。仿真实验上位机CPU为Core i7-8700（8 GB），GPU为GTX-1060Ti（8 GB）。

仿真过程中机器臂运动轨迹如图 8所示，各子图分别表示机器臂在不同时刻的位置和姿态。其中图 8(a)和图 8(b)表示机器臂末端不断试探触碰蓝色目标物体，图 8(c)表示经过一定时间的探索和学习，末端在到达并停留于目标物固定时长后，结束本回合训练。智能体通过式(10) 判断当前状态是否符合回合结束的设定条件。该仿真模型还可拓展至3节或多节机器人，如图 9所示。

图 8 简化GS-Bot模型仿真运动示意图 Fig.8 Simulated motion diagram of the simplified GS-Bot model

图 9 三节模型仿真运动示意图 Fig.9 Simulated motion diagram of the three-section model

在实验结果中，为反映出智能体在仿真环境中的收敛趋势，本文给出了智能体在每个训练回合$ E_{\rm m} $中的累计奖励值和回合训练结束时训练步数的量化曲线，结果如图 10所示。可见智能体在训练100回合左右时，累计奖励值和训练步数已经趋于稳定。收敛后的智能体累计奖励值主要集中在30~50区域，训练稳定后训练步数主要集中在100~150步左右时。仿真结果验证了GS-Bot仿真模型在自主训练后能够在较短时间内迅速收敛到稳定状态，智能体在仿真环境中能够根据奖励函数的引导自主完成规划和控制任务。同时，为了验证隐藏单元数对智能体训练的影响，本文对隐藏层数量为128、1024和2048的情形分别进行了实验。

图 10 仿真训练中奖励和训练步数曲线 Fig.10 Curves of reward and training steps in training simulation

分别随机选取5次训练结果，定义在最大训练步数$ T^{'}_{\rm m}= $ 2000以内结束的回合为成功回合，单次训练回合成功率定义为成功回合数\!/\!总回合数500。由此统计不同隐藏层数量下训练的成功率，如表 1所示。

表 1 不同隐藏层数的5次训练回合成功率 Tab. 1 Success rate after 5 rounds of training with different hidden layers

由表 1结果可知，隐藏层单元数为1024时回合成功率最高；隐藏层单元数为128时回合成功率最低，原因是模型单元数过少，训练欠拟合；而隐藏层单元数增至2048时，将出现训练过拟合，导致效果变差。

仿真实验结果表明，基于Q学习的规划方法可使GS-Bot机器人简化模型快速学习最优策略，完成指定目标任务，并且网络隐藏层数对训练效果有一定的影响。这为软体机器人自主智能规划控制提供了一个有效思路。

5 结论（Conclusion）

本文设计了一种类“尺蠖”脊椎骨关节和“蛇”躯体结构的空间仿生软体机器人GS-Bot，GS-Bot采用柔性材料镍钛SMA作为驱动器，并装配一套视觉系统与环境进行交互，SMA特殊的性质使得机器人具有更强的形变能力和更高的自由度。对GS-Bot机器人原型样机进行了可操控性验证，证明了其具有较快的形变能力和较好的可操控性。搭建了GS-Bot机器人简化结构模型，设计了一种基于Q学习的智能规划方法及其奖励函数。在仿真环境中的训练结果表明GS-Bot机器人的仿真模型能够快速收敛到最优策略，并以最优路径完成目标任务。未来将在本文的研究基础上，优化躯体结构设计与操控方法，并研究更高效的基于形状记忆合金的柔性驱动方式。

参考文献（References）

[1]	Kim S, Laschi C, Trimmer B. Soft robotics: A bioinspired evolution in robotics[J]. Trends in Biotechnology, 2013, 31(5): 287-294. DOI:10.1016/j.tibtech.2013.03.002
[2]	Boyraz P, Runge G, Raatz A. An overview of novel actuators for soft robotics[J]. Actuators, 2018, 7(3). DOI:10.3390/act7030048
[3]	Pfeifer R, Lungarella M, Iida F. Self-organization, embodiment, and biologically inspired robotics[J]. Science, 2007, 318(5853): 1088-1093. DOI:10.1126/science.1145803
[4]	Jing Z L, Qiao L F, Pan H, et al. An overview of the configu-ration and manipulation of soft robotics for on-orbit servicing[J]. Science China: Information Sciences, 2017, 60. DOI:10.1007/s11432-016-9033-0
[5]	Laschi C, Cianchetti M, Mazzolai B, et al. Soft robot arm inspired by the octopus advanced robotics[J]. Advanced Robotics, 2012, 26(7): 709-727. DOI:10.1163/156855312X626343
[6]	Lin H T, Leisk G G, Trimmer B. GoQBot: A caterpillar-inspired soft-bodied rolling robot[J]. Bioinspiration & Biomimetics, 2011, 6(2). DOI:10.1088/1748-3182/6/2/026007
[7]	Shepherd R F, Ilievski F, Choi W, et al. Multigait soft robot[J]. Proceedings of the National Academy Sciences of the United States of America, 2011, 108(51): 20400-20403. DOI:10.1073/pnas.1116564108
[8]	Fang H B, Zhang Y T, Wang K W. Origami-based earthworm-like locomotion robots[J]. Bioinspiration & Biomimetics, 2017, 12(6). DOI:10.1088/1748-3190/aa8448
[9]	Kim B, Park S, Jee C Y, et al. An earthworm-like locomotive mechanism for capsule endoscopes[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2005. DOI: 10.1109/IROS.2005.1545608.
[10]	Seok S, Onal C D, Wood R, et al. Peristaltic locomotion with antagonistic actuators in soft robotics[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2010. DOI: 10.1109/ROBOT.2010.5509542.
[11]	Ilievski F, Mazzeo A D, Shepherd R F, et al. Soft robotics for chemists[J]. Angewandte Chemie, 2011, 50(8): 1890-1895. DOI:10.1002/anie.201006464
[12]	Bar-Cohen Y. Electroactive polymer (EAP) actuators as artificial muscles: Reality, potential, and challenges[M]. 2nd ed. Bellingham, USA: SPIE, 2004.
[13]	Liu L W, Li J R, Lü X F, et al. Progress in constitutive theory and stability research of electroactive dielectric elastomers[J]. Scientia Sinica: Technologica, 2015, 45(5): 450-463.
[14]	Lampani L, Gaudenzi P. Finite element modeling for dielectric elastomer actuators (DEA)[C]//19th International Conference on Adaptive Structures and Technologies. Piscataway, USA: IEEE, 2008: 65-83.
[15]	Daerden F, Lefeber D. Pneumatic artificial muscles: Actuators for robotics and automation[J]. European Journal of Mechanical and Environmental Engineering, 2002, 1: 11-21.
[16]	Boblan I, Bannasch R, Schwenk H, et al. A human-like robot hand and arm with fluidic muscles: Biologically inspired construction and functionality[M]. Lecture Notes in Computer Science, Vol. 3139. Berlin, Germany: Springer, 2004: 160-179.
[17]	Mosadegh B, Polygerinos P, Keplinger C, et al. Pneumatic networks for soft robotics that actuate rapidly[J]. Advanced Functional Materials, 2014, 24(15): 2163-2170.
[18]	Li C Q, Rahn C D. Design of continuous backbone, cable-driven robots[J]. Journal of Mechanical Design, 2002, 124(2): 265-271.
[19]	Camarillo D B, Milne C F, Carlson C R, et al. Mechanics mode-ling of tendon-driven continuum manipulators[J]. IEEE Transactions on Robotics, 2008, 24(6): 1262-1273.
[20]	Follador M, Cianchetti M, Arienti A, et al. A general method for the design and fabrication of shape memory alloy active spring actuators[J]. Smart Materials and Structures, 2012, 21(11). DOI:10.1088/0964-1726/21/11/115029
[21]	Redmon J, Farhadi A. YOLOv3: An incremental improvement[DB/OL]. (2018-04-08)[2020-03-21]. https://arxiv.org/abs/1804.02767.