1.本发明属于装配机器人技术领域,基于及系尤其涉及基于相似特征空间融合的特征统机器人轴孔装配搜索方法及系统。
背景技术:
2.本部分的空间陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。融合
3.装配机器人已广泛应用于制造业,器人尤其是轴孔装配轴孔装配操作。然而,搜索对于更复杂的基于及系操作,在实现更高的特征统搜索和定位精度方面仍然存在挑战。进一步推进搜索策略有望提高装配操作的空间成功率,减少人为干预,融合降低成本,器人最终实现高精度装配的轴孔装配全自动化。
4.搜索策略依赖于来自传感器的搜索大量数据,因此,基于及系传感器的数量和类型、数据处理算法以及传感器和搜索策略的集成是决定机器人装配中鲁棒性、稳定性和搜索精度的主要因素;除此之外,轴孔装配的类型多种多样,导致找到一种通用的搜索策略十分困难。
技术实现要素:
5.为克服上述现有技术的不足,本发明提供了基于相似特征空间融合的机器人轴孔装配搜索方法及系统,在特征迁移学习的框架下,基于搭建的视触融合轴孔装配平台,提取不同轴孔装配任务的搜索特征空间,基于mmd算法构建源任务和目标任务间的相似特征空间,结合力控与策略学习,能够适应多种类型的轴孔装配以及电子连接件装配,提高机器人装配的泛化能力。
6.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
7.本发明第一方面提供了基于相似特征空间融合的机器人轴孔装配搜索方法;
8.基于相似特征空间融合的机器人轴孔装配搜索方法,包括:
9.构建特征提取模型,并用采集的轴孔装配数据对特征提取模型进行训练;
10.基于训练后的特征提取模型,分别从已有搜索策略的源装配任务和无搜索策略的目标装配任务中,提取轴孔装配图像特征和轴孔装配位置特征,得到源任务特征空间和目标任务特征空间;
11.基于最大均值差异算法,计算源任务特征空间和目标任务特征空间的均值距离,组建特征空间映射,构建不同装配任务的相似特征空间;
12.基于构建的相似特征空间,采用pid力控与近端策略优化算法相结合的方法对搜索策略进行学习优化,得到目标装配任务的搜索策略。
13.进一步的,所述轴孔装配数据的构建,基于视触融合的轴孔装配平台;
14.所述轴孔装配数据,包括相机采集的轴孔装配状态图像、力传感器采集的力信息和机械臂末端位姿。
15.进一步的,所述轴孔装配平台,包括x方向和y方向的两个相机、力传感器、机械臂、轴孔装配工作台;
16.进一步的,所述特征提取模型,以轴孔装配状态图像、力信息和机械臂末端位姿为输入,生成并输出轴孔装配图像特征和轴孔装配位置特征。
17.进一步的,所述特征提取模型,具体包括图像分割网络和位置特征提取模块;
18.所述图像分割网络,基于u-net构建,对输入的轴孔装配状态图像进行图像分割与特征提取降维,得到轴孔装配图像特征;
19.所述位置特征提取模块,是提取机械臂的末端位姿和轴孔装配过程中产生的接触力/力矩,作为轴孔装配位置特征。
20.进一步的,所述特征空间映射,具体为:
[0021][0022]
其中,ns和nd分别为源域和目标域的样本个数,g(r)所求的距离为源任务特征空间rs和目标任务特征空间rd之间的最大均值差异,并且源任务特征空间rs和目标任务特征空间rd满足:
[0023]
rd=rs+g(r)
[0024]
进一步的,所述采用pid力控与近端策略优化算法相结合的方法对搜索策略进行学习优化,具体为:
[0025]
根据轴孔装配状态获取装配所需的动作;
[0026]
再经由pid力控控制机械臂在xy平面对孔进行搜索,保证搜索时轴和孔边缘的接触力保持恒定;
[0027]
判断当前状态是否满足搜索成功/失败的条件以决定结束搜索。
[0028]
本发明第二方面提供了基于相似特征空间融合的机器人轴孔装配搜索系统。
[0029]
基于相似特征空间融合的机器人轴孔装配搜索系统,包括提取模型构建模块、特征空间提取模块、相似空间构建模块和策略学习优化模块;
[0030]
提取模型构建模块,被配置为:构建特征提取模型,并用采集的轴孔装配数据对特征提取模型进行训练;
[0031]
特征空间提取模块,被配置为:基于训练后的特征提取模型,分别从已有搜索策略的源装配任务和无搜索策略的目标装配任务中,提取轴孔装配图像特征和轴孔装配位置特征,得到源任务特征空间和目标任务特征空间;
[0032]
相似空间构建模块,被配置为:基于最大均值差异算法,计算源任务特征空间和目标任务特征空间的均值距离,组建特征空间映射,构建不同装配任务的相似特征空间;
[0033]
策略学习优化模块,被配置为:基于构建的相似特征空间,采用pi d力控与近端策略优化算法相结合的方法对搜索策略进行学习优化,得到目标装配任务的搜索策略。
[0034]
本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于相似特征空间融合的机器人轴孔装配搜索方法中的步骤。
[0035]
本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于相似特征空间融合的机器人轴孔装配搜索方法中的步骤。
[0036]
以上一个或多个技术方案存在以下有益效果:
[0037]
本发明针对轴孔装配任务中的孔搜索问题,搭建基于视触融合的轴孔装配平台,基于图像、接触力、末端位姿构建搜索特征空间;使用u-net图像分割网络对轴孔特征进行提取;采用迁移学习的方法构建不同轴孔装配任务搜索特征空间之间的映射关系;搜索策略方面,采策略迁移方法实现不同轴孔搜索阶段的策略学习,结合力控与策略学习,能够适应多种类型的轴孔装配以及电子连接件装配,提高机器人装配的泛化能力。
[0038]
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0039]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0040]
图1为第一个实施例的方法框架图。
[0041]
图2为第一个实施例的轴孔装配平台结构图。
[0042]
图3为第一个实施例的标注结果示意图。
[0043]
图4为第一个实施例的u-net网络结构图。
[0044]
图5为第一个实施例的图像特征提取结果示意图。
[0045]
图6为第一个实施例的近端策略优化算法流程图。
具体实施方式
[0046]
下面结合附图与实施例对本发明作进一步说明。
[0047]
实施例一
[0048]
本实施例公开了基于相似特征空间融合的机器人轴孔装配搜索方法;
[0049]
图1为机器人轴孔装配搜索方法的框架图,如图1所示,基于相似特征空间融合的机器人轴孔装配搜索方法,包括:
[0050]
步骤s1:构建特征提取模型,并用采集的轴孔装配数据对特征提取模型进行训练。
[0051]
本实施例基于视触融合的轴孔装配平台进行数据采集,图2是轴孔装配平台的结构图,如图2所示,轴孔装配平台包括两个工业相机(x方向和y方向各一个)、六维力传感器、机械臂、轴孔装配工作台;轴孔装配过程中,工业相机采集轴孔装配状态图像,力传感器采集力信息(即接触力/力矩)和机械臂末端位姿。
[0052]
特征提取模型,用于从轴孔装配状态图像、力信息和机械臂末端位姿组成的轴孔装配数据中,提取轴孔装配图像特征和轴孔装配位置特征,所以,特征提取模型包括图像分割网络和位置特征提取模块。
[0053]
图像分割网络,基于图像分割的图像特征提取,具体为:
[0054]
(1)采用随机搜索策略对源装配任务进行轴孔搜索,通过工业相机采集轴孔装配状态图像,对所获取的图像进行轴孔标注,构建轴孔数据集;标注结果如图3所示:
[0055]
(2)构建图像分割网络(u-net网络),网络结构如图4所示,基于构建的轴孔数据集对u-net网络进行预训练,得到训练好的图像分割模型。
[0056]
u-net神经网络左侧可视为一个编码器,右侧可视为一个解码器;通过四个下采样
提取目标特征,再通过四个上采样逐个对其像素点进行分类;编码器有四个子模块,每个子模块包含两个卷积层,每个子模块之后有一个通过max pool实现的下采样层。解码器包含四个子模块,分辨率通过上采样操作依次上升,直到与输入图像的分辨率一致;该网络使用了跳跃连接,将上采样结果与编码器中具有相同分辨率的子模块的输出进行连接,作为解码器中下一子模块的输入。
[0057]
(3)工业相机采集当前轴孔装配状态图像,经由训练后的u-net网络提取装配图像特征i,i为一维数组,图像特征提取的结果图5所示,依次为:图像分割前、分割出的孔和分割出的轴。
[0058]
对目标装配任务进行图像分割时,固定源装配任务预训练所得到的u-net网络模型中的权重参数,仅放开输入层和输出层的权重参数进行训练,实现对u-net网络的重用,提高数据利用效率,降低训练成本。
[0059]
位置特征提取模块,基于六维力传感器,提取位置特征,具体为:
[0060]
(1)借助轴孔装配平台中的六维力传感器,采集轴孔装配过程中机械臂的末端位姿p=(p
x
,py,pz,o
x
,oy,oz)和产生的接触力/力矩γ=(f,m),p和o分别为平移和旋转分量,x,y,z表示基本坐标系的坐标轴,f为末端接触力,m为接触力矩
[0061]
(2)将机械臂的末端位姿p进行标准化处理,使得位姿和力/力矩的量级相同,标准化后的位姿和力/力矩为位置特征,标准化处理方式为:
[0062][0063]
其中,p
min
为空间中机械臂所能到达的最小边界值,p
max
为空间中机械臂所能到达的最大边界值,p'为处理后的机械臂末端位姿。
[0064]
步骤s2:基于训练后的特征提取模型,分别从已有搜索策略的源装配任务和无搜索策略的目标装配任务中,提取轴孔装配图像特征和轴孔装配位置特征,得到源任务特征空间和目标任务特征空间。
[0065]
基于图像分割提取出轴孔装配图像特征空间f,同时,力传感器和机械臂末端位姿组成轴孔装配位置特征空间p,两者组成轴孔装配中的特征空间r,用公式表示为:
[0066]
r=f
×
p
[0067]
图像特征空间f为原始图像经由u-net网络处理之后进行特征提取降维得到的一维数组。
[0068]
步骤s3:基于最大均值差异算法,计算源任务特征空间和目标任务特征空间的均值距离,组建特征空间映射,构建不同装配任务的相似特征空间。
[0069]
由处理后得到的图像特征和位置特征构成装配所需的特征空间r;对于不同的轴孔装配任务,其特征空间各不相同;根据机械臂作业空间以及轴孔装配搜索工艺构建相似特征空间,在相似特征空间中对源装配任务进行搜索策略学习。
[0070]
基于已有搜索策略的源装配任务xs和无搜索策略的目标装配任务xd,并构建如下特征映射g(r),公式为:
[0071]
[0072]
其中,ns和nd分别为源域和目标域的样本个数,g(r)所求的距离为源任务特征空间rs和目标任务特征空间rd之间的最大均值差异(mmd)。并且源任务特征空间rs和目标任务特征空间rd满足:
[0073]
rd=rs+g(r)
[0074]
源装配任务和目标装配任务经过特征映射建立起特征空间之间的联系,从而实现源域到目标域之间的特征迁移。
[0075]
步骤s4:基于构建的相似特征空间,采用pid力控与近端策略优化算法相结合的方法对搜索策略进行学习优化,得到目标装配任务的搜索策略。
[0076]
采用近端策略优化算法(ppo)获取轴孔搜索策略,ppo作为一种在线更新策略,需要智能体不断与轴孔装配环境交互,利用交互产生的决策序列τ=(s0,a0,r0,s1,a1,r1,
…
,s
t
,a
t
,r
t
)实现对ppo策略学习模型的更新,s,a,r分别表示状态、动作以及奖励值,t为最大时间步,算法1给出了更新流程,图6是近端策略优化算法流程,s
t
=(i,p,γ)表示t时刻轴孔装配状态,i∈f为经由u-net网络处理之后的图像特征,p∈p为机械臂的末端位姿,γ=(f,m)∈p为轴孔装配过程中产生的接触力/力矩,具体步骤为:
[0077]
(1)actor网络根据状态s
t
获取装配所需的动作a
t
=(δ
x
,δy),δ
x
,δy为机械臂在xy平面的位移。
[0078]
(2)再经由pid力控控制机械臂在xy平面对孔进行搜索,保证搜索时轴和孔边缘的接触力保持恒定。
[0079]
(3)判断当前状态是否满足搜索成功/失败的条件以决定结束搜索。
[0080]
判断搜索成功的条件:在设置的最大搜索步骤内,接触力发生突变;两相机中所得的孔平均面积小于最小面积&xy方向偏移量均在间隙范围内(0,1mm)。
[0081]
判断搜索失败的条件:超出所设置的最大搜索步骤或者xy方向偏移量超出初始偏移量的2cm。
[0082]
算法1更新流程
[0083]
[0084][0085]
决策序列τ=(s0,a0,r0,s1,a1,r1,
…
,s
t
,a
t
,r
t
)中的r
t
为评价当前状态的奖励值,奖励函数设置为连续的函数,以减少装配时间、加快装配速度,具体表示为:
[0086]
r1=-k/k
max
[0087]
r2=1-(ar1+ar2)/2ar
max
[0088]
其中,r1表示装配所用步数和最大装配步数的比值为负奖励,k为当前所用装配步数,k
max
为所设置的最大装配步数;r2表示检测到的孔的面积与最大轴孔之间面积的比值为正奖励,ar1和ar2分别为两个相机拍摄图片图像分割后得到的孔面积,ar
max
为相机中检测到的孔的最大面积。
[0089]
为提高数据的利用效率,将学习优化过程中交互所产生的策略轨迹τ=(s0,a0,r0,s1,a1,r1,
…
,s
t
,a
t
,r
t
)存入预先设置经验池中,t为每次更新所需的数据数目;在加入经验池的基础上,将交互数据与经验数据结合来得到新的策略轨迹τ'=(s0,a0,r0,
…
,sn,an,rn,
…
,s
t
,a
t
,r
t
),其中,交互数据和经验数据的比例为ν=t-n/n,具体流程如图6所示;根据
组合得到的策略轨迹,使用重要性采样来实现对当前策略的更新,其中,权重b
t
(φ)按下列公式计算:
[0090]
其中,π
φ
(a
t
|s
t
)、分别为新旧actor网络根据当前状态s
t
输出的正态分布。为了控制策略的更新幅度,ppo算法采用截断的方法处理目标函数,公式为:
[0091][0092]
其中,clip(b
t
(φ),1-ε,1+ε)将重要性采样权重b
t
(φ)约束在(1-ε,1+ε)范围内,ε为超参数,a
t
为优势函数,具体为:
[0093][0094][0095]
其中,为时间步时,critic网络对模型的评价,γ为衰减因子,用来减少上一时间步的评价对当前评价的影响。
[0096]
实施例二
[0097]
本实施例公开了基于相似特征空间融合的机器人轴孔装配搜索系统;
[0098]
基于相似特征空间融合的机器人轴孔装配搜索系统,包括提取模型构建模块、特征空间提取模块、相似空间构建模块和策略学习优化模块;
[0099]
提取模型构建模块,被配置为:构建特征提取模型,并用采集的轴孔装配数据对特征提取模型进行训练;
[0100]
特征空间提取模块,被配置为:基于训练后的特征提取模型,分别从已有搜索策略的源装配任务和无搜索策略的目标装配任务中,提取轴孔装配图像特征和轴孔装配位置特征,得到源任务特征空间和目标任务特征空间;
[0101]
相似空间构建模块,被配置为:基于最大均值差异算法,计算源任务特征空间和目标任务特征空间的均值距离,组建特征空间映射,构建不同装配任务的相似特征空间;
[0102]
策略学习优化模块,被配置为:基于构建的相似特征空间,采用p i d力控与近端策略优化算法相结合的方法对搜索策略进行学习优化,得到目标装配任务的搜索策略。
[0103]
实施例三
[0104]
本实施例的目的是提供计算机可读存储介质。
[0105]
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例一所述的基于相似特征空间融合的机器人轴孔装配搜索方法中的步骤。
[0106]
实施例四
[0107]
本实施例的目的是提供电子设备。
[0108]
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的基于相似特征空间融合的机器人轴孔装配搜索方法中的步骤。
[0109]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本发明的保护范围之内。