主管QQ:站内信联系

机器人基于开源的多模态语言视觉大模型2024-02-20 05:40

  近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?

  对此,ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robotics VLM,从而适用于语言交互的机器人操作任务。   OpenFlamingo 在机器人操作数据集 CALVIN 上进行了验证,实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能。随着 RT-X 数据集开放,采用开源数据预训练 RoboFlamingo 并 finetune 到不同机器人平台,将有希望成为一个简单有效的机器人大模型pipeline。论文还测试了各种不同 policy head、不同训练范式和不同 Flamingo 结构的 VLM 在 Robotics 任务上微调的表现,得到了一些有意思的结论。

  基于语言的机器人操作是具身智能领域的一个重要应用,它涉及到多模态数据的理解和处理,包括视觉、语言和控制等。近年来,视觉语言基础模型(VLMs)已经在多个领域取得了显著的进展,包括图像描述、视觉问答和图像生成等。然而,将这些模型应用于机器人操作仍然存在一些挑战,例如如何将视觉和语言信息结合起来,如何处理机器人操作的时序性等。   为了解决这些问题,ByteDance Research 的机器人研究团队利用现有的开源 VLM,OpenFlamingo,设计了一套新的视觉语言操作框架,RoboFlamingo。其中 VLM 可以进行单步视觉语言理解,而额外的 policy head 模组被用来处理历史信息。只需要简单的微调方法就能让 RoboFlamingo 适应于基于语言的机器人操作任务。   RoboFlamingo 在基于语言的机器人操作数据集 CALVIN 上进行了验证,实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能(多任务学习的 task sequence 成功率为 66%,平均任务完成数量为 4.09,基线%,平均任务完成数量为 3.06;zero-shot 任务的成功率为 24%,平均任务完成数量为 2.48,基线%,平均任务完成数量是 0.67),并且能够通过开环控制实现实时响应,可以灵活部署在较低性能的平台上。这些结果表明,RoboFlamingo 是一种有效的机器人操作方法,可以为未来的机器人应用提供有用的参考。方法

  RoboFlamingo 在各设置和指标上的性能均为最佳,说明了其具有很强的模仿能力、视觉泛化能力以及语言泛化能力。Full 和 Lang 表示模型是否使用未配对的视觉数据进行训练(即没有语言配对的视觉数据);Freeze-emb 指的是冻结融合解码器的嵌入层;Enriched 表示使用 GPT-4 增强的指令。   消融实验:

  不同的 policy head:   实验考察了四种不同的策略头部:MLP w/o hist、MLP w hist、GPT 和 LSTM。其中,MLP w/o hist 直接根据当前观测预测历史,其性能最差,MLP w hist 将历史观测在 vision encoder 端进行融合后预测 action,性能有所提升;GPT 和 LSTM 在 policy head 处分别显式、隐式地维护历史信息,其表现最好,说明了通过 policy head 进行历史信息融合的有效性。   视觉-语言预训练的影响:   预训练对于 RoboFlamingo 的性能提升起到了关键作用。实验显示,通过预先在大型视觉-语言数据集上进行训练,RoboFlamingo 在机器人任务中表现得更好。   模型大小与性能:   虽然通常更大的模型会带来更好的性能,但实验结果表明,即使是较小的模型,也能在某些任务上与大型模型媲美。   指令微调的影响:   指令微调是一个强大的技巧,实验结果表明,它可以进一步提高模型的性能。

  定性结果相较于基线方法,RoboFlamingo 不但完整执行了 5 个连续的子任务,且对于基线页执行成功的前两个子任务,RoboFlamingo 所用的步数也明显更少。

  总结本工作为语言交互的机器人操作策略提供了一个新颖的基于现有开源 VLMs 的框架,使用简单微调就能实现出色的效果。RoboFlamingo 为机器人技术研究者提供了一个强大的开源框架,能够更容易地发挥开源 VLMs 的潜能。工作中丰富的实验结果或许可以为机器人技术的实际应用提供宝贵的经验和数据,有助于未来的研究和技术发展。

  声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。举报投诉

  的、多用途的操作机。其工作的行为方式主要是通过完成沿着X、Y、Z轴上的线性运动。

  仅能在严格定义的结构化环境中执行预定指令动作,缺乏对环境的感知与应变能力,这极大地限制了

  位置的反馈。通过介绍它们的族谱大家有没有明白了解呢?深圳四元数致力于运动控制、图像与

  传感等工业自动化技术的研发和应用,产品广泛应用于印刷设备、模切设备、贴合设备、

  轴数控设备、机械手、电子加工和检测设备、激光加工设备、抛光机械生产自动化等工业控制领域。

  】是一种可以用来移动材料,零件,工具或特定装置的可以重新编程的多功能操...

  就基本上能计算开模和注塑这种简单的工作了。要替代人类的工作,还要进一步学习。

  能识别我指定的瓶子,并把它从A位置移动到B位置,关键是如何识别呢,不是很清楚,求大神指点!在此感激不尽!

  各位论坛前辈你们好,我是一名在校的即将升入大二学生,专业课暂时只学了c,电路分析基础和工程制图。我跟另外4个同学正在参加学校的

  总体任务进度的中央处理器发出位置变化请求时开始的。导航系统通过制定行程计划或轨迹以开始执行位置变化请求。行程计划需考虑可用路径、已知障碍位置、

  导向等方面的工作,特别是在那些需要重复、迅速的从图象中获取精确信息的场合。

  各种传感器和网络服务器的无线通信,建立一个不断检测、更新周围世界信息的

  的各种表达式、语法、关键词、逻辑结构和数据类型等教学内容融入到一系列循序渐进的教学

  的各种表达式、语法、关键词、逻辑结构和数据类型等教学内容融入到一系列循序渐进的教学

  本帖最后由 colorsky 于 2016-4-21 14:05 编辑 大家好,我是ColorSky。这是我的双足

  智能体合作等多项摘要 技术,具有极高的研究价值。本文设计了基于A R M 7微处理器

  分拣实训系统是为了尽快的适应各个领域的发展,能在*少的课时内高质量的完成内容

  拥有着讨人喜欢的外形。并具备有一定程度的人工智能和约一定程度的情感智商并能够和

  毕业时的作品,当时还处于入门状态,c程序写的比较菜(程序写的比较乱,仅作参考),一直想把这个六足

  (Cobot),它们都要依靠可生成大量高度可变数据的传感器。这些数据有助于构建更佳的

  :基于STM32的BLDC直流无刷电机驱动器(视频+硬件)中文名: 工业

  寻找视野中的水果,并移动到相应的位置,由机械臂进行采摘水果并放到指定的位置。

  ` 本帖最后由 大连云港 于 2015-1-19 11:02 编辑 工业

  为主导的生产模式转变。但是,随着科技的发展和进步,原有单纯采用通过示教和预编程来实现自动化工作的

  的设计体验支持LEGO MINDSTORMS NXT作为产品标准功能。即使没有ECRobot NXT,您也可以玩乐高游戏

  项目,基本都包含了原理图、代码、论文资料等,速度上车学习起来吧! 一、

  为核心,将机械、气动、运动控制、变频调速、PLC控制技术有机地进行整合,结构

  为核心,将机械、气动、运动控制、变频调速、编码器技术、PLC控制技术有机地进行

  系统的坐标关系如图1 所示。其中O-X Y Z 为世界坐标系; O c - X cY cZ c 为摄像机

  已经走到行业的前沿, 他们的主要特点是能够安全地协助人类工作。在网上有很多人谈论它们,但你认线

  已经走到行业的前沿, 他们的主要特点是能够安全地协助人类工作。在网上有很多人谈论它们,但你认线年,很多人爱它们只是处于好奇心。在2012年,

  ,在生产过程中,完成产品的组装、抓取和放置,不仅可以大幅提高生产效率,而且还能提高准确度,随之提高产品的合格率,降低生产成本。因此,

  ` 本帖最后由 星希望532 于 2015-12-2 20:06 编辑 作品名称:基于微型操作系统的智能

  自主导航定位算法的研发,主要包括基于深度相机或激光雷达、IMU、里程计等

  系统中一个重要的子系统,也越来越受到人们的重视。它涉及了图像处理、模式识别和

  系统包括了照明系统、镜头、摄像系统和图像处理系统。对于每一个应用,我们都需要考虑系统的运行速度和图像的处理速度、使用彩色还是

  纠偏位置,然后下去吸,这样能保证每次取料位置一致。放料的时候不用管,只用走一个固定的示教点即可。先抓再拍则因为每次吸起电芯

  ,没有显示屏,所以没有GUI的问题。个子小(100mm*100mm*100mm以内),重量轻

  智能体合作等多项摘要 技术,具有极高的研究价值。本文设计了基于A R M 7微处理器的集中

  数据服务器就会发生问题。ROS的点对点设计以及服务和节点管理器等机制可以分散由计算机

  和AI技术,能够适应不确定的工作环境,具有极高的灵活度、精确性和安全性,可以极大的增强生

  ,能够胜任10KG的有效负载的自动化任务,工作半径可达1333mm,适用于大范围、大负载的作业任务,可应用于工厂自动化、汽车、3C

  ,能够胜任10KG的有效负载的自动化任务,工作半径可达1333mm,适用于大范围、大负载的作业任务,可应用于工厂自动化、汽车、3C

  ,能够胜任10KG的有效负载的自动化任务,工作半径可达1333mm,适用于大范围、大负载的作业任务,可应用于工厂自动化、汽车、3C、医疗、电力、科研、教育等多个行业、

  ,只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robotics VLM,从而适用于