快捷导航
关于我们
机械自动化
机械百科
联系我们

联系我们:

0431-81814565
13614478009

地址:长春市高新开发区超越大街1188号
传真:0431-85810581
信箱:jltkxs@163.com

机械自动化
当前位置:j9·九游会俱乐部 > 机械自动化 > div>

浙江大学StaMo实现静态图像生成机械人动做

发布时间:2026-02-02 12:28

  

  这项由浙江大学的宇、舒久和、陈辉、李泽举、赵灿宇等研究人员,结合南京大学的杨建阁和科技大学的高申园配合完成的冲破性研究,颁发于2025年10月的arXiv预印本办事器(论文编号:arXiv!2510。05057v1),为机械人进修活动技术斥地了一条全新的道。感乐趣的读者能够通过该编号正在arXiv平台查询完整论文。保守不雅念中,想要机械人若何挪动和操做物体,就像教孩子学骑自行车一样,必需让他们旁不雅大量的动做视频,从持续的画面中进修若何从一个动做过渡到下一个动做。然而,浙江大学的研究团队发觉了一个令人惊讶的现象:就像魔术师只需要看到魔术的起头和竣事形态就能揣度出整个表演过程一样,机械人也能够仅仅通过察看静态图片来学会复杂的活动技术。研究团队开辟的StaMo系统就像一位极其伶俐的翻译官,它可以或许将复杂的机械人操做场景压缩成仅仅两个数字令牌(能够理解为两个包含丰硕消息的数字暗码),然后通过这两个令牌之间的差别,天然而然地生成出毗连两个形态之间的完整活动轨迹。这就比如看到一个苹果从树上到地面的两张照片,就能完满揣度出苹果下落的整个过程,包罗速度变化、轨迹弧度等所有细节。更令人惊讶的是,这种方式不只工做效率极高,还表示出了强大的通用性。正在LIBERO机械人操做基准测试中,集成了StaMo的系统机能提拔了14。3%,而正在实正在世界的机械人尝试中,成功率更是提高了30%。这种改良就像给汽车换了一个更高效的引擎,不只跑得更快,油耗还更低。这项研究的焦点立异正在于挑和了一个持久以来被视为理所当然的假设:进修活动必需依赖于察看持续的动做序列。研究团队证明,通过建立脚够丰硕和紧凑的形态暗示,机械人能够仅仅通过静态图像就控制复杂的动态行为。这种方式不只避免了视频数据处置的复杂性和计较承担,还展示了更好的泛化能力和可注释性。长久以来,教机械人进修动做就像教人学跳舞一样,大师都认为必需频频旁不雅完整的跳舞视频,从持续的动做中捕获节奏和流利性。正在机械人范畴,这种思表现为利用大量的视频数据来锻炼模子,让机械人从一帧帧持续的画面中进修若何从当前形态过渡到下一个形态。然而,这种方式面对着诸多挑和。就像试图从一部快进的片子中进修复杂情节一样,视频中的动做往往包含大量的噪声和变化,导致机械人学到的是一种恍惚的平均动做,而不是切确的操做技术。此外,处置视频数据需要复杂的时序建模,这就像需要一台超等计较机来阐发每一帧画面之间的细微不同,计较成本极其昂扬。浙江大学的研究团队另辟门路,提出了一个令人耳目一新的概念:若是我们可以或许建立出脚够切确和紧凑的形态指纹,那么仅仅通过比力两个静态时辰的指纹差别,就可以或许揣度出毗连这两个时辰的完整活动轨迹。这就像一位经验丰硕的侦探,仅仅通过察看犯罪现场的之前和之后形态,就能沉构出整个事务的发生过程。这种方式的环节正在于找到一种既极端紧凑又充实表达的形态暗示方式。研究团队的StaMo系统可以或许将一张包含复杂机械人操做场景的图像压缩成仅仅两个1024维的数字向量,这相当于将一部百科全书的内容浓缩成两个消息密度极高的超等句子。更奇异的是,当我们计较这两个超等句子之间的差别时,获得的成果天然而然地代表了从一个形态转换到另一个形态所需的活动消息。要理解StaMo的工做道理,我们能够用照片压缩的类比来申明。当我们用手机拍摄一张高清照片时,手机遇从动将几兆字节的原始图像数据压缩成几百KB的JPEG文件,但主要的视觉消息却几乎没有丢失。StaMo的工做道理取此雷同,但它要做的工作愈加复杂和精巧。StaMo系统由两个焦点组件形成:一个超等压缩器和一个智能沉建器。超等压缩器的使命是将包含机械人、物体、等复杂消息的图像成两个极其紧凑的数字令牌。这个过程就像将一本厚厚的百科全书提两句话,但这两句话却包含了沉建整本书所需的全数环节消息。这个压缩器采用了一种叫做DINOv2的先辈视觉编码手艺,它就像一位锻炼有素的艺术鉴赏家,可以或许灵敏地识别图像中的环节特征和空间关系。然后,这些特征被进一步压缩成两个高密度的消息包。研究团队发觉,仅仅两个1024维的向量就脚以捕获复杂机械人操做场景中的所相关键消息,这种压缩比令人惊讶。智能沉建器则基于扩散变换器手艺建立,这是当前最先辈的图像生成手艺之一。它的感化就像一位身手精深的画家,可以或许按照那两个紧凑的消息包,从头绘制出原始的复杂场景。更主要的是,这个沉建器不只可以或许沉现静态的场景,还现含地舆解了场景中各个元素之间的物理关系和交互逻辑。当研究团队阐发这两个压缩令牌时,他们发觉了一个令人欣喜的现象:两个分歧时辰的令牌之间的差别,天然而然地编码了从一个形态过渡到另一个形态所需的活动消息。这就像两幅画做之间的差别可以或许告诉我们画家正在创做过程中做了什么改动一样。通过简单的数算(两个向量相减),StaMo就可以或许提取呈现含的活动指令。保守的机械人活动进修方式面对一个底子性的矛盾:要么选择表达能力强但计较复杂的方式,要么选择计较简单但表达能力无限的方式。这就像正在选择交通东西时,要么选择功能强大但耗油的越野车,要么选择省油但载沉无限的小轿车,很难找到一个完满的均衡点。StaMo巧妙地处理了这个持久搅扰研究者的问题。它的形态暗示既极端紧凑(仅利用两个向量),又具有丰硕的表达能力(可以或许沉建复杂的视觉场景)。这种设想使得StaMo可以或许同时饰演两个脚色:它既是一个高效的形态描述器,可以或许切确描绘机械人和的当前情况;又是一个智能的活动生成器,可以或许通过形态差别揣度出合理的活动轨迹。更令人印象深刻的是StaMo的泛化能力。研究团队发觉,正在模仿中锻炼的StaMo模子可以或许间接使用到实正在世界的机械人系统中,无需额外的调整或从头锻炼。这种跨域顺应能力就像一个正在电子逛戏中学会开车的人,可以或许间接正在现实中驾驶实正的汽车一样奇异。尝试成果显示,StaMo学到的活动暗示具有强烈的可注释性。研究人员能够通过可视化的体例察看到,当机械人需要施行抓取使命时,响应的活动向量会指向物体的标的目的;当需要放置物体时,活动向量会指向方针。这种可注释性对于机械人系统的调试和优化具有主要价值。为了验证StaMo方式的无效性,研究团队设想了一系列全面而严酷的尝试。这些尝试就像一场细心放置的技术大赛,从多个角度测试StaMo的能力和潜力。正在仿实测试中,研究团队利用了LIBERO基准测试平台,这是一个特地为评估机械人操做技术而设想的尺度化测试。尝试成果显示,集成了StaMo的OpenVLA模子正在四个分歧的使命类别中都取得了显著的机能提拔。具体来说,正在空间推理使命中,成功率从80。2%提拔到92。3%;正在物体操做使命中,从81。3%提拔到92。5%;正在方针导向使命中,从75。8%提拔到86。4%;正在长序列使命中,从49。7%提拔到75。1%。这些提拔幅度就像一个学生的测验成就从合格线跃升到优良程度。更值得留意的是,StaMo的计较效率几乎没有额外开销。保守的UniVLA模子运转频次为2。65Hz,基准的OpenVLA为4。16Hz,而集成StaMo的版本仍能维持4。02Hz的高效率。这意味着StaMo正在大幅提拔机能的同时,几乎没有添加计较承担,这就像给汽车安拆了一个既提高动力又不添加油耗的奇异安拆。正在实正在世界尝试中,研究团队设想了六个具有代表性的机械人使命,包罗三个短期使命和三个持久使命。短期使命包罗抓取指定玩具、将玩具放入篮子和打开抽屉;持久使命则包罗将所有杯子放入篮子、将玩具放入抽屉并封闭抽屉、以及按大小挨次堆叠杯子。这些使命笼盖了日常糊口中常见的机械人操做场景。尝试成果令人振奋。正在短期使命中,根本OpenVLA的平均成功率为30%,而集成StaMo的版本达到了72%,这相当于从三次操做成功一次提拔到每十次操做成功七次。正在更具挑和性的持久使命中,改良愈加显著:根本模子的成功率仅为20%,而StaMo版本达到了62%,提拔了三倍以上。现代人工智能的一个主要特征是数据饥渴:模子的机能往往跟着锻炼数据的添加而持续改善。StaMo正在这方面表示出了优良的可扩展性,就像一块干燥的海绵可以或许接收越来越多的水分并变得愈加丰满。研究团队逐渐扩展了锻炼数据的规模和多样性。他们起首利用根本的仿实数据进行锻炼,然后添加了更多样化的仿实场景,接着引入了实正在世界的机械人数据,最初以至包含了人类自视角的演示视频。尝试成果显示,跟着数据规模的扩大,StaMo的机能持续稳步提拔,没有呈现饱和或机能下降的迹象。出格值得关心的是StaMo对跨域数据的顺应能力。当研究团队将人类自视角的演示视频插手锻炼数据时,机械人的操做成功率进一步提拔。这表白StaMo可以或许从分歧类型的视觉数据中提取通用的活动学问,就像一个多言语进修者可以或许从分歧言语中理解类似的概念和逻辑。正在线性探测尝试中,研究团队验证了StaMo学到的活动暗示的质量。他们利用一个简单的多层器来预测机械人的步履序列,仅仅基于StaMo生成的活动向量。成果显示,StaMo的活动暗示正在分歧的预测时间范畴内都较着优于其他方式,包罗基于像素差别的基线方式和最先辈的LAPA方式。StaMo的成功不是偶尔的,而是成立正在细心设想的手艺架构之上。整个系统的设想哲学能够用少便是多来归纳综合:通过极端精简的暗示形式承载最丰硕的消息内容。正在编码器设想方面,StaMo采用了分层压缩的策略。起首,DINOv2模子提取图像的高级视觉特征,这些特征曾经包含了丰硕的语义消息。然后,一个轻量级的变换器收集进一步将这些特征压缩成两个1024维的向量。这种设想就像一个细密的过滤系统,逐层去除冗余消息,保留最焦点的内容。解码器部门利用了扩散变换器手艺,这是当前最先辈的生成模子之一。取保守的VAE解码器比拟,扩散模子具有更强的生成能力和更好的锻炼不变性。研究团队巧妙地操纵了预锻炼的Stable Diffusion 3模子的强大先验学问,这就像坐正在巨人的肩膀上,可以或许看得更远。正在锻炼策略方面,StaMo利用了流婚配方针函数,这是一种比保守扩散模子愈加高效的锻炼方式。流婚配可以或许间接进修从噪声到方针图像的最优传输径,避免了保守扩散模子中的迭代去噪过程,大大提高了锻炼和推理效率。丧失函数的设想也颇具匠心。研究团队连系了沉建丧失和预测丧失,此中沉建丧失确保编码器可以或许保留脚够的消息来沉建原始图像,而预测丧失则激励模子进修有用的动态消息。这种多方针优化策略就像正在烹调时同时考虑口胃和养分,确保最终产物既甘旨又健康。为了更好地舆解StaMo的价值,我们需要将其取现无方法进行对比。正在机械人活动进修范畴,次要存正在两类方式:基于视频的方式和基于形态的方式。基于视频的方式,如LAPA和ATM,虽然可以或许捕获时序消息,但面对着计较复杂度高、数据需求量大、容易遭到噪声影响等问题。这就像试图从一部快进的片子中进修复杂的情节,往往会错过主要的细节或被无关的消息干扰。基于形态的方式虽然计较效率高,但凡是缺乏脚够的表达能力来编码复杂的场景消息。保守的形态暗示方式要么过于简单(如关节角度),要么过于冗余(如原始图像像素),很难正在紧凑性和表达性之间找到均衡。StaMo的立异正在于找到了这个均衡点。它既避免了视频方式的复杂性,又降服了保守形态方式的局限性。通细致心设想的编码器,StaMo可以或许将复杂的视觉场景压缩成极其紧凑的暗示,同时保留所相关键消息。正在共锻炼尝试中,StaMo展示出了显著的劣势。当利用不异数量的机械人演示数据时,StaMo可以或许无效操纵大量的无标签视频数据来提拔机能。具体来说,仅利用一个机械人演示的基线%,而插手四个StaMo生成的伪动做序列后,成功率提拔到84。6%,这种改良幅度远跨越其他合作方式。StaMo的手艺冲破不只具有学术价值,更主要的是它为机械人手艺的现实使用斥地了新的可能性。这种方式的通用性和效率使得它无望正在多个范畴发生主要影响。正在家庭办事机械人范畴,StaMo能够显著降低机械人进修新使命的成本和时间。保守方式需要为每个新使命收集大量的演示视频,而StaMo只需要少量的静态图像就能学会响应的操做技术。这就像从需要旁不雅完整讲授视频到仅需要看几张示企图就能学会新技术。正在工业从动化范畴,StaMo的快速顺应能力出格有价值。当出产线需要处置新产物或改变操做流程时,保守方式往往需要从头锻炼整个系统,耗时耗力。大大提高了出产线的矫捷性。正在医疗机械人范畴,StaMo的切确性和可注释性尤为主要。医疗操做往往要求极高的精度和可预测性,StaMo生成的活动轨迹不只精确,并且能够被人类专家理解和验证,这为平安的医疗机械人使用奠基了根本。StaMo的可扩展性也为大规模机械人摆设供给了可能。跟着越来越多的视觉数据被收集和处置,StaMo模子的机能会持续改善,构成一个正向的反馈轮回。这种特征使得它出格适合于需要大规模摆设的使用场景,如仓储物流、洁净办事等。虽然StaMo取得了令人注目的,但研究团队也坦诚地指出了当前方式的一些局限性和将来的改良标的目的。当前StaMo正在处置需要细密操做的使命时仍有改良空间。正在实正在世界尝试中,研究团队察看到次要的失败模式发生正在需要切确抓取的场景中,预测的动做有时会导致机械臂下降深度不脚。这个问题就像一个初学者正在进修利用筷子时,虽然大致动做准确,但正在精细节制方面还需要更多。另一个挑和是若何处置愈加复杂和动态的。当前的尝试次要正在相对静态的中进行,若何让StaMo顺应快速变化的动态(如挪动的方针对象)仍需要进一步研究。正在计较效率方面,虽然StaMo曾经相当高效,但研究团队认为还有进一步优化的空间。出格是正在挪动机械人等资本受限的平台上,若何进一步削减计较需求而不影响机能是一个主要的研究标的目的。数据多样性也是一个需要关心的方面。虽然StaMo展示了优良的泛化能力,但为了正在更普遍的使用场景中阐扬感化,需要正在更多样化的和使命中进行锻炼和验证。研究团队还指出,将StaMo取其他先辈手艺连系可能会发生更大的价值。例如,取狂言语模子连系能够实现更天然的人机交互;取强化进修连系能够实现更智能的决策制定;取传感器融合手艺连系能够处置更复杂的使命。StaMo的成功不只仅是一个手艺冲破,它还为我们从头思虑进修和暗示的素质供给了新的视角。这项研究挑和了一个持久以来被普遍接管的不雅念:进修动做必需依赖于察看动做序列。从认知科学的角度来看,StaMo的发觉取人类进修的某些特征相呼应。人类往往可以或许通过察看静态的之前和之后形态来揣度出两头的过程,这种能力被称为推理。StaMo正在某种程度上模仿了这种认知能力,通过比力分歧形态来揣度出毗连它们的动做序列。从消息理论的角度来看,StaMo的成功表白,动做消息可能比我们之前认为的更容易被压缩和暗示。保守概念认为动做是高度复杂和多变的,需要大量的数据来描述。但StaMo证了然,通过恰当的暗示方式,复杂的动做能够被编码成简练的数学形式。这种发觉对于人工智能的成长具有主要。它提醒我们,该当更多地关心若何建立无效的暗示,而不是简单地添加模子的复杂度或数据的规模。好的暗示方式往往可以或许以更少的资本实现更好的机能。StaMo的成功也为其他范畴的研究供给了。正在天然言语处置范畴,研究者们正正在摸索若何通过静态的文本暗示来捕获动态的语义关系。正在计较机视觉范畴,若何从静态图像中揣度动态过程也是一个活跃的研究标的目的。StaMo的方可能为这些范畴供给有价值的参考。说到底,StaMo的研究告诉我们,机械进修的鸿沟远比我们想象的要宽广。通过巧妙的设想和深切的思虑,我们能够找到愈加文雅和高效的处理方案。这项研究不只推进了机械人手艺的成长,更主要的是为我们思虑智能系统的素质供给了新的视角。对于通俗人来说,StaMo代表的是机械人手艺向更智能、更高效、更适用标的目的成长的一个主要里程碑。跟着这种手艺的不竭成熟和普及,我们有来由等候一个机械人帮手可以或许更快学会新技术、更好理解人类需求的将来。这项由浙江大学团队从导的研究,无疑为这个将来的实现铺平了道。有乐趣深切领会手艺细节的读者能够通过arXiv!2510。05057v1查询完整的研究论文。A:StaMo就像一个超等压缩专家,它能将包含机械人、物体、等复杂消息的图像成两个消息密度极高的数字令牌。这两个令牌虽然看起来简单,但包含了沉建整个场景所需的环节消息。更奇异的是,当我们计较两个分歧时辰令牌之间的差别时,这个差别天然就代表了从一个形态到另一个形态所需的活动消息,就像看到苹果从树上到地面两张照片的差别,就能揣度出完整的下落过程。A:保守方式就像让机械人看完整的动做片子来进修,不只需要处置大量持续画面,还容易被视频中的噪声和变化干扰,学到的往往是恍惚的平均动做。StaMo则像是让机械人看之前和之后两张环节照片就能揣度整个过程,不只避免了复杂的视频处置,学到的动做还更切确。尝试显示,StaMo正在LIBERO测试中机能提拔14。3%,正在实正在机械人尝试中成功率提高30%,而计较开销几乎没有添加。A:StaMo手艺曾经正在实正在机械人上成功验证,可以或许完成抓取玩具、打开抽屉、堆叠杯子等日常使命。因为这种方习效率高、顺应性强,估计正在将来几年内就可能呈现正在家庭办事机械人中。出格是正在工业从动化范畴,StaMo的快速进修能力能够让出产线更矫捷地处置新产物,这种使用可能会更早实现。不外,要让机械人帮手实正走进千家万户,还需要正在细密操做、复杂顺应等方面进一步完美。