该机器人可以在未开发的海域进行研究

2020-02-07 16:44:39 来源：作者：

麻省理工学院和伍兹霍尔海洋学研究所(WHOI)的研究人员发明了一种自主的机器人系统，可以有效地探测出在广阔的，未经勘探的水中最科学有趣的但很难找到的采样点。

环境科学家通常对在环境中最有趣的位置或“最大值”处收集样本感兴趣。一个例子可能是泄漏化学品的来源，该化学品的浓度最高，并且大部分不受外部因素破坏。但是最大值可以是研究人员想要测量的任何可量化值，例如水深或暴露于空气中的珊瑚礁部分。

该机器人可以在未开发的海域进行研究

部署寻求最大性能的机器人的工作受到效率和准确性问题的困扰。通常，机器人会像割草机一样来回移动以覆盖一个区域，这很耗时，并且会收集许多有趣的样本。一些机器人会感知并遵循高浓度的线索找到其泄漏源。但是它们可能会被误导。例如，化学物质可能被捕获并堆积在远离源头的缝隙中。机器人可能会将那些高浓度点识别为源头，但距离还很近。

在国际智能机器人与系统国际会议(IROS)上发表的一篇论文中，研究人员描述了“ PLUMES”，该系统使自主移动机器人能够更快，更高效地实现最大零位归零。PLUMES利用概率技术来预测哪些路径可能导致最大值，同时导航障碍物，移动电流和其他变量。在收集样本时，它会权衡所学的内容，以确定是继续沿着有希望的道路还是寻找未知的事物-这可能会保留更多有价值的样本。

重要的是，PLUMES不会被困在那些棘手的高浓度点上而到达目的地。“这很重要，因为很容易以为您发现了黄金，但实际上您已经找到了傻瓜的黄金，”第一作者，计算机科学与人工智能实验室(CSAIL)和MIT-WHOI联合计划。

该机器人可以在未开发的海域进行研究

研究人员建造了由PLUMES驱动的机器人船，该船成功地发现了巴巴多斯Bellairs边缘礁中最裸露的珊瑚头，这意味着它位于最浅的位置，这对于研究日晒如何影响珊瑚生物非常有用。在不同的水下环境中进行的100次模拟试验中，虚拟PLUMES机器人在分配的时间范围内还连续收集了比传统覆盖方法多7到8倍的最大值样本。

“ PLUMES进行了最少的探索，以找到最大的探索量，然后迅速集中精力在那里收集有价值的样本，”研究第一作者，CSAIL和MIT-WHOI联合计划博士生Genevieve Flaspohler说。

在论文中加入Preston和Flaspohler的是：WHOI应用海洋物理与工程系的科学家Anna PM Michel和Yogesh Girdhar。尼古拉斯·罗伊(Nicholas Roy)，加拿大航空航天学会(CSAIL)和航空航天系的教授。

导航漏洞利用-探索权衡

PLUMES的一个关键见解是使用从概率到推理的技术来解决众所周知的复杂权衡问题，即权衡利用有关环境的知识与探索可能更有价值的未知区域之间的关系。

Flaspohler说：“最大程度地寻求最大的挑战是，让机器人平衡从已知高度集中的地点获取的信息和探索对其不太了解的地方之间的平衡。” “如果机器人进行的探索过多，则最多不会收集到足够的有价值的样本。如果探索得不够充分，可能会完全错过最大值。”

置于新环境中的PLUMES机器人使用一种称为高斯过程的概率统计模型对环境变量(例如化学浓度)进行预测，并估计感应不确定性。然后，PLUMES生成机器人可以采用的可能路径的分布，并使用估计值和不确定性通过允许机器人进行探索和利用的程度对每个路径进行排名。

首先，PLUMES将选择随机探索环境的路径。但是，每个样本都会提供有关周围环境目标值的新信息，例如化学物质浓度最高或深度最浅的斑点。高斯过程模型利用该数据来缩小机器人可以从其给定位置遵循的路径，以从具有更高价值的位置进行采样。PLUMES使用一种新颖的目标函数(通常在机器学习中使用以最大化奖励)来确定机器人是应该利用过去的知识还是探索新的领域。

“光明化”的道路

在哪里收集下一个样本的决定取决于系统从当前位置“半透明”所有可能的未来操作的能力。为此，它利用了改进的蒙特卡洛树搜索(MCTS)版本，该版本是一种路径规划技术，广泛用于为掌握复杂游戏(例如Go和Chess)的人工智能系统提供动力。

MCTS使用决策树(连接的节点和线的图)来模拟达成最终获胜动作所需的路径或移动顺序。但是在游戏中，可能路径的空间是有限的。在未知的环境中，随着实时变化的动态变化，空间实际上是无限的，从而使规划变得极为困难。研究人员设计了“连续观测MCTS”，它利用高斯过程和新颖的目标函数来搜索可能的真实路径的繁琐空间。

该机器人可以在未开发的海域进行研究

此MCTS决策树的根始于“信念”节点，这是机器人可以采取的下一个直接步骤。该节点包含直到那时的机器人动作和观察的全部历史记录。然后，系统将树从根部扩展到新的行和节点，并查看导致开发区和未开发区的未来操作的几个步骤。

然后，系统根据从先前的观察中学到的一些模式，模拟如果从每个新生成的节点中抽取一个样本将会发生什么。取决于最终模拟节点的值，整个路径会获得奖励分数，值越高，意味着采取的措施就越多。来自所有路径的奖励分数将回滚到根节点。机器人选择得分最高的路径，迈出一步，并收集真实的样本。然后，它使用实际数据更新其高斯过程模型并重复“卤化”过程。

Flaspohler说：“只要系统继续幻化为在世界看不见的地区可能会有更高的价值，它就必须继续探索。” “当它最终收敛于一个点时，它估计是最大值，因为它无法沿着路径产生更高的幻觉，然后便停止探索。”

现在，研究人员正在与WHOI的科学家合作，使用PLUMES驱动的机器人在火山现场定位化学羽流，并研究北极融化的沿海河口中的甲烷释放。科学家对释放到大气中的化学气体的来源很感兴趣，但是这些测试场所可以跨越数百平方英里。

普雷斯顿说：“他们可以[使用PLUMES]花更少的时间去探索那个广阔的区域，而真正专注于收集具有科学价值的样本。”

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

相关推荐