教一台计算机在没有人为输入的情况下感知世界

2019-07-24 15:30:50

人类可以看到一个物体 - 例如一把椅子 - 并且理解他们所看到的东西,即使它的某些东西发生变化,例如它的位置。另一方面,计算机无法做到这一点。它可以学会识别椅子,但不一定能识别不同的椅子,或者如果角度发生变化,甚至不能识别同一把椅子。

“如果我给孩子看一把椅子,他会知道它是一把椅子,如果我给他看一把不同的椅子,他仍然可以发现它是一把椅子,”杨明轩说,他是电气工程和计算机的助理教授。加州大学默塞德分校的科学。“如果我将椅子的角度改变45度,外观会有所不同,但孩子仍然可以识别它。但教电脑看东西是非常困难的。他们非常善于处理数字,但不善于推广事物。“

杨的目标是改变这一点。他正在开发计算机算法,他希望能够使用单个摄像头为计算机提供检测,跟踪和识别物体的能力,包括物品漂移,消失,重新出现或其他物体遮挡物体的场景。目标是在没有人为输入的情况下模拟人类的认知。

大多数人可以毫不费力地在各种环境中定位移动物体,因为他们不断收集有关他们看到的东西的信息,但这对计算机来说是一个挑战。杨希望他正在开发的算法将使计算机能够做同样的事情,即不断收集有关他们正在跟踪的对象的信息。

“虽然不可能列举所有可能的物体外观变化,但可以教计算机从各种训练样本中插入,从而使机器能够感知世界,”他说。

目前,“对于计算机来说,图像由一长串数字组成,”杨说。“如果椅子移动,这两个图像的数字将会非常不同。我们想要做的是从大量数据中概括所有示例,因此计算机仍然能够识别它,即使它发生了变化。我们怎么知道什么时候有足够的数据?我们不能涵盖所有可能性,因此我们试图根据其功能来定义“主席”。“

潜在地,能够“看到”并跟踪移动物体的计算机可以改善视障人士的辅助技术,并且还可以在医学中应用,例如定位和跟踪细胞; 跟踪昆虫和动物的运动; 用于“智能”建筑的交通建模,以及改进机器人的导航和监视。

“对于视障人士来说,最重要的是深度和障碍,”杨说。“这可以帮助他们看到周围的世界。他们不需要看得很远,只是为了看看它们附近是否有障碍物,两三英尺远。例如,计算机程序可能处于拐杖中。相机将能够创建一个三维世界并给予他们反馈。计算机可以告诉他们表面不平整,所以他们会知道或感觉到他们面前的人或车。“

杨正在根据2012年获得的国家科学基金会早期职业发展(CAREER)奖项进行研究。该奖项支持初级教师通过杰出的研究,优秀的教育和教育的整合来体现教师学者的作用,并在其组织的使命范围内进行研究。他五年内收到473,797美元。

Yang的项目还包括开发跟踪算法代码库和大型数据集,这些代码库将公开发布。该补助金还提供了一个涉及本科生和研究生的教育部分,重点是鼓励来自加利福尼亚中央山谷的代表性不足的少数群体学习计算机科学和相关领域。目标是将计算机视觉材料整合到本科课程中,以便学生希望继续在该领域学习。

此外,杨正在帮助几名本科生设计手机视觉应用程序,并尝试编写程序,使计算机能够推断深度和距离,以及解释它“看到”的图像。

“目前还不清楚人类视觉究竟是如何工作的,但解释视觉深度感的一种方法是基于人的两只眼睛和三角函数,”他说。“通过计算点的几何形状,我们可以计算出深度。我们一直这样做,不假思索。但对于计算机来说,这仍然很难做到。

“计算机视觉的圣杯是用图像或视频讲故事,并让计算机在某种程度上理解它所看到的内容,”他补充道。“如果你给孩子一个形象,并让孩子讲故事,那孩子就可以做到。但是如果你要求一个计算机程序来做,现在它只能做一些原始的事情。一个孩子已经具有基于图像讲述故事的认知知识,但计算机只是按原样看待事物,但没有任何背景信息。我们希望给计算机一些解释,但我们还没有。