本篇文章是系列文章"机器人高效能交互模型(被CMU和NASA多次引用)"的第二篇。点击此处查看系列文章目录。 人和机器人交互的首要目的是提升人与机器人团队协作完成任务的效率,基于这个目标,本文介绍了以下五大措施: 区分自动模式与手动模式 让用户直接与现实环境交互 让用户直接与传感器信息交互 帮助用户减少记忆成本 帮助用户减少注意力成本 一、区分自动模式与手动模式 用户操作机器人的主要模式有: 自动模式 (script control):为了让机器人能够自动运转,用户需要对机器人的任务和工作范围进行预设和规划。此时,用户需要物理场地里的全局信息(Global)来进行整体任务的规划,如园区地图,目的地分布等。通常在触摸屏上进行交互来进行对机器人进行任务规划。 手动模式 (pure teleoperation):手动模式通常只是简单的远程遥控,用户需要知道机器人周边的实时信息来进行精准操作,如周边障碍物的距离。 值得注意的是: 在机器人的工作过程中,操作者和机器人会经常有任务切换。因为对于大部分产品来说,AI技术还没有成熟到"足够替代人类",所以用户需要经常干涉机器的工作任务,这时用户会切换为手动模式。当用户需要将机器人从自动模式切换成手动模式/远程控制模式时,这个交互应该是零操作成本的,不犹豫的。系统应该根据用户的行为,通过恰当地理解用户意图,帮助用户不犹豫地进行模式切换。以几个例子为例: 在无人车的自动探索任务中,当机器人发现可疑人员,用户(安防人员)需要切换至人工操作来远程驾驶机器人。用户只需要拨动遥控感/键盘,则系统自动降操作模式切换为手动模式。 在自动驾驶汽车中,当汽车进入驾驶员认为的不安全区域时,驾驶员需要夺回控制权。只需要将手握紧方向盘,则允许用户进行手动驾驶。 自动跟随行李箱,当旅行者觉得前方有台阶,箱子无法自行通过,旅行者想要将自动跟随行李箱切换为普通行李箱。只需要伸手拉住拉杆,则电机自动取消动力。 当模式进行了切换时,系统需要提供一个明确的无歧义的交互反馈,告诉用户关于模式的切换。这个模式切换的反馈是很重要的,如果机器人已经变为手动模式,而用户确认为机器人仍有自动能力,则很容易发生事故。 二、直接与现实环境自然交互 人与AI机器人的交互应该像人与人一样自然。通常,人与机器人交互中,自然语言有手势和语音: 语音交互:通过语音对话形式操控机器人。关于语音交互和CUI,笔者后续会有相关文章进行介绍。 手势交互 : 用户和机器人处于近距离时,通过定义好的手势对机器人进行指令控制,如暂停前进,旋转等。手势设计的难点在于要同时降低三个指标:操作成本、记忆成本、错误识别率、计算难度。通常这三个参数是互相矛盾的:一个特殊的手势通畅好摆出来,但是用户却很难记住反常识的特殊手势。一个自然的动态手势很容易用户记忆,但是操作起来会显得傻傻的,在公共场合不舒服。如果想让用户在公共场合不尴尬的进行手势操作,就要把手势设计的不是很浮夸,也就是很不"显眼"。但是这就又给计算力带来了负担,增加了模型的训练难度和计算难度。 三、直接与传感器信息交互 在机器人交互模型中一个目的是尽可能让用户只去关注物理环境而非机器人本身,换句话说就是尽量地让机器人在整个交互过程中"透明化"。 自动行走的机器人通常安装有众多传感器,如:摄像头,激光雷达,测距雷达、GPS等。当用户进行远程控制机器人时,这些传感器的数据是用户获得的关于机器人所处环境的基础信息,与此同时,好的机器人系统应该允许用户直接与这些数据进行交互。因为在操作机器人的过程中,用户很难只是通过简单的摇杆或键盘控制机器人的前进方向和角度。因此这种交互形式下,用户很难将他的操作指令与机器人在实际物理环境中的结果关联起来。(HRI领域一个很出名的说法是"人类操作者不知道机器人的肩膀在哪里",讲的就是用户很难真正理解机器人在真实物理环境中行动所带来的结果)所以如果应该尽量让用户忽视机器人的存在,而直接与机器人所在的物理世界产生交互,则会有效解决此问题: 局部视野指点 (Camera):操控机器人时,在交互界面中直接点击机器人视野图像中的某个物体,或某个位置。机器人系统计算出用户所指的点在物理世界中的位置,进而自动走到目的地。 局部视野审查(Camera): 当用户想要通过机器人更清楚地查看某个东西时,无需操控机器人朝该物体前进,而只需要在屏幕上的机器人视野中进行放大,则机器人会自动向目的物体运动。相似,当用户想让视野中看到更多物体的时候,只需要进行缩小操作,则机器人会自动后退,让用户获得一个更全面的视野。 全局地图指点 (GPS) : 用户为了让机器人前进至全局地图中的某个位置,在地图上进行直接选择。系统计算出用户所指的点在物理世界中的位置,然后自动走到目的地。 直接操作距离 (Sonar) : 用户通过直接增大超声波/红外传感器数值,而让机器人远离障碍物。用户通过减小超声波传感器的数值,而让机器人靠近该物体。 总结来说就是用户不应该作为传感器数据的融合者,用户也没有能力将各种传感器的数据综合起来去感知机器人周边的环境。用户唯一需要做的就是表达他想在物理世界中的意图,然后机器人系统自动拆分任务参数(距离和角度等) 四、帮助用户减少记忆成本 当用户同时操作多个机器人时,很难顺利的在不同机器人之间进行切换。面对这种情况,系统需要记录每个机器人在过去的经历,包括过去发生的录像,所走的路径,遇到的障碍物信息等。目的是让用户无须时刻记忆机器人的运行状态,而只关注机器人目前的现状。若用户想要回放之前机器人执行任务时遇到的状况,则只需要回播。回播的信息不仅是摄像头视频,也应该包括同步的各种传感器数据。让操作者在回到过去后,仍然能够理解机器人所处的物理环境。 五、帮助用户减少注意力成本 在用户操作机器人的过程中,交互效率的瓶颈是用户的注意力不够。用户可能同时在操作多个机器人,也可能在与机器人工作的同时并行完成其它工作任务。减少机器人对操作者的关注需求成为了解决"人-机团队"完成任务效率的重要方向(参考《AI机器人交互设计模型 (一)评估机器人交互的七大指标》中的"杠杆倍数")。通过降低单个机器人对用户的注意力的需求,从而提升"杠杆倍数",即一个用户可以同时操作的机器人个数。 一些例子: 如果用户没有注意到距离传感器上的数值在一直变小,机器人很快要撞上某个障碍物,则系统应该及时提醒用户,或标亮即将出现事故的传感器数据。 当用户同时操作多个多个机器人时,当一个机器人需要用户的注意力,则该机器人应该被标注出来,为用户提供线索。相反,如果没有主动提醒,用户就必须要时不时的去轮检机器人的运行状态。 当机器人系统中有多个任务需要用户去人工操作时,系统应该帮助用户管理注意力。比如帮助用户判断哪个任务是最紧急重要的,从而帮助用户更高效的管理机器人去完成工作任务。 本篇文章是系列文章"机器人高效能交互模型(被CMU和NASA多次引用)"的第二篇。本系列文章介绍Olsen与Goodrich的经典论文"Metrics for Evaluating Human-Robot Interactions" 以及Scholtz 的"Theory an Evaluation of Human Robot Interaction"。笔者毕业于欧盟创新技术研究院研究HCI专业,最近在创业做低速无人车自动驾驶。近期在读CMU和NASA的文章时,发现这两篇论文被多次引用提及。仔细研究后发现字字干货,于是吸收整理后输出给大家。 相关阅读: AI机器人交互设计模型 (一)评估机器人交互的七大指标