清华大学领衔揭秘人机交互的发展状况人工智能三维交互

动态未结置顶精帖  

悬赏：60飞吻

清华大学领衔揭秘人机交互的发展状况（人工智能三维交互）

第一次使用手机语音助手的时候，它总是会在我兴冲冲地问一个问题之后，令人失望地回答一句：“我好像听不懂你在说什么……”

后来技术演进，它终于能够通过我的一些关键词，听懂我说什么了。但一板一眼，一字一句，程式化十足。

不可否认，人工智能正在变得越来越“聪明”，也越来越贴近人类，未来它会是什么样子呢？

近日，清华由清华大学人工智能研究院、北京智源人工智能研究院和清华-中国工程知识智能联合研究中心发布了《人工智能之人机交互》报告（以下简称《报告》），《报告》梳理了其概念定义和发展历程，重点研究了主要技术的发展情况、领域专家现状和应用领域，并探讨了人机交互未来发展趋势。

如果您想获得本报告的全文pdf，请在雷锋网(公众号：雷锋网)(公众号：雷锋网)(公众号：雷锋网(公众号：雷锋网))微信（leiphone-sz）回复关键词“609报告”提取。

文档来源：清华大学人工智能研究院

一、人机交互发展史

1、概念

人机交互（Human-Computer Interaction, HCI），作为一个术语，首次使用是在由 Stuart K. Card，Allen Newell 和 Thomas P. Moran 撰写的著作“The Psychology of Human-Computer Interaction”里，它是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。

人机交互界面通常是指用户可见的部分，用户通过人机交互界面与系统交流，并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一，它与认知学、人机工程学、心理学等学科领域有密切的联系。

人机交互技术的发展与国民经济发展有着直接的联系，它是使信息技术融入社会、深入群体，达到广泛应用的技术门槛。任何一种新交互技术的诞生，都会带来其新的应用人群、新的应用领域，带来巨大的社会经济效益。

从企业的角度，改善人机交互能够提高员工的生产效率，学习人机交互能够降低产品的后续支持成本。

在个人的角度，可以帮助用户有效地降低错误发生的概率，避免由于错误引发的损失。

在现代和未来的社会里，只要有人利用通信、计算机等信息处理技术进行社会活动，人机交互都是永恒的主题，鉴于它对科技发展的重要性，人机交互是现代信息技术、人工智能技术研究的热门方向。

2、发展历程

过去的几十年间，人机界面经历了从命令行界面到图形用户界面两个主要发展阶段的演变；近年来，人机界面的发展越来越强调交互的自然性，即用户的交互行为与其生理和认知的习惯相吻合，随之出现的主要的交互界面形式为触摸交互界面和三维交互界面。

命令行界面

基于命令行界面（Command-line Interface, CLI），用户使用键盘按照一定的规则输入字符，以形成可供机器识别的命令和参数，并触发计算机进行执行。

其优点是由于键盘输入相对较高的准确率，以及几乎不需要冗余的操作，所以熟练的用户可以达到非常高的交互效率，同时，通过规则的设计，命令行界面也能支持丰富灵活的指令形式。

命令行界面的缺点在于交互非常不直观，由于机器命令与自然语言的构造规则往往相去甚远，所以用户需要记忆大量的指令，有时甚至需要具备计算机领域的专业知识和技能，才能达到较高的使用效率。这对于新手用户而言大大提升了学习成本，也显著影响了普通用户使用命令行界面时的体验。

图形用户界面

图形用户界面一般包括窗口（Window）、图标（Icon）、菜单（Menu）和指针（Pointer）这四类主要的交互元素。用户通过控制指针来对窗口、图标和菜单等显示元素进行指点（Pointing）操作，从而完成交互任务。广义的图形用户界面泛指一切用图形表征程序命令和数据的界面系统，但在狭义上，图形用户界面一般指个人电脑（PC）上的二维 WIMP 界面。此时，用户与界面交互的设备一般是键盘和鼠标。

图形用户界面的一大优势是摆脱了抽象的命令，通过利用人们与物理世界交互的经验来与计算机交互，从而显著降低了用户的学习和认知成本。然而，由于图形用户界面的基本操作是指点，即用户需要使用指针来选择交互目标，因而其往往对用户指点操作的精度有较高的要求。此外，由于鼠标设备所在的控制域（Motor Space）与界面显现的显示域（Visual Space）是分离的，因而用户需要对目标进行间接的交互操作（Indirect Manipulation），从而更加增加了交互的难度。

触摸交互界面

触摸交互界面一般包括页面（Page）、控件（Widget）、图标（Icon）和手势（Gesture）这四类主要的交互元素。用户通过触摸、长按、拖拽等方式直接操控手指接触的目标，或者通过绘制手势的方式触发交互指令。

目前，触摸界面主要存在于智能手机和可穿戴设备（如智能手表）等设备上。触摸交互界面的优势是充分利用了人们触摸物理世界中物体的经验，将间接的交互操作转化为直接的交互操作（ Direct Manipulation），从而在保留了一部分触觉反馈的同时，进一步降低了用户的学习和认知成本。

然而，触摸操作受困于著名的“胖手指问触摸交互界面

然而，触摸操作受困于著名的“题”，即由于手指本身的柔软，以及手指点击时对于屏幕显示内容的遮挡，在触屏上点击时往往难以精确地控制落点的位置，输入信号的粒度远远低于交互元素的响应粒度。同时，由于触摸交互界面的形态仍然为二维界面，所以这限制了一些与三维交互元素的交互操作。

三维交互界面

用户一般通过身体（如手部或身体关节）做出一些动作（如空中的指点行为，或者肢体的运动轨迹等），以与三维空间中的界面元素进行交互，计算机通过捕捉用户的动作并进行意图推理，以触发对应的交互功能。

目前，三维交互界面主要存在于体感交互、虚拟现实、增强现实等交互场景中。

三维交互界面的优势是进一步突破了二维交互界面的限制，将交互扩展到三维空间中。因此，用户可以按照与物理世界中相同的交互方式，与虚拟的三维物体进行交互，从而进一步提升交互自然度，降低学习成本。

不过，三维交互的挑战在于由于完全缺乏触觉反馈，所以用户动作行为中的噪声相对较大，而且交互动作与身体的自然运动较难区分，因而输入信号的信噪比相对较低，较难进行交互意图的准确推理，限制了交互输入的准确度。

此外，由于相对于图形用户界面和触摸交互界面，动作交互的幅度一般较大，所以交互的效率也较低，同时更容易让用户感到疲劳。

二、技术发展方向

目前，人机交互技术主要发展方向包括以下几个类别：

触控交互、声控交互、动作交互、眼动交互、虚拟现实输入、多模式交互以及智能交互等。

1、触控交互

显示器从仅向用户输出可视信息到成为一种交互界面装置主要是归因于触控功能与显示器的一体化模式，尤其是在移动装置上的使用。

目前有四种技术方式能实现触控交互。

电阻式触控技术

电阻触摸屏通过压力感应原理来实现对屏幕进行操作和控制。当手指触摸屏幕时，薄膜下层的 ITO 会和玻璃上层的 ITO 有一个接触点，在 X 轴方向就其中一面导电层导通了 5V 均匀电压场，此时采样得到的电压由零变为一个正电压值，感应器检测到电压导通，传出相应的电信号，进行模/数转换，最终将转换后的电压值与 5V 相比，即可计算出触摸点的 X 轴坐标值。同理可以计算出 Y 轴的坐标值，这样就完成了点选的动作，并呈现在屏幕上。

电容式触控技术

当手指触摸电容式触摸屏时，在工作面接通高频信号，此时手指与触摸屏工作面形成一个耦合电容，这相当于导体，因为工作面上有高频信号，手指触摸时在触摸点吸走一个小电流，这个小电流分别从触摸屏的四个角上的电极流出，流经四个电极的电流与手指到四角的直线距离成比例，控制器通过对四个电流比例的计算，即可得出接触点坐标值。

红外触控技术

当手指触摸屏幕时，红外光线将被阻断，依次选通红外发射管及其对应的红外接收管，在屏幕上方形成一个红外线矩阵平面，从而致使红外接收端的电压产生变化，红外接收端的电压经过 A/D 转换送达控制端，控制端将据此进行计算得出触摸位置。

表面声波触控技术

表面声波式触摸屏主要依靠安装在强化玻璃边角上的超声波换能器来实现触摸控制的。当手指触摸显示屏时，手指阻挡了一部分声波能量的传播，此时接收波形将会发生变化，在波形图上可以看见即某一时刻波形发生衰减，通过这个衰减信号控制器就可以计算出触摸点位置。

2、声控交互

语音识别

语音识别是将音频数据转化为文本或其他计算机可以处理的信息的技术。主要由 4 个部分组成：特征提取、声学模型、语言模型和解码器搜索。

语音合成

语音合成就是将一系列的输入文字信号序列经过适当的韵律处理后，送入合成器，产生出具有尽可能丰富表现力和高自然度的语音输出，从而使计算机或相关的系统能够发出像“人”一样自然流利声音的技术。

语音合成的发展经历了机械式语音合成、电子式语音合成和基于计算机的语音合成发展阶段。语音合成具体分为规则驱动方和数据驱动方。

3、动作交互

目标获取是人机交互过程中的最基本的交互任务，用户向计算机指明想要交互的目标，其他的交互命令均在此基础上完成。随着交互界面的发展，在很多自然交互界面上，如远距离大屏幕，虚拟现实和增强现实设备等，传统的交互设备（如鼠标，键盘）无法继续用来完成目标获取任务。

因此，在这些界面上，研究者探索使用动作交互完成目标获取任务的可能方式。主要的输入方式分为直接和间接两种。

直接的动作选取要求用户通过接触目标位置的方式对其进行选取，例如在增强现实应用中，用户通过以手部接触的方式完成虚拟物体的选取。

间接的目标选取方式则需要用户通过身体部分的位置和姿态来控制和移动光标，再借助光标指示目标的位置进行选取。其中，一个广泛应用的光标控制方法是光线投射。

手势识别

手势可定义为人手或者手和手臂相结合所产生的各种姿态和动作，它分为静慶他的交互命令均在此基础上完成。随着交互界面的发展，在很多自然交互界面上，如远距离大屏幕，虚拟现实和增强现实设备等，传统的交互设备（如鼠标，键盘）无法继续用来完成目标获取任务。

因此，在这些界面上，研究者探索使用动作交互完成目标获取任务的可能方式。主要的输入方式分为直接和间接两种。

直接的动作选取要求用户通过接触目标位置的方式对其进行选取，例如在增强现实应用中，用户通过以手部接触的方式完成虚拟物体的选取。

手势识别

手势可定义为人手或者手和手臂相结合所产生的各种姿态和动作，它刀

上一篇 : 镜鉴PaaS21大产品服务构建云平台大生态圈

下一篇 : 仅次谷歌的第二大SSP平台8000优质资源，营收超行业5.6倍

回帖

消灭零回复