用眼神操控手机也可以像触屏一样流畅自然-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

用眼神操控手机也可以像触屏一样流畅自然: 原创 2022-05-03

Esther｜编辑

近年来，眼球追踪这种自然的交互方式受到越来越多关注，其特点是无需上手操作，用眼神就能操控UI界面。不过，现有的眼球追踪技术在准确性、延迟、成本等方面存在局限，仅依靠注视点信息来输入效率低，体验感也不够好。为此，卡内基梅隆大学科研人员研发了一种基于移动摄像头眼球追踪和IMU传感的交互方案：EyeMU，其特点是可以通过眼球运动来自然操控手机界面，在单手操作触屏手机时可辅助输入。

从公布的视频来看，EyeMU的设计足够简单，且符合自然的交互逻辑。比如你在看手机时如果收到顶部状态提示，EyeMU可锁定你注视的提示信息，这之后你可以通过左右轻甩手机来快速忽略或稍后在看这条信息。当你将手机靠近面部时，EyeMU会打开提示信息，或者当你将手机拉远时，则会关闭这条信息。

此外还有一些其他有趣的交互，比如在查看多张图片时，可以盯住其中一张，然后将手机靠近面部放大这张图片，或是左右甩手机来切换滤镜。EyeMU甚至允许你用注视点和手机运动来打开邮件。除了左右甩动外，还可以识别转动手机的动作，有点类似于翻页功能。而倾斜/旋转手机，则可以控制音量。

解决单手用手机的难题

在智能手机发展初期，其屏幕尺寸通常比现在更小，一只手足以操作。而随着技术发展，手机屏幕尺寸在逐渐扩大，一些手机甚至很难单手握住，更别提单手操作触屏。因此，人们开始尝试用Siri等语音助手来控制手机，这样的好处是即使手机放在附近，也可以远程操控。不过这种操作方法自然不如直接用手操控手机方便。

眼球追踪是一种自然的人机交互方式，不过现有的技术在成本、准确性上还有待优化，仅依靠单一的眼球信息来操作界面效果可能不够流畅。而结合IMU等其他传感技术后，便可实现多种灵敏、方便的操作。

科研人员表示，当前眼球追踪界面存在一种叫“Midas Touch”的问题，指的是人眼常见的眼跳、眨眼等无意的微动作会在交互中产生误操作，就像是传说中的Midas一样，手指点到的任何东西都会变成金子。在眼球追踪界面中，如果误操作率很高，那么体验感并不好。尤其是在手机中，如果你看到的所有app都会打开，手机界面会变得非常混乱。

因此在设计眼球追踪系统时，如何识别用户的真正意图则很重要。此外，提升眼球追踪的准确性也同样重要。为此，EyeMU的发明者之一Andy Kong编写了一个眼球追踪程序，其特点是可在低成本摄像头上运行，准确率足够高，可允许用户用注视点来操控虚拟光标。该程序不仅兼容手机摄像头，也可以在笔记本电脑内置摄像头上运行。

相比于语音、触控等主动交互方式，眼球追踪是更自然的交互，它更像是通过生物信号来预测你的想法，不需要你主动进行操作。

EyeMU细节

据了解，EyeMU的研发团队为卡内基梅隆大学人机交互研究所（HCII）的未来接口（Future Interface）小组。这项技术硬件采用iPhone 12 Pro，EyeMU是一个JavaScript程序，可在iOS系统的Safari浏览器运行。当你单手操作手机时，无需用触屏来操控，只需要通过注视点、移动手机来实现简单的操控。这种交互对于查看通知、浏览图片、阅读文章等场景足够友好，可省去用手指触控屏幕边缘按键的麻烦，不打断使用手机的沉浸感。

此外，EyeMU还采用了谷歌的人脸网格方案Face Mesh，特点是可追踪人脸468个3D节点，在手机上就能运行。Face Mesh的作用是分析用户观看屏幕不同区域时的特征，并生成映射数据，以优化早期的注视点追踪原型。接着，该团队还开发了一种注视点预测模型，可通过手机摄像头锁定用户的动态注视点，并将识别到的注视点设定为目标。

然后，科研人员将注视点预测模型与手机内置的IMU传感器结合，允许用户通过注视点和手机运动数据来操作指令。

在注视点追踪过程中，EyeMU会预留出500毫秒滚动窗口，意思是参考500毫秒以内注视点运动轨迹，并寻找出注视点最密集的区域，如果所有的注视点都位于直径2.5厘米的圆形区域内（也被称作命中框），那么这个圆形便为用户的注视点。在检测到注视点后，EyeMU便会开始感知运动手势。

核心优势

对于眼球输入技术来讲，快速响应很重要，如果响应速度慢，那么人眼可能会改变注视方向。尽管基于移动摄像头的眼球追踪技术还有待完善，但经过实验验证，现有的技术准确性可达1.7厘米左右。对于大面积界面来讲足够用。

科研人员表示：谷歌、苹果在移动端眼球追踪技术上的研究越来越成熟，但仅依靠眼球追踪并不能实现完整、流畅的交互。相比之下，EyeMU的意义在于它添加了第二种模式，通过改变手机姿态来确认你的注视点，并触发各种指令。其设计看起来简单直接，体验感也足够自然流畅。

系统仅在满足一系列条件时才会激活。首先，用户必须出现在相机的视野中，然后注意屏幕的特定位置，在保持注视的同时，执行动作手势。科研人员表示：我们的技术与传统的触摸输入具有高度的互补性，可以用来缓解触等问题，并展示通常隐藏在长按和菜单中的高级功能。

值得注意的是，EyeMU的误差足够小，平均欧几里德注视估计误差为 1.7 厘米，运动手势识别准确率为 97.3%。注视点和手势识别的误触率保持在5%以下，那么EyeMU系统的报错率将降低至0.25%。

另外，从捕获眼球数据到输出注视点的平均延迟为43.03毫秒，运行帧速率为19.1Hz。平均误差1.74厘米，准确性足够好。在iPhone 12 Pro上课持续运行三小时。

参考：

https://www.cs.cmu.edu/news/2022/eyemu

（ END）

每天五分钟，轻松了解前沿科技。
—— 青亭网

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号青亭网 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术新媒体艺术创意设计手机眼神交互展示

15880