(资料图片仅供参考)
“据我们所知,EchoSpeech 是第一个使用眼镜框来进行无声语音识别的工作。论文发表之后我们收到了很多邮件。在发信人中,有即将被移除声带的癌症患者、有语音障碍的孩子、也有来自医生的。这些反馈激励着我们更加努力地将本次成果带出实验室,做出真正能够改变人类生活的产品。”清华大学校友、目前正在美国康奈尔大学读博的张瑞东表示。 图 | 图中张瑞东佩戴的眼镜就是 EchoSpeech 设备(来源:Photo Courtesy of Dave Burbank) EchoSpeech 是一款新型可穿戴无声语音识别系统 , 它可以连续识别 31 条无声语音指令,准确率达到 95%,最高电池续航时间约 10 小时。其中,传感器成本不超过 100 元,单片机处理器成本 300 元左右。 无声语音指的是只动嘴、而声带不发声的说话方式,有些类似于耳语(不严格区分的话,耳语也可以算作无声语音)。 不过,耳语本身必须发出一些声音,而无声语音则无需发出任何声音。正在阅读这篇文章的你可以尝试一下耳语,但是不要送出气流,这样几乎不会发出任何声音,而嘴唇和舌头依然会动。 对于公众来说,无声语音可能仍然是一个新鲜事物。但是,大家在日常中或多或少都会接触到。比如,开会时和别人交流时的耳语。 相比有声语音来说,无声语音最大的优势就是“无声”。在一些安静的场合,比如图书馆、会议中等,出声地说话是不合适的;另外,在特别嘈杂的环境中,语音交流也会容易受到噪声的影响。在这种情况之下,都可以使用耳语。 而对于声带损伤者或残疾人士来说,无声语音可能是最接近语音交流的唯一选择。在这个意义上,关于无声语音的相关应用具备很大的潜力。对于无声语音识别这项技术,已经有很多课题组在研究。最成熟、最流行的是依靠计算机视觉的方案:即使用相机直接捕捉面部运动尤其是嘴唇的运动。 这种方法的缺点十分明显:它必须在用户面前放置相机,而这就涉及到普适性、功耗、隐私等问题。 也正因此,目前面向可穿戴领域的解决方案多数还不成熟,在穿戴舒适度、功耗、系统等方面依旧欠佳。 例如,在多支团队的研究成果中,都需要在口腔内放置传感器来追踪舌头运动。绝大多数方案只能识别说得比较清晰、语速较慢的离散指令,例如能识别单独说出来的、中间有暂停的 1-2-3,但是无法识别连续说出来的 123。 而张瑞东所在团队研发的 EchoSpeech,在穿戴舒适度和连续识别上有着明显优势。 在 EchoSpeech 的设计中,传感器即小扬声器的麦克风,被安装在眼镜框的下边缘。这时,通过采用声波感知技术,就能探测面部运动尤其嘴唇的运动,并以此来识别无声语音。 与同类成果相比, EchoSpeech 具有体积小、佩戴舒适、功耗低、隐私保护好等优势。同时,在识别连续词组/句子的能力上,EchoSpeech 也有着很大提升。 长期来看,无声语音识别技术很有潜力作为普通语音识别的替代和补充。有研究显示,隐私和社交尴尬是用户不愿使用语音识别的重要因素 [1,2]。而无声语音恰好解决这两个问题,原因在于它可以扩展语音输入整体的应用。 另一方面,无声语音还能把语音识别技术扩展到更多场景中,例如有望让用户在工作环境下使用无声语音控制设备,同时也能让用户使用无声语音来与 AI 使用自然语言交流,这样一来既能大大提高工作效率,也不会打扰到周围人。 不过短期来看,由于词汇量、识别准确率等方面的限制,要想实现大规模的应用可能还不成熟。目前,最有希望将EchoSpeech用于控制音乐播放和社交软件等。 张瑞东表示:“一直以来,我们实验室都专注于可穿戴交互设备的研究。我的上一个项目 SpeeChin,也是一个无声语音识别的工作。不同之处在于,SpeeChin 采用挂在项链上的红外相机来捕捉下巴运动,进而去推断无声语音。” 相比之前的工作,SpeeChin 在识别准确率和设备舒适性上有着极大提高。但是,作为一种采用相机的方案,其依然存在功耗高、侵犯隐私等问题。 正因为这些原因,该团队一直在开发应用范围更广泛的感知技术,比如声波感知技术等。 张瑞东表示:“为此我参与了一个名为 EarIO 的项目,期间我们利用耳机上的扬声器和麦克风,借助声波感知技术通过捕捉耳后皮肤的微小震动来重建面部表情。在 EarIO 获得成功时,我们立刻意识到了这项技术在其他方面的巨大潜力。于是开启了本次 EchoSpeech 的项目。” 立项之后,有两个难题摆在张瑞东面前:一是寻找最合适的设备形态,包括设备本身的形态,以及传感器的位置、角度和数量;二是提高系统性能,尤其是识别连续短语和句子的能力。 在寻找设备形态上,他们尝试了很多方案,比如耳机+外延的结构、以及环绕头部固定器+外延结构等。但是,这类结构的主要问题在于,在多次佩戴之后稳定性欠佳。 他们也尝试过入耳式耳机、头戴式耳机等结构,不过由于距离主要“发音器”(即说话时活动的部分例如嘴唇、舌头)比较远,故在同等条件之下识别准确率不甚理想,同时所需要的数据也更多。 后来,张瑞东的导师想到了眼镜。“导师强烈建议我试一试眼镜框,我之前对眼镜框不是很有信心,因为它离主要的‘发声器’太远了。而且由于位置和角度的原因,并没有合适的直线传播路径。但是,在尝试中我意识到对于信号来说,其实并不需要直线传播。”张瑞东说。 眼镜的好处之一在于稳定性高,一般情况下眼镜会被贴合地佩戴在头上,在多次佩戴之后依然具备较好的稳定性。并且,眼镜和主要“发声器”之间的相对距离比较稳定。 直到这时,装置的最终形态终于被确定下来:即在眼镜框下缘布置传感器,其中一侧放置扬声器,另一侧放置麦克风。 在提高系统性能上,他们并未使用先切割出来说话部分、再进行识别的方法,而是使用端到端的方法,一次性地完成切割任务和识别任务。 这样一来,当佩戴者不说话的时候,系统就会输出空标签。至此,前面提到的两个难题均被攻克,关于 EchoSpeech 的课题也正式宣告结束。 日前,相关论文以《EchoSpeech:由声学传感驱动的最小干扰眼镜上的连续无声语音识别》()为题发在 2023 ACM 人机交互国际会议上,该会议也被认为是人机交互领域最负盛名的会议。张瑞东是论文第一作者,康奈尔大学教授担任通讯作者 [3]。 基于本次成果,张瑞东也将开展语音合成、以及扩展词汇量。 假如可以实现语音合成,那么就能用于发音障碍人群身上,从而给他们提供一个真正的语音交互接口。 而之所以打算拓展词汇量,是因为如果想把无声语音识别真正做成一个有用的产品,就必须能够识别更多的单词。 长期来看,该团队希望无声语音识别技术的表现,能够和普通语音识别相媲美,只有这样才能讨论更加长远的应用。 另据悉,张瑞东所在的团队专注于研究智能传感器件,此前他们还曾造出可以检测表情的耳机等创新设备。目前,该团队已有超过 20 项正在申请的美国专利和国际专利。 Rzepka. 2019. Examining the use of voice assistants: A value-focused thinking approach. (2019). Weber and Thomas Ludwig. 2020. (Non-)Interacting with Conversational Agents: Perceptions and Motivations of Using Chatbots and Voice Assistants. In Proceedings of Mensch Und Computer 2020 (Magdeburg, Germany) (MuC ’20). Association for Computing Machinery, New York, NY, USA, 321–331. https: // , R., Li, K., Hao, Y., Wang, Y., Lai, Z., Guimbretière, F., & Zhang, C. (2023, April). EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing. InProceedings of the 2023 CHI Conference on Human Factors in Computing Systems(pp. 1-18). 由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开售!点击下方海报可购买图书!!
推荐内容
-
康奈尔博士生AI声呐眼镜,成本低廉
-
一般汽车保险种类有什么?基本险包括哪些内容?
-
如何转入城镇居民社会养老保险?养老保险是按月领取的吗?
-
中华人民共和国社会保险法第三十二条内容 基本医疗保险关系可以随本人转移?
-
当前报道:俄媒:一年内约360亿美元外资从俄罗斯撤出
-
前沿资讯!聚焦中关村论坛|重庆金融科技研究院成果亮相
-
德迈仕:公司电枢轴等多个量产产品已应用于特斯拉汽车中|环球今头条
-
环球实时:教育部等十八部门:探索利用人工智能等技术手段弥补优质教育教学资源不足的状况
-
给橘子“动手术”、制作水果“病理切片”……50余名小学生当了一回“外科医生”|全球观天下
-
加油站安装“作弊软件”被罚 重庆公布一批民生领域典型案例
-
36.8万元起的全新ES6 能否助力蔚来重回销量王座
-
《在暴雪时分》全阵容官宣 吴磊赵今麦甜蜜演绎
-
全球热资讯!十八部门:加强国家科技计划对科学教育相关领域研究的支持
-
教育部等十八部门:逐步推动实现每所小学至少有1名具有理工类硕士学位的科学教师
-
养老金补交的新政策是什么内容?养老保险补缴规定内容是什么?
-
环球观速讯丨太原退休人员养老金涨了吗?2023年山西太原养老金上调方案公布时间是何时
-
单独二胎准生证办理流程是什么?流动人口计划生育工作条例第十六条是什么?
-
二胎政策何时全面放开?全面开放二孩政策是由什么时候开始执行的?
-
农村社会养老保险新政策的内容是什么?城乡居民养老保险基金由什么构成?
-
汽车必须要买的保险都有哪些?网上购买车险的步骤是什么?
-
死缓两年是什么意思?被判死缓有哪些后果?
-
工商行政处罚程序是怎么样的?工商行政管理机关行政处罚程序规定第六十条是什么内容?
-
工伤认定申请流程是什么呢?工伤的认定标准是什么样的?
-
二手房交易税费规定内容是什么?买卖二手房缴税标准是什么呢?
-
当前信息:四川重庆陕西等地有较强降雨 华南江南等地有高温天气
-
交通肇事量刑标准是什么呢?刑法第一百三十三条规定内容是什么?
-
计划生育办证者需要提供哪些材料?办理计划生育证明在哪里办理?
-
怎样买养老保险?中华人民共和国社会保险法第十条内容是什么?
-
热门:华源控股(002787.SZ)首次回购36.26万股 耗资251.14万元
-
新农村建设征地补偿标准是什么呢?被征地的农村经济损失支付补偿标准是什么?
-
工商年检的流程是什么?个体工商户年度报告暂行办法第四条是什么内容?
-
《合肥市超低能耗建筑技术导则》 加速实现碳达峰碳中和!合肥将打造更多超低能耗建筑
-
什么是试婚?未正式结婚前试行共同生活的婚姻形式是什么?
-
办上岗证的流程是什么?上岗证怎么办理?
-
中华人民共和国行政处罚法第七十六条是什么?行政行为撤销的条件有哪些?
-
消防报批手续是什么样的?办理消防证的流程有哪些?
-
江苏省婚纱产业链专题对接活动在苏州举办 新品发布引人瞩目_天天要闻
-
差旅费补助标准是什么呢?中央和国家机关差旅费管理办法第十二条内容是什么?
-
明日出征!神舟十六号航天员乘组确定_每日信息
-
环球精选!直击618开局:李佳琦稳定发挥 辛巴杠上榴莲 小红书明星主播奇袭
-
象山丹城旅游景点有哪些?象山旅游景点哪里好玩?
-
安徽绿海商务职业学院星青年讯飞人工智能(AIGC)学院正式成立
-
密云县有什么好玩的?密云县城周边的好玩的地方有哪些?
-
商河有啥好玩的地方?宁德市区景点一日游攻略有哪些?
-
喀拉达拉镇旅游必去景点有哪些?喀拉玛盖镇旅游必去景点有哪些?
-
邯郸有哪些值得去的旅游景点?宣化哪里有好玩的地方?
-
从化一日游哪里更好玩?从化旅游景点有哪些?
-
黄山翡翠谷在哪里?翡翠谷更好游玩时间是什么时候?
-
黄山旅游攻略三日游自由行攻略有哪些?游览黄山翡翠谷需要多长时间?
-
淄博博山区旅游景点有哪些?博山旅游景点哪个更好?
-
徐州市有哪些旅游景点?徐州有什么好玩的地方旅游景点?
-
徐州市旅游景点有哪些?徐州最值得去的景点旅游必去景点推荐有哪些?
-
蓝田旅游景点有哪些?洪湖蓝田生态园更佳游玩时间是什么?
-
流峪飞峡景区游玩攻略有哪些?西安周边自驾旅游景点更佳去处有哪些?
-
三亚有哪些必去景点?三亚有哪几个景点值得去?
-
宣城市必去的景点有哪些?宣城好玩的景点有哪些?
-
西安旅游景点有哪些?陕西旅游最值得去的景点有哪些?
-
兰陵旅游景点有哪些?临沂免费景点有哪些?
-
兰州公安交警征集“炸街飙车”违法行为和线索 最高可获5000元奖励
-
清凯by睡眠喷雾全文40章(清凯)
-
国泰君安:重点关注AI大模型原生应用,优选兼具模型与垂直场景的厂商
-
天合光能跌超16% 郑澄然、刘格菘纷纷“踩雷”
-
夜雨丨张春燕:遇见李太白|环球新动态
-
三联锻造:公司高压共轨系统可提高汽油、柴油的燃烧使用率 降低汽车污染物的排放
-
苏宁易购与康佳深化战略部署 发力618夯实全年20亿目标
-
重庆作家曾伟长篇小说《藏獒江湖》在喜马拉雅首播
-
电力板块港股涨幅扩大 华电国际电力涨近11%创近8年新高-信息
-
观热点:夜雨丨王忠德:老桥情怀
-
午评:创业板指跌超1%再创调整新低 新能源赛道股持续走弱
-
世界观察:国企领导巡察期间接受有偿陪侍,如此顶风违纪必须严惩
-
再等等 HBO《最后的生还者》第二季计划2025年推出 世界今日讯
-
世界焦点!2023年贵州省养老金调整方案计算公式最新消息 2022~2023年贵州省养老金调整具体细则全文
-
天天最资讯丨下赛季意超杯参赛球队确定:那不勒斯VS佛罗伦萨,国米VS拉齐奥
-
绘和美乡村画卷 品海淀樱桃醉甜
-
Gomega关注儿童大脑发育,让改变看得见
-
沈嵘(关于沈嵘的基本详情介绍)_最新资讯
-
当前视点!心居原乡·情系大观丨郑丛慧:大观之美
-
Canalys:2023年第一季度全球个人智能音频设备出货量下降15% 跌至8672万部
-
web3.0板块异动拉升 天地在线2连板
-
港股开盘|恒指高开0.43% 网易高开7.13%-环球报道
-
环球热资讯!5月新基金发行仅207亿份 创8年以来单月新低
-
环球观天下!比亚迪:自主研发了常压油箱的燃油蒸汽排放控制技术 能符合蒸发排放法规标准
-
世界关注:北京市海淀区区长李俊杰:海淀区现有国家高新技术企业总数达到9764家
-
今日聚焦!重庆彭水:乌江上的“速度与激情”
-
股东减持是什么意思?股东大量减持股票对股价是否有影响?
-
神十六航天员乘组确定 当前热点
-
为什么股票买跌不买涨?股票买跌技巧是什么?
-
股票期权是什么意思?股票期权交易规则是什么?
-
为什么不建议交易可转债?可转债的风险有哪些?
-
为什么不建议交易可转债?可转债的风险有哪些?
-
新三板股票交易规则是什么?如何进行交易?
-
股市开盘前15分钟怎么交易的?普通投资者可以参与吗?
-
高送转一般在几月?高送转是利好还是利空?
-
股票一直不卖会怎么样?股票可以随时买卖吗?
-
股票反弹与反转是什么意思?股票反弹与反转有什么区别?
-
可转债打新股如何提高中签率?可转债打新收益与什么有关?
-
内盘与外盘是什么意思?外盘多好还是内盘多好?
-
股票什么样情况要变为st?st股可以买吗?
-
股票晚上几点可以挂单?有哪些规则?
-
股票盘口数据怎么看?炒股只看盘口行吗?