首页 > 资讯 > 行业

揭秘Facebook语音识别项目 蕴含无限可能和机遇

2018/08/23 18:14      腾讯科技 编译/金鹿  


  8月23日消息,据外媒报道,Facebook加入语音计算革命大潮的速度有点儿慢。它还没有自己的语音助手,智能音箱仍在开发中,Instagram等诸多应用程序也没有完全集成音频通信功能。但从Facebook代码中发现的线索以及新的专利申请来看,这一状况将发生很大变化。

  开发语音功能可以让人们在家里或在旅途中使用Facebook的方式更多。据报道,Facebook即将推出的Portal智能音箱是专为方便与远方家人视频聊天而设计的,这些家人包括使用智能手机不便的老人和孩子。改进后的转录和语音-文本-语音功能可以让Messenger用户通过输入媒介连接起来,并让他们始终保持在聊天应用上,而不是返回到SMS。

  但如果Facebook不尽快行动起来,它的语音项目可能会被竞争对手的喧嚣淹没。所有主要的移动硬件和操作系统制造商现在都有自己的语音助手,如苹果的Siri、亚马逊的Alexa、谷歌的Assistant以及三星Bixby,他们都在自家智能音箱上集成了语音助手。

  市场研究机构Canalys估计,在2018年第二季度,Google Home的出货量为540万部,亚马逊Echo的出货量为410万部。而Strategy Analytics的数据显示,苹果HomePod起步缓慢,所占市场份额不到6%,依然落后于阿里巴巴的智能音箱。鉴于Facebook在隐私问题上的糟糕记录,可能导致潜在客户转投竞争对手。

  考虑到Facebook在语音计算革命中已经落后,它需要强大的工具来解决真正的问题。下面我们来看看Facebook在语音领域取得的最新发展,以及它过去的实验如何为下一次飞跃奠定了基础。

  Aloha

  Facebook正在开发自己的语音识别功能,名为Aloha,它适用于Facebook和Messenger应用,同时也适用于外部硬件,比如其正在开发的视频聊天智能音箱。独立应用程序研究员Jane Manchun Wong挖掘出来的Facebook和Messenger Android应用代码,首次展示了Aloha用户界面的原型。

  它的标签为“Aloha语音测试”(Aloha Voice Testing),当用户在消息线程中说话时,一个水平的蓝色条会展开并收缩,以在识别和转录文本的同时显示语音的音量。这段代码描述了该功能可与外部Wi-Fi或蓝牙设备连接。这款软件有可能同时在Facebook的硬件和软件上运行,类似于Google Assistant,它可以在手机和Google Home智能音箱上运行。

  Facebook拒绝对这段视频发表评论,但其发言人表示:“我们始终在测试些新东西,今天没有什么要分享的,但我的团队几周后会联系AR/VR网站发布有关硬件方面的新闻。”目前还不清楚“硬件新闻”是否会集中在语音和Aloha或Portal上,或者仅仅是与Facebook 9月25日举行的Oculus Connect 5发布会有关。

  知情人士此前曾表示,多年前,Facebook有意开发自己的语音识别软件,专门用于准确记录朋友之间的交谈方式。与我们正式称呼像亚马逊Alexa或Google Home这样的电脑化助手相比,Facebook的语音模式通常更随意、口语化、快速且充满俚语。

  Jane Manchun Wong还在Facebook的代码中发现了Aloha的logo,该代码以火山图像为特色。现在可以确认,有人曾在Facebook员工的手机上看到过有类似logo的Facebook Aloha Setup聊天机器人。

  如果Facebook能够解决这个问题,它可以在Messenger和网站的其他地方提供自己的转录功能,这样用户就可以跨媒介进行交流。它可能会让你在忙得不可开交或看不清屏幕时,向朋友口授评论或信息。然后,收件人可以阅读文本,而不必去听语音信息。该功能还可以用于为Facebook应用程序的语音导航提供动力,从而更好地支持免提功能。

  音箱与摄像头专利

  2017年8月份有报道称,Facebook的视频聊天智能音箱最初代号是Aloha,后来更名为Portal。这款售价499美元的亚马逊Echo Show竞争对手最初定于今年5月份在Facebook开发者大会F8上推出。但彭博社报道称,由于担心此举会加剧剑桥分析公司(Cambridge Analytica)引发的隐私丑闻,该产品被推迟上市。

  一项新的专利申请显示,Facebook早在2016年12月26日为一种立方体形状的设备申请专利时,就在考虑打造智能音箱。专利描述了由巴贝克·埃尔米赫(Baback Elmieh)、亚历山大·贾斯(Alexandre Jais)以及约翰·普罗科什-韦利(John Proksch-Whaley)发明的“音箱装置”。同年9月,Facebook收购了埃尔米赫的初创公司Nascent Objects,他现在是Facebook秘密建筑硬件实验室的技术项目负责人。

  这家初创公司始终在打造模块化硬件,今年早些时候,埃尔米赫在Facebook的几个模块化摄像头项目获得了专利。Facebook一直在开发的音箱和摄像头技术可能会演变成视频聊天音箱。事实上,Facebook已经探索智能音箱技术很长时间了,而且这些专利的发明者仍在硬件实验室研究秘密项目,这强化了Facebook在语音领域有宏伟计划的观点。

  Instagram语音信息

  最后,Instagram也在向语音领域进军。Jane Manchun Wong从Instagram的Android应用程序代码中生成的截图显示,Facebook显然在开发语音短信功能Instagram Direct。这将允许你在Instagram上发声,并发送类似于步话机的音频片段,或早在2013年添加的Facebook Messenger语音信息功能。

  你可以在屏幕底部的信息编排器中看到语音按钮,代码解释说“语音信息,按下并保持记录”。这款原型机是在Instagram Direct最近推出视频聊天功能后亮相的,也是通过Jane Manchun Wong的研究发现的另一个功能。Instagram发言人拒绝置评,因为尚未公开测试的新功能在代码中被发现,他们就没什么可分享的了。

  漫长的探索之路

  长期以来,Facebook始终在语音领域徘徊。2015年,Facebook收购了自然语言处理初创企业Wit.ai。这家公司运行着开发者平台,用于构建语音接口。不过后来,Facebook将Wit.ai并入到Messenger平台团队中,专注于开发聊天机器人。

  Facebook还在2015年开始测试自动将Messenger语音片段转录为文本的功能,这可能是上述Aloha功能的基础。该公司还透露,其个人助理M可以为用户完成任务,但它只是在非常有限的用户基础上推出,后来被关闭。

  2016年,Facebook的Messenger主管大卫·马库斯(David Marcus)声称,语音”并不是我们现在积极开发的工作”。但他补充道:“在某种程度上,随着我们在Messenger中开发越来越多的功能和交互,我们将开始研发语音交流和接口。”然而,消息人士透露,Facebook的秘密预言技术团队已经在探索语音机会。Facebook还开始为那些只想播放声音而不是视频的用户测试其实时音频功能。

  到2017年,Facebook为网页视频提供了自动字幕,并开发了语音搜索功能。今年,Facebook开始尝试将语音片段作为状态更新和Stories,供世界各地可能无法用母语打字的用户使用。但高管们并没有过多谈及语音计划。

  Facebook设计总监卢克·伍兹(Luke Woods)曾在2017年表示:“语音搜索非常有前途,有很多令人兴奋的事情发生。我喜欢能和汽车对话,让它导航到特定的地方。这是许多潜在用例之一。这也是声音转录可以提供帮助的领域之一。”

  目前还不清楚Facebook的Aloha到底会变成什么样子。它可能是Facebook智能音箱和应用的实际操作系统或语音界面及转录功能,也可能会成为像M那样功能更完备的语音助手,但也支持音频。或者,它可能成为Facebook通往其他语音生态系统的桥梁,充当Facebook的Alexa Skill或Google Assistant Action。

  榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。

相关阅读