ElevenLabs 这家 AI 音频公司最近开始发力了。早上,看到他们的一条视频,我觉得 AI 语音的可能性现在被充分打开,废话不多说,咱们直接上视频:

AI语音的可能性,被彻底打开了

太强了。这不就是我想要的真正的语音助手吗?这些年,我家里买过小度音箱、天猫精灵、小爱音箱,但基本上,这些所谓的智能音箱,能做的事情就是订个闹钟,播放音乐,查查天气,除此之外,再无其他可用的功能。

而对于我而言,每天早上起来,可能最想做的事情是看看今天有什么待办事项,小红书粉丝涨到多少了,Linear(我们团队在用的项目管理工具)上最新的任务是什么,X 上有什么最新的科技新闻。

如果能做到这些,我觉得智能音箱才能真正成为人们工作和生活的入口。

现在的天猫精灵等等产品,只能算一个大号玩具。

今天,ElevenLabs 发布了他们的 AI 语音助手平台 11ai,彻底刷新了我对语音助手的认知。它不仅仅是能“听懂”我们在说什么,更重要的是,它真的能帮我们做事。

比如说,早上我一句话:“帮我规划一下今天的待办,并把优先级高的任务加到 Linear 里。”它就能自动帮我梳理信息、同步到工具里,完全跳过了手动操作的繁琐环节。

更有意思的是,11ai 能直接串联 Perplexity、Slack、Notion 等常用工具。比如有客户会议需要准备,我只要说一句:“用 Perplexity 查查对方最近的融资情况,然后总结一下发到 Slack 工程组。”它就能自动帮我查、帮我写、帮我发,整个流程丝滑到不可思议。

怎么做到的呢?说起来也很简单。他们使用了 MCP 协议。目前,11ai 内置了Perplexity、Linear、Slack、Notion、Salesforce、HubSpot、Gmail、Zapier 等公司的 MCP Server,当然,也支持用户配置自己喜欢的 MCP Server。

通过 MCP,语音助手就可以方便的和外部各式各样的第三方应用打通。

目前 11ai 还在 alpha 阶段,免费开放体验。也许再过不久,AI 语音助手会真正成为我们生活和工作的入口,而不仅仅是个会说话的播放器。

国外 OpenAI、Anthropic 等头部模型公司,都不是特别重视语音的能力,虽然 Sam Altman 多次强调过ChatGPT中语音能力的重要性,而且据传OpenAI将开发硬件语音AI Agent,但目前他们并没有拿出让人眼前一亮的作品。

ElevenLabs,成立于 2022 年,专攻语音合成,目前已经是 AI 音频领域的明星公司。今年年初,ElevenLabs 完成 2.5 亿美元 C 轮融资,估值已突破 30 亿美元,核心投资方包括 a16z、红杉资本、ICONIQ Growth、Nat Friedman、Daniel Gross 等硅谷顶级机构和创业明星。

公司团队目前约 100 人,核心成员大多来自 Google、微软、亚马逊等大厂。

他们最新的模型是 Eleven v3,6 月初发布的,相比以往,v3 最大的变化是对情感和表达的控制能力提升了不少。用户可以通过简单的标签,让 AI 语音在一段话里自然地切换情绪,比如插入笑声、叹息、耳语,或者调整语气和节奏。

对于需要多角色对话、播客、有声书等场景,v3 也支持多人对话,每个角色的情感和语调都可以单独设置。

在语言覆盖上,v3 支持 70 多种语言,包括中文、英文、日语等主流语种,适用范围比上一代更广。不过,我测试了下,感觉他们在中文的表现方面不如豆包。英文效果还不错。

所以,现在回头看,感觉语音助手真的快到拐点了。MCP 协议把各种工具和数据彻底打通,AI 语音模型也越来越像真人,表达越来越自然。更进一步,我觉得这些能力除了被应用到类似智能音箱这样的产品中外,其实还可能是在为人形机器人做铺垫。

语音助手的可能性,要被打开了。

文章来自公众号“AI产品阿颖 ”,作者“阿颖

LEAVE A REPLY

Please enter your comment!
Please enter your name here