x.ai发布Grok语音代理API供开发者使用
realtime news Dec 17, 2025 20:19
x.ai推出Grok语音代理API,使开发人员能够使用在特斯拉车辆中使用的技术创建具有高级功能的多语言语音代理。
x.ai宣布推出Grok语音代理API,这是一种突破性的工具,旨在通过使开发人员能够创建多语言语音代理来为他们提供支持。该新API建立在为数百万移动应用和特斯拉车辆提供动力的Grok语音同一技术之上,为开发人员提供高级语音功能。
高级语音功能
Grok语音代理API能够以母语级别的熟练程度说几十种语言,它能捕捉方言和发音的细微差别,使API能够自动以用户的语言回应。此灵活性还可以通过开发人员通过系统提示设置特定响应语言来增强。
性能和速度
根据x.ai的数据,Grok语音代理API在Big Bench Audio领先的音频推理基准测试中排名第一。它据称首次音频响应时间平均少于一秒,速度几乎是其最接近的竞争对手的五倍。这种高效性通过内部开发整个语音技术堆栈,包括语音活动检测、分词器和音频模型来实现。
成本效益和集成
该API设计考虑了成本效益,提供每分钟连接时间$0.05的固定费率。它与OpenAI实时API规范兼容,并可通过xAI LiveKit插件访问。开发人员还可以通过xAI云控制台提供的语音操场测试各种语音。
与特斯拉的合作
特斯拉作为Grok语音代理API的设计合作伙伴发挥了重要作用,如今该API为数百万辆特斯拉汽车中的语音功能提供支持。API集成了专门的工具以获取车辆状态、路线规划和导航,提供无缝的车载体验。例如,用户可以让Grok计划一次公路旅行,它将通过计算最佳路线并添加必要的停靠来生成行程。
未来发展
展望未来,x.ai计划发布独立的文本到语音和语音到文本端点,以及承诺在发音和延迟方面具有增强性能的音频模型。随着公司继续优化其产品,鼓励开发人员探索Grok语音代理API在创建创新语音解决方案方面的潜力。
欲知更多信息,请访问x.ai官网发布的官方公告。
Image source: Shutterstock