使用 GPT 实时 API 处理语音和音频
Azure OpenAI 的 GPT 实时 API 隶属于 GPT-4o 模型家族,专为实现低延迟的“语音输入、语音输出”对话式交互而设计。你可以通过 WebRTC 或 WebSocket 连接此 API,实时发送音频输入并接收模型的音频响应。 本文将重点介绍如何通过 WebSocket 使用 GPT 实时 API。WebSocket 适用于服务器到服务器的场景,或对延迟要求不那么极致的客户端应用。 提示 对于网页或移动应用等客户端实时音频流场景,我们强烈推荐使用 WebRTC。WebRTC 专为低延迟实时音频传输设计,是大多数用例的最佳选择。 支持的模型 GPT 实时模型已在全球范围部署。 gpt-4o-realtime-preview (版本 2024-12-17) gpt-4o-mini-realtime-preview (版本 2024-12-17) gpt-realtime (版本 2025-08-28) 更多模型和版本信息,请参阅相关官方文档。 API 版本支持 实时 API 的支持始于 2024-10-01-preview 版本(现已停用)。请使用 2025-08-28 或更新版本以获取最新的 API 功能。 准备工作 在开始之前,请确保你已准备好以下环境和配置: Azure 订阅:你可以免费创建一个。 Node.js:需要 LTS 或 ESM 版本。 Azure OpenAI 资源:在支持的区域创建一个 Azure OpenAI 资源,并部署一个 gpt-realtime 模型。 身份验证:推荐使用 Microsoft Entra ID 进行无密钥身份验证。为此,你需要: 安装 Azure CLI。 为你的用户账户分配 认知服务用户 (Cognitive Services User) 角色。你可以在 Azure 门户的“访问控制 (IAM)” > “添加角色分配”中完成此操作。 部署模型 你可以通过 Azure AI Foundry 门户部署 gpt-realtime 模型。 ...