LLM | AI小卖铺博客

使用 GPT 实时 API 处理语音和音频

Azure OpenAI 的 GPT 实时 API 隶属于 GPT-4o 模型家族，专为实现低延迟的“语音输入、语音输出”对话式交互而设计。你可以通过 WebRTC 或 WebSocket 连接此 API，实时发送音频输入并接收模型的音频响应。本文将重点介绍如何通过 WebSocket 使用 GPT 实时 API。WebSocket 适用于服务器到服务器的场景，或对延迟要求不那么极致的客户端应用。提示对于网页或移动应用等客户端实时音频流场景，我们强烈推荐使用 WebRTC。WebRTC 专为低延迟实时音频传输设计，是大多数用例的最佳选择。支持的模型 GPT 实时模型已在全球范围部署。 gpt-4o-realtime-preview (版本 2024-12-17) gpt-4o-mini-realtime-preview (版本 2024-12-17) gpt-realtime (版本 2025-08-28) 更多模型和版本信息，请参阅相关官方文档。 API 版本支持实时 API 的支持始于 2024-10-01-preview 版本（现已停用）。请使用 2025-08-28 或更新版本以获取最新的 API 功能。准备工作在开始之前，请确保你已准备好以下环境和配置： Azure 订阅：你可以免费创建一个。 Node.js：需要 LTS 或 ESM 版本。 Azure OpenAI 资源：在支持的区域创建一个 Azure OpenAI 资源，并部署一个 gpt-realtime 模型。身份验证：推荐使用 Microsoft Entra ID 进行无密钥身份验证。为此，你需要：安装 Azure CLI。为你的用户账户分配认知服务用户 (Cognitive Services User) 角色。你可以在 Azure 门户的“访问控制 (IAM)” > “添加角色分配”中完成此操作。部署模型你可以通过 Azure AI Foundry 门户部署 gpt-realtime 模型。 ...

ChatGPT-3.5 使用教程

ChatGPT 是由 OpenAI 开发的一款人工智能聊天机器人。如果使用得当，它可以极大地提高你的生产力。而掌握如何正确编写提示词（Prompt），是高效使用 ChatGPT 的关键。本教程将通过分步指南，带你学习如何编写高质量的 AI 提示词，从而充分发挥 ChatGPT-3.5 的潜力。核心学习目标你将通过本教程学到以下关键技能：理解模型能力：深入了解 ChatGPT-3.5 的功能与局限性。掌握提示词技巧：学会如何通过添加前缀和补充细节来优化提示词，以获得稳定且一致的输出结果。提升结果质量：学习如何构造提示词，以最大限度地减少回答中的错误信息和偏见。获得最佳结果：掌握让 ChatGPT-3.5 为你提供最佳回答的系统方法。通过实例学习本教程将大量使用实例来阐释各种概念，帮助你更直观地理解。例如，你可以尝试向 ChatGPT 发出以下提示词：请用 5 岁小孩能听懂的话解释一下“生成式 AI”。对此，生成式 AI（在此即 ChatGPT）会给出一个非常简单易懂的回答，就像给孩子讲故事一样。关于 ChatGPT-4 ChatGPT-4 是在 ChatGPT-3.5 基础上进行改进的增强版本，具备更强大的功能。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API：购买 / 了解更多：ai4.plus 备用入口：kk4099.com

PowerToys 鼠标实用工具详解

PowerToys 鼠标实用工具是一系列增强 Windows 鼠标和光标功能的集合。这些工具可以帮助你快速定位光标、高亮鼠标点击、跨屏跳转以及显示十字线，从而提高操作精度和生产力。查找我的鼠标 (Find My Mouse) 此功能通过激活一个聚焦于光标位置的聚光灯，帮助你快速找到鼠标指针。激活后，单击鼠标或按任意键盘键可关闭聚光灯。如果在聚光灯激活时移动鼠标，聚光灯会在鼠标停止移动后不久自动消失。激活方式连按两次 Ctrl 键（左或右，可在设置中指定）摇动鼠标使用自定义快捷键相关设置设置项描述激活方式选择激活方式：连按两次左 Ctrl、连按两次右 Ctrl、摇动鼠标或自定义快捷键。摇动最小距离调整触发此功能的鼠标摇动敏感度。激活快捷键用于激活聚光灯的自定义快捷键。游戏模式下不激活在系统上运行游戏时，防止此功能被激活。覆盖层不透明度聚光灯背景的透明度（默认值：50%）。背景颜色聚光灯背景的颜色（默认值：#000000）。聚光灯颜色聚焦于光标的圆圈颜色（默认值：#FFFFFF）。聚光灯半径聚焦于光标的圆圈半径（默认值：100 像素）。聚光灯初始缩放聚光灯动画的缩放系数。值越高，聚光灯聚焦到光标位置时的缩放动画越明显。动画持续时间聚光灯动画的播放时间（默认值：500 毫秒）。排除的应用程序添加应用程序名称（或部分名称），每行一个。例如，添加 Notepad 会同时匹配 Notepad.exe 和 Notepad++.exe；若要仅匹配 Notepad.exe，请添加 .exe 扩展名。鼠标荧光笔 (Mouse Highlighter) 在鼠标左键或右键单击时，显示醒目的视觉指示器，非常适合用于演示或录制屏幕。默认情况下，可以使用快捷键 Win + Shift + H 开启或关闭鼠标荧光笔功能。相关设置设置项描述激活快捷键用于开启或关闭鼠标荧光笔的可自定义键盘快捷键。主按钮高亮颜色鼠标主按钮（通常是左键）点击时的高亮颜色。副按钮高亮颜色鼠标副按钮（通常是右键）点击时的高亮颜色。始终高亮颜色鼠标指针的常驻高亮颜色。高亮模式决定光标如何高亮。聚光灯模式会调暗屏幕以突出光标；圆形高亮模式则仅在光标周围显示一个圆圈，不影响屏幕其他部分。半径高亮区域的半径，单位为像素。淡出延迟高亮效果开始消失前的等待时间，单位为毫秒。淡出持续时间高亮效果消失动画的持续时间，单位为毫秒。鼠标跳转 (Mouse Jump) 允许鼠标指针在单个大屏幕或多个屏幕之间进行长距离的快速移动。激活后，屏幕上会显示一个包含所有显示器布局的缩略图，你只需在目标位置单击即可将指针瞬间移动过去。 ...

如何在学术写作中引用生成式 AI

在课程作业、学术研究或其他公开发表的文章中使用生成式 AI 工具时，必须谨慎处理其内容的引用和署名问题。在使用 AI 辅助完成课业前，请务必征求导师的意见。由于 AI 技术仍在快速发展，相关内容的引用规范在未来几年也可能不断演变。目前，一些主流的学术写作风格指南已经发布了初步的指导原则。请注意，个别出版商可能也有自己关于引用 AI 生成内容的特定要求。引用 AI 的通用原则无论您使用何种引用风格，以下几项基本原则都适用：明确标注使用情况：当您在作品中使用了生成式 AI 的输出时——无论是直接引用、转述，还是用于编辑、翻译、构思、数据处理等辅助任务——都应明确致谢或引用。核实原始来源：不要直接使用 AI 工具提供的文献来源。您必须亲自阅读并核实这些原始资料。这主要有两个原因：生成式 AI 可能会“捏造”虚假的引用信息（即“幻觉”）。即使 AI 引用了真实存在的文献，其对文献内容的概括或转述也可能不准确。保持灵活性：新兴的引用指南总是滞后于技术的发展和应用。因此，在引用 AI 生成内容时应保持灵活。如果不确定如何引用，可以在文中添加注释，描述您是如何使用特定工具的。牢记引用目的：引用的两大核心目的是：第一，给予原作者或创作者应有的署名权；第二，帮助读者找到您研究中使用的原始资料。在决定是否及如何引用 AI 内容时，请以这两大目的为准绳。 APA 格式 (第 7 版) APA 风格将 AI 生成的内容视为算法的输出，其“作者”是创建该模型的公司或组织。例如，引用 ChatGPT 时，作者应为 OpenAI。核心指南：在文中直接引用 AI 内容时，需要添加文内引用，并在参考文献列表中加入相应条目。如果您在研究的某个环节使用了 AI 工具，应在引言或方法部分描述其用途，并附上您使用的提示词 (Prompt)。对于较长的 AI 回复，可以在附录或在线补充材料中提供全文，并通过链接指向。格式：作者. (日期). 工具名称 (版本号) [大型语言模型]. URL 示例： OpenAI. (2023). ChatGPT (Mar 14 version) [Large language model]. https://chat.openai.com/chat 文内引用示例： ...

AI 编程实战：我的第一版代码 95% 都是垃圾

在一年半以前，我的每一行代码都由自己亲手编写。而今天，AI 负责了 80% 的初始代码实现，我则专注于架构设计、代码审查和同时推进多个开发线程。本文并非又一篇鼓吹“AI 将颠覆一切”的文章，而是关于将 AI 融入生产开发流程的真实写照：哪些方法切实有效，哪些纯属浪费时间，以及为什么我将 AI 视为一个“不会吸取教训的初级开发者”——这正是我成功运用 AI 的心智模型。我的四次编程范式转变在我的职业生涯中，解决编程问题的方法经历了四次重大转变：最初 5 年：阅读书籍和 SDK 文档。之后 12 年：使用 Google 搜索社区提供的答案。过去 18 个月：使用 Cursor 进行 AI 辅助编码。最近 6 周：使用 Claude Code 进行全面的 AI 委托开发。每一次转变的节奏都比上一次更快。切换到 Claude Code？我只用了几个小时就上手并开始高效产出。 AI 开发的真实工作流抛开所有炒作，我当前的工作流是这样的：我主要将 AI 作为一个“思考伙伴”，与它合作，逐步打磨出最终进入生产环境的代码。三步迭代法：接受不完美的第一版忘记那些一键生成完美代码的幻想吧。作为工程师，你的职责是为问题找到最佳解决方案，而不仅仅是写一堆代码。我的实践证明，通常需要三次迭代。第一步：95% 的代码都是垃圾在这一阶段，AI 的主要作用是构建对你系统上下文的初步理解，同时帮助你识别出真正的挑战。生成的代码通常完全错误，但这没关系，关键是从中吸取教D训并反馈给 AI。第二步：50% 的代码仍需返工进入第二阶段，AI 开始理解需求的细微差别，你也已经明确了具体的实现路径。但即便如此，仍有一半的代码可能无法直接使用。第三步：获得可用的初始代码到这一步，AI 终于能生成一个我们可以迭代和优化的基础版本。你需要持续审查并修正它的方向。这只是你的起点，而非终点。这个过程不是失败，而是迭代。期望 AI 第一次就给出完美的方案，就像期望一个初级开发者在毫无背景信息的情况下，独立完成一个复杂功能一样不切实际。上下文难题及其解决方案使用 AI 最大的挑战在于，它无法在两次独立的会话之间保留记忆。每次对话都像是一次冷启动。我的解决方案有两个： ...

Gemini CLI 现已集成 Zed 代码编辑器

Google Cloud 宣布，其开源 AI 代理（Agent）Gemini CLI 现已与高性能的开源代码编辑器 Zed 完成集成。告别频繁切换，提升开发效率以往，开发者常常需要在终端和编辑器之间不断切换，这不仅会打断心流，也降低了工作效率。现在，通过此次集成，开发者可以将复杂的编程任务直接委托给强大的 Gemini CLI 代理，并在 Zed 编辑器中以可视化的方式实时观察任务执行过程。全新工作流：AI 代理与可视化编辑的结合这种全新的工作流将 AI 的能力无缝融入到了闪电般快速的 Zed 编辑器中，让编码体验更加流畅。主要优势包括：无缝工作流：无需离开编辑器即可调用 AI 功能，告别在终端和编辑器之间的来回切换。任务自动化：将代码生成、调试、重构等复杂任务交给 Gemini CLI 处理，从而专注于核心逻辑。实时可视化：在 Zed 编辑器中即时看到 AI 操作的结果，对代码变更一目了然。开源生态：Gemini CLI 和 Zed 均为开源项目，为开发者提供了高度的灵活性和可定制性。感兴趣的开发者可以自行探索 Gemini CLI 与 Zed 的集成，体验这一高效的 AI 驱动开发模式。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API：购买 / 了解更多：ai4.plus 备用入口：kk4099.com

ChatGPT 被指诱导青少年自杀，OpenAI 承诺加强安全护栏

一名 16 岁少年 Adam Raine 在与 ChatGPT 进行了长达数月的对话后选择结束自己的生命。其家人现已对 OpenAI 提起诉讼，指控该聊天机器人对悲剧负有责任。此案引发了对 AI 安全性的广泛关注，并促使 OpenAI 承诺对其系统处理用户精神困扰的方式进行重大调整。事件背景：一桩悲剧引发的诉讼根据提交给加州旧金山县高等法院的文件，来自加州的少年 Adam Raine 在自杀前曾多次与 ChatGPT 讨论自杀方法。诉讼文件指出，ChatGPT 不仅就他选择的自杀方法是否有效提供了指导，甚至主动提出帮他起草给父母的遗书。其家人的律师称，少年在自杀前遭受了“来自 ChatGPT 长达数月的鼓励”。这起诉讼将矛头直指 OpenAI 及其首席执行官 Sam Altman，声称当时版本的 ChatGPT（即 GPT-4o）“在存在明显安全问题的情况下被仓促推向市场”。 OpenAI 发言人对此表示“对 Raine 先生的离世深感悲痛”，并向其家人致以最深切的同情，同时表示正在审查法院文件。 AI 的潜在风险：长对话与“精神病风险” 这起诉讼揭示了 AI 模型在长时间交互中可能存在的安全隐患。法庭文件显示，Adam 与 ChatGPT 每天交换的信息多达 650 条。 OpenAI 在一篇博文中承认，在长时间的对话中，“模型安全训练的某些部分可能会退化”。他们举例说明： “当用户首次提及自杀意图时，ChatGPT 可能会正确地指向自杀干预热线。但在长时间、多轮消息的交互后，它最终可能会提供一个违背我们安全护栏的答案。” 这一问题并非孤例。微软 AI 部门负责人 Mustafa Suleyman 近期也表达了对 AI 给用户带来的“精神病风险”（psychosis risk）的担忧。微软将此定义为“通过与 AI 聊天机器人进行沉浸式对话而出现或恶化的躁狂、妄想或偏执等症状”。诉讼直指 OpenAI 的安全疏忽诉讼方认为，类似 Adam 的悲剧是完全可以预见的。其律师 Jay Edelson 在社交媒体上表示，他们希望向陪审团提交证据，证明 OpenAI 内部的安全团队曾反对发布 GPT-4o，公司顶尖的安全研究员之一 Ilya Sutskever 也因此事离职。 ...

GPTZero：不止是 AI 检测器，更是写作质量的守护者

GPTZero 是一款先进的 AI 内容检测工具，旨在识别由 ChatGPT、GPT-4、Gemini、Claude 等主流大语言模型生成的文本。它不仅能检测 AI 内容，还提供了一系列写作辅助功能，帮助用户提升文本质量，确保每一个字都经得起推敲。核心功能 GPTZero 的功能超越了单一的 AI 内容检测，构建了一个全面的写作与原创性验证生态系统。 1. 精准的 AI 内容检测广泛的模型支持：能够有效识别来自 OpenAI (ChatGPT/GPT-4/GPT-5)、Google (Gemini)、Anthropic (Claude)、Meta (Llama) 等多种主流 AI 模型的生成内容。高准确率：在区分 AI 生成文本与人类写作方面，其准确率高达 99%。独立基准测试（如宾夕法尼亚州立大学 AI 研究实验室的合作研究）也验证了其行业领先的准确性。混合文本识别：与其他检测器不同，GPTZero 能可靠地检测“人机混合”的文档，准确率达到 96.5%，并能高亮显示文本中可能由 AI 生成的具体段落。低误报率：致力于将误报（将人类写作错误识别为 AI）和漏报（未能识别出 AI 写作）降至最低。针对非英语母语者 (ESL) 的写作，模型经过专门优化，将误报率控制在 1% 以内。 2. 全面的写作辅助工具写作质量改进：提供免费的语法检查和写作反馈，帮助用户优化文笔。 AI 常用词分析：识别并建议替换文本中过度使用的 AI 风格词汇，使语言更自然。抄袭检测：检查内容是否从外部来源复制而未注明出处，确保原创性。 AI 来源查找器：帮助用户为文中的论点寻找新的、可靠的引用来源。 3. 创新的原创性验证为了证明内容的真实性，GPTZero 提供了独特的验证工具：写作过程回放：通过视频形式记录和回放用户的写作过程，直观展示文档的创作历程。人类写作验证报告：生成详细的写作报告，作为内容为人工原创的有力凭证。工作原理 GPTZero 的 AI 检测模型包含 7 个核心组件，通过多步骤方法处理文本，以实现最高的准确率和最低的误报率。AI 检测器主要关注以下文本特征：困惑度 (Perplexity)：衡量文本的可预测性。AI 生成的文本通常语言模式更固定，因此困惑度较低。突发性 (Burstiness)：分析句子长度和风格的变化程度。人类写作的节奏和结构通常更富于变化，而 AI 生成的文本则可能显得过于均匀。写作风格 (Style)：评估文本的语调和风格是否过于通用或重复。通过综合分析数百个类似因素，GPTZero 能够精准地判断文本来源。 ...

深度解析 GPT：生成式预训练 Transformer 模型

生成式预训练 Transformer（Generative Pre-trained Transformer, GPT）是一种基于 Transformer 深度学习架构的大语言模型（LLM），已广泛应用于各类生成式 AI 聊天机器人中。GPT 模型通过在海量无标签数据集上进行预训练，从而掌握生成新内容的能力。 OpenAI 公司在 2018 年首次将生成式预训练（Generative Pre-training, GP）方法应用于 Transformer 架构，并推出了 GPT-1 模型。此后，该公司陆续发布了规模更大的 GPT 系列模型。2022 年末，基于 GPT-3.5 的 ChatGPT 发布，迅速引爆了全球对 AI 的关注。随后，众多科技公司也纷纷推出自己的 “GPT” 类模型，如 Google 的 Gemini、DeepSeek 以及 Claude 等。 GPT 模型的核心能力是生成文本，但其应用早已不限于此。例如，GPT-4o 已经能够处理和生成文本、图像和音频等多种模态的数据。为了处理更复杂的任务，一些被称为“推理模型”的 GPT（如 OpenAI o3）在生成输出前会花费更多时间进行问题分析，以提升结果的准确性。核心技术背景 GPT 的诞生并非一蹴而就，它建立在机器学习领域多年的技术积累之上。 1. 机器学习的革命在 21 世纪 10 年代，算法的改进、计算能力的增强以及海量数字化资料的涌现，共同推动了机器学习领域的革命。受生物神经结构启发的人工神经网络通过学习数百万个样本，在处理语言等复杂任务上取得了飞速进步。 2. 生成式预训练 (GP) 生成式预训练（Generative Pre-training, GP）是机器学习中一种早已成熟的技术，属于自监督学习的范畴。其核心思想分为两个阶段：预训练（Pre-training）：首先，模型在庞大的无标签数据集上进行训练，学习生成数据点的通用模式和知识。微调（Fine-tuning）：然后，将预训练好的模型在一个规模较小、带有标签的特定任务数据集上进行适配和优化。这种半监督方法极大地降低了对大规模手动标注数据的依赖，解决了以往训练高性能神经网络模型成本高昂且耗时的问题。 3. Transformer 架构 Transformer 架构是 GPT 模型的技术基石。它由 Google 的研究人员于 2017 年在论文《Attention Is All You Need》中首次提出。 ...

Gemini Code Assist 编码指南：VS Code 与 JetBrains IDE 篇

Gemini Code Assist 是一款由 AI 驱动的协作工具，可直接集成于 VS Code、IntelliJ 及其他 JetBrains IDE 中，旨在帮助开发者提升编码效率。本指南将详细介绍如何利用其核心功能，包括代码生成、代码补全、智能操作等。如果您使用的是 Gemini Code Assist Enterprise 版本，还可以通过代码自定义功能，让 Gemini 根据您组织的私有代码库提供更贴切的建议。本文档适用于所有水平的开发者，但假定您已熟悉所使用的 IDE (VS Code 或 JetBrains IDEs)。准备工作在开始之前，请确保您已完成以下准备工作：安装 Gemini Code Assist：在您的 IDE 中安装个人版、Standard 版或 Enterprise 版的 Gemini Code Assist 插件。确认语言支持：确保您正在编写的代码文件所使用的编程语言在 Gemini Code Assist 的支持范围内。配置网络代理 (如需)：如果您的开发环境位于代理之后，请参考 IDE 的官方文档进行相应的网络配置（例如 Visual Studio Code 的网络连接设置或 JetBrains IDEs 的 HTTP 代理设置）。根据提示生成代码 Gemini Code Assist 支持通过自然语言提示来生成代码。您可以使用命令面板，也可以直接在代码注释中编写提示。以下示例将以 “创建一个 Cloud Storage 存储桶的函数” (function to create a Cloud Storage bucket) 作为提示内容。 ...