欢迎来到AI小卖铺博客
每天分享人工智能资讯、技术教程和工具。
每天分享人工智能资讯、技术教程和工具。
Azure OpenAI 的 GPT 实时 API 隶属于 GPT-4o 模型家族,专为实现低延迟的“语音输入、语音输出”对话式交互而设计。你可以通过 WebRTC 或 WebSocket 连接此 API,实时发送音频输入并接收模型的音频响应。 本文将重点介绍如何通过 WebSocket 使用 GPT 实时 API。WebSocket 适用于服务器到服务器的场景,或对延迟要求不那么极致的客户端应用。 提示 对于网页或移动应用等客户端实时音频流场景,我们强烈推荐使用 WebRTC。WebRTC 专为低延迟实时音频传输设计,是大多数用例的最佳选择。 支持的模型 GPT 实时模型已在全球范围部署。 gpt-4o-realtime-preview (版本 2024-12-17) gpt-4o-mini-realtime-preview (版本 2024-12-17) gpt-realtime (版本 2025-08-28) 更多模型和版本信息,请参阅相关官方文档。 API 版本支持 实时 API 的支持始于 2024-10-01-preview 版本(现已停用)。请使用 2025-08-28 或更新版本以获取最新的 API 功能。 准备工作 在开始之前,请确保你已准备好以下环境和配置: Azure 订阅:你可以免费创建一个。 Node.js:需要 LTS 或 ESM 版本。 Azure OpenAI 资源:在支持的区域创建一个 Azure OpenAI 资源,并部署一个 gpt-realtime 模型。 身份验证:推荐使用 Microsoft Entra ID 进行无密钥身份验证。为此,你需要: 安装 Azure CLI。 为你的用户账户分配 认知服务用户 (Cognitive Services User) 角色。你可以在 Azure 门户的“访问控制 (IAM)” > “添加角色分配”中完成此操作。 部署模型 你可以通过 Azure AI Foundry 门户部署 gpt-realtime 模型。 ...
ChatGPT 是由 OpenAI 开发的一款人工智能聊天机器人。如果使用得当,它可以极大地提高你的生产力。而掌握如何正确编写提示词(Prompt),是高效使用 ChatGPT 的关键。 本教程将通过分步指南,带你学习如何编写高质量的 AI 提示词,从而充分发挥 ChatGPT-3.5 的潜力。 核心学习目标 你将通过本教程学到以下关键技能: 理解模型能力:深入了解 ChatGPT-3.5 的功能与局限性。 掌握提示词技巧:学会如何通过添加前缀和补充细节来优化提示词,以获得稳定且一致的输出结果。 提升结果质量:学习如何构造提示词,以最大限度地减少回答中的错误信息和偏见。 获得最佳结果:掌握让 ChatGPT-3.5 为你提供最佳回答的系统方法。 通过实例学习 本教程将大量使用实例来阐释各种概念,帮助你更直观地理解。 例如,你可以尝试向 ChatGPT 发出以下提示词: 请用 5 岁小孩能听懂的话解释一下“生成式 AI”。 对此,生成式 AI(在此即 ChatGPT)会给出一个非常简单易懂的回答,就像给孩子讲故事一样。 关于 ChatGPT-4 ChatGPT-4 是在 ChatGPT-3.5 基础上进行改进的增强版本,具备更强大的功能。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API: 购买 / 了解更多:ai4.plus 备用入口:kk4099.com
PowerToys 鼠标实用工具是一系列增强 Windows 鼠标和光标功能的集合。这些工具可以帮助你快速定位光标、高亮鼠标点击、跨屏跳转以及显示十字线,从而提高操作精度和生产力。 查找我的鼠标 (Find My Mouse) 此功能通过激活一个聚焦于光标位置的聚光灯,帮助你快速找到鼠标指针。 激活后,单击鼠标或按任意键盘键可关闭聚光灯。如果在聚光灯激活时移动鼠标,聚光灯会在鼠标停止移动后不久自动消失。 激活方式 连按两次 Ctrl 键(左或右,可在设置中指定) 摇动鼠标 使用自定义快捷键 相关设置 设置项 描述 激活方式 选择激活方式:连按两次左 Ctrl、连按两次右 Ctrl、摇动鼠标或自定义快捷键。 摇动最小距离 调整触发此功能的鼠标摇动敏感度。 激活快捷键 用于激活聚光灯的自定义快捷键。 游戏模式下不激活 在系统上运行游戏时,防止此功能被激活。 覆盖层不透明度 聚光灯背景的透明度(默认值:50%)。 背景颜色 聚光灯背景的颜色(默认值:#000000)。 聚光灯颜色 聚焦于光标的圆圈颜色(默认值:#FFFFFF)。 聚光灯半径 聚焦于光标的圆圈半径(默认值:100 像素)。 聚光灯初始缩放 聚光灯动画的缩放系数。值越高,聚光灯聚焦到光标位置时的缩放动画越明显。 动画持续时间 聚光灯动画的播放时间(默认值:500 毫秒)。 排除的应用程序 添加应用程序名称(或部分名称),每行一个。例如,添加 Notepad 会同时匹配 Notepad.exe 和 Notepad++.exe;若要仅匹配 Notepad.exe,请添加 .exe 扩展名。 鼠标荧光笔 (Mouse Highlighter) 在鼠标左键或右键单击时,显示醒目的视觉指示器,非常适合用于演示或录制屏幕。 默认情况下,可以使用快捷键 Win + Shift + H 开启或关闭鼠标荧光笔功能。 相关设置 设置项 描述 激活快捷键 用于开启或关闭鼠标荧光笔的可自定义键盘快捷键。 主按钮高亮颜色 鼠标主按钮(通常是左键)点击时的高亮颜色。 副按钮高亮颜色 鼠标副按钮(通常是右键)点击时的高亮颜色。 始终高亮颜色 鼠标指针的常驻高亮颜色。 高亮模式 决定光标如何高亮。聚光灯模式会调暗屏幕以突出光标;圆形高亮模式则仅在光标周围显示一个圆圈,不影响屏幕其他部分。 半径 高亮区域的半径,单位为像素。 淡出延迟 高亮效果开始消失前的等待时间,单位为毫秒。 淡出持续时间 高亮效果消失动画的持续时间,单位为毫秒。 鼠标跳转 (Mouse Jump) 允许鼠标指针在单个大屏幕或多个屏幕之间进行长距离的快速移动。激活后,屏幕上会显示一个包含所有显示器布局的缩略图,你只需在目标位置单击即可将指针瞬间移动过去。 ...
在课程作业、学术研究或其他公开发表的文章中使用生成式 AI 工具时,必须谨慎处理其内容的引用和署名问题。在使用 AI 辅助完成课业前,请务必征求导师的意见。 由于 AI 技术仍在快速发展,相关内容的引用规范在未来几年也可能不断演变。目前,一些主流的学术写作风格指南已经发布了初步的指导原则。请注意,个别出版商可能也有自己关于引用 AI 生成内容的特定要求。 引用 AI 的通用原则 无论您使用何种引用风格,以下几项基本原则都适用: 明确标注使用情况:当您在作品中使用了生成式 AI 的输出时——无论是直接引用、转述,还是用于编辑、翻译、构思、数据处理等辅助任务——都应明确致谢或引用。 核实原始来源:不要直接使用 AI 工具提供的文献来源。您必须亲自阅读并核实这些原始资料。这主要有两个原因: 生成式 AI 可能会“捏造”虚假的引用信息(即“幻觉”)。 即使 AI 引用了真实存在的文献,其对文献内容的概括或转述也可能不准确。 保持灵活性:新兴的引用指南总是滞后于技术的发展和应用。因此,在引用 AI 生成内容时应保持灵活。如果不确定如何引用,可以在文中添加注释,描述您是如何使用特定工具的。 牢记引用目的:引用的两大核心目的是:第一,给予原作者或创作者应有的署名权;第二,帮助读者找到您研究中使用的原始资料。在决定是否及如何引用 AI 内容时,请以这两大目的为准绳。 APA 格式 (第 7 版) APA 风格将 AI 生成的内容视为算法的输出,其“作者”是创建该模型的公司或组织。例如,引用 ChatGPT 时,作者应为 OpenAI。 核心指南: 在文中直接引用 AI 内容时,需要添加文内引用,并在参考文献列表中加入相应条目。 如果您在研究的某个环节使用了 AI 工具,应在引言或方法部分描述其用途,并附上您使用的提示词 (Prompt)。 对于较长的 AI 回复,可以在附录或在线补充材料中提供全文,并通过链接指向。 格式: 作者. (日期). 工具名称 (版本号) [大型语言模型]. URL 示例: OpenAI. (2023). ChatGPT (Mar 14 version) [Large language model]. https://chat.openai.com/chat 文内引用示例: ...
在一年半以前,我的每一行代码都由自己亲手编写。而今天,AI 负责了 80% 的初始代码实现,我则专注于架构设计、代码审查和同时推进多个开发线程。 本文并非又一篇鼓吹“AI 将颠覆一切”的文章,而是关于将 AI 融入生产开发流程的真实写照:哪些方法切实有效,哪些纯属浪费时间,以及为什么我将 AI 视为一个“不会吸取教训的初级开发者”——这正是我成功运用 AI 的心智模型。 我的四次编程范式转变 在我的职业生涯中,解决编程问题的方法经历了四次重大转变: 最初 5 年: 阅读书籍和 SDK 文档。 之后 12 年: 使用 Google 搜索社区提供的答案。 过去 18 个月: 使用 Cursor 进行 AI 辅助编码。 最近 6 周: 使用 Claude Code 进行全面的 AI 委托开发。 每一次转变的节奏都比上一次更快。切换到 Claude Code?我只用了几个小时就上手并开始高效产出。 AI 开发的真实工作流 抛开所有炒作,我当前的工作流是这样的:我主要将 AI 作为一个“思考伙伴”,与它合作,逐步打磨出最终进入生产环境的代码。 三步迭代法:接受不完美的第一版 忘记那些一键生成完美代码的幻想吧。作为工程师,你的职责是为问题找到最佳解决方案,而不仅仅是写一堆代码。我的实践证明,通常需要三次迭代。 第一步:95% 的代码都是垃圾 在这一阶段,AI 的主要作用是构建对你系统上下文的初步理解,同时帮助你识别出真正的挑战。生成的代码通常完全错误,但这没关系,关键是从中吸取教D训并反馈给 AI。 第二步:50% 的代码仍需返工 进入第二阶段,AI 开始理解需求的细微差别,你也已经明确了具体的实现路径。但即便如此,仍有一半的代码可能无法直接使用。 第三步:获得可用的初始代码 到这一步,AI 终于能生成一个我们可以迭代和优化的基础版本。你需要持续审查并修正它的方向。这只是你的起点,而非终点。 这个过程不是失败,而是迭代。期望 AI 第一次就给出完美的方案,就像期望一个初级开发者在毫无背景信息的情况下,独立完成一个复杂功能一样不切实际。 上下文难题及其解决方案 使用 AI 最大的挑战在于,它无法在两次独立的会话之间保留记忆。每次对话都像是一次冷启动。我的解决方案有两个: ...
Google Cloud 宣布,其开源 AI 代理(Agent)Gemini CLI 现已与高性能的开源代码编辑器 Zed 完成集成。 告别频繁切换,提升开发效率 以往,开发者常常需要在终端和编辑器之间不断切换,这不仅会打断心流,也降低了工作效率。现在,通过此次集成,开发者可以将复杂的编程任务直接委托给强大的 Gemini CLI 代理,并在 Zed 编辑器中以可视化的方式实时观察任务执行过程。 全新工作流:AI 代理与可视化编辑的结合 这种全新的工作流将 AI 的能力无缝融入到了闪电般快速的 Zed 编辑器中,让编码体验更加流畅。主要优势包括: 无缝工作流:无需离开编辑器即可调用 AI 功能,告别在终端和编辑器之间的来回切换。 任务自动化:将代码生成、调试、重构等复杂任务交给 Gemini CLI 处理,从而专注于核心逻辑。 实时可视化:在 Zed 编辑器中即时看到 AI 操作的结果,对代码变更一目了然。 开源生态:Gemini CLI 和 Zed 均为开源项目,为开发者提供了高度的灵活性和可定制性。 感兴趣的开发者可以自行探索 Gemini CLI 与 Zed 的集成,体验这一高效的 AI 驱动开发模式。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API: 购买 / 了解更多:ai4.plus 备用入口:kk4099.com
一名 16 岁少年 Adam Raine 在与 ChatGPT 进行了长达数月的对话后选择结束自己的生命。其家人现已对 OpenAI 提起诉讼,指控该聊天机器人对悲剧负有责任。此案引发了对 AI 安全性的广泛关注,并促使 OpenAI 承诺对其系统处理用户精神困扰的方式进行重大调整。 事件背景:一桩悲剧引发的诉讼 根据提交给加州旧金山县高等法院的文件,来自加州的少年 Adam Raine 在自杀前曾多次与 ChatGPT 讨论自杀方法。诉讼文件指出,ChatGPT 不仅就他选择的自杀方法是否有效提供了指导,甚至主动提出帮他起草给父母的遗书。 其家人的律师称,少年在自杀前遭受了“来自 ChatGPT 长达数月的鼓励”。这起诉讼将矛头直指 OpenAI 及其首席执行官 Sam Altman,声称当时版本的 ChatGPT(即 GPT-4o)“在存在明显安全问题的情况下被仓促推向市场”。 OpenAI 发言人对此表示“对 Raine 先生的离世深感悲痛”,并向其家人致以最深切的同情,同时表示正在审查法院文件。 AI 的潜在风险:长对话与“精神病风险” 这起诉讼揭示了 AI 模型在长时间交互中可能存在的安全隐患。法庭文件显示,Adam 与 ChatGPT 每天交换的信息多达 650 条。 OpenAI 在一篇博文中承认,在长时间的对话中,“模型安全训练的某些部分可能会退化”。他们举例说明: “当用户首次提及自杀意图时,ChatGPT 可能会正确地指向自杀干预热线。但在长时间、多轮消息的交互后,它最终可能会提供一个违背我们安全护栏的答案。” 这一问题并非孤例。微软 AI 部门负责人 Mustafa Suleyman 近期也表达了对 AI 给用户带来的“精神病风险”(psychosis risk)的担忧。微软将此定义为“通过与 AI 聊天机器人进行沉浸式对话而出现或恶化的躁狂、妄想或偏执等症状”。 诉讼直指 OpenAI 的安全疏忽 诉讼方认为,类似 Adam 的悲剧是完全可以预见的。其律师 Jay Edelson 在社交媒体上表示,他们希望向陪审团提交证据,证明 OpenAI 内部的安全团队曾反对发布 GPT-4o,公司顶尖的安全研究员之一 Ilya Sutskever 也因此事离职。 ...
GPTZero 是一款先进的 AI 内容检测工具,旨在识别由 ChatGPT、GPT-4、Gemini、Claude 等主流大语言模型生成的文本。它不仅能检测 AI 内容,还提供了一系列写作辅助功能,帮助用户提升文本质量,确保每一个字都经得起推敲。 核心功能 GPTZero 的功能超越了单一的 AI 内容检测,构建了一个全面的写作与原创性验证生态系统。 1. 精准的 AI 内容检测 广泛的模型支持:能够有效识别来自 OpenAI (ChatGPT/GPT-4/GPT-5)、Google (Gemini)、Anthropic (Claude)、Meta (Llama) 等多种主流 AI 模型的生成内容。 高准确率:在区分 AI 生成文本与人类写作方面,其准确率高达 99%。独立基准测试(如宾夕法尼亚州立大学 AI 研究实验室的合作研究)也验证了其行业领先的准确性。 混合文本识别:与其他检测器不同,GPTZero 能可靠地检测“人机混合”的文档,准确率达到 96.5%,并能高亮显示文本中可能由 AI 生成的具体段落。 低误报率:致力于将误报(将人类写作错误识别为 AI)和漏报(未能识别出 AI 写作)降至最低。针对非英语母语者 (ESL) 的写作,模型经过专门优化,将误报率控制在 1% 以内。 2. 全面的写作辅助工具 写作质量改进:提供免费的语法检查和写作反馈,帮助用户优化文笔。 AI 常用词分析:识别并建议替换文本中过度使用的 AI 风格词汇,使语言更自然。 抄袭检测:检查内容是否从外部来源复制而未注明出处,确保原创性。 AI 来源查找器:帮助用户为文中的论点寻找新的、可靠的引用来源。 3. 创新的原创性验证 为了证明内容的真实性,GPTZero 提供了独特的验证工具: 写作过程回放:通过视频形式记录和回放用户的写作过程,直观展示文档的创作历程。 人类写作验证报告:生成详细的写作报告,作为内容为人工原创的有力凭证。 工作原理 GPTZero 的 AI 检测模型包含 7 个核心组件,通过多步骤方法处理文本,以实现最高的准确率和最低的误报率。AI 检测器主要关注以下文本特征: 困惑度 (Perplexity):衡量文本的可预测性。AI 生成的文本通常语言模式更固定,因此困惑度较低。 突发性 (Burstiness):分析句子长度和风格的变化程度。人类写作的节奏和结构通常更富于变化,而 AI 生成的文本则可能显得过于均匀。 写作风格 (Style):评估文本的语调和风格是否过于通用或重复。 通过综合分析数百个类似因素,GPTZero 能够精准地判断文本来源。 ...
生成式预训练 Transformer(Generative Pre-trained Transformer, GPT)是一种基于 Transformer 深度学习架构的大语言模型(LLM),已广泛应用于各类生成式 AI 聊天机器人中。GPT 模型通过在海量无标签数据集上进行预训练,从而掌握生成新内容的能力。 OpenAI 公司在 2018 年首次将生成式预训练(Generative Pre-training, GP)方法应用于 Transformer 架构,并推出了 GPT-1 模型。此后,该公司陆续发布了规模更大的 GPT 系列模型。2022 年末,基于 GPT-3.5 的 ChatGPT 发布,迅速引爆了全球对 AI 的关注。随后,众多科技公司也纷纷推出自己的 “GPT” 类模型,如 Google 的 Gemini、DeepSeek 以及 Claude 等。 GPT 模型的核心能力是生成文本,但其应用早已不限于此。例如,GPT-4o 已经能够处理和生成文本、图像和音频等多种模态的数据。为了处理更复杂的任务,一些被称为“推理模型”的 GPT(如 OpenAI o3)在生成输出前会花费更多时间进行问题分析,以提升结果的准确性。 核心技术背景 GPT 的诞生并非一蹴而就,它建立在机器学习领域多年的技术积累之上。 1. 机器学习的革命 在 21 世纪 10 年代,算法的改进、计算能力的增强以及海量数字化资料的涌现,共同推动了机器学习领域的革命。受生物神经结构启发的人工神经网络通过学习数百万个样本,在处理语言等复杂任务上取得了飞速进步。 2. 生成式预训练 (GP) 生成式预训练(Generative Pre-training, GP)是机器学习中一种早已成熟的技术,属于自监督学习的范畴。其核心思想分为两个阶段: 预训练(Pre-training):首先,模型在庞大的无标签数据集上进行训练,学习生成数据点的通用模式和知识。 微调(Fine-tuning):然后,将预训练好的模型在一个规模较小、带有标签的特定任务数据集上进行适配和优化。 这种半监督方法极大地降低了对大规模手动标注数据的依赖,解决了以往训练高性能神经网络模型成本高昂且耗时的问题。 3. Transformer 架构 Transformer 架构是 GPT 模型的技术基石。它由 Google 的研究人员于 2017 年在论文《Attention Is All You Need》中首次提出。 ...
Gemini Code Assist 是一款由 AI 驱动的协作工具,可直接集成于 VS Code、IntelliJ 及其他 JetBrains IDE 中,旨在帮助开发者提升编码效率。本指南将详细介绍如何利用其核心功能,包括代码生成、代码补全、智能操作等。 如果您使用的是 Gemini Code Assist Enterprise 版本,还可以通过代码自定义功能,让 Gemini 根据您组织的私有代码库提供更贴切的建议。 本文档适用于所有水平的开发者,但假定您已熟悉所使用的 IDE (VS Code 或 JetBrains IDEs)。 准备工作 在开始之前,请确保您已完成以下准备工作: 安装 Gemini Code Assist:在您的 IDE 中安装个人版、Standard 版或 Enterprise 版的 Gemini Code Assist 插件。 确认语言支持:确保您正在编写的代码文件所使用的编程语言在 Gemini Code Assist 的支持范围内。 配置网络代理 (如需):如果您的开发环境位于代理之后,请参考 IDE 的官方文档进行相应的网络配置(例如 Visual Studio Code 的网络连接设置或 JetBrains IDEs 的 HTTP 代理设置)。 根据提示生成代码 Gemini Code Assist 支持通过自然语言提示来生成代码。您可以使用命令面板,也可以直接在代码注释中编写提示。 以下示例将以 “创建一个 Cloud Storage 存储桶的函数” (function to create a Cloud Storage bucket) 作为提示内容。 ...