文章 | AI小卖铺博客

Gemini Batch API 现已支持 Embedding 模型与 OpenAI SDK

Gemini Batch API 现已扩展其功能，新增对 Gemini Embedding 模型的支持，并为开发者提供了通过 OpenAI SDK 提交和处理批处理任务的能力。 Batch API 专为高吞吐量、对延迟不敏感的场景设计，能够以异步方式处理任务，且价格比标准 API 低 50%，此次更新将进一步拓宽其应用范围。支持 Gemini Embedding 模型现在，您可以通过 Batch API 调用我们强大的 Gemini Embedding 模型。这意味着您可以在更高的速率限制下使用该模型，并且成本仅为标准 API 的一半，即每百万输入 token 0.075 美元。这一特性为更多对成本敏感、延迟容忍度高或需要异步处理的应用场景解锁了可能性。通过以下几行 Python 代码即可开始使用批量 Embedding 功能： # 1. 创建一个包含请求的 JSONL 文件 (例如 embedding_requests.jsonl) # {"key": "request_1", "request": {"output_dimensionality": 512, "content": {"parts": [{"text": "解释一下什么是生成式 AI"}]}}} # {"key": "request_2", "request": {"output_dimensionality": 512, "content": {"parts": [{"text": "解释一下什么是量子计算"}]}}} from google import genai client = genai.Client() # 2. 上传包含批处理请求的文件 uploaded_batch_requests = client.files.upload(file='embedding_requests.jsonl') # 3. 创建 Embedding 批处理作业 batch_job = client.batches.create_embeddings( model="gemini-embedding-001", src={"file_name": uploaded_batch_requests.name} ) print(f"已创建 Embedding 批处理作业: {batch_job.name}") # 4. 等待作业完成（最长可能需要 24 小时） # ... 此处省略轮询或等待逻辑 ... # 5. 检查作业状态并下载结果 if batch_job.state.name == 'JOB_STATE_SUCCEEDED': result_file_name = batch_job.dest.file_name file_content_bytes = client.files.download(file=result_file_name) file_content = file_content_bytes.decode('utf-8') for line in file_content.splitlines(): print(line) 更多关于批量 Embedding 的信息和示例，请参阅官方文档中的相关章节。 ...

Claude 代码解释器深度评测：对标 ChatGPT，功能与短板并存

Anthropic 近日为其 AI 模型 Claude 推出了一项强大的新功能，允许模型在服务器端沙箱环境中执行代码、分析数据并创建文件。尽管官方将其命名为拗口的“升级版文件创建与分析”（Upgraded file creation and analysis），但其实质就是对标 OpenAI 广受欢迎的 ChatGPT 代码解释器（Code Interpreter）。这项新功能目前已向 Max、Team 和 Enterprise 订阅用户开放预览，Pro 用户也将在未来几周内获得访问权限。新旧功能对比值得注意的是，这项新功能与 Claude 在 2024 年 10 月推出的“分析工具”（Analysis tool）截然不同。旧版工具通过在用户浏览器中生成并执行 JavaScript 来工作，而新功能则在服务器端容器中运行，实现方式更接近 OpenAI 的代码解释器。在设置中启用新的“升级版文件创建与分析”后，旧的“分析工具”选项会自动关闭，二者无法同时使用。环境探索为了解其运行环境，我们首先让 Claude 自我剖析其 Shell 和 Python 环境。系统配置通过一系列命令查询，我们得到了其运行环境的关键信息：操作系统: Ubuntu 24.04.2 LTS (Noble)，Linux 内核 4.4.0 架构: x86_64 Shell: GNU Bash 5.2.21 当前用户: root 工作目录: /home/claude 内存: 9.0 GB 可用磁盘空间: 约 4.6 GB（总共 4.9 GB） Python 版本: 3.12.3 Node.js 版本: 18.19.1 这是一个配备了 9GB 内存和约 5GB 磁盘空间的 Ubuntu 24.04.2 容器，预装了 Python 3.12.3 和 Node.js 18.19.1。 ...

Google Gemini 学术使用指南

本文为多伦多都会大学 (TMU) 的学生、教职员工提供关于使用 Google Gemini 的详细指引，旨在帮助您在学术研究和教学活动中，合规、高效地利用这一生成式 AI 工具。认识 Google Gemini (TMU 授权版) Google Gemini 是 TMU 授权的通用型生成式 AI 工具。与公开版本或其他 AI 工具（如 ChatGPT）相比，TMU 授权版在功能和数据隐私方面具有以下特点：更强的功能：授权版本通常比免费版本提供更强大的模型能力和更高的使用限额。数据隐私保护：TMU 授权版 Gemini 不会使用您的输入内容（Prompts）来训练其模型，更好地保护您的数据隐私。与专业数据库的区别：集成在图书馆数据库（如 Statista）中的 AI 功能，其知识范围通常局限于该数据库内部。而 Gemini 则基于广泛的互联网信息进行生成，适用于处理复杂问题、激发创意和进行对话式交互。准确性与内容评估与所有 AI 工具一样，Gemini 的回答可能存在错误、偏见或不完整之处。因此，所有由 Gemini 生成的信息都必须经过严格的批判性评估。推荐使用 VALID-AI 等框架来审视其生成内容的可靠性。 Gemini 与学术研究在学术场景中，明确 Gemini 与传统图书馆资源（如 Omni 搜索引擎和专业数据库）的界限至关重要。 Gemini vs. 传统图书馆资源特性 Google Gemini Omni 及图书馆数据库核心功能内容生成与辅助工具信息检索与馆藏访问信息来源广泛的互联网公开信息经过严格筛选的学术期刊、书籍、市场报告等订阅资源学术文章检索可以找到部分免费在线文章的引文，但无法访问订阅内容，且引文准确性不稳定。专为学术检索设计，是查找可靠学术文献的首选工具。馆藏访问无法访问 Omni 或图书馆的订阅制数据库、电子书及纸质馆藏。主要入口，用于检索并访问 TMU 图書館的全部实体与数字馆藏。简而言čili，当您需要可靠的学术来源、市场研究数据或馆藏内的特定信息时，请使用 Omni 和图书馆数据库。当您处于研究初期，需要进行头脑风暴、探索宽泛主题、总结复杂概念或寻找不同学科间的联系时，可以尝试使用 Gemini 作为辅助。 ...

ChatGPT Plus 评测：每月 20 美元，到底值不值？

作为一名自由职业者，我每天都深度依赖 ChatGPT 进行研究、构建大纲和优化交付内容。至今，我已经使用 ChatGPT Plus 辅助完成了超过 200 篇文章，并用它处理 YouTube 视频的描述和标题等琐碎工作。简而言之，我的产出效率提升了五倍。具体来说，ChatGPT Plus 为我节省了大量时间： 2-3 小时：用于总结和梳理笔记。 4-5 小时：用于创建数据可视化图表和视频封面。它还能像一个“真人”一样，审阅我的文章、视频脚本和封面设计。我负责有趣且富有创造性的核心部分，而 ChatGPT 模型则处理其余的繁重工作。本文将深入探讨 ChatGPT Plus 的价值所在。升级 Plus 的核心优势 1. 更强大的 AI 模型带来更高质量的回复升级到 ChatGPT Plus 最核心的理由是：你可以使用规模更大、更智能的 AI 模型。这直接带来了回复质量的巨大差异。免费版通常使用的是 GPT-4o-mini 或更早的模型，它们虽然不错，但能力有限。升级到 Plus 后，你可以使用完整的 GPT-4o 模型，甚至能体验到最新的预览模型。其提升是立竿见影的：答案更准确，更严格地遵循指令，废话更少，整体质量更高。以我工作中的一个真实提示词为例： “为生产力领域的博客提供一些细分主题，并附上示例文章标题（最多 70 个字符）。” 免费版模型给出的想法非常基础和陈词滥调。而 ChatGPT Plus（使用完整版 GPT-4o）的输出则完全不同，它提供了新颖的思路、实用的话题建议，并指出了可以重点关注的关键词（如艾森豪威尔矩阵、SMART 原则、Notion 等）。以下是 Plus 版本的输出示例： 1. 时间管理 “10个提升日常效率的10分钟技巧” “如何使用艾森豪威尔矩阵安排任务优先级” “时间块（Time Blocking）入门：高效组织你的一天” 2. 目标设定 “SMART 目标：设定你真正能实现的目标” “为什么你的目标会失败以及如何修正” “手把手教你创建个人愿景板” 3. 生产力工具与应用 “7款让你保持井井有条的顶级生产力App” “如何使用Notion来简化你的工作流程” “Evernote vs. OneNote：哪个更适合你？” 2. 更长的上下文窗口付费版的上下文窗口远大于免费版（例如 32k vs 8k），这意味着在长对话中，AI 能更好地记住之前的讨论细节，保持对话的连贯性和深度。 ...

Gemini for Education：赋能千万大学生的 AI 学习新范式

目前，全美已有超过 1000 所高等教育机构正式将 Gemini for Education 集成到其学术和管理框架中，覆盖超过 1000 万名大学生。所有获得认证的高等教育机构均可免费使用 Gemini for Education，并享受企业级的数据保护。 Gemini for Education 基于世界领先的学习模型构建，其内置的“引导式学习”功能旨在帮助学生掌握知识背后的深层概念，而不仅仅是提供答案。为了配合工具的推广，Google 还推出了“AI 教育加速器”计划 (Google AI for Education Accelerator)，为全美所有大学生提供免费的 AI 培训和 Google 职业证书课程。顶尖高校的实践案例以下案例展示了顶尖高等教育机构如何利用 Google AI 工具和培训来革新教育、学习与研究。圣地亚哥州立大学 (SDSU)：AI 助教提升教学效率作为最早全面采用 Google 服务的加州州立大学之一，SDSU 现已在全校范围内部署了 Gemini 和 NotebookLM。教授们认为这极大地节省了他们的时间，并能为学生提供即时帮助。人类学教授 Elisa Sobo 博士表示：“当你的课堂上有两三百名学生时，Gemini 就像一个随时待命的助教，在老师无法分身时为学生答疑解惑。” 夏威夷大学：普及 AI 技能与责任意识拥有 10 个校区和 5 万名学生的夏威夷大学系统与 Google 合作，推出了名为“Google AI Essentials”的免费培训课程。这个为期五小时的课程旨在教会学生和教职员工如何负责任地使用 AI。印第安纳大学 (IU)：构建校园 AI 应用生态印第安纳大学将提升 AI 素养作为整个社区的共同目标。每一位学生、教职员工都能在受 IU 保护的安全环境中访问 Gemini。通过其“GenAI 101”课程，师生们正在学习如何构建和应用被称为“Gems”的定制化 AI 工具。 ...

ChatGPT 新手入门完全指南

自 2022 年 ChatGPT 发布以来，人工智能（AI）以超乎预期的速度融入了我们的日常生活。从谷歌的搜索概览到 Canva 等创意工具，AI 的身影无处不在。它正在重塑我们的工作方式、沟通模式乃至在线搜索的习惯。 AI 聊天机器人是这场变革的核心。想要在这个快速发展的 AI 生态中游刃有余，掌握 ChatGPT 的基础知识至关重要。本文将为你详解 ChatGPT 的核心功能、使用方法以及入门必备技巧。 ChatGPT 能做什么？ ChatGPT 的功能远不止回答问题。它的核心能力包括：回答问题：解答各种领域的疑问。总结文本：快速提炼长篇文章或文档的要点。内容创作：撰写文章、邮件、简历、求职信等。编写代码：生成和调试代码片段。语言翻译：在多种语言之间进行互译。需要注意的是，ChatGPT 的回答基于其训练的大语言模型数据，并非凭空创造。这意味着它的输出是基于概率和已有信息的预测，因此可能出现幻觉（Hallucinations）、事实错误或偏见。在使用时，请务必保持批判性思维，客观看待其生成的结果。如何开始使用 ChatGPT 上手 ChatGPT 非常简单，只需几分钟即可完成设置。访问方式网页版：直接访问 chatgpt.com。移动应用：在苹果 App Store 或 Google Play 商店下载官方 ChatGPT 应用。你可以像使用搜索引擎一样，直接在输入框中输入问题或指令。此外，它还支持语音输入、文件上传等功能。账户设置为了获得更个性化的体验，建议注册并登录账户。ChatGPT 会通过你的历史记录更好地理解你的需求，你也可以对它的响应方式进行自定义。点击右上角的“注册”（Sign Up）按钮。选择免费版或付费版（Plus 会员，通常为每月 20 美元）。对于大多数日常使用场景，免费版已足够。通常，在处理工作任务时，桌面版更方便；而进行快速的个人查询或使用语音输入时，移动应用是更好的选择。掌握提问的艺术：如何写好提示词 (Prompt) 使用 ChatGPT 的唯一“错误”方式，就是完全依赖它，放弃自己的批判性思维。要想获得高质量的回答，关键在于提供高质量的提示词。核心原则：提供充足的上下文你输入的信息质量决定了输出结果的质量。提示词越具体、上下文越丰富，ChatGPT 生成的回答就越精准、越有用。在提问前，先明确你的意图：是想让它回答问题、总结文本、进行头脑风暴，还是分析图像、生成代码？重要提醒：切勿分享敏感信息永远不要在提示词中包含任何个人或敏感信息，例如信用卡号、社会安全号码或任何其他可识别个人身份的数据，以防数据泄露。提示词实战案例以下通过两个不同意图的案例，展示如何构建有效的提示词。案例一：寻求建议假设你正在备孕，希望了解理想的饮食方案。 ...

Gemini 新功能：为学生打造的 AI 学习利器

近期，Gemini 应用推出了一系列专为学习场景设计的全新工具，旨在帮助学生培养批判性思维、加深知识理解，从而在新学年里更高效地学习。引导式学习：你的专属 AI 学习伴侣 Gemini 现在提供一种名为「引导式学习」（Guided Learning）的新模式。它不仅仅是给出快速答案，更像一位专属的 AI 学习伴侣，帮助你建立对复杂主题的深入理解。引导式学习模式会将问题进行分步拆解，并根据你的需求调整解释方式，让你真正掌握概念背后的“如何”与“为何”。无论是根据课程文件创建学习指南，还是结合视频和图表讲解疑难概念，Gemini 都能与你协同，助你学深学透。集成视觉元素：让学习更生动为了让学习体验更丰富、更具吸引力，Gemini 现在会自动在回答中集成高质量的图片、图表和 YouTube 视频。例如，当你询问关于光合作用过程或细胞组成等复杂主题时，Gemini 会主动穿插视觉材料，帮助你更轻松地理解。智能备考工具：高效复习，轻松应试 Gemini 强大的新工具也能帮你为下一次考试做好准备。你可以要求 Gemini 基于测验结果或其他课堂材料，即时创建抽认卡（Flashcards）和学习指南。这是一种巩固知识、复习关键概念的简单有效的方式。近期一项研究显示，超过三分之二的青少年每周都会使用 AI 工具进行学习。这表明，为下一代学生打造专为学习而设计的 AI 工具至关重要。Gemini 的这些新工具是朝着“让世界上的每个人都能学习任何知识”这一目标迈出的重要一步，致力于让 AI 真正惠及所有学习者。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API：购买 / 了解更多：ai4.plus 备用入口：kk4099.com

Azure OpenAI Responses API 详解

Azure OpenAI 的 Responses API 是一种全新的有状态 API，它将聊天补全 (Chat Completions) 和助手 (Assistants) API 的核心功能整合到统一的体验中。此外，该 API 还新增了对 computer-use-preview 模型的支持，为“计算机使用 (Computer use)”功能提供动力。可用性与支持 API 版本要使用 Responses API 的最新功能，必须使用 v1 版本的 API。支持区域 Responses API 目前在以下 Azure 区域可用：澳大利亚东部 (australiaeast) 美国东部 (eastus) 美国东部 2 (eastus2) 法国中部 (francecentral) 日本东部 (japaneast) 挪威东部 (norwayeast) 波兰中部 (polandcentral) 印度南部 (southindia) 瑞典中部 (swedencentral) 瑞士北部 (switzerlandnorth) 阿联酋北部 (uaenorth) 英国南部 (uksouth) 美国西部 (westus) 美国西部 3 (westus3) 支持模型以下是部分支持的模型列表。请注意，并非所有模型在所有支持的区域都可用，具体可用性请查阅 Azure OpenAI 模型文档。 ...

模型上下文协议（MCP）：连接 AI 应用与外部世界的开放标准

模型上下文协议（MCP，Model Context Protocol）是一项开源标准，旨在将 AI 应用与各类外部系统连接起来。通过 MCP，像 Claude 或 ChatGPT 这样的 AI 应用能够接入数据源（如本地文件、数据库）、工具（如搜索引擎、计算器）和工作流（如专用提示词），从而获取关键信息并执行特定任务。你可以将 MCP 想象成 AI 应用的 USB-C 接口。正如 USB-C 为电子设备提供了标准化的连接方式，MCP 也为 AI 应用连接外部系统提供了一套统一的规范。 MCP 的应用场景 MCP 能够解锁众多强大的 AI 应用场景，例如：个性化 AI 助理：AI 代理可以访问你的 Google 日历和 Notion，提供更加贴心和智能的个人服务。自动化代码生成：代码生成模型可以读取 Figma 设计稿，并直接生成一个完整的 Web 应用。企业级数据分析：企业聊天机器人可以连接组织内的多个数据库，让员工通过自然语言对话就能完成复杂的数据分析。连接数字与物理世界：AI 模型可以在 Blender 中创建 3D 设计，并直接调用 3D 打印机将模型实体化。 MCP 的核心价值 MCP 为生态系统中的不同角色带来了显著的优势：对于开发者：MCP 能够降低构建或集成 AI 应用及代理的开发时间和复杂性。对于 AI 应用或代理：MCP 提供了访问庞大数据源、工具和应用生态系统的能力，从而增强自身功能并改善终端用户体验。对于终端用户：MCP 催生了功能更强大的 AI 应用。在获得授权后，这些应用可以访问你的个人数据并代表你执行具体操作。开始构建你可以通过以下两种方式参与 MCP 生态： ...

Gemini 新功能：一键将静态照片变为动态视频

Gemini 现已推出一项新功能，可以利用其先进的视频生成模型 Veo 3，将你的静态照片转换为生动的 8 秒视频片段，并配有音效。自 Veo 3 模型于 5 月发布以来，用户在 Gemini 应用和 Flow 工具中已生成超过 4000 万个视频。现在，通过这项照片转视频的新功能，你可以为自己的图像注入生命力。如何将照片转换为视频操作过程非常简单，只需几个步骤即可将你的照片变为动态视频：在 Gemini 的提示框中，从工具菜单选择 “视频”。上传一张你想要制作成动画的照片。在提示框中详细描述你希望的场景、动态效果以及任何声音指令。稍等片刻，Gemini 就会将你的静态图片转换为一段动态视频。视频生成后，你可以直接分享或下载保存。释放你的创意这项功能为创意表达开辟了新的可能性。你可以尝试以下玩法，让想象力成为唯一的限制：动画化日常物品：让桌上的咖啡杯冒出热气，或让书本自动翻页。赋予艺术作品生命：让你自己的绘画或素描作品动起来。为自然风光增添动感：为一张宁静的风景照添加风吹草动或流水潺潺的效果。技术与安全保障为了确保用户在体验这项功能时感到放心，我们采取了多项措施来保障生成内容的适当性。全面的安全测试：我们通过广泛的“红队测试”来主动发现并修复系统中的潜在问题。防止滥用：我们进行严格的评估，以了解工具的潜在用途并防止任何滥用行为。内容水印：所有 AI 生成的视频都会包含一个可见的水印，以表明其由 AI 生成。同时，视频中还嵌入了名为 SynthID 的不可见数字水印。我们鼓励用户通过对生成视频的点赞或点踩按钮提供反馈，这将帮助我们持续改进安全措施和整体用户体验。功能可用性这项照片转视频功能目前已开始向全球部分国家/地区的 Google AI Pro 和 Ultra 订阅用户推送。此外，Google 的 AI 电影制作工具 Flow 中也提供了相同的功能。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API： ...