欢迎来到AI小卖铺博客
每天分享人工智能资讯、技术教程和工具。
每天分享人工智能资讯、技术教程和工具。
我们正式发布 Gemini 2.5 计算机使用模型 (Computer Use model)。这款全新的专用模型基于 Gemini 2.5 Pro 强大的视觉理解和推理能力构建,旨在驱动能够与用户界面 (UI) 直接交互的 AI 智能体。 目前,该模型已在多个网页和移动设备控制基准测试中超越了主流替代方案,并实现了更低的延迟。开发者现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 预览并使用这些功能。 为何需要与图形界面交互的 AI? 虽然 AI 模型可以通过结构化的 API 与软件进行交互,但许多数字化任务仍然需要直接操作图形用户界面 (GUI) 才能完成,例如填写并提交表单。 为了完成这些任务,AI 智能体必须像人类一样,通过点击、输入和滚动等操作来浏览网页和应用程序。原生支持填写表单、操作下拉菜单和筛选器等交互式元素,以及在登录后执行任务的能力,是构建通用强力智能体的关键一步。 工作原理 该模型的核心能力通过 Gemini API 中新增的 computer_use 工具开放。其工作模式是一个循环迭代的过程: 输入: 智能体接收用户请求、当前环境的屏幕截图以及最近的操作历史记录作为输入。开发者还可以指定排除某些 UI 操作或添加额外的自定义函数。 模型分析与响应: 模型分析输入信息,并生成一个响应。该响应通常是一个函数调用,代表一个 UI 操作(如点击或输入文本)。对于某些敏感操作(如执行购买),响应中可能会包含一个请求,要求最终用户进行确认。 客户端执行: 客户端代码执行模型返回的操作指令。 反馈: 操作执行后,新的界面截图和当前 URL 会作为函数响应回传给模型,从而重新启动循环。 这个迭代过程会持续进行,直到任务完成、发生错误,或因安全策略或用户决策而终止。 Gemini 2.5 计算机使用模型主要针对网页浏览器进行了优化,同时在移动 UI 控制任务中也展现出巨大潜力。目前,该模型尚未针对桌面操作系统的控制进行优化。 实际应用示例 以下是模型执行任务的两个示例: 任务一:跨应用数据处理与预约 提示:“从 获取所有居住在加州的宠物的详细信息,并将它们作为访客添加到我的宠物水疗中心 CRM 系统 中。然后,为它们预约专家 Anima Lavar 在 10 月 10 日上午 8 点后的任何时间进行回访。访问原因与它们申请的治疗项目相同。” ...
本文详细说明了 Azure AI Foundry 中的 Azure Direct Models 如何处理、使用和存储您提供的数据。 Azure Direct Model 是指在 Azure AI Foundry 中被指定并部署为“Azure Direct Model”的人工智能模型,其中包括 Azure OpenAI 模型。Azure Direct Models 会存储和处理数据以提供服务,并监控是否存在违反相关产品条款的使用行为。相关的数据处理活动受《Microsoft 产品和服务数据保护附录》管辖。 核心数据处理承诺 您的提示(输入)、生成内容(输出)、嵌入和训练数据: 不会提供给其他客户。 不会提供给 OpenAI 或其他 Azure Direct Model 提供商。 不会被 Azure Direct Model 提供商用于改进其模型或服务。 未经您的许可或指示,不会用于训练任何生成式 AI 基础模型。 您微调的 Azure Direct Model 仅供您专用。 Azure AI Foundry 是一项 Azure 服务,Microsoft 在其 Azure 环境中托管 Azure Direct Models。这些模型不会与 Azure Direct Model 提供商(如 OpenAI 的 ChatGPT 或 OpenAI API)运营的任何服务进行交互。 ...
从金融服务、医疗保健到法律科技,无论是大型企业还是初创公司,全球众多团队正借助 Claude 解决其核心业务挑战,推动业务创新与发展。以下是部分客户的应用案例。 标杆案例 Intercom:革新客户服务 作为领先的客户服务技术提供商,Intercom 利用 Claude 将客户问题解决率提升至 86%,显著改善了服务效率与用户体验。 Asana:强化工作管理 Asana 通过集成 Claude,为其工作管理平台注入了强大的智能动力,帮助团队更高效地规划、执行和协作。 欧洲议会:开放历史档案 欧洲议会借助 Claude 的能力,使其庞大的历史档案库更易于访问和检索,为研究人员和公众提供了前所未有的便利。 各行业应用实践 软件与技术 Zapier 应用: 利用 Claude for Enterprise 构建以 AI 为先的远程工作文化,提升内部协作与自动化水平。 Notion 应用: 将 Claude 集成到其协作平台中,为用户提供更智能的内容创建与信息整理能力。 Tines 应用: 在 Amazon Bedrock 环境中,通过 Claude 赋能其工作流自动化平台,实现更复杂的逻辑判断与任务处理。 TELUS 应用: 借助 Claude 开发者平台,在企业内部推动工作场所的创新。 CRED 应用: 作为一家大型金融科技公司,CRED 使用 Claude 加速其开发工作流,提高工程团队的效率。 StubHub 应用: 利用 Claude 变革现场活动的票务体验,优化客户互动与支持。 Perplexity 应用: 将 Claude 作为其 AI 平台的核心组件之一,提供强大的信息检索与对话能力。 Circleback 应用: 通过 Claude 将会议内容自动转化为结构化的洞察与摘要,提升会议价值。 Pelanor 应用: 利用 Claude 即时分析并提供云成本洞察,帮助企业优化开销。 Qodo 应用: 帮助开发者更快地交付高质量代码。 Lindy 应用: 基于 Claude 构建 AI 代理,帮助团队规模化处理各类任务。 ChatAndBuild 应用: 通过 Claude 在全球范围内推广 AI 开发的普及化。 Windsurf 应用: 启用基于 AI 的协作式软件开发代理。 Hume 应用: 利用 Claude 开发者平台构建先进的软件解决方案。 Bito 应用: 为软件开发者提供 AI 驱动的工具,提升编程效率。 金融服务 NBIM (挪威银行投资管理公司) 应用: 作为大型主权财富基金,通过企业级 AI 转型,利用 Claude 加速财富管理流程。 Intuit Turbotax 应用: 在其税务软件中集成 Claude,为用户提供更智能、更个性化的税务申报辅助。 Gradient Labs 应用: 借助 Claude 彻底改变金融服务领域的客户支持模式。 专业服务与咨询 Cox Automotive 应用: 在 AWS 平台上利用 Claude 提升其在汽车行业的专业服务能力。 Local Falcon 应用: 使用 Claude 开发者平台为其专业服务提供支持。 教育与科研 RileyBot 应用: 为学生创建安全、可靠的 AI 学习体验。 Panorama 应用: 在 AWS 上使用 Claude 开发者平台,为教育行业提供数据洞察。 Futurehouse 应用: 借助 Claude 推动科学研究的进程。 其他创新领域 Charm Industrial (碳清除) 应用: 利用 Claude 加速其碳清除业务的运营效率。 eSentire (网络安全) 应用: 在 AWS 环境中,通过 Claude 提升网络安全威胁的检测与响应能力。 Fountain (招聘) 应用: 在招聘流程中引入 AI,优化候选人筛选与互动。 Legora (法律) 应用: 为法律行业提供基于 AI 的解决方案。 WRTN (娱乐) 应用: 借助 Claude 开发者平台打造创新的娱乐内容与体验。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API: ...
现在,你可以通过 ChatGPT 中的 Figma 应用,将对话内容、草图甚至文档直接转化为 FigJam 中的流程图、甘特图等多种专业图表。 Figma 应用能够根据你的对话上下文,智能推荐并生成相应的 AI 图表。你也可以上传照片、手绘草图或 PDF 等文件,来指导图表的生成。目前支持的图表类型包括流程图、序列图、状态图和甘特图,未来还将支持更多类型。 要启用该功能,只需在 ChatGPT 的提示词中提及 Figma 即可,例如:“Figma, 根据这张草图生成一个流程图”。当对话内容与图表相关时,ChatGPT 也会主动建议使用 Figma 应用。 以下是该功能在不同工作流中的具体应用场景。 加速设计迭代 一个好的想法可能诞生于白板、笔记本,甚至是餐巾纸上。只有当它进入像 FigJam 这样的协作空间时,团队成员才能共同将其推进。ChatGPT 中的 Figma 应用能够扫清从初步构思到协作的障碍。 将手绘草图转化为图表:将稍纵即逝的灵感草图,转化为可长期迭代和共享的 FigJam 文件。 请求更新与扩展:直接通过对话让 ChatGPT 修改图表,例如扩展内容、增加分支或探索其他可视化方案。 快速生成初稿:面对内容密集的文档,你可以将其上传给 ChatGPT,让它解析并快速生成图表的初稿。 解决技术难题 对于开发者而言,图表是思考系统设计、沟通技术决策的关键工具。然而,当信息分散在代码和文档中,上下文由不同同事掌握时,这项任务会变得异常困难。 创建和更新软件架构图:上传技术文档和系统截图,快速启动架构图的绘制和更新流程。 研究技术实现方案:利用 ChatGPT 学习行业博客和案例,构建架构图来可视化技术领导者如何解决常见挑战。 解析组件结构:例如,上传一张产品定价页的截图,要求 ChatGPT 绘制出相应的 React JS 组件结构图。 可视化创意与规划 制定产品路线图意味着要在众多可能性中进行选择,并深入思考用户需求。图表在这一过程中至关重要。 评估和可视化权衡:当你需要在权限流程的“功能强大”与“简单易用”之间做权衡时,可以将头脑风暴转化为多个图表方案,以引导团队讨论和决策。 绘制用户旅程图:上传或粘贴一份现有的产品需求文档 (PRD),将其作为起点,快速生成用户旅程流程图。 创建发布计划甘特图:向 ChatGPT 提供产品、工程和设计等方面的需求,即可生成一份甘特图,帮助团队保持项目进度同步。 目前,所有位于欧盟以外并已登录 ChatGPT 账户的用户(包括免费版、Go、Plus 和 Pro 方案)均可使用 Figma 应用。我们期待这项功能能够连接 ChatGPT 的强大分析能力与 FigJam 的多人协作特性,为你带来更高效的工作体验。 ...
自今日起,拥有 Gemini 应用访问权限的 Google Workspace 用户已可正式使用 Gemini in Chrome。 Gemini in Chrome 是一款 AI 浏览助手,旨在帮助您在 Mac、Windows 和 iOS 设备上更高效地完成工作。它能够结合多达 10 个浏览器标签页以及 Google Workspace 应用的上下文,为您提供智能支持。 Gemini in Chrome 的核心功能 获取答案与洞察:直接向 Gemini 提问,快速获取基于网页内容的解答和分析。 深度对话:通过 Gemini Live 进行流畅的双向对话,深入探讨复杂问题。 上下文感知:用户可以选择授权 Gemini 访问当前标签页和最多 10 个其他标签页的内容,使其回答更具相关性。开启后,Gemini 会持续引用当前标签页的上下文,直到用户手动关闭共享。 企业级数据保护与隐私 通过 Gemini in Chrome 访问 Gemini 应用时,您的数据将受到企业级数据保护。相关服务受《Google Workspace 服务条款》或您与 Google 签订的线下 Workspace 协议约束。 请注意,未经您的许可,您的内容不会被人工审阅,也不会用于 Google Workspace 域外的生成式 AI 模型训练。更多详情,请参阅“Google Workspace 生成式 AI 隐私中心”。 重要限制与说明 核心服务:并非所有 Google Workspace 版本都将 Gemini 应用作为核心服务提供。 合规性:在发布初期,部分已适用于 Gemini 网页版或移动应用的合规性认证,暂不适用于 Gemini in Chrome。 HIPAA:对于已签署《HIPAA 商业伙伴修正案》(BAA) 的客户,Gemini in Chrome 功能将被禁用。 初始可用范围 此功能在发布初期的适用范围如下: ...
本指南与 OpenAI 合作设计,旨在为 K-12 阶段的教育工作者提供在校园中有效使用 ChatGPT 的实用策略。 核心学习内容 通过本课程,您将系统地掌握以下关键知识与技能: 深入理解 ChatGPT 工作原理 学习 ChatGPT 的基础架构,全面了解其核心能力与技术局限性,从而更精准地判断其适用场景。 践行安全与合乎伦理的 AI 应用 掌握在教学活动中安全、负责任地使用 AI 的最佳实践,确保技术向善,辅助教学。 掌握高效的提示词 (Prompt) 技巧 获取一份详尽的提示词指南,学会如何通过精准提问,将 ChatGPT 应用于课程规划、教学材料制作等日常工作,显著提升效率。 相关主题拓展 除了基础入门,我们还建议关注以下议题,以构建更全面的 AI 认知: 校园 AI 工具的应用与管理:探讨除 ChatGPT 外的其他 AI 工具,并制定在校内推广和管理 AI 的有效策略。 6-12 年级 AI 素养课程:为中学生设计专门的 AI 知识与技能普及课程。 建立课堂 AI 使用规范:如何在课堂中为学生设定清晰的 AI 使用预期和规则。 👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API: 购买 / 了解更多:ai4.plus 备用入口:kk4099.com
Gemini 作为一款独立的 AI 聊天机器人表现出色,但其真正的价值在于附赠的云存储空间以及与几乎所有 Google 应用的深度集成。 核心优势与不足 优点 极高的性价比:付费版直接附带 2TB 的 Google One 存储空间。 强大的集成能力:与 Gmail、Docs、Chrome 等 Google 应用无缝协作,体验流畅。 复杂的任务处理:擅长逻辑推理、文件处理和网络搜索。 出色的多媒体功能:拥有强大的图像编辑和带音频的视频生成能力。 缺点 偶尔出现错误信息:与其他 AI 模型一样,回答的准确性并非 100%。 深度研究的引用不便:信息溯源的体验有待提升。 图像生成能力平平:相较于一些专注于图像生成的竞品,表现不够突出。 Gemini 是什么? Gemini(前身为 Google Bard)是一款 AI 聊天机器人,你可以通过文本或语音与其交互,功能类似于 Microsoft Copilot 或 ChatGPT。它的应用场景非常广泛,包括但不限于: 分析文档 解答问题 生成图片和视频 研究课题 撰写创意文案 网络搜索 解决数学问题 你可以将 Gemini 视为一个高级的虚拟助手。对于开发者,Gemini 还提供了 Gemini Code Assist 和异步编码代理 Jules 等工具,能够帮助创建自定义 WordPress 插件或调试棘手的代码。 相比于传统搜索引擎,使用 Gemini 进行提问和研究通常更高效,能为你节省大量筛选搜索结果的时间。但请务必牢记,所有 AI 聊天机器人都会犯错,Gemini 也不例外。对于严肃或重要的信息,务必通过可靠来源进行交叉验证。 工作原理:Flash 与 Pro 模型 Gemini 的核心由大型语言模型(LLM)驱动,这些模型基于海量数据集训练的人工神经网络构建。这使得 Gemini 能够访问几乎所有主题的数据,并能连接互联网获取最新信息。 ...
由 Gemini for Home 驱动,全新改版的 Google Home 应用带来了更简洁的界面、更深度的 Nest 集成以及强大的自然语言控制能力。此次重构的核心目标有三个:更快、更可靠、更完整。 性能为先:更快、更稳的全新基础 我们深知,要提供卓越的 AI 新功能,应用本身必须快速而稳定。这是我们的首要任务。 新版应用在性能上实现了显著飞跃: 启动速度:大幅提升,在部分 Android 设备上,加载速度提升超过 70%。 稳定性:Bug 数量显著减少,应用崩溃率相比几个月前降低了近 80%。 资源优化:改进了电池消耗和内存使用情况。 对于摄像头用户,体验提升同样明显: 实时画面:加载速度加快 30%,播放失败率降低 40%。 预览与回放:摄像头卡片预览可即时加载,滚动浏览历史记录的流畅度大幅提升,帧率提高了 6 倍以上。 整个应用体验更具韧性、响应更灵敏。我们将持续关注性能优化,在未来几个月里,你将看到它变得越来越好。 全面整合:告别 Nest,统一体验 现在,你可以在全新的 Google Home 应用中找到 Nest 应用的全部精华功能,无需再切换应用。我们已将核心的 Nest 设备与功能完整迁移: Nest Thermostat:全面支持 2015 年以来所有型号的温控器,包括日程安排和热水加温等功能。 Nest Protect:支持烟雾和一氧化碳紧急警报。 Nest x Yale Lock:支持密码管理功能。 即使是旧款的 Nest 摄像头和门铃,在新应用中的控制体验也变得更流畅、更快速。更高的帧率让用户在浏览事件时感觉更平滑,视频编码和处理的调整也帮助旧设备加载更快、更可靠。 焕然一新:为 Gemini 设计的直观界面 新版应用的界面设计更加直观,旨在让你能轻松触及 Gemini for Home 的强大能力。我们将其简化为三个核心标签页。 “家庭”标签页 这里是你整个家的统一概览和控制中心。我们引入了全新的手势操作,让你单手操作更加流畅。你可以在“收藏”、“所有设备”和专用信息中心之间轻松滑动切换,无需离开当前标签页。 “活动”标签页 这里是家中所有事件的统一历史记录中心,整合了来自第一方和第三方连接设备的所有动态。你还可以在这里找到“家庭简报”(Home Brief)功能,快速了解一天中发生的重要事件。 “日常程序”标签页 此标签页顶部新增了一个轮播卡片,可以展示即将在你家中运行的自动化任务。对于高级用户,我们彻底重建了编辑器,在 iOS 和 Android 上都提供了快速的原生体验。这解锁了许多强大的新功能,例如创建一次性自动化任务,或使用新的条件触发器(如“仅当有人在家时运行”)。 ...
今天,是智能家居领域的关键时刻。我们正式向世界推出了 Gemini for Home——一项对家庭 AI 的颠覆性升级。它将取代音箱和智能显示器上的 Google Assistant,为摄像头赋予前所未有的智能,并全面革新 Google Home 应用。对于我们生态系统中的数万名开发者而言,这标志着一个充满机遇的新时代的开启。 在 Google I/O 2025 大会上,我们分享了将 Gemini 引入 Home API 的计划。今天,我们朝着这一愿景迈出了坚实的下一步,通过两种关键方式扩展 Google Home 平台:首先,为您已经集成的设备启用由 Gemini 驱动的新功能;其次,推出全新合作项目,帮助您构建下一代 AI 摄像头。 为所有智能家居设备带来 Gemini 升级 一个真正实用的智能家庭,是所有设备无论品牌都能协同工作的家。通过我们的 “Works with Google Home” 计划,您已经通过 Google Home Cloud-to-Cloud API 和 Matter 将超过 8 亿台设备连接到我们的生态系统。今天,我们将 Gemini 的强大能力赋予所有这些设备。 这是一次重大的平台升级,而其核心优势在于,您无需进行任何额外开发,即可让用户享受到核心的对话式控制功能。您的用户将能自动以更自然、更口语化的方式控制您的设备,并创建复杂的自动化流程。 立即测试您现有的集成 然而,Gemini 赋能的家居体验质量,直接取决于设备集成的质量。随着本月 Gemini for Home 开始向用户推送,我们强烈建议您立即对现有的 “Works with Google Home” 集成进行全面、严格的测试。确保无缝的用户体验是我们共同的首要任务,您的测试对于保证设备在新的对话能力下稳定运行至关重要。 为了更好地支持您,我们将在今年晚些时候提供更完善的数据和工具,帮助您监控设备在 Google Home 平台上的性能和可靠性。 构筑下一代 AI 摄像头 我们相信 Gemini for Home 的力量不应局限于某个品牌、形态或价位。为了将 Gemini 的能力带给每一个人,我们将 “Works with Google Home” 计划提升到新的高度,通过引入一类新的合作伙伴设备,为客户提供更多选择。 ...
我们先进的图像生成与编辑模型 Gemini 2.5 Flash Image 🍌 现已正式发布 (GA),可用于生产环境。本次更新带来了多项新功能,包括支持更广泛的宽高比以及指定纯图像输出的能力。 Gemini 2.5 Flash Image 模型能够无缝融合多张图片、在创作中保持角色一致性、通过自然语言进行局部编辑,并利用 Gemini 强大的世界知识进行图像生成和修改。您可以通过 Google AI Studio 中的 Gemini API 或面向企业用户的 Vertex AI 平台来访问该模型。 扩展创意边界:新增多种宽高比 为了进一步释放创意潜力,新版模型现在支持 10 种不同的宽高比,让您能轻松为电影级横幅、社交媒体竖屏等不同格式创作内容。 支持的宽高比包括: 横向 (Landscape): 21:9, 16:9, 4:3, 3:2 方形 (Square): 1:1 纵向 (Portrait): 9:16, 3:4, 2:3 其他 (Flexible): 5:4, 4:5 API 与代码示例 开发者可以立即开始使用 Gemini 2.5 Flash Image。通过 API,您可以轻松指定输出图像的宽高比,并设置为仅返回图像内容。 以下是一个 Python 代码示例,演示了如何使用新功能: from google import genai from google.genai import types from PIL import Image # 初始化客户端 client = genai.Client() # 定义你的提示词 prompt = "请根据这张图片中的人物,创作一张 1980 年代风格的照片。照片需要捕捉到那个时代独特的时尚、发型和整体氛围。" # 打开本地图片 image = Image.open('/path/to/image.png') # 调用模型生成内容 response = client.models.generate_content( model="gemini-2.5-flash-image", contents=[prompt, image], generation_config=types.GenerationConfig( # 指定响应内容仅为图像 response_modalities=["IMAGE"], image_config=types.ImageConfig( # 设置图像宽高比为 16:9 aspect_ratio="16:9", ) ) ) # 处理并显示生成的图像 for part in response.parts: if part.inline_data is not None: generated_image = part.as_image() generated_image.show() 应用案例 Cartwheel:精准的角色姿态控制 Cartwheel 团队正利用 AI 赋予艺术家更直接的创作控制权。在开发其“姿态模式 (Pose Mode)”功能时,他们发现其他模型难以满足需求,最终在 Gemini 2.5 Flash Image 中找到了解决方案。通过将自家的 3D 姿态工具与 Gemini 2.5 Flash Image 相结合,他们创建了一个强大的图像生成系统,实现了前所未有的角色控制力与一致性。 ...