本文详细说明了 Azure AI Foundry 中的 Azure Direct Models 如何处理、使用和存储您提供的数据。

Azure Direct Model 是指在 Azure AI Foundry 中被指定并部署为“Azure Direct Model”的人工智能模型,其中包括 Azure OpenAI 模型。Azure Direct Models 会存储和处理数据以提供服务,并监控是否存在违反相关产品条款的使用行为。相关的数据处理活动受《Microsoft 产品和服务数据保护附录》管辖。

核心数据处理承诺

您的提示(输入)、生成内容(输出)、嵌入和训练数据:

  • 不会提供给其他客户。
  • 不会提供给 OpenAI 或其他 Azure Direct Model 提供商。
  • 不会被 Azure Direct Model 提供商用于改进其模型或服务。
  • 未经您的许可或指示,不会用于训练任何生成式 AI 基础模型。

您微调的 Azure Direct Model 仅供您专用。

Azure AI Foundry 是一项 Azure 服务,Microsoft 在其 Azure 环境中托管 Azure Direct Models。这些模型不会与 Azure Direct Model 提供商(如 OpenAI 的 ChatGPT 或 OpenAI API)运营的任何服务进行交互。

处理的数据类型

Azure AI Foundry 为提供 Azure Direct Models 服务,会处理以下类型的数据:

  • 提示和生成内容:用户提交提示后,服务通过 completionschat completionsimagesembeddings 等操作生成的内容。
  • 上传的数据:您可以通过 Files API 或向量存储上传自有数据,用于微调、Assistants API、批量处理等特定功能。
  • 状态实体数据:当您使用 Responses API、Assistants API 的 Threads 功能或 Stored completions 等可选功能时,服务会根据您的配置创建数据存储,以持久化消息历史和其他内容。
  • 提示中包含的增强数据:当您使用与状态实体关联的数据时,服务会从配置的数据存储中检索相关数据,并用其增强提示,从而生成基于您数据的内容。提示也可以通过其自身包含的数据源(如 URL)进行增强。
  • 训练和验证数据:您可以提供由“提示-生成内容”对组成的自有训练数据,用于模型微调。

数据处理方式

下图概述了您的数据是如何被处理的。此流程涵盖了以下几种情况:

  • 模型推理:通过 Azure Direct Models 处理您的提示以生成内容(包括使用 Azure OpenAI on your data、Assistants 或批量处理等功能将额外数据源添加到提示中的情况)。
  • Assistants 功能:存储与 Messages、Threads 和 Runs 相关的数据。
  • Responses API 功能:存储数据以持久化消息历史记录。
  • 批量处理功能:处理您上传的数据。
  • 模型微调:使用您上传的数据创建自定义(微调)模型。
  • 滥用行为监控:Microsoft 人员分析提示和生成内容(文本和图像),以检测有害内容以及违反行为准则或其他产品条款的潜在使用模式。

模型推理

无论是基础模型还是微调模型,在您的 Azure AI Foundry 资源中部署后,都会处理您的输入提示并生成文本、图像或嵌入。

  • 逻辑隔离:客户与模型的交互是逻辑隔离和安全的,采用了包括但不限于 TLS 1.2 或更高版本的传输加密、计算安全边界、文本标记化以及对分配的 GPU 内存的独占访问等技术措施。
  • 内容过滤:服务会实时评估提示和生成内容中的有害内容类型,并根据配置的阈值进行过滤。
  • 无状态处理:模型是无状态的,不会在模型中存储任何提示或生成内容。此外,这些数据也不会用于训练、再训练或改进基础模型。

数据处理地理位置

Azure AI Foundry 提供标准部署以及标记为“Global”和“DataZone”的特殊部署选项。

  • 标准部署:提示和响应在客户指定的地理区域内处理,但可能为了运营目的(如性能和容量管理)在该地理区域内的不同区域之间处理。
  • Global 部署:提示和响应可能会在部署了相关 Azure Direct Model 的任何地理位置进行处理。
  • DataZone 部署:提示和响应可能会在 Microsoft 定义的指定数据区域内的任何地理位置进行处理。
    • 例如,在美国的 Azure AI Foundry 资源中创建的 DataZone 部署,数据可能在美国境内的任何地方处理。
    • 在欧盟成员国的资源中创建的 DataZone 部署,数据可能在该国或任何其他欧盟成员国处理。

对于 Global 和 DataZone 部署类型,任何静态存储的数据(如上传的数据和滥用监控数据存储)都存储在客户指定的地理区域。这些部署类型仅影响处理位置,Azure 的数据处理和合规性承诺仍然适用。

使用自有数据增强提示

Azure OpenAI 的 “on your data” 功能允许您连接数据源,使生成的结果基于您的数据。

  • 数据保留在您指定的数据源和位置,Azure OpenAI 不会创建副本。
  • 收到用户提示后,服务从连接的数据源检索相关数据,增强原始提示,然后由模型处理这个增强后的提示并返回生成内容。

特定功能的数据存储

部分 Azure Direct Models 功能会在服务中存储数据。这些数据由客户通过 Files API 或向量存储上传,或在使用 Responses API、Assistants API 的 Threads 功能等状态功能时自动存储。

存储的数据具有以下特点:

  • 存储位置:静态存储在客户 Azure 租户下的 Azure AI Foundry 资源中,与该资源位于同一地理区域。
  • 静态加密:默认使用 Microsoft 的 AES-256 加密进行静态加密,并提供客户管理密钥(CMK)选项(部分预览功能可能不支持 CMK)。
  • 可删除性:客户可以随时删除这些数据。

以下功能会使用这些存储的数据:

  • 创建自定义(微调)模型:微调模型仅供创建它的客户使用,静态时会加密,并可随时删除。用于微调的训练数据未经您的许可,不会用于训练任何基础模型。
  • 批量处理:这是一种 Global 部署类型。静态数据保留在指定的 Azure 地理区域,直到处理能力可用;处理过程可能在部署了相关模型的任何地理位置进行。
  • Responses API:此 API 存储消息历史记录和其他相关内容,是实现多轮对话和工作流所必需的。
  • Assistants API (预览版):Assistants 的某些功能(如 Threads)会存储消息历史记录和其他内容。
  • Stored completions (预览版):此功能通过聊天完成 API 存储来自客户部署的 Azure OpenAI 模型(如 GPT-4o)的输入输出对,并在 Azure AI Foundry 门户中显示。这使得客户能够用生产数据构建数据集,用于评估或微调模型。

滥用行为监控与防范

为降低滥用或有害使用的风险,Azure Direct Models 包含了滥用行为监控功能。

  • 微调模型的安全评估:使用 Azure 的风险与安全指标评估微调模型是否存在潜在的有害响应。服务仅记录最终的评估结果(可部署或不可部署)。
  • 滥用行为检测系统:该系统旨在检测和缓解表明服务使用方式可能违反行为准则或其他产品条款的重复性内容或行为。系统通过算法和启发式方法检测潜在的滥用指标。
  • 数据审查
    • 当检测到滥用指标时,可能会选择客户的部分提示和生成内容进行审查。
    • 审查默认通过自动化方式(包括使用大语言模型等 AI 模型)进行,必要时由人工审查员进行额外审查。
    • 自动化审查不会存储客户的提示和生成内容,也不会用其训练 AI 模型或其他系统。
  • 数据隔离与存储
    • 用于人工审查的滥用监控数据存储按客户资源进行逻辑隔离。
    • 每个 Azure Direct Model 可用的地理区域都有一个独立的数据存储。客户的提示和生成内容存储在客户 Azure AI Foundry 资源部署的 Azure 地理区域内,位于 Azure Direct Models 服务边界内。人工审查员只能在授权情况下访问这些数据。

👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API