通过将 Gemini 的强大推理能力与 MediaPipe 的实时感知技术相结合,开发者可以比以往更轻松地构建富有创意的交互式游戏和应用程序。MediaPipe 提供了一系列跨平台的、开箱即用的机器学习解决方案,涵盖视觉、音频和文本处理,并针对设备端实时性能进行了深度优化。

为了直观展示 MediaPipe 的能力,我们在 Google AI Studio 中推出了一个全新的 Showcase Gallery。你可以访问 AI Studio,用自然语言描述你的想法,并指定希望使用的 MediaPipe 功能(如人脸、手部、姿态跟踪或图像分割等),AI Studio 便能为你生成功能完备的 Web 应用。

本文将通过几个有趣的实例,展示如何利用 Gemini 和 MediaPipe 构建能与物理世界互动的应用。

快速上手:在 AI Studio 中用提示词生成应用

访问 AI Studio,在提示词中清晰地描述你的应用创意。确保提及你希望集成的 MediaPipe 功能。以下示例建议在设置中选择 Gemini 1.7 Pro 模型。

示例一:体感控制的恐龙跳跃游戏

我们可以复刻经典的 Chrome 恐龙游戏,并利用 MediaPipe 的 Pose Landmarker API 将其改造为体感控制版本。

示例提示词:

创建一个基于 MediaPipe Pose Landmarker 的网页游戏,复刻 Chrome 恐龙游戏的玩法和 8-bit 像素风格。

核心功能:
- 玩家通过身体跳跃来控制恐龙跳起,以躲避障碍物。
- 实现一个鲁棒的跳跃检测机制,不受玩家与摄像头距离的影响。
- 恐龙的跳跃高度应至少是障碍物高度的两倍。
- 支持使用空格键作为备用跳跃方式。
- 在游戏画面下方增加一个调试面板,显示实时摄像头画面及姿态关键点叠加,用于反馈和调试。

AI Studio 能在数分钟内生成一个功能齐全的 Web 应用。即便只提供简单的提示词,Gemini 也能智能地补全细节,使应用更加完善,例如:

  • 上下文逻辑:理解横版卷轴游戏的核心机制,如重力如何影响恐龙的跳跃。
  • 硬件初始化:编写初始化设备摄像头并为运动追踪做准备的复杂逻辑。
  • 边缘情况处理:建议在游戏开始前增加一个“校准”阶段,以识别玩家的初始站立姿态,确保跳跃检测的准确性。

!Dino Jump 游戏演示

示例二:实时头发换色应用

这个应用利用 MediaPipe 的 Image Segmenter 和多类别自拍分割模型,实现实时的头发颜色变换。

示例提示词:

构建一个实时头发换色应用,使用 MediaPipe Image Segmenter。

主要需求:
- 应用界面需显示摄像头预览画面。
- 在预览画面下方提供一个包含 6 种鲜艳颜色(如霓虹粉、电光蓝等)的调色板供用户选择。
- 默认选中“霓虹粉”。
- 在预览画面中,实现真实、高效且稳定的头发换色效果。

!头发换色应用演示

借助内置的预览功能,你可以直接在浏览器中授权摄像头并立即测试交互效果。如果某个功能不尽如人意,只需通过对话继续迭代,修复错误或添加新功能。AI Studio 甚至会在 Gemini 处理请求时,提供有针对性的后续优化建议。

!AI Studio 提供的优化建议

MediaPipe:低延迟交互体验的基石

这些应用之所以能提供“魔法般”的体验,其秘诀在于 MediaPipe 的设备端机器学习处理能力。姿态估计、头发分割等计算完全在你的本地设备上运行,几乎没有网络延迟。这对于交互式应用至关重要,因为零点几秒的延迟就可能决定你是成功躲过障碍物还是撞了上去。这种实时性使得数字世界能够即时响应你的身体动作,创造出丰富的沉浸式体验。

更多创意应用实例

结合 Gemini 与 MediaPipe,你可以轻松构建能够看见、听见和感知世界的应用。以下是一些可以直接在 AI Studio 中尝试和改造的创意。

手势识别:手势泡泡消除

  • 技术MediaPipe Gesture Recognition
  • 玩法:屏幕底部会不断浮现包含特定手势图案的泡泡。玩家需要同时用双手做出与泡泡内图案匹配的手势(如 👍, 👎, ✌️, ☝️, ✊, 👋 的任意组合)。成功匹配即可戳破泡泡得分。泡泡到达屏幕顶端则会扣分。

!手势泡泡消除游戏演示

人脸关键点:吹泡泡糖挑战

  • 技术MediaPipe Face Landmarker
  • 玩法:通过追踪嘴部动作(如从张开到收缩)来检测“吹气”动作。每个玩家的嘴部会有一个数字泡泡糖,吹气越快,泡泡变得越大。停止吹气则泡泡会慢慢缩小。第一个让泡泡达到最大尺寸的玩家获胜,并触发“POP”动画。

!吹泡泡糖挑战游戏演示

人脸关键点:椪糖挑战

  • 技术MediaPipe Face Landmarker
  • 玩法:灵感来自《鱿鱼游戏》。玩家需要用鼻尖沿着糖饼上的图案轮廓移动来进行“雕刻”。如果鼻尖偏离路径太远或倒计时结束,糖饼就会“碎裂”,游戏失败。

!椪糖挑战游戏演示

人脸检测:“一二三,木头人”

  • 技术MediaPipe Face Detector(已升级支持远距离检测)
  • 玩法:一个室内多人游戏。玩家站在房间远处,尝试在“绿灯”时走向摄像头。“红灯”亮起时,游戏会检测任何发生位移的玩家,并将其淘汰。最后剩下的玩家获胜。

!一二三木头人游戏演示

手部关键点:六和七

  • 技术MediaPipe Hand Landmarker
  • 玩法:当用户伸出左手和右手时,应用会在相应的手上方显示数字“6”和“7”,并使其轻微脉动。数字的大小会根据用户手的大小进行适配。

!六和七演示

我们致力于通过 Gemini 和 MediaPipe 赋能开发者,更高效地创建复杂、新颖的交互式应用。即刻前往 AI Studio 的 MediaPipe Showcase Gallery,探索更多可能性,并基于我们的示例进行改造,添加你自己的创意吧!


👉 如果你需要 ChatGPT 代充 / Claude / Claude Code / 镜像 / 中转 API