Build Visual AI Agents

课程背景与核心挑战

本次课程是与 Google 合作推出的《用于图像和视频生成的 AI 智能体》（AI Agents for Image and Video Generation）短课程的核心内容介绍。该课程由 Google Cloud AI 开发者关系工程师 Katie Nguyen 和 Google 生成式 AI 专家 Wafae Bakkali 联合授课。在当前的 AI 应用中，大多数智能体主要生成文本内容，但在实际产品开发中，无论是制作产品演示、网站素材还是解释性视频，视觉媒体才是核心需求。随着 Google 推出 Nano Banana（图像生成）和 Veo（视频生成）等模型，从提示词生成单一输出已经变得相对简单，但真正的难点在于如何大规模地持续产生高质量结果。

"Most agents you've worked with probably produce text. But whether you're building a product demo, a website asset, or an explainer video, you're working with visual media."

这一挑战的核心瓶颈在于评估（Evaluation）。与文本生成不同，视觉生成没有单一的“正确答案”作为比对基准，因此质量高度依赖于上下文和具体用例。本课程旨在解决这一痛点，通过教授三种互补的评估技术，并将其与图像和视频生成相结合，帮助开发者构建自主媒体智能体。学员将学习如何构建一个图像智能体，将品牌指南转化为 UI 原型；以及一个视频智能体，用于规划多场景解释视频、使用同步音频动画化参考帧，并检查场景间的一致性。

智能体构建目标与最终成果

课程的核心目标是让学员掌握构建、评估并迭代视觉媒体输出的完整能力。在最终的课程环节中，学员将使用 Gemini CLI 以自然语言构建一个生成式媒体智能体，将所学内容封装为可复用的智能体技能（Agent Skills）。这意味着学员不仅能生成内容，还能自动化地优化内容，使其符合特定的质量标准。

"The harder problem is producing high-quality results consistently at scale, and the bottleneck there is evaluation: there is no single correct answer to compare against, so quality depends on context and use case."

具体而言，学员将构建两个主要的智能体原型： 1. 图像智能体：能够将品牌指南自动转化为 UI 原型，通过生成、评估和迭代，直到设计达到预设标准。 2. 视频智能体：能够规划多场景解释视频，生成参考帧，利用音频进行动画化，并评估时间维度上的一致性。

最终，学员将具备构建能够生成视觉媒体、自动评估其质量并迭代改进输出的智能体的能力，从而解决视觉 AI 应用中的规模化生产难题。

基础架构与提示词工程

课程的第一部分将帮助学员建立对生成式媒体领域的清晰心智模型，深入理解图像、视频和音频生成背后的架构原理。这是构建高级智能体的基础。学员将学习如何针对高质量图像和视频进行提示词工程（Prompt Engineering），掌握包括 LLM 增强提示、参考图像（Reference Images）以及起始帧（Starting Frames）在内的关键技术。

"In detail, you'll: Get a clear mental model of the generative media landscape and the architectures behind image, video, and audio generation."

这些技术对于控制生成结果的准确性和一致性至关重要。例如，使用参考图像可以确保生成的视觉风格与品牌指南保持一致，而起始帧则能为视频生成提供明确的时间起点和构图基础。通过结合 LLM 增强提示，智能体可以更精确地解析复杂指令，从而生成更符合预期的视觉内容。这部分内容为后续构建复杂的评估管道和智能体逻辑奠定了坚实的技术基础。

构建多维评估管道

为了应对视觉生成缺乏单一正确答案的挑战，课程将教授如何构建评估管道（Evaluation Pipelines）。这些管道将结合多种评估手段，以在大规模生产中评估输出质量。核心评估技术包括：

SigLIP 图像-文本相似度评分：用于量化图像内容与文本提示之间的语义一致性。
基于 LLM 的裁判（LLM-based Judges）：利用大型语言模型作为裁判，对生成内容进行更主观、更复杂的逻辑和质量评估。
结构化评分标准（Structured Rubrics）：定义明确的评估维度，确保评估过程的可重复性和一致性。

"Build evaluation pipelines that combine SigLIP image-text similarity scores, LLM-based judges, and structured rubrics to assess output at scale."

通过组合这些技术，开发者可以建立一个多层次的评估体系。SigLIP 提供快速的语义匹配检查，LLM 裁判提供深层的逻辑和美学判断，而结构化评分标准则确保评估过程符合特定的业务需求。这种组合方法能够有效解决视觉生成中质量评估的主观性和复杂性，为智能体的自动化迭代提供可靠的数据支持。

图像智能体：从品牌指南到 UI 原型

课程的一个关键实践环节是构建一个图像智能体。该智能体的主要功能是将品牌指南自动转化为 UI 原型。这一过程不仅仅是简单的图像生成，而是一个包含生成、评估和迭代的闭环流程。

"Build an image agent that turns brand guidelines into UI mockups, generating, evaluating, and iterating until designs pass your bar."

智能体首先根据品牌指南生成初始的 UI 设计，随后利用前文提到的评估管道对生成结果进行打分。如果设计未达到预设标准（即“pass your bar”），智能体将自动调整提示词或参数，重新生成并评估，直到满足要求。这种自动化迭代机制极大地提高了设计效率，确保了输出结果在视觉风格和品牌一致性上符合高标准。学员将学习如何配置这一流程，使其能够适应不同的品牌规范和设计需求。

视频智能体：多场景规划与一致性检查

另一个核心实践是构建视频智能体，用于规划多场景解释视频。与图像生成不同，视频生成需要处理时间维度的复杂性。该智能体具备以下关键能力：

多场景规划：自动分解视频脚本，规划各个场景的内容和转场。
参考帧动画化：生成参考帧，并结合同步音频进行动画化处理，确保视听同步。
时间一致性评估：检查不同场景之间在视觉风格、角色外观和叙事逻辑上的一致性。

"Build a video agent that plans multi-scene explainers, generates and animates reference frames with audio, and evaluates temporal consistency."

时间一致性是视频生成的最大挑战之一。智能体通过评估管道，确保从场景 A 到场景 B 的过渡自然且符合逻辑。通过结合音频同步技术，智能体能够生成更具表现力和专业感的解释性视频。这一环节展示了如何将复杂的视频制作流程自动化，从而降低视频内容生产的门槛。

封装技能与 Gemini CLI 应用

课程的最后一部分聚焦于技能封装和应用构建。学员将学习如何将前文构建的图像和视频智能体功能封装为可复用的智能体技能。这些技能可以被其他应用或工作流调用，从而实现模块化开发。

"Package what you've learned into reusable agent skills, and use Gemini CLI to build a generative media application from natural language prompts."

最终，学员将使用 Gemini CLI 工具，通过自然语言提示构建一个完整的生成式媒体应用程序。这一过程展示了如何将复杂的 AI 能力简化为易于使用的接口，使得非技术人员也能通过自然语言指令调用视觉生成和评估能力。这不仅提升了开发效率，也为未来构建更复杂的 AI 驱动媒体平台提供了可行的架构思路。通过这一系列学习，学员将全面掌握从底层架构到上层应用的视觉 AI 智能体开发全流程。