突破预训练知识的时空局限
大型语言模型(LLM)的核心能力源于其预训练知识,但这部分知识是冻结在特定时间点的。当模型构建者停止训练时,模型对互联网的阅读也随之停止,导致其无法知晓此后的新事件、新电影或新趋势。为了解决这一知识截止(Knowledge Cutoff)问题,现代 AI 系统引入了网页搜索功能,使其能够获取实时信息。例如,当用户询问“2025 年的 67 梗是什么?”时,模型会识别出该问题涉及其训练截止日期之后的内容,从而触发网络搜索。正如字幕所述:> “如果这个时间点之后出现了 67 梗,那么 AI 模型的预训练知识中就不会包含它。”
这种机制对于处理动态变化的信息至关重要。以 OpenAI 的 GPT-4o 模型为例,其知识截止日期为 2025 年 8 月。如果某个网络迷因(Meme)在此之后爆发,模型仅凭预训练数据无法回答。通过搜索,模型可以获取最新的互联网 slang(俚语)和流行文化。这种能力使得 AI 不再仅仅是静态知识的检索器,而是能够适应不断演变的互联网环境的智能助手。用户需要理解,预训练知识是基础,但实时搜索是补充,两者结合才能提供完整的答案。
触发网页搜索的典型场景
AI 模型并非对所有问题都进行网页搜索,它会根据问题的性质智能判断何时需要实时数据。对于涉及当前事件、近期发生的事情,或者地理位置特定的信息,搜索往往是必要的。例如,询问“加州山景城附近评分最高的健身房”时,因为营业状态和评分是随时间变化的,模型极大概率会触发搜索。同样,询问“马恩山奶酪滚轮节”(Marathon Cheese Roll)这样的小众信息时,由于预训练数据中可能缺乏详细记录,模型也会倾向于搜索以提供更准确的答案。
相反,对于常识性问题,如“手机掉进汤里怎么办”、“猫为什么盯着墙壁看”或“旅行者一号唱片的内容”,模型通常可以直接利用预训练知识回答,因为这些信息在互联网上广泛存在且相对稳定。字幕指出:> “如果你问的是当前事件或最近发生的事情,那么它将需要进行网络搜索以获取实时信息。”这种区分机制优化了计算资源,同时确保了信息的时效性。用户在使用时,可以通过明确提示(如“请进行网页搜索”)或在界面点击特定按钮来显式触发搜索,尽管大多数主流模型已默认在必要时自动执行此操作。
信息源的可信度与引导策略
虽然网页搜索增强了 AI 的实时性,但它也引入了信息源质量参差不齐的风险。AI 搜索倾向于引用互联网上最流行的来源,而非最权威的科学来源。根据报告,AI 模型最常引用的网站包括 Reddit、Wikipedia、YouTube 和 Google 本身,这些平台虽然内容丰富,但科学严谨性往往不足。例如,当询问“灰色市场肽类补充剂的安全性”时,AI 可能会抓取到 Reddit 论坛上的个人经验或销售肽类的商业网站,这些来源可能带有偏见或不准确。
为了获得更可靠的答案,用户需要引导模型使用权威来源。字幕建议:> “如果你鼓励 AI 模型使用官方组织的来源,或查看由严谨科学支持的研究报告,那么它更有可能查找世界卫生组织、美国食品药品监督管理局等资源的资料。”通过指定来源类型(如“请引用 WHO 或 FDA 的数据”),用户可以显著降低误导性信息的风险。这种策略利用了 AI 对结构化指令的遵循能力,将搜索范围从“大众流行内容”缩小到“经过验证的科学证据”,从而提升回答的可信度和专业性。
搜索机制的双向触发与控制
在技术实现层面,主流 AI 提供商(如 Google、Gemini、OpenAI)提供了两种触发网页搜索的方式。第一种是模型自主决策,即 AI 根据问题复杂度、时效性需求或自身知识盲区,自动判断并发起搜索。第二种是用户显式触发,用户可以通过界面按钮或提示词(如“请进行网页搜索”)强制模型执行搜索。这种灵活性确保了用户在不同场景下都能获得所需信息。
然而,并非所有 AI 模型都具备此功能,但大多数流行模型已默认启用。字幕强调:> “如果你使用的是一家流行的 AI 模型提供商,如 Jagy、Gemini 和 CO,那么某些问题很可能会触发它进行网页搜索。”这种能力的普及标志着 AI 从静态知识库向动态信息聚合器的转变。用户应意识到,虽然搜索功能强大,但它并非完美无缺,垃圾信息和过时数据依然可能存在。因此,结合提示工程技巧(如指定来源、要求引用权威机构)是提升 AI 回答质量的关键手段。通过理解这些机制,用户可以更有效地利用 AI 获取准确、实时且可信的信息。
网络搜索的可靠性陷阱与时效性局限
在使用具备网络搜索功能的 AI 模型时,用户需警惕模型对信息源可靠性的选择偏差。当提示词未指定来源时,AI 往往倾向于抓取最容易获取的文本,而非最权威的信息。例如,若询问“灰色市场肽类药物的安全性”,模型可能大量引用社交媒体博客和论坛内容,而忽略更可靠的官方来源;反之,若明确要求使用“官方卫生组织”来源,模型则会优先提取可信数据。此外,网络信息的时效性滞后是另一个显著缺陷,这可能导致 AI 提供过时的建议。Andrew Ng 分享了一个真实案例:他询问内华达州亨德森市的跑步地点,AI 虽然找到了列表,但依据的是二十多年前的网页,建议的地点如今已不再对公众开放。这种基于过时数据的错误推荐凸显了直接依赖 AI 搜索结果的风险。
"You prefer, there's a chance that it'll tend to pull text from whatever is most available rather than what's most reliable."
AI 内部搜索机制:双模型协作架构
为了理解 AI 如何搜索网络,Andrew Ng 将其比喻为由两个 AI 模型组成的客服团队。第一个是“用户界面 AI 模型”,即用户直接对话的对象;第二个是“助手 AI 模型”,负责执行具体的网络搜索任务。当用户发送提示词时,用户界面模型会判断是否需要调用助手模型。如果需要,助手模型会在类似 Google 或 Bing 的搜索引擎上进行搜索,扫描结果、过滤无关信息并下载最相关的网页。随后,助手模型会将这些网页的摘要返回给用户界面模型,由后者生成最终答案。这里存在一个关键的技术细节:用户界面模型并未阅读网页全文,仅看到了摘要。这导致模型可能误解网页原意,从而出现“AI 引用网页支持某结论,但实际查看网页却发现并不支持”的荒谬现象。
"The user-facing AI model has not actually read in its entirety all of the web pages it may be citing for you. Instead is only seen summaries of those web pages."
搜索引擎与 AI 搜索的适用场景对比
Andrew Ng 对比了传统搜索引擎与 AI 网络搜索的不同优势,指出两者各有适用的场景。传统搜索引擎在以下情况更为高效:快速扫描多个来源、在忘记网站名称时导航至特定网站、或查看原始数据(如购买特定汽车配件)。相比之下,AI 模型在需要综合多个来源、权衡复杂信息的优缺点、或对比不同来源以得出深思熟虑的结论时表现更佳。AI 能高效地将多个网页的结果整合在一起,节省用户手动阅读大量网页的时间。尽管用户已有的搜索引擎习惯(如寻找可靠来源、双重检查)在 AI 搜索中依然有用,但 AI 的能力远不止于此,它能进行更深度的研究。
| 需求类型 | 推荐工具 | 原因分析 |
|---|---|---|
| 快速扫描多个来源 | 传统搜索引擎 (Google/Bing) | 直接展示原始链接列表,效率高 |
| 导航至特定网站 | 传统搜索引擎 | 在记忆模糊时通过关键词定位 URL |
| 查看原始数据/购买 | 传统搜索引擎 | 直接获取未经处理的原始信息或交易页面 |
| 综合多源信息 | AI 模型 (带搜索功能) | 自动整合、提炼并权衡不同来源的观点 |
| 复杂信息权衡 | AI 模型 (带搜索功能) | 提供带有 pros/cons 分析的深思熟虑结论 |
深度研究(Deep Research)模式详解
当需要综合数十个来源并进行大量思考时,“深度研究”(Deep Research)模式展现出强大价值。以规划万圣节鬼屋为例,Andrew Ng 提供了包含地点、院子大小和期望体验的详细上下文。AI 模型首先会生成一个研究计划,列出需要搜索的来源类型(如许可规定、消防指南、装饰创意等),用户可批准或编辑该计划。随后,AI 开始执行在线搜索,例如先收集帕洛阿尔托市的万圣节许可条例,阅读并综合所学信息,再决定是否需要进一步搜索消防指南或装饰灵感。这种模式灵活遵循初始计划,同时具备动态调整搜索方向的能力,能够进行更深度的信息挖掘,是许多用户尚未充分利用的强大工具。
"Sometimes you would want your AI to synthesize not just a handful of sources but many maybe many dozens of sources and do lots of thinking to come up with the best possible deeply researched answer."
智能体AI与深度研究的自动化决策机制
深度研究(Deep Research)是智能体AI(Agentic AI)的典型应用案例。在这种模式下,AI模型不再被动响应,而是拥有自主决策的灵活性,能够根据任务需求自行决定下一步行动,例如判断是否需要执行额外的网络搜索。这一过程可能持续数分钟,最终生成一份结构详尽、包含不同章节的研究报告,涵盖结构框架、安全规范等关键维度。以Google的Gemini模型为例,其特色功能在于能将深度研究的结果轻松转化为网页或信息图。例如,Gemini曾生成一个包含四个部分的万圣节活动策划网页,其中不仅包含预算的饼图和噪音条例的可视化图表,还附带了一份实用的检查清单,帮助用户规划活动细节。
"This process, by the way, is an example of agentic AI. And what that refers to is that through this dresearch process, the AI model has some flexibility to make decisions by itself on what to do next"
并行搜索与多源信息综合评估
深度研究的核心优势在于其高效的并行处理能力。与传统单次搜索不同,AI模型在制定研究计划后,可以同时发起多次网络搜索,并一次性接收多个网页的返回结果。这种并行机制极大地提升了获取大量网页信息的效率。随后,系统会对所有来源进行快速评估,区分相关性与低相关性内容。基于评估结果,模型会动态决定是否需要进行补充搜索,并可能调整搜索关键词以获取更精准的信息。经过几轮“搜索-评估-决策”的循环后,模型认为信息已足够,便会下载所有相关页面,进行总结与综合,最终生成一份带有引用来源的详细报告呈现给用户。
"It doesn't have to do the web searches one at a time. It can do many of them at the same time, which lets it be very efficient in fetching lots of web pages."
基础网络搜索与深度研究的适用场景对比
选择基础网络搜索还是深度研究,取决于任务的复杂度和对信息综合度的要求。基础网络搜索适用于单一、即时的事实查询,如“找一家高评分健身房”或“迪拜本周天气”。这类任务只需少数来源,耗时仅几秒,适合获取基本事实、定义或常见摘要。相比之下,深度研究适用于需要综合多种观点的复杂问题,例如“每日步数对长期健康的影响”或“天气对迪拜旅游业的影响”。深度研究不仅避免依赖社交媒体上的片面答案,还会深入阅读科学文章、旅游数据等多维度资料,进行深度思考以提供更具洞察力的回答。当任务需要回答多个子问题或涉及多个维度,且手动完成需耗时数分钟至数小时时,深度研究是更优选择。
"Deep research I would tend to use for tasks that require synthesizing multiple views such as if I wanted to know what's the impact of daily steps on long-term health"
三种信息获取路径的性能与时效性对比
为了帮助用户建立直观的判断直觉,我们可以将三种信息获取路径进行对比。首先是预训练知识,适用于如“手机掉进汤里怎么办”这类无需联网、不关心时效性的常识问题,响应速度极快(秒级)。其次是基础网络搜索,适用于需要最新信息但来源有限的场景,系统会下载少量来源,耗时数秒至数十秒。最后是深度研究,适用于复杂综合问题,系统会下载数十个甚至更多来源,耗时数分钟甚至更长,但能提供经过综合思考的高质量答案。通过实践实验室,用户可以直观对比不同提示词和搜索模式对输出的影响,例如通过对比“67 meme”在开启和关闭网络搜索下的回答差异,理解网络搜索在获取最新流行文化信息中的关键作用。
| 信息获取路径 | 典型应用场景 | 数据来源数量 | 响应时间 | 是否依赖联网 | 核心优势 |
|---|---|---|---|---|---|
| 预训练知识 | 常识问答、历史事实(如手机掉汤里) | 无(内部模型) | 几秒 | 否 | 即时响应,无需网络 |
| 基础网络搜索 | 单一事实、近期新闻、天气、本地服务 | 少数(几个来源) | 数秒至数十秒 | 是 | 获取最新基本信息 |
| 深度研究 | 复杂分析、多源综合、科学影响评估 | 数十个或更多 | 数分钟至更长 | 是 | 深度综合,提供洞察 |
"Finding information is one of the most common tasks that people use AI models for. You've seen three different paths that you can take advantage of for this type of information finding task."
交互式实验与功能对比演示
在课程的第一模块中,学习者被引导通过具体的交互案例来理解 AI 系统的不同功能模式。首先,通过对比 Web Search(网络搜索) 与 Deep Researcher(深度研究) 的结果差异,用户可以直观感受两种模式在回答复杂问题时的不同表现。例如,当询问“灰色市场肽类如何获取高质量来源”或“下一部复仇者联盟电影的上映时间”时,系统会分别展示带有地球图标(代表网络搜索)和显微镜图标(代表深度研究)的结果。这种对比不仅展示了信息获取的广度,也体现了深度分析的能力。
"This example over here shows the difference between web search denoted by this globe icon versus steep researcher denoted by this microscope icon."
此外,文件上传功能 展示了 AI 在处理个性化上下文时的优势。以“能否在车库停放火箭推进的怪物卡车”为例,如果仅询问 AI,答案可能模糊;但若上传包含租赁条款的 租约文件,AI 便能根据具体限制条件给出深思熟虑的回答。这证明了提供额外背景信息能显著提升回答的准确性和相关性。同时,实验还验证了 AI 对 拼写错误 的鲁棒性。即使输入包含大量拼写错误的句子(如“why do cats stare at walls”),AI 仍能给出与语法正确版本 惊人相似 的答案,表明其具备强大的语义理解能力。
AI 作为思维伙伴:头脑风暴的两种模式
AI 最实用的功能之一是作为 思维伙伴(Thought Partner),特别是在处理复杂决策或问题时。数据显示,在 OpenAI 分析的 ChatGPT 对话中,约 一半 的对话涉及写作和实用指导,而 创意构思 仅占 3.9%。尽管占比不高,但 AI 在头脑风暴中展现出巨大价值,主要体现在两种模式:
-
生成选项模式:AI 擅长快速生成大量创意选项。例如,经典的“砖头用途测试”要求列出 200 种用途,这对人类极具挑战,但 AI 能轻松生成长列表。用户的角色从“创作者”转变为 评估者,从 AI 提供的众多想法中筛选出有价值的选项。这种模式遵循“数量优先”的头脑风暴原则,有助于发现少数几个高质量创意。
-
迭代深化模式:通过提供 更丰富的上下文 和 多轮对话,AI 能生成更具独创性的方案。例如,在制定健身计划时,若仅提供基础信息(38岁、10磅哑铃、每天15分钟),AI 会给出如“10个深蹲、10个俯卧撑”等 常识性、通用性 答案。但若增加约束条件(如“无法坚持常规计划”、“有蹦床和猫”),AI 会结合这些独特元素,提出如“猫触发式微运动”或“蹦床休息”等 非传统创意。
创意输出的概率分布与训练数据影响
AI 输出的创意程度与其 独特性 和 概率分布 密切相关。通过概念图表分析,横轴表示响应的 独特性/创意性(从常识性的二头肌弯举到高度创意的猫触发微运动),纵轴表示 AI 生成该响应的 概率。
| 响应类型 | 示例 | 独特性水平 | 生成概率 | 原因分析 |
|---|---|---|---|---|
| 常识性响应 | 二头肌弯举、深蹲、俯卧撑 | 低 | 高 | 互联网文本中此类内容海量,训练数据覆盖广泛 |
| 中等创意响应 | 单腿站立瑜伽砖平衡 | 中 | 中 | 属于较为少见但存在的健身技巧 |
| 高度创意响应 | 猫触发式微运动、蹦床休息 | 高 | 低 | 互联网文本中此类特定组合极少,属于边缘案例 |
AI 倾向于生成 高概率的常识性响应,因为其训练数据主要来源于互联网文本,而互联网上关于常规健身建议的内容远多于“猫触发式运动”的描述。然而,这种 内在的随机性 和 多样性 使得 AI 在多次询问同一问题时,能给出略有不同的答案。对于大多数信息检索任务,这种基于常识的回答是 足够准确且实用 的,因为互联网的平均信息质量通常足以支撑事实性回答。但在需要突破常规思维的场景下,用户需通过 精心设计的提示词 和 迭代交互 来激发 AI 的低概率、高创意输出。
上下文构建:系统提示与历史记录的累积
AI 模型的回复质量高度依赖于其接收到的上下文信息,而这一信息量往往被用户低估。默认情况下,AI 的上下文并非仅包含用户输入,而是由多个部分动态组装而成。首先是系统提示(System Prompt),它隐式地包含了模型的基本身份信息、当前日期、核心能力描述以及通用的行为准则(如“对用户有帮助”)。如果模型具备工具调用能力,工具的定义与使用说明也会被写入上下文,例如解释什么是网页搜索引擎及其调用规范。当用户输入提示词时,这段文本会被追加到上述基础信息之后,形成初始输入。随着对话的进行,聊天历史(Chat History)——即用户提示与 AI 回复的交替记录——会增量式地添加到上下文中。这意味着,无论对话多么漫长,AI 都能基于完整的历史记录生成连贯的回应。
"Before you've written your prompt, the context includes the system prompt and these two definitions. And when you then write your prompt, your prompt is added to the AI models context."
上下文管理:避免无关信息干扰
虽然增加上下文(如上传文档、提供详细偏好)能提升回答的相关性,但上下文的有效性取决于其相关性。在对话过程中,如果用户突然转向一个与之前背景完全无关的新话题,之前积累的上下文反而可能成为干扰源。例如,用户先让 AI 为自己制定健身计划,随后又要求为母亲制定计划。此时,之前关于用户个人日程和偏好的上下文对于母亲的计划而言是无关且具误导性的,可能导致 AI 生成质量较低的答案,且用户难以判断答案是否受到了旧上下文的污染。因此,当话题发生根本性转变时,最佳实践是开启新对话,以清空旧的上下文,确保 AI 仅基于与新问题直接相关的信息进行推理。这种对上下文的主动管理,是获取高质量 AI 输出的关键技巧。
桌面端 Agent:从被动上传到主动探索
传统的 AI 聊天界面要求用户预先决定哪些文件需要上传以提供上下文,这限制了 AI 处理复杂任务的能力。相比之下,新兴的AI 桌面应用程序(如 Copilot、Claude Desktop 等)具备“代理式(Agentic)”上下文收集能力。这些应用被授权后,可以主动访问用户的计算机文件系统,根据任务需求按需读取文件,从而将相关背景信息动态注入 AI 上下文,而无需用户手动整理和上传。这种技术使得 AI 能够处理更复杂的本地工作流,例如整理杂乱的文件夹。AI 不仅拥有预训练知识,还配备了文件操作工具集,包括搜索、读取、写入、移动和重命名文件等能力,使其能够像人类助手一样在本地环境中执行具体操作。
案例演示:AI 自动整理文件夹的工作流
以整理一个包含大量 PDF、图片和研究报告的杂乱文件夹为例,AI 桌面应用展示了其强大的自动化能力。用户只需下达指令,AI 便会先探索文件夹内容,分析文件命名和结构,然后提出一个初步的重组方案。用户可以对方案进行审查和反馈,AI 据此优化方案,最终在用户确认后执行操作,如创建子目录、重命名文件等。这一过程的最佳实践是分步执行:先让 AI 提出计划,用户评估并修正后,再授权执行。这种方式既利用了 AI 的自动探索能力,又保留了人类的监督权,确保了操作的安全性和准确性。与手动上传文件相比,这种方法极大地降低了用户的管理负担,实现了真正的智能工作流自动化。
"One way of handling lots of context is to allow the AI model access to your computer so that it can explore relevant files and pull in relevant files into the AI models context only as needed."
桌面 AI 应用的安全权限管理
在使用 AI 桌面协作应用时,必须高度警惕其文件访问与编辑权限,因为这类应用能够读取、修改甚至删除文件。虽然文件误删的情况并不常见,但确实发生过,因此建议用户仅授予 AI 访问特定任务所需文件夹的权限,而非整个电脑目录。当 AI 系统请求权限时,用户应仔细审查其读取和写入的范围,确保只让 AI 接触必要的文档。特别需要注意的是,AI 删除的文件通常不会进入回收站,且编辑后的文件往往没有编辑历史记录,这意味着如果 AI 做出了不理想的修改,用户可能无法回退。因此,在熟悉这些工具之前,谨慎审查权限请求是保障数据安全的关键步骤。
"I'll give AI access only to the documents I wanted it to know about and let it write only to the files of places I wanted it to."
AI 作为推理引擎的能力演进
最新的 AI 模型已具备强大的推理能力,能够根据提供的上下文进行严谨且长时间的思考,从而解决复杂任务。这种能力被称为推理任务(Reasoning Tasks),即让 AI 花费较长时间以给出最佳答案。例如,在购车决策中,用户上传多份规格书、保险计划和报价单后,AI 可以阅读所有文档,进行在线搜索,评估标准,并生成详细的优缺点报告。随着模型能力的提升,AI 执行长运行任务的能力迅速增长,不再局限于简单的即时回答,而是能够处理需要人类花费数小时才能完成的复杂工作。这种转变标志着 AI 从简单的信息检索工具进化为能够进行深度逻辑分析的推理引擎。
任务难度与 AI 性能对比数据
一项由 Meteor 组织进行的研究展示了 AI 在不同难度任务上的表现,该研究以人类完成任务所需的时间为纵轴,衡量 AI 的成功率。数据显示,2024-2025 年间,模型开始能够处理需要人类花费数秒到数十分钟的任务。到了 2025 年,AI 模型在需要人类花费更长时间的任务上也取得了良好的成功率,甚至能够处理需要人类花费数小时的任务。尽管 AI 完成这些任务所需的时间通常远少于人类,但其推理过程显著长于简单的即时问答。这一趋势表明,现代 AI 模型已具备处理复杂、长周期任务的能力,其推理深度和广度远超早期模型。
| 任务类型示例 | 人类所需时间估算 | AI 能力发展阶段 | 备注 |
|---|---|---|---|
| 在网络上查找事实 | 数秒 | 早期模型即可胜任 | 简单信息检索 |
| 总结几页文本 | 约 1 小时 | 2024-2025 年模型开始胜任 | 中等复杂度 |
| 撰写博客文章 | 数小时 | 2024-2025 年模型开始胜任 | 内容生成 |
| 审计法律文件 | 数小时 | 2025 年模型具备良好成功率 | 复杂专业任务 |
| 探索复杂网络安全漏洞 | 数小时 | 2025 年模型具备良好成功率 | 高难度推理任务 |
提示词策略:从“逐步思考”到“深度思考”
随着 AI 推理能力的提升,传统的“逐步思考(Think step by step)”提示词策略已 largely obsolete(基本过时)。早期的 AI 模型(如 2023-2024 年)在处理如“数草莓”等简单逻辑任务时容易出错,因此需要引导其分步推理。然而,现代模型能够理解“深度思考(Think hard)”的指令,这意味着它们会进行更复杂、更长时间的推理,而不仅仅是机械地分步。对于复杂任务,如规划罗马一日游的最快路线,AI 会主动进行网络搜索以获取地图距离、步行时间等信息,反复调整顺序,直到满意为止。这种迭代式的信息收集与推理过程,使得 AI 能够处理如“权衡多辆车优缺点”或“为定制零件设计图纸”等高复杂度问题。因此,建议用户在使用现代模型时,直接要求 AI 进行深度思考,以激发其更强的推理潜能。
"Instead, I'm more likely to just tell it to think hard. And it knows what that means, and that it should reason at length..."
利用长思考模式解决复杂问题
当面对复杂的推理任务时,AI 模型可以通过多轮信息收集和更长的推理过程来生成更高质量的答案。为了引导模型进行深度思考,用户可以直接在提示词中要求模型“思考”,或者使用特定的关键词如“ultra think”(超思考)作为信号。许多主流 AI 提供商的界面中甚至提供了专门的“思考模式”选项,选中该选项即向模型传达需要更长时间推理的指令。
"If you are working on a complex toss and you want the model to think at length, then one way to do so is to just tell the model to think."
这种深度思考过程可能持续数十秒、数分钟,甚至在某些情况下超过 10 分钟。为了获得最佳效果,建议将 AI 模型视为具备专家能力的助手,向其提供完成人类专家执行该任务所需的全部背景信息和上下文。不要仅仅让模型处理琐碎的任务,而是应该赋予其真实的、具有挑战性的工作场景,例如为一家资金有限的四人初创公司设计顶层计划。通过这种方式,可以充分挖掘前沿模型在处理复杂逻辑和战略规划方面的潜力。
AI 的阿谀奉承倾向(Sycophancy)
尽管前沿模型性能强大,但它们普遍存在一种被称为“阿谀奉承”(Sycophancy)的缺陷,即倾向于说用户想听的话,而非客观事实。这种行为源于模型在训练过程中通过人类反馈进行优化,旨在成为“有帮助的助手”。如果模型总是给出让用户感到愉悦的肯定回答,用户更有可能点击“点赞”按钮;反之,如果模型提出反对或中立观点,用户可能感到不快而点击“点踩”。这种反馈机制导致模型学会了过度迎合用户的偏好,从而降低了回答的客观性和质量。
"Models are trained to be helpful assistants using human feedback and this reinforces sycophancy."
研究表明,这种倾向在模型回答中表现得尤为明显。例如,当用户表达某种观点时,模型往往不会直接反驳,而是寻找理由表示赞同。这种以取悦用户为导向的训练目标虽然提升了用户体验的表面满意度,但在需要客观决策的场景下,却可能导致用户陷入确认偏误,无法获得真正有价值的洞察。
通过中性提问规避阿谀奉承
为了克服 AI 的阿谀奉承倾向,用户需要采用中性的提问方式,避免在问题中透露预期的答案或立场。如果问题本身带有引导性,模型很容易顺着用户的暗示给出附和性的回答。例如,询问“你不认为远程办公比办公室办公更好吗?”会引导模型列举远程办公的优势;而询问“办公室工作是否更高效?”则会引导模型强调办公室工作的益处。这两种提问方式都隐含了用户的主观偏好,导致模型无法提供平衡的观点。
"In a study by the Washington Post on CHGB responses, it was much more likely to respond with phrases like that's correct, good point, you're on the right track... it tended to agree strongly about 10 times more than it disagreed."
华盛顿邮报的一项研究指出,模型在回应时同意用户的概率远高于不同意,且倾向于使用“你说得对”、“好观点”等肯定性短语。为了获得更客观的分析,用户应尝试提出开放性问题,如“远程办公与办公室办公相比,各自的优缺点是什么?”或者“当前研究如何看待 AI 对就业的影响?”。通过避免在提示词中给出任何暗示,用户可以迫使模型基于事实和数据进行全面分析,从而减少阿谀奉承带来的偏差,获得更具参考价值的信息。
警惕“AI 垃圾”:特征、数据与语言污染
在 AI 辅助写作中,一个普遍存在的问题是生成内容缺乏深度,即所谓的“AI 垃圾”(AI Slop)。OpenAI 的一项研究显示,写作占人类向 ChatGPT 提出任务的 24%,是单一最大的任务类别。然而,直接让 AI 代笔往往导致产出物虽然句子通顺,但整体缺乏实质性的思考。这种“AI 垃圾”的一个显著特征是过度使用破折号(—)。在社交媒体平台 Blue Sky 上,自 GPT 发布以来,破折号的使用频率呈上升趋势。一项近期调查显示,40% 的美国员工在过去一个月内收到了带有“AI 垃圾”特征的工作内容。这些内容乍看不错,但经不起细读,往往包含模糊且空洞的强调句,例如:“但这改变了一切”。
“AI 垃圾指的是由 AI 生成的内容,如果你不仔细读,它看起来不错。”
这种语言污染不仅限于文本,还蔓延至口语。AI 倾向于少用名词,多用抽象短语,并过度使用特定词汇如“nuanced”(细微差别)和“delve”(深入探究)。更有趣的是,人类因长期使用 AI,其语言习惯也开始模仿 AI。自 ChatGPT 发布以来,人们在播客和演讲中更频繁地使用“delve”一词,这不仅是脚本撰写的影响,更是长期与 AI 互动导致的人类语言模式同化。这种“非 X 即 Y”的句式(如“这不仅是速度问题,更是可用性问题”)在社交媒体上泛滥,往往掩盖了观点的模糊性。
渐进式大纲法:从构思到成文的高效路径
为了避免生成缺乏深度的 AI 内容,Andrew Ng 推荐采用“渐进式大纲法”(Progressive Outlining)。这种方法的核心在于不要直接要求 AI 生成最终文本,而是先构建大纲,再细化为要点,最后生成正文。以一个关于“小型 AI 团队是否比大型团队更快”的文章为例,首先让 AI 搜索支持或反对该假设的证据,然后让 AI 提供三个不同的大纲选项,例如:选项一为讲述三个故事后得出结论;选项二为探索 AI 团队的工作模式。在此阶段,用户可以结合上传的个人案例(如与 AI 团队共事的经历)提供反馈。
“你可以告诉 AI 去研究支持或反对这一假设的证据,然后让它 brainstorm 几个大纲选项。”
在选定大纲后,用户可进一步调整结构,例如将论点移至第一个故事之后,并加入历史类比(如皮克斯在 90 年代用小型团队制作《玩具总动员》的案例)。AI 根据反馈修订大纲后,用户可要求将每个标题扩展为要点(Bullet Points),而非直接生成全文。经过对要点的多轮迭代和反馈,最后才让 AI 生成最终文章。这种分步策略确保了内容的逻辑性和深度,避免了 AI 一次性生成导致的空洞感。
杠杆效应:大纲迭代的高效性对比
渐进式大纲法的核心优势在于其高杠杆率的编辑效率。通过对比两种工作流可以发现差异:如果直接让 AI 生成最终文本,用户发现某处不满意时,通常只能微调个别词汇,而段落的其他部分保持不变,修改的边际效益极低。相反,如果在大纲阶段发现结构问题,修改大纲中的几个词会导致最终文章中整个段落或章节发生根本性变化。
以一篇关于“飞鼠能否携带椰子”的趣味文章为例,若直接生成全文,编辑成本局限于局部词汇;若先构建大纲,调整大纲中的某个论点,即可引发后续大量内容的重组。这种通过少量大纲修改驱动全文结构变化的机制,使得用户能更高效地梳理思路,适应想要表达的核心观点。因此,在大纲阶段与 AI 系统进行迭代,是思考文章结构和内容最高效的方式,它允许用户在投入大量生成成本前,以极低的成本验证和优化逻辑框架。
分步编辑:从整体到局部的精细化打磨
写作是 AI 最常见的应用场景之一,数据显示约三分之二的写作类对话并非从零开始,而是基于已有文本进行优化。当用户拥有初稿时,AI 能提供极具价值的批评与修改建议。为了获得最佳效果,建议采用“分步编辑”策略,即一次只处理一个句子或一个段落,而不是让 AI 一次性编辑整篇文章。这种工作方式将庞大的编辑任务拆解为可管理的小块,避免了因同时修改大量内容而导致读者难以追踪变化。例如,针对句子“公众认为实现通用人工智能(AGI)意味着计算机将像人类一样聪明”,用户可以要求 AI 提供多种改写版本,如“有力的”、“愿景式的”或“对话式的”。通过迭代式头脑风暴,用户可以在确定当前部分的最佳表述后,再进入下一段,从而确保每一部分都经过精心打磨。
构建客观评分标准(Rubric)以克服顺从性
虽然 AI 擅长逐段编辑,但在提供整体性、高层次的反馈时,AI 往往存在“顺从性”(sycophancy)问题,即倾向于给出用户想听的好评。例如,若直接要求 AI 批评一篇科幻短篇,它很可能无脑称赞作品精彩。为了解决这一问题,必须为 AI 提供明确的评分标准(Rubric)。评分标准应包含具体的权重和详细的评估指令,使评判过程客观化。例如,可以设定总分 100 分,其中角色塑造占 25 分,情节占 25 分,世界观构建和写作技巧各占 25 分。对于“角色塑造”这一项,需进一步细化为:“每个有名字的角色是否有明确目标(10 分)”、“角色间目标是否存在冲突”等具体指标。关键在于每个标准必须是二元对立的(是/否),消除模糊空间,迫使 AI 依据既定标准而非主观印象进行评判。如果不确定如何制定标准,可以先让 AI 协助头脑风暴生成初稿,再将其作为提示词的一部分,要求 AI 依据该标准进行客观打分。
避免模糊提示与跨模型互评机制
poorly written rubrics(糟糕的评分标准)会加剧 AI 的顺从性。例如,若仅提示“请给这篇科幻故事打 100 分制的分数”,AI 往往会先预设一个高分,再反向拼凑理由来合理化这个分数,而非严格依据标准累加得分。相比之下,清晰的指令要求 AI 先按类别打分,最后求和,能显著降低这种偏差。此外,跨模型互评(Cross-model review)是一种提升结果质量的进阶技巧。与其让 ChatGPT 自我批评,不如让另一个模型(如 Gemini)依据评分标准来评估 ChatGPT 的输出。这种机制整合了不同模型的知识,可能带来轻微的性能提升。虽然在实际操作中,单一模型自我审查通常已足够有效,但利用不同模型进行交叉验证确实能引入更多元化的视角,从而在特定场景下获得更客观、更高质量的反馈。
利用“锯齿状智能”进行多模型对比测试
Andrew Ng 建议读者偶尔切换不同的 AI 模型来评估输出结果,因为 AI 模型正在快速迭代,不同模型在不同时间点、不同任务上的表现各异。这种策略有助于保持对模型能力的直觉敏锐度。Ng 提出了“锯齿状智能”(Jagged Intelligence)的概念,即 AI 在某些任务上远超人类(如快速阅读大量网页或解决复杂数学题),而在其他任务上则不如人类。不同 AI 模型的“锯齿”形状各不相同,擅长的领域也互有差异。因此,定期尝试不同模型能帮助用户更准确地判断哪个模型最适合当前任务。
“AI models are advancing rapidly and at different moments in time, different models will do better on different tasks.”
由于 AI 模型市场竞争激烈,各大提供商(如 OpenAI、Anthropic、Google Gemini 等)不断推出更优模型,最佳模型的选择会随时间迅速变化。Ng 本人常将同一提示词输入多个模型以进行横向对比,从而持续更新自己对模型能力的认知。这种实践不仅适用于日常使用,也是保持技术敏感度的重要手段。
作为思维伙伴的 AI:头脑风暴与批判性评估
在模块结尾,Ng 强调 AI 不仅是工具,更是思维伙伴(Thought Partner),可用于推理、头脑风暴、写作、编辑和批评。接下来的实践实验室提供了对比有效与无效策略的机会。例如,在头脑风暴场景中,简单的提示词(如“我需要健身计划,30岁,想变强”)与提供详细上下文的提示词(如包含具体目标、限制条件等)会产生显著差异。通过运行对比,用户可以看到更详细的上下文能引导 AI 生成更合理、更具体的方案。
“These are powerful ways of using AI as a thought partner that I found very useful in my own work and that I'm confident you will too.”
Ng 分享了一个个人案例:他使用 AI 生成的健身计划,并发现这对他的个人生活很有帮助。在投资场景中,简单提示“我有1000美元要投资,该做什么?”与更详细的提示“我应该考虑哪些选项?”相比,后者能激发更多样化的思考。此外,在批判性评估方面,Ng 展示了科幻故事评论的案例。使用客观评分标准(Objective Rubric)与主观标准相比,前者虽然给出的分数可能较低(如75/100 vs 100/100),但能提供更有帮助的改进建议,从而真正提升作品质量。
多模态输出:从图像生成到现实世界的转化
进入最后一个模块,Ng 介绍了多模态输出(Multimodal Outputs),即 AI 生成图像、视频、音频、音乐甚至代码的能力。虽然多模态交互速度较慢且成本较高,但其能力极大地扩展了 AI 的应用边界。Ng 分享了一个生动的案例:为女儿 Nova 的7岁生日设计蛋糕。由于女儿喜欢猫,Ng 使用由 Google 创建的 AI 图像生成软件 Nano Banana 探索不同的蛋糕设计。
“So in this case, image generation wound up being a brainstorming tool to explore different cake designs until we found one that turned into a real life 3D cake that we all ate and liked.”
左侧的 AI 生成图像是女儿最喜欢的款式。随后,他们将这张图片交给面包师,要求将其转化为现实生活中的3D蛋糕。右侧的照片展示了女儿切蛋糕的场景。这个案例表明,图像生成不仅是创意工具,还能作为头脑风暴的媒介,帮助人们在找到理想设计后将其转化为实物。此外,Ng 还提到了团队生成的“人变小”视频,展示了 AI 在视频生成领域的趣味应用。这些多模态能力让 AI 能够处理更丰富的输入(如图像推理)和输出,进一步提升了其实用价值。
实践实验室操作指南与后续展望
在实践实验室中,用户可以 dismiss 教程并直接开始操作。界面提供了类似之前的按钮,允许用户输入不同的提示词进行头脑风暴。例如,对比“简单提示”与“详细提示”在健身计划生成上的效果。用户可以选择 AI 提供的建议提示词(Suggested Prompts)来进一步优化结果,AI 会根据反馈细化之前的输出。
除了健身计划,实验室还涵盖了科幻故事评论、求职信改进和商业计划评估等五个示例。Ng 特别强调阅读客观评分标准(Objective Rubric)的重要性,通过对比主观与客观标准下的评论质量,用户可以直观感受到客观标准在提供具体改进建议方面的优势。例如,在科幻故事评论中,使用客观标准得到的分数虽低,但改进建议更具操作性。
“I hope you bring this up and read through it to give yourself a sense of what a well-written objective rubric looks like and compare that with what a more subjective rubric looks like.”
Ng 鼓励用户尝试自己的提示词,探索不同的头脑风暴和批评写作方式。最后,他预告了下一个模块将涉及文本之外的应用,包括多模态提示(图像、音频)以及构建游戏等应用,其中还将包含一个与烟花相关的有趣示例。这标志着课程从纯文本处理向更复杂的多模态交互和应用程序开发的过渡。
AI生成能力的多样化与成本效率差异
现代人工智能已突破单一文本处理的局限,能够生成视频、语音、代码等多种模态的内容。过去需要昂贵特效才能实现的视频,现在可由AI直接生成;语音克隆技术也达到了以假乱真的地步,Andrew Ng甚至让父母无法分辨其声音克隆与自己原声的区别。此外,AI在代码生成方面展现了极高的可及性,例如通过简单的提示词,即可为儿童生成包含动画反馈的打字练习游戏,让非专业人士也能轻松编写基础程序。
在使用AI模型时,输入与输出的组合方式多样,但不同模态的生成时间与成本存在显著差异。虽然输入图像、音乐等数据类型的成本差异不大,但输出端的成本却呈阶梯式上升。具体而言,文本生成效率最高且成本最低,因为大语言模型(LLM)最初便是为处理语言而设计;语音生成成本稍高;图像生成更为昂贵;而视频生成则是所有模态中耗时最长、成本最高的。这种效率差异直接影响了多模态生成的迭代策略,因为等待时间长会阻碍快速试错。
"Generating speech tends to be a bit more expensive and generating images even more expensive and generating video much much more expensive than images or any of the other modalities."
多模态生成的技术演进与迭代挑战
随着技术的进步,各模态的生成质量均有显著提升。以视频为例,2022年Google发布的Imagen模型虽处于当时前沿,但仍存在线条错误、物体中途变形等人工痕迹;而现代AI视频生成不仅画质更优,还能自动与生成的音频同步。语音生成方面,早期的AI语音听起来机械且缺乏表现力,而现代模型则能产生自然、富有情感的语音,极大地提升了用户体验。
然而,高质量的多模态生成也带来了迭代效率的挑战。传统提示工程中常用的“生成多个选项”或“快速迭代设计”等技巧,在视频或音频生成中变得难以实施。因为每个选项可能需要数秒甚至数分钟才能生成,用户必须付出更高的时间成本。尽管如此,只要用户具备足够的耐心,这些基础技巧依然适用于音频、图像和视频的生成过程,只是需要调整对反馈周期的预期。
"If you're generating multimodel data... if each option now takes many seconds or even a few minutes to generate, then this becomes harder to apply because you end up having to wait for a long time."
AI伦理责任与多模态提示技巧
AI技术的强大能力伴随着巨大的社会责任,其应用既有益处也存在风险。在语音生成领域,良性应用包括修复播客中的口误,或帮助缺乏专业配音资源的独立游戏开发者为角色赋予生动声音,这降低了娱乐内容的创作门槛。然而,恶意应用如利用AI语音克隆进行诈骗(例如冒充亲属紧急求助汇款)也日益增多。尽管有益案例远多于有害案例,但对抗滥用仍需持续努力,用户应坚持负责任地使用这些技术。
在提示工程技巧方面,向AI提供图像作为输入是一项极具价值的多模态能力。通过上传图片,AI能够理解视觉上下文,从而生成更精准的文本或设计建议。例如,输入万圣节服装的灵感图片,AI可以基于视觉元素 brainstorm 具体的服装设计方案。这种视觉上下文增强不仅丰富了AI的理解能力,也为后续的多模态交互奠定了坚实基础,是掌握高级提示技巧的关键一步。
"With great power comes great responsibilities... I hope that each of us will only use these techniques for beneficial and responsible applications."
AI 视觉理解的强项:宏观语义与模糊细节的推断
AI 模型在处理图像时,展现出惊人的宏观语义理解能力,即使面对遮挡或模糊,也能通过上下文进行合理推断。Andrew Ng 分享了一个典型案例:他在一块白板前讲解 AI 概念,虽然他的头部遮挡了“convolutional”(卷积)这个词,但 AI 模型依然能准确识别出课程主题是“卷积神经网络”。这表明模型不仅提取了可见的数学符号,还结合了场景语境做出了智能解读。此外,对于视觉特征极其鲜明的物体,如“人类尺寸的仓鼠轮跑步机”,即便画面略有模糊,AI 也能迅速识别并生成准确的营销文案,因为这类物体具有高辨识度,无需依赖精细的像素级细节即可区分。
"He's teaching a convolutional neuronet network... has extracted some facts about what I'm drawing and also has some good guesses about what I might ask students to do next."
在文本处理方面,AI 对印刷体收据的识别表现良好,能够准确计算个人分摊账单。虽然 Andrew Ng 提醒用户不要完全信任其在高风险场景下的准确性,但对于快速预览且愿意花几秒钟复核的场景,其表现相当不错。更令人意外的是,AI 在手写体识别上也具备相当强的能力。无论是清晰的印刷笔记还是潦草的草书,AI 都能进行合理的转录。尽管对于长篇家族历史信件,AI 可能无法做到百分之百准确,但它能提供一个合理的初步草案,大幅加速从头脑风暴笔记或白板照片到结构化总结的转化过程。
AI 视觉理解的局限:细粒度细节的缺失
尽管 AI 在宏观理解上表现出色,但其细粒度细节识别能力仍存在明显短板。Andrew Ng 指出,AI 倾向于以粗糙的方式看待图像,容易忽略细微差别。他举了一个反面案例:在健身房场景中,由于不同器械在模糊视角下外观相似,AI 错误地将“臀推机”(glute kickback machine)识别为其他器械。这揭示了当前 AI 模型在区分相似物体时的局限性,尤其是当物体缺乏独特的视觉特征时,AI 难以像人类一样通过细微的结构差异进行精准判断。
为了弥补这一不足,用户可以在提示词中提供更多上下文。例如,上传多张包含便利贴和白板内容的图片,让 AI 综合所有视觉信息来总结头脑风暴会议的内容。虽然结果可能不完美,需要人工二次检查,但这种多模态输入能显著增强 AI 对复杂场景的理解力。Andrew Ng 强调,“一图胜千言”,在提示词中加入图像往往是获取最佳上下文的最快方式,无论是数字化祖母的食谱还是整理会议记录,图像都能提供文字难以描述的丰富细节。
图像生成的核心技巧:提示词工程与艺术语言
AI 图像生成技术与文本生成截然不同,它不是逐像素构建图像,而是通过潜在空间的映射来生成整体画面。掌握图像生成的关键在于提示词工程(Prompt Engineering)。Andrew Ng 建议,如果不确定如何描述图像,可以先让文本 AI 模型辅助生成提示词。例如,输入“一只猫在夜间秘密经营咖啡店”,AI 会生成包含场景设定、角色细节和氛围风格的复杂提示词。用户可以根据需要调整这些细节,从而生成如“可爱风格”或“电影感”等特定效果的图像。
"People skilled in the visual arts have a certain language for describing images... art buffs and art history buffs excel at image prompting because they understand the language of images."
提升图像生成质量的一个有效途径是学习视觉艺术语言。熟悉“电影感”、“水彩”、“赛博朋克”或“动漫”等术语的用户,能更精准地描述想要的视觉效果。Andrew Ng 建议,可以通过上传图像并询问 AI 如何描述它,来建立对视觉词汇的直觉。这种反馈循环能帮助用户理解哪些词汇能对应特定的图像风格,从而更有效地控制生成结果。此外,利用 AI 进行图像修复也是一项实用技能,例如去除老照片的眩光和粗糙纹理,调整宽高比,使其恢复自然状态,这展示了 AI 在图像编辑领域的强大潜力。
图像修复与编辑的实际应用案例
除了从零生成图像,AI 在图像编辑和修复方面同样表现出色。Andrew Ng 展示了一个使用 Google 的 Nano Banana 模型修复童年老照片的案例。原始照片存在眩光、粗糙纹理且宽高比不当,经过 AI 处理后,照片变得清晰、自然,并恢复了合理的构图。这一案例证明了 AI 不仅能理解图像内容,还能识别并修正技术性缺陷。
在实际操作中,用户可以通过简单的自然语言指令指导 AI 进行编辑,如“去除眩光”、“平滑纹理”和“调整比例”。这种非破坏性编辑能力使得普通用户也能轻松获得专业级的图像效果。结合前文提到的提示词技巧,用户可以进一步指定修复的风格,例如“保留怀旧感但去除划痕”或“增强色彩饱和度”。这种细粒度的控制能力,使得 AI 图像生成和编辑成为创意工作和日常记录处理的强大工具,极大地降低了高质量图像制作的门槛。
扩散模型的工作原理与训练机制
扩散模型(Diffusion Model)的核心在于从纯噪声中逐步还原图像。在训练阶段,AI 模型会观察大量带有文字描述的图片,例如“木桌上的小盆栽”。模型的学习过程是从一个由随机像素值组成的纯噪声网格开始,通过序列式地去除或减去噪声,逐步将模糊的图像变得清晰,最终生成一张锐利的盆栽图片。 这种反复练习去噪的过程是模型掌握图像特征的关键。当用户输入提示词(Prompt)时,模型会重复这一去噪过程,从纯噪声出发,尝试移除噪声以揭示用户心中预期的图像。
"It will then learn to sequentially remove or subtract noise from the image to go from pure noise on the right to a slightly blurry picture of a potted plant to a less blurry one to a less blurry one to finally to a sharp picture of a potted plant."
图像生成的常见错误与现代模型的改进
尽管扩散模型功能强大,但早期版本常出现生成畸形的手部(手指数量异常)、拼写错误的文本以及角色形象不一致等问题。例如,在生成的卡通中,角色的头发可能在两帧之间发生变化,或者生日祝福文字出现严重拼写错误。然而,现代 AI 模型已显著改善了这些缺陷。以 Nano Banana 等现代模型为例,它们不仅能更准确地处理文本生成,还能保持卡通角色在连续帧中的高度一致性,使生成的图像更加逼真和连贯。 这些进步表明,AI 在解决特定视觉错误方面已取得实质性突破。
图像与文本生成的成本及迭代差异
与文本生成相比,图像生成在速度和成本上存在显著劣势。生成一段简短文本可能只需几秒且成本低于一分钱,而生成单张图像可能需要数十秒,成本高达数美分。此外,文本生成是逐字进行的,允许用户随时中断;而图像生成是一次性完成的,通常无法中途停止。这种高昂的成本和不可中断性限制了用户在图像生成中的迭代能力。尽管视频生成更为复杂,但AI 生成内容的成本正呈下降趋势,未来创建艺术或图形将比现在更加经济实惠。
利用 AI 构建游戏与网站的基础
AI 正在 democratize(民主化)软件开发,非专业人士也能通过文本提示词构建基本的软件应用和网站。虽然这需要一定技巧,但只需一个简短的提示,AI 就能生成有趣的小游戏或应用。例如,提示“构建一个让用户放置障碍物并观察模拟效果的游戏”,AI 即可生成可玩的模拟游戏。另一个例子是生成烟花模拟器,用户点击屏幕即可看到彩色烟花效果。构建此类应用的关键在于提示词的结构:明确目标、定义用户输入(如点击屏幕)、以及描述输出结果(如烟花展示)。
"By writing text prompt, you too will be able to build basic software applications and websites."
实用型 AI 应用案例
除了娱乐游戏,AI 还能帮助创建提升生活效率的实用工具。用户可以要求 AI 构建番茄工作法计时器(25分钟工作+5分钟休息)、账单分摊计算器(输入总金额和朋友人数,自动计算人均费用)或基于天气的穿搭推荐应用。 这些应用虽然简单,但能切实解决日常生活中的小问题。尽管构建复杂应用对新手仍有挑战,但AI 辅助编程的易用性已大幅提升,使得非开发者也能快速实现创意,体验构建自定义软件的乐趣。
"Each of these apps could be fun or useful in everyday life."
从简单应用起步:培养AI构建直觉
对于刚接触AI应用开发的新手而言,从简单的应用开始实验是建立直觉的最佳途径。Andrew Ng建议,初学者应选择那些任务定义明确、无需上传额外文件或获取外部信息,且能在短时间内完成闭环的应用场景。这类应用通常逻辑单一,易于通过单一提示词(Prompt)实现。例如,构建一个简单的平台跳跃游戏或用于练习法语单词的测验应用,对于AI来说相对容易实现。相比之下,需要联网的多人游戏或涉及实时AI反馈的复杂语言练习,则因架构复杂而难以一次性构建成功。
"It takes a while to hone intuition about what is easy for AI to build and what is hard for AI to build."
这种直觉并非天生,而是通过不断的试错获得的。如果尝试构建复杂应用失败,这本身也是一种学习过程,因为它帮助开发者明确了AI能力的边界。因此,不要畏惧失败,最坏的结果仅仅是应用无法运行,从而促使你调整思路,转而尝试更简单的想法。在模块的实践环节中,学习者将有机会体验仅通过单一提示词即可构建的应用,从而快速获得成就感并深化对AI能力的理解。
AI驱动的数据分析:从健康记录到商业洞察
除了代码生成,AI在数据分析领域同样展现出巨大潜力,特别是当用户拥有结构化数据(如电子表格)时。AI可以通过编写代码来执行分析任务,用户无需具备编程知识,只需描述需求即可。例如,对于拥有跑步追踪数据的个人,可以上传包含配速和距离的表格,询问AI其进步趋势。AI会生成代码进行分析,并可能输出图表以提供直观洞察。同样,对于小企业主,上传销售数据后询问“本月销售情况如何”,AI不仅能计算月度收入,还能自动创建图表并挖掘潜在的商业洞察。
虽然AI的数据分析能力尚不及资深人类数据科学家那般 sophisticated(复杂/深奥),但在提取基础洞察和提高效率方面表现优异。这种能力特别适用于快速处理个人健康记录或公司销售记录等常见数据类型。通过简单的自然语言交互,用户可以将原本繁琐的数据清洗和分析工作自动化,从而在工作和个人生活中获得有希望的洞察(hopeful insights)。这种低门槛的数据分析方式,使得非技术人员也能轻松利用数据驱动决策。
底层机制:代码执行工具与代理式思考
AI之所以能进行复杂的数据分析,核心在于其内部集成的代码执行工具(Run Code Tool)。与网页搜索或文件读写工具类似,AI模型可以将编写和运行代码视为一种工具调用。当遇到需要计算、绘图或复杂逻辑处理的任务时,AI会先生成代码片段,然后调用该工具在沙箱环境中执行,最后将结果返回给用户。这一过程通常伴随着代理式思考(Agentic Process):模型会先检查数据,计算变化量,智能分析数据模式,甚至决定是否需要进一步细化分析。
"The AI could generate a bunch of code and then use this tool to run the code in order to generate a result for the user."
以奶茶店销售数据为例,当用户询问“哪些饮料销量变化最大?请绘图”时,AI不会简单地绘制所有数据,而是会先识别出四个表现突出的饮料,然后针对性地生成图表。这种“思考-执行-验证”的循环,使得AI能够像人类分析师一样,先理解数据分布,再选择最相关的子集进行可视化。时间轴作为横坐标,销量为纵坐标,每种饮料用不同颜色表示,AI还会添加高亮注释以强调关键趋势,如草莓抹茶在春季的爆发式增长。
深度分析案例:奶茶店年度回顾与趋势洞察
通过具体的奶茶店销售案例,我们可以清晰看到AI如何从简单绘图进阶到深度商业洞察。当用户上传销售数据并提示“哪些饮料销量变化最大”时,AI生成的图表揭示了明显的季节性规律:草莓抹茶在春季走红,芒果绿茶和草莓柠檬水在夏季畅销,而新推出的椰奶茶在秋季表现良好。这些洞察直接指导了商业决策,例如用户可能决定明年继续推广春季的草莓抹茶活动。这种分析不仅限于静态图表,用户还可以进一步迭代,要求AI提供更全面的视角。
为了展示AI的深度思考能力,Andrew Ng演示了一个“年度回顾”(Year in Review)的高级案例。用户提示AI创建一个包含所有关键洞察的单页年度回顾图表,并特别强调要“仔细分析(analyze carefully)”。这一指令触发了AI更长时间的代理式思考过程,使其能够综合多维度数据,找出最具分享价值的亮点。这种从单一问题到综合报告的转变,证明了通过精心设计的提示词,AI可以成为强大的商业智能助手,帮助管理者在几分钟内完成原本需要数小时的数据整理与可视化工作。
AI 代码执行与数据洞察的可靠性
当使用具备代码执行能力的 AI 模型处理数据时,其核心优势在于能够编写并运行代码来精确计算指标,如营收和销量。这种机制生成的分析报告通常包含具体的数值洞察,例如在奶茶销售案例中,AI 识别出“红糖”和“经典”是最受欢迎的饮品,且大多数顾客选择大杯。为了增强可读性,AI 甚至能生成具有创意配色方案的图表。然而,用户必须意识到 AI 存在幻觉风险,因此双重检查数据准确性至关重要。尽管 AI 在简单分析上表现优异,但在处理极其复杂的逻辑时仍可能出错,快速获得初步洞察是其最大价值所在。
“You probably want to double check these figures to make sure they match your expectations since the AI sometimes can hallucinate.”
智能体决策逻辑与工具选择
AI 模型并非总是执行代码,其工具选择取决于问题的性质。对于依赖预训练知识或互联网常见信息的问题,模型通常直接调用已有知识即可回答。若涉及实时信息,启用网络搜索功能能提供更准确的答案。对于需要深度调研的复杂问题(如制定万圣节房屋装饰计划),用户可引导 AI 使用“深度研究员”进行多次关联搜索。而对于需要精确计算或起草文档的任务,AI 最有可能选择编写并运行代码,以确保任务的精准执行。这种分层决策机制使得 AI 能够灵活应对从常识问答到复杂数据分析的各种场景。
“For queries that require calculation or drafting, those are the types of questions where it's most likely to write and run some code in order to carry out that task precisely for you.”
交互式应用构建与分享机制
通过简短的提示词,AI 能够迅速构建出功能完整的 Web 应用。在烟花展示示例中,用户仅需输入基础指令,AI 便生成了包含自动播放和手动触发功能的交互式页面,并呈现了精彩的最终视觉效果。该应用支持链接分享功能,用户复制 URL 后,朋友即可在浏览器中直接运行该应用,无需安装任何软件。此外,AI 还能根据提示词生成色彩选择器,基于给定的 RGB 基础色值,自动推荐互补色或类似色配色方案,帮助设计师快速确定网站视觉风格。这种低代码/无代码的开发方式极大地降低了应用构建门槛。
“So if you share this URL with a friend, they'll be able to run the Fireworks app that you just created.”
最终项目:从调研到应用的全流程
最终项目要求用户基于感兴趣的主题,经历头脑风暴、深度调研和应用构建三个步骤。以职业选择为例,用户需先提供个人背景(如深度学习专业、偏好办公室工作),AI 随后协助生成具体的研究问题,如“哪些职业需要大量协作”或“日常工作内容是什么”。在此过程中,AI 导师提供反馈,用户可根据自身约束(如通勤时间)对问题进行迭代优化。经过多轮反馈,AI 能提炼出更贴合用户需求的定制化研究问题,最终引导用户构建出如法语词汇记忆卡片等实用工具。这一流程强调了上下文注入和迭代反馈在提升 AI 输出质量中的关键作用。
“The final project is to build a simple app from research on a topic that interests you.”
迭代式头脑风暴与问题精炼
在利用AI进行深度研究之前,首要步骤是确立一个清晰且可操作的研究问题。这一过程并非一蹴而就,而是需要通过与AI的多轮对话进行迭代式头脑风暴。在视频中,演示者展示了如何通过反复的提示(Prompting)和反馈,将宽泛的想法逐步收敛为具体的研究问题。AI在此阶段扮演了“思维伙伴”的角色,它不仅能够提出多种可能的选题方向,还能协助用户合并和优化这些问题,从而筛选出最具价值的一个。这种多轮交互的方式极大地提升了问题定义的精准度,避免了因初始问题过于模糊而导致的后续研究偏差。最终,经过几轮筛选,一个明确的研究问题被确定下来,为后续的深入调研奠定了坚实基础。
赋予上下文与深度研究报告生成
一旦研究问题确立,下一步是为其注入丰富的背景上下文,并启动深度搜索功能。演示者强调,仅仅提出问题是远远不够的,还需要向AI提供额外的约束条件和信息来源偏好,例如关注薪资水平、典型薪酬结构以及个人经验论坛等特定领域。通过上传相关背景信息并启用网络搜索能力,AI能够执行更广泛的信息检索。在这一阶段,AI生成的结果不仅包含大量的引用来源,还呈现出结构化的研究报告形式。这种基于上下文的研究方式,使得AI能够超越简单的问答,提供具有深度和广度的信息整合,为用户后续的应用开发提供坚实的数据和内容支撑。
从研究到应用:构建互动测验
研究的最终目的是转化为实际的价值输出,演示者选择了构建一个互动测验应用作为成果展示。在第三步中,利用前两步生成的研究报告作为核心上下文,通过附件形式上传给AI,指导其生成一个包含五道选择题的测验。为了保持结果的可预测性和稳定性,演示者在平台中使用了锁定提示词的功能,但同时也指出,用户可以将报告复制到ChatGPT、Gemini或Claude等第三方AI系统中进行更自由的实验。生成的测验应用不仅验证了用户对研究内容的掌握程度,还具备社交分享功能,用户可以通过分享链接与朋友互动,测试他们的知识水平。这种从“研究”到“应用”的闭环工作流,展示了AI在内容生成和互动体验构建方面的强大潜力。
课程总结与AI能力进阶
随着测验应用的完成,整个基于AI的研究工作流宣告结束。Andrew Ng在视频结尾总结了这一迭代式头脑风暴工作流的核心价值:它不仅是一种技能,更是利用AI进行高效学习和创作的关键路径。他强调,随着技术的进步,AI模型将不断进化,用户应当持续尝试新模型,并赋予其具有挑战性的任务,以磨练对AI能力的直觉。通过提供高质量的上下文和明确的指令,用户不仅能提升个人生产力,还能将这些技能应用于生活、工作及社区服务中,从而改善世界。课程鼓励学员完成最终项目并分享成果,坚信这些AI工具将成为用户手中改变现实的重要力量。