📉 Turn your multimodal data into something you can actually query

多模态数据的现状与挑战

当前，图像、音频和视频在数据团队处理的数据中占据了相当大的份额。然而，大多数现有的数据处理管道仍然假设所有数据都是结构化的。这种假设导致了多模态数据难以被有效利用，因为传统的ETL流程无法直接处理非结构化媒体文件。为了解决这一问题，我们需要构建专门针对多模态数据的处理管道，将这些媒体文件转化为大语言模型（LLM）可以理解和查询的文本形式。

"Images, audio, and video now make up a large share of the data teams work with, but most pipelines still assume everything is structured."

这种转变不仅仅是技术上的升级，更是数据处理范式的根本改变。通过构建能够处理多模态数据的管道，数据团队可以将这些非结构化数据转化为LLM-ready text（大语言模型就绪文本）。这意味着数据不仅可以被存储，还可以被搜索、分析，并直接用于各种应用程序中，从而释放多模态数据的巨大价值。

新课程：构建多模态数据管道

为了帮助数据工程师和科学家掌握这一技能，我们推出了一门最新课程：《构建多模态数据管道》（Building Multimodal Data Pipelines）。这门课程展示了如何构建处理多模态数据的管道，并将它们转化为可用于搜索、分析和应用程序中的LLM就绪文本。课程由Snowflake合作开发，并由Gilberto Hernandez亲自授课，确保了内容的专业性和实用性。

"Our latest course, Building Multimodal Data Pipelines, shows how to build pipelines that process multimodal data and turn it into LLM-ready text you can search, analyze, and use in applications."

这门课程旨在教授学员如何处理每种模态的数据，并将它们整合到一个统一的系统中。通过这门课程，学员将学会如何克服多模态数据处理中的技术障碍，构建高效、可扩展的数据管道，从而在现实世界的应用场景中发挥多模态数据的潜力。

核心技能一：图像与音频的结构化转换

在课程中，学员将学习如何构建管道，将图像和音频转换为结构化的文本。对于图像，我们将使用OCR（光学字符识别）技术，将图像中的文字提取出来，转化为可搜索的文本数据。对于音频，我们将使用ASR（自动语音识别）技术，将语音内容转录为文本。

"Pipelines that convert images and audio into structured text using OCR and ASR"

这些技术是多模态数据处理的基础。通过OCR，我们可以从扫描文档、截图或照片中提取关键信息；通过ASR，我们可以将会议录音、播客或视频中的语音内容转化为文字。这些结构化文本随后可以被嵌入到向量空间中，以便进行后续的检索和分析。这一过程使得原本非结构化的媒体数据变得可查询和可分析。

核心技能二：视频的时间戳描述生成

除了图像和音频，视频处理也是多模态数据管道的重要组成部分。课程将介绍如何使用视觉语言模型（Vision Language Model, VLM）工作流，从视频中生成带时间戳的描述。这一过程涉及对视频帧进行分析，识别其中的视觉内容，并结合音频信息，生成详细的文本描述。

"A Vision Language Model workflow that generates timestamped descriptions from video"

这种带时间戳的描述使得用户可以精确地定位视频中的特定时刻，并获取该时刻的上下文信息。例如，在会议记录中，用户可以搜索特定的关键词，系统不仅会返回相关的文本片段，还会指出该片段在视频中的具体时间戳。这种细粒度的检索能力极大地提升了视频数据的可用性，使得视频不再仅仅是观看的内容，而是可查询的知识库。

核心技能三：多模态RAG系统构建

课程的高级部分将聚焦于构建一个多模态RAG（检索增强生成）系统。该系统能够跨幻灯片、音频和视频进行检索，以回答用户的问题，并提供引用（citations）。这意味着系统不仅可以从文本中检索信息，还可以从图像、音频和视频中提取相关信息，并将它们整合在一起，生成全面的答案。

"A multimodal RAG system that retrieves across slides, audio, and video to answer questions with citations"

这种多模态RAG系统在处理复杂查询时表现出色。例如，当用户询问某个会议中的决策过程时，系统可以检索相关的会议录音（音频）、演示文稿（图像/文本）以及会议录像（视频），并将这些信息整合成一个连贯的答案，同时提供每个信息来源的具体引用。这种能力使得多模态数据真正成为应用程序的核心资产。

共享向量空间与跨模态搜索

在整个课程中，学员将学习如何将所有模态的数据嵌入到一个共享的向量空间中。这一技术是实现跨模态搜索和检索的关键。通过将图像、音频和视频的特征映射到同一个向量空间中，系统可以计算不同模态数据之间的相似度，从而实现跨模态的检索。

"Along the way, you’ll see how to embed all modalities into a shared vector space, enabling cross-modal search and retrieval over real-world datasets like meeting recordings."

例如，用户可以使用文本查询来搜索相关的视频片段，或者使用图像查询来查找相关的音频内容。这种跨模态搜索能力在处理真实世界的数据集（如会议录音）时尤为有用，因为它允许用户以自然的方式访问和检索复杂的多模态数据，而无需预先知道数据的具体格式或位置。

课程总结与报名

总之，这门课程提供了一套完整的解决方案，帮助数据团队应对多模态数据处理的挑战。通过掌握OCR、ASR、视觉语言模型和多模态RAG等技术，学员将能够构建强大的数据管道，将多模态数据转化为可查询、可分析的结构化文本。

"Built in collaboration with Snowflake and taught by Gilberto Hernandez, this course will teach you how to handle each modality and bring them together into a single system."

如果你希望提升在多模态数据处理方面的技能，并构建能够应对未来数据挑战的管道，欢迎立即报名。通过这门课程，你将获得构建高效、智能多模态数据系统的实用技能，从而在数据驱动的应用中发挥更大的影响力。

Enroll now: https://bit.ly/3QcAj29