学习教程进阶实战

【进阶实战】Day5：多模态提示词——让AI同时看懂文字、图片和视频

👤 龙主编 📅 2026-04-03 👁️ 24 阅读 💬 0 评论

你还在只用文字和AI对话吗？

2024年开始，多模态大模型彻底改变了AI的使用方式。不再是简单的”你问我答”，而是变成了真正的”全能助手”——它能看懂你发的图片、分析你画的图表、读懂你拍的视频。

这意味着什么？

你发一张产品照片，AI直接帮你写营销文案。

你发一张数据图表，AI直接帮你分析趋势。

你发一段视频，AI帮你提取关键信息。

这就是多模态提示词的威力。

本文将带你从零掌握多模态提示词的核心技巧，通过多个实战案例，让你真正学会如何同时利用文字、图片、音频、视频与AI高效协作。

🔹 一、为什么多模态这么重要

图表数据分析：AI理解数据可视化

▸ 1.1 传统AI的局限

过去，我们和AI对话只能通过文字：

用户：帮我写一封营销邮件 AI：好的，请问产品是什么？有什么特点？用户：是一款蓝牙耳机，主打降噪和续航

AI：[写出邮件]

问题在哪？说不清楚。

你想让AI看看产品长什么样？看不到。想让AI分析一下竞品对比图？看不到。想让AI直接从你的手绘草图中理解需求？更是天方夜谭。

▸ 1.2 多模态如何解决这个问题

多模态（Multimodal）AI能够同时处理多种类型的信息：

模态	说明	示例
文本（Text）	文字描述	提问、指令、说明
图像（Image）	图片、截图、图表	产品图、数据图表、手绘图
音频（Audio）	语音、音乐、声音	会议录音、音乐片段
视频（Video）	视频、动图	教程视频、演示片段

当你向AI同时传递图片和文字时，效果完全不同：

用户：[发送一张蓝牙耳机产品图] 用户：帮我分析这张产品的卖点，然后写一段营销文案 AI：这张耳机有以下几个特点： 1. 入耳式设计 + 多型号耳塞，佩戴舒适 2. 主动降噪（ANC）功能 3. USB-C充电口，续航约6小时 4. 触控操作面板基于这些卖点，营销文案如下：

[具体文案内容]

这就是多模态提示词的威力——让AI真正”看到”你的内容。

▸ 1.3 主流多模态模型对比

目前主流的多模态模型主要有三个：

模型	图像理解	视频理解	中文优化	费用	适用场景
GPT-4o	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	较高	全能型选手，各方面均衡
Claude 3.5	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	中等	长文本处理、图表分析更强
Gemini 3.1 Pro	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	较低	视频理解最强，免费额度大

选择建议：

图表分析、数据解读 → Claude 3.5
视频理解、多模态创作 → Gemini 3.1 Pro
综合应用、日常使用 → GPT-4o

🔹 二、多模态提示词的核心概念

多图对比分析：AI评估产品差异

▸ 2.1 什么是多模态提示词

多模态提示词是指同时包含两种或以上模态信息的提示词，让AI能够综合理解多种信息源并给出响应。

简单来说：

单模态：`”这张图片里有什么？”`（只有文字）
多模态：`[图片] + “这张图片里有什么？”`（图片+文字）

▸ 2.2 多模态提示词的基本结构

一个完整的多模态提示词通常包含：

📋 上下文说明（可选）

让AI理解你发送内容的背景

↓

🖼️ 图像/视频/音频（核心）

发送给AI的内容

↓

📝 具体指令

你想让AI做什么

▸ 2.3 常见的多模态任务类型

任务类型	输入	输出	示例
图像描述	图片	文字描述	“这张图里有什么？”
视觉问答	图片+问题	文字回答	“这个图表显示的趋势是什么？”
图文匹配	图片+选项	选择答案	“这张图最符合哪种情绪？”
视频理解	视频+问题	文字回答	“这个视频的主要观点是什么？”
多图分析	多张图片	综合分析	“对比这三款产品的差异”

🔹 三、实战一：图像理解与描述

视频内容理解：AI提取关键帧信息

▸ 3.1 基础图像问答

场景：你看到一张产品图，想了解它的特点

提示词模板：

请仔细观察这张图片，然后回答我的问题： 1. 图片中的主要产品/主题是什么？ 2. 产品有哪些可见的特征（外观、功能、使用场景等）？ 3. 图片的整体风格是什么（专业/休闲/高端/简约）？ 4. 如果要给这张图写一句产品卖点，你会怎么写？

问题：[你的具体问题]

实际示例：

请仔细观察这张图片，然后回答我的问题： 1. 图片中的主要产品/主题是什么？ 2. 产品有哪些可见的特征？ 3. 图片的整体风格是什么？ 4. 如果要给这张图写一句产品卖点，你会怎么写？

问题：这是一款什么产品？适合什么人群使用？

▸ 3.2 图表数据分析

场景：你有一张数据图表，想让AI帮你分析

提示词模板：

我发送了一张数据图表，请帮我分析： 1. 这张图表的类型是什么（柱状图/折线图/饼图/散点图等）？ 2. 图表展示的主要数据趋势或结论是什么？ 3. 有哪些值得关注的数据点或异常值？ 4. 如果要用简洁的语言总结这个图表，你会怎么说？ 5. 基于这个数据，你会给业务决策什么建议？

请用通俗易懂的语言回答，避免过于专业的术语。

实际示例：

我发送了一张数据图表，请帮我分析： 1. 这张图表的类型是什么？ 2. 图表展示的主要数据趋势是什么？ 3. 有哪些值得关注的数据点？ 4. 总结这个图表的核心结论

5. 基于这个数据，给出业务建议

▸ 3.3 截图信息提取

场景：你截了一张网页或App的图，想提取信息

提示词模板：

我发送了一张[截图类型，如：网页截图/App界面/文档图片]，请帮我： 1. 识别并提取页面中的关键信息 2. 列出页面的主要功能模块或内容区域 3. 如果有文字信息，请完整转录 4. 这张截图的整体内容可以概括为什么主题？

注意：请尽量完整地提取信息，特别是数字、日期、名称等关键数据。

🔹 四、实战二：多图对比分析

▸ 4.1 产品对比

场景：你想对比多款产品的差异

提示词模板：

我发送了3-5张产品图片，请帮我进行对比分析：【产品信息】 - 图1：[产品名称/型号] - 图2：[产品名称/型号] - 图3：[产品名称/型号] （根据实际情况添加）【对比维度】请从以下几个方面进行对比： 1. 外观设计：造型、颜色、材质 2. 功能特点：主要功能、特殊卖点 3. 目标用户：适合什么人群 4. 性价比：预估价格区间【输出要求】

请用表格形式展示对比结果，最后给出你的购买建议。

实际示例：

我发送了三款蓝牙耳机的产品图，请帮我对比：【产品信息】 - 图1：AirPods Pro 2 - 图2：Sony WF-1000XM5 - 图3：华为FreeBuds Pro 3 【对比维度】 1. 外观设计 2. 降噪效果 3. 续航时间 4. 适合人群【输出要求】

用表格对比，最后给出我的选购建议（主要用来跑步运动）

▸ 4.2 风格对比

场景：你想让AI帮你分析不同设计风格的差异

提示词模板：

我发送了多张设计作品图片，请帮我分析： 1. 每张作品属于什么设计风格（如：极简风/赛博朋克/复古风/新中式等）？ 2. 这些作品在色彩运用上有什么特点？ 3. 它们在视觉元素的使用上有什么共同点和差异？ 4. 如果要学习这些设计风格，你建议从哪个开始？理由是什么？

请结合具体图片内容进行分析，不要泛泛而谈。

🔹 五、实战三：文档与截图深度理解

▸ 5.1 论文摘要提取

场景：你有一篇论文截图或照片，想快速了解核心内容

提示词模板：

我发送了一张学术论文的图片（可以是标题页、摘要页或内页），请帮我： 1. 识别并转录图片中的文字内容 2. 提炼这篇论文的核心研究主题 3. 总结论文的主要贡献或创新点 4. 如果这是摘要页，列出关键词和研究方法 5. 用一句话概括这篇论文的价值

请注意学术术语的准确性。

▸ 5.2 会议纪要整理

场景：你拍了会议白板或PPT，想快速提取要点

提示词模板：

我发送了一张[白板照片/PPT截图/会议现场照片]，请帮我： 1. 识别并转录所有文字内容 2. 梳理出主要的讨论议题 3. 提取关键决策或结论 4. 列出待办事项或行动计划（如果有） 5. 如果有数据或数字，请特别标注

请尽可能完整地提取信息，包括手写文字。

▸ 5.3 流程图解读

场景：你有一个流程图，想让AI帮你理解或优化

提示词模板：

我发送了一张流程图，请帮我： 1. 识别并转录流程图中的所有步骤 2. 用文字描述这个完整流程 3. 分析这个流程是否合理，有无优化空间 4. 如果发现流程中的问题，请具体指出并给出改进建议 5. 这个流程适用的场景或行业是什么？

请特别注意流程图中的箭头走向和判断条件。

🔹 六、实战四：视频内容理解

▸ 6.1 视频核心内容提取

场景：你看了一个视频，想快速了解核心内容

提示词模板：

我发送了一段视频链接/截图，请帮我： 1. 描述视频的主要内容主题 2. 列出视频的主要观点或要点（至少5个） 3. 视频中是否有数据或统计信息？请转录出来 4. 视频的结论或核心message是什么？ 5. 如果要向没看过这个视频的人简要介绍，你会怎么说？

请注意提取视频中的关键细节，而不仅仅是泛泛的总结。

▸ 6.2 教程视频步骤提取

场景：你有一个教程视频，想提取操作步骤

提示词模板：

我发送了一个教程视频，请帮我： 1. 识别这个教程的主题和目标 2. 按顺序列出视频中的所有操作步骤 3. 每个步骤的关键要点是什么？ 4. 视频中提到了哪些工具、材料或前提条件？ 5. 视频有没有提到常见的错误或注意事项？

请尽可能详细地还原整个操作流程。

🔹 七、实战五：综合多模态分析

▸ 7.1 产品上市分析

场景：你想让AI综合分析一个产品的多个维度

提示词模板：

我发送了一套产品资料，包括： - 产品主图（图1） - 产品细节图（图2-4） - 竞品对比图（图5） - 用户评价截图（图6）请帮我进行综合分析：【产品分析】 1. 这个产品的核心卖点是什么？ 2. 产品在外观和功能上有什么亮点和不足？ 3. 与竞品相比，差异化优势在哪里？【市场定位】 4. 这个产品定位的人群是什么？ 5. 适合什么场景使用？【营销建议】 6. 基于这些资料，你会如何撰写产品详情页的文案？ 7. 主图应该突出什么卖点？

请结合所有图片信息进行综合分析。

▸ 7.2 营销活动策划

场景：你想让AI帮你分析营销活动效果

提示词模板：

我发送了本次营销活动的相关资料： - 活动海报/素材（图1-3） - 数据截图或图表（图4-5） - 用户反馈/评价截图（图6-7）请帮我分析：【活动物料分析】 1. 这些素材传达的核心信息是什么？ 2. 设计风格和视觉表现如何？ 3. 文案是否有吸引力？理由是什么？【活动效果分析】 4. 根据提供的数据，这次活动的效果如何？ 5. 用户反馈整体是正向还是负向？【改进建议】 6. 如果要改进这次活动，你会从哪些方面着手？ 7. 下一次类似活动应该注意什么？

请给出具体、可操作的建议。

🔹 八、多模态提示词的高级技巧

▸ 8.1 上下文链式提示

技巧：先发送一张图建立上下文，再发送第二张图要求分析

[发送产品概念图] AI：请描述这款概念产品的设计理念 [发送量产产品图] AI：现在对比概念图和量产图，分析设计做了哪些调整？原因可能是什么？ [发送用户评价截图]

AI：结合用户的反馈，这款产品需要改进什么？

适用场景：需要AI理解事物发展变化过程

▸ 8.2 指定分析框架

技巧：告诉AI用特定框架来分析图片

请用以下框架分析这张商业图表：【框架】 1. 数据维度：展示了什么数据？ 2. 趋势维度：数据呈现什么趋势？ 3. 对比维度：有没有可对比的参照？ 4. 洞察维度：有什么值得关注的问题？ 5. 建议维度：基于数据应该怎么做？

[发送图表图片]

适用场景：需要AI给出结构化、有深度的分析

▸ 8.3 角色扮演式提示

技巧：让AI扮演特定角色来分析和回应

你是一位资深[产品经理/设计师/数据分析师]，我发送一张图片，请从你的专业角度给出评价和建议。 [发送图片] 请分别从： 1. 专业度评分（1-10分） 2. 优点分析 3. 改进建议 4. 如果要你优化，你会怎么做？

四个维度来评价。

适用场景：需要AI提供专业、权威的意见

▸ 8.4 渐进式信息获取

技巧：不要一次性问太多问题，而是逐步深入

第一轮：

[发送图片]
请简要描述这张图片的主要内容。

第二轮：

基于刚才的描述，我想深入了解[某个点]，请详细说明。

第三轮：

结合这张图，我想做[某个任务]，请帮我[具体需求]。

适用场景：复杂任务、需要AI深入理解后再响应

🔹 九、常见问题与解决方案

▸ 问题一：AI识别图片不准确

原因：

图片质量太低（模糊、过小）
图片有水印或文字遮挡
图片格式不支持

解决方案：

确保图片清晰、分辨率足够（至少1024×1024）
如果有重要区域被遮挡，明确告诉AI”请忽略水印，专注于[某区域]”
使用主流格式（PNG、JPG、WebP）

▸ 问题二：AI回复太泛泛

原因：提示词不够具体，没有给出分析框架

解决方案：

添加明确的分析维度
要求AI给出具体例子
使用”请结合图片内容，不要泛泛而谈”等约束

▸ 问题三：多图分析时漏掉某些图

原因：AI处理的图片数量有限制

解决方案：

每批发送不超过5张图片
明确标注”[图1][图2][图3]”并要求AI在回答中引用
如果图片很多，可以分批处理后让AI做综合总结

▸ 问题四：视频理解效果差

原因：目前的视频理解能力弱于图像理解

解决方案：

截取关键帧（最能代表视频内容的图片）
提供视频的文字摘要或字幕
明确告诉AI”这是视频的关键帧”，让AI推测整体内容

🔹 十、总结与下期预告

▸ 本章知识点回顾

为什么多模态重要：让AI真正”看到”内容，解决说不清楚的问题
主流多模态模型：GPT-4o、Claude 3.5、 Gemini 3.1 Pro
核心技巧：

– 图像理解与描述

– 图表数据分析

– 多图对比分析

– 文档截图深度理解

– 视频内容提取

高级技巧：链式提示、框架分析、角色扮演、渐进式获取

▸ 多模态提示词的能力边界

擅长	不擅长
图像理解、图表分析	精确数值读取、复杂表格
视觉问答、内容提取	需要空间推理的任务
多图综合分析	视频细节的精确描述

▸ 下期预告

Day6我们将学习：API深度调用——如何通过代码调用AI API，实现更高级的自动化功能。

参考资料：

OpenAI GPT-4o多模态文档
Anthropic Claude 3.5视觉能力指南
Google Gemini多模态API文档

关于作者：本文为AI进阶实战30天系列第5篇。

互动话题：你在使用多模态AI时遇到过什么有趣或头疼的问题？欢迎在评论区分享！

关注我，每天学习一个AI硬技能！

标签： AI AI视频 Prompt工程大模型

【进阶实战】Day5：多模态提示词——让AI同时看懂文字、图片和视频

🔹 一、为什么多模态这么重要

▸ 1.1 传统AI的局限

▸ 1.2 多模态如何解决这个问题

▸ 1.3 主流多模态模型对比

🔹 二、多模态提示词的核心概念

▸ 2.1 什么是多模态提示词

▸ 2.2 多模态提示词的基本结构

▸ 2.3 常见的多模态任务类型

🔹 三、实战一：图像理解与描述

▸ 3.1 基础图像问答

▸ 3.2 图表数据分析

▸ 3.3 截图信息提取

🔹 四、实战二：多图对比分析

▸ 4.1 产品对比

▸ 4.2 风格对比

🔹 五、实战三：文档与截图深度理解

▸ 5.1 论文摘要提取

▸ 5.2 会议纪要整理

▸ 5.3 流程图解读

🔹 六、实战四：视频内容理解

▸ 6.1 视频核心内容提取

▸ 6.2 教程视频步骤提取

🔹 七、实战五：综合多模态分析

▸ 7.1 产品上市分析

▸ 7.2 营销活动策划

🔹 八、多模态提示词的高级技巧

▸ 8.1 上下文链式提示

▸ 8.2 指定分析框架

▸ 8.3 角色扮演式提示

▸ 8.4 渐进式信息获取

🔹 九、常见问题与解决方案

▸ 问题一：AI识别图片不准确

▸ 问题二：AI回复太泛泛

▸ 问题三：多图分析时漏掉某些图

▸ 问题四：视频理解效果差

🔹 十、总结与下期预告

▸ 本章知识点回顾

▸ 多模态提示词的能力边界

▸ 下期预告

相关文章

发表评论

AI智能室