【进阶实战】Day5:多模态提示词——让AI同时看懂文字、图片和视频
你还在只用文字和AI对话吗?
2024年开始,多模态大模型彻底改变了AI的使用方式。不再是简单的”你问我答”,而是变成了真正的”全能助手”——它能看懂你发的图片、分析你画的图表、读懂你拍的视频。
这意味着什么?
你发一张产品照片,AI直接帮你写营销文案。
你发一张数据图表,AI直接帮你分析趋势。
你发一段视频,AI帮你提取关键信息。
这就是多模态提示词的威力。
本文将带你从零掌握多模态提示词的核心技巧,通过多个实战案例,让你真正学会如何同时利用文字、图片、音频、视频与AI高效协作。
🔹 一、为什么多模态这么重要
图表数据分析:AI理解数据可视化
▸ 1.1 传统AI的局限
过去,我们和AI对话只能通过文字:
用户:帮我写一封营销邮件
AI:好的,请问产品是什么?有什么特点?
用户:是一款蓝牙耳机,主打降噪和续航
AI:[写出邮件]
问题在哪?说不清楚。
你想让AI看看产品长什么样?看不到。想让AI分析一下竞品对比图?看不到。想让AI直接从你的手绘草图中理解需求?更是天方夜谭。
▸ 1.2 多模态如何解决这个问题
多模态(Multimodal)AI能够同时处理多种类型的信息:
| 模态 | 说明 | 示例 |
|---|---|---|
| 文本(Text) | 文字描述 | 提问、指令、说明 |
| 图像(Image) | 图片、截图、图表 | 产品图、数据图表、手绘图 |
| 音频(Audio) | 语音、音乐、声音 | 会议录音、音乐片段 |
| 视频(Video) | 视频、动图 | 教程视频、演示片段 |
当你向AI同时传递图片和文字时,效果完全不同:
用户:[发送一张蓝牙耳机产品图]
用户:帮我分析这张产品的卖点,然后写一段营销文案
AI:这张耳机有以下几个特点:
1. 入耳式设计 + 多型号耳塞,佩戴舒适
2. 主动降噪(ANC)功能
3. USB-C充电口,续航约6小时
4. 触控操作面板
基于这些卖点,营销文案如下:
[具体文案内容]
这就是多模态提示词的威力——让AI真正”看到”你的内容。
▸ 1.3 主流多模态模型对比
目前主流的多模态模型主要有三个:
| 模型 | 图像理解 | 视频理解 | 中文优化 | 费用 | 适用场景 |
|---|---|---|---|---|---|
| GPT-4o | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | 较高 | 全能型选手,各方面均衡 |
| Claude 3.5 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | 中等 | 长文本处理、图表分析更强 |
| Gemini 3.1 Pro | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 较低 | 视频理解最强,免费额度大 |
选择建议:
- 图表分析、数据解读 → Claude 3.5
- 视频理解、多模态创作 → Gemini 3.1 Pro
- 综合应用、日常使用 → GPT-4o
🔹 二、多模态提示词的核心概念
多图对比分析:AI评估产品差异
▸ 2.1 什么是多模态提示词
多模态提示词是指同时包含两种或以上模态信息的提示词,让AI能够综合理解多种信息源并给出响应。
简单来说:
- 单模态:`”这张图片里有什么?”`(只有文字)
- 多模态:`[图片] + “这张图片里有什么?”`(图片+文字)
▸ 2.2 多模态提示词的基本结构
一个完整的多模态提示词通常包含:
▸ 2.3 常见的多模态任务类型
| 任务类型 | 输入 | 输出 | 示例 |
|---|---|---|---|
| 图像描述 | 图片 | 文字描述 | “这张图里有什么?” |
| 视觉问答 | 图片+问题 | 文字回答 | “这个图表显示的趋势是什么?” |
| 图文匹配 | 图片+选项 | 选择答案 | “这张图最符合哪种情绪?” |
| 视频理解 | 视频+问题 | 文字回答 | “这个视频的主要观点是什么?” |
| 多图分析 | 多张图片 | 综合分析 | “对比这三款产品的差异” |
🔹 三、实战一:图像理解与描述
视频内容理解:AI提取关键帧信息
▸ 3.1 基础图像问答
场景:你看到一张产品图,想了解它的特点
提示词模板:
请仔细观察这张图片,然后回答我的问题:
1. 图片中的主要产品/主题是什么?
2. 产品有哪些可见的特征(外观、功能、使用场景等)?
3. 图片的整体风格是什么(专业/休闲/高端/简约)?
4. 如果要给这张图写一句产品卖点,你会怎么写?
问题:[你的具体问题]
实际示例:
请仔细观察这张图片,然后回答我的问题:
1. 图片中的主要产品/主题是什么?
2. 产品有哪些可见的特征?
3. 图片的整体风格是什么?
4. 如果要给这张图写一句产品卖点,你会怎么写?
问题:这是一款什么产品?适合什么人群使用?
▸ 3.2 图表数据分析
场景:你有一张数据图表,想让AI帮你分析
提示词模板:
我发送了一张数据图表,请帮我分析:
1. 这张图表的类型是什么(柱状图/折线图/饼图/散点图等)?
2. 图表展示的主要数据趋势或结论是什么?
3. 有哪些值得关注的数据点或异常值?
4. 如果要用简洁的语言总结这个图表,你会怎么说?
5. 基于这个数据,你会给业务决策什么建议?
请用通俗易懂的语言回答,避免过于专业的术语。
实际示例:
我发送了一张数据图表,请帮我分析:
1. 这张图表的类型是什么?
2. 图表展示的主要数据趋势是什么?
3. 有哪些值得关注的数据点?
4. 总结这个图表的核心结论
5. 基于这个数据,给出业务建议
▸ 3.3 截图信息提取
场景:你截了一张网页或App的图,想提取信息
提示词模板:
我发送了一张[截图类型,如:网页截图/App界面/文档图片],请帮我:
1. 识别并提取页面中的关键信息
2. 列出页面的主要功能模块或内容区域
3. 如果有文字信息,请完整转录
4. 这张截图的整体内容可以概括为什么主题?
注意:请尽量完整地提取信息,特别是数字、日期、名称等关键数据。
🔹 四、实战二:多图对比分析
▸ 4.1 产品对比
场景:你想对比多款产品的差异
提示词模板:
我发送了3-5张产品图片,请帮我进行对比分析:
【产品信息】
- 图1:[产品名称/型号]
- 图2:[产品名称/型号]
- 图3:[产品名称/型号]
(根据实际情况添加)
【对比维度】
请从以下几个方面进行对比:
1. 外观设计:造型、颜色、材质
2. 功能特点:主要功能、特殊卖点
3. 目标用户:适合什么人群
4. 性价比:预估价格区间
【输出要求】
请用表格形式展示对比结果,最后给出你的购买建议。
实际示例:
我发送了三款蓝牙耳机的产品图,请帮我对比:
【产品信息】
- 图1:AirPods Pro 2
- 图2:Sony WF-1000XM5
- 图3:华为FreeBuds Pro 3
【对比维度】
1. 外观设计
2. 降噪效果
3. 续航时间
4. 适合人群
【输出要求】
用表格对比,最后给出我的选购建议(主要用来跑步运动)
▸ 4.2 风格对比
场景:你想让AI帮你分析不同设计风格的差异
提示词模板:
我发送了多张设计作品图片,请帮我分析:
1. 每张作品属于什么设计风格(如:极简风/赛博朋克/复古风/新中式等)?
2. 这些作品在色彩运用上有什么特点?
3. 它们在视觉元素的使用上有什么共同点和差异?
4. 如果要学习这些设计风格,你建议从哪个开始?理由是什么?
请结合具体图片内容进行分析,不要泛泛而谈。
🔹 五、实战三:文档与截图深度理解
▸ 5.1 论文摘要提取
场景:你有一篇论文截图或照片,想快速了解核心内容
提示词模板:
我发送了一张学术论文的图片(可以是标题页、摘要页或内页),请帮我:
1. 识别并转录图片中的文字内容
2. 提炼这篇论文的核心研究主题
3. 总结论文的主要贡献或创新点
4. 如果这是摘要页,列出关键词和研究方法
5. 用一句话概括这篇论文的价值
请注意学术术语的准确性。
▸ 5.2 会议纪要整理
场景:你拍了会议白板或PPT,想快速提取要点
提示词模板:
我发送了一张[白板照片/PPT截图/会议现场照片],请帮我:
1. 识别并转录所有文字内容
2. 梳理出主要的讨论议题
3. 提取关键决策或结论
4. 列出待办事项或行动计划(如果有)
5. 如果有数据或数字,请特别标注
请尽可能完整地提取信息,包括手写文字。
▸ 5.3 流程图解读
场景:你有一个流程图,想让AI帮你理解或优化
提示词模板:
我发送了一张流程图,请帮我:
1. 识别并转录流程图中的所有步骤
2. 用文字描述这个完整流程
3. 分析这个流程是否合理,有无优化空间
4. 如果发现流程中的问题,请具体指出并给出改进建议
5. 这个流程适用的场景或行业是什么?
请特别注意流程图中的箭头走向和判断条件。
🔹 六、实战四:视频内容理解
▸ 6.1 视频核心内容提取
场景:你看了一个视频,想快速了解核心内容
提示词模板:
我发送了一段视频链接/截图,请帮我:
1. 描述视频的主要内容主题
2. 列出视频的主要观点或要点(至少5个)
3. 视频中是否有数据或统计信息?请转录出来
4. 视频的结论或核心message是什么?
5. 如果要向没看过这个视频的人简要介绍,你会怎么说?
请注意提取视频中的关键细节,而不仅仅是泛泛的总结。
▸ 6.2 教程视频步骤提取
场景:你有一个教程视频,想提取操作步骤
提示词模板:
我发送了一个教程视频,请帮我:
1. 识别这个教程的主题和目标
2. 按顺序列出视频中的所有操作步骤
3. 每个步骤的关键要点是什么?
4. 视频中提到了哪些工具、材料或前提条件?
5. 视频有没有提到常见的错误或注意事项?
请尽可能详细地还原整个操作流程。
🔹 七、实战五:综合多模态分析
▸ 7.1 产品上市分析
场景:你想让AI综合分析一个产品的多个维度
提示词模板:
我发送了一套产品资料,包括:
- 产品主图(图1)
- 产品细节图(图2-4)
- 竞品对比图(图5)
- 用户评价截图(图6)
请帮我进行综合分析:
【产品分析】
1. 这个产品的核心卖点是什么?
2. 产品在外观和功能上有什么亮点和不足?
3. 与竞品相比,差异化优势在哪里?
【市场定位】
4. 这个产品定位的人群是什么?
5. 适合什么场景使用?
【营销建议】
6. 基于这些资料,你会如何撰写产品详情页的文案?
7. 主图应该突出什么卖点?
请结合所有图片信息进行综合分析。
▸ 7.2 营销活动策划
场景:你想让AI帮你分析营销活动效果
提示词模板:
我发送了本次营销活动的相关资料:
- 活动海报/素材(图1-3)
- 数据截图或图表(图4-5)
- 用户反馈/评价截图(图6-7)
请帮我分析:
【活动物料分析】
1. 这些素材传达的核心信息是什么?
2. 设计风格和视觉表现如何?
3. 文案是否有吸引力?理由是什么?
【活动效果分析】
4. 根据提供的数据,这次活动的效果如何?
5. 用户反馈整体是正向还是负向?
【改进建议】
6. 如果要改进这次活动,你会从哪些方面着手?
7. 下一次类似活动应该注意什么?
请给出具体、可操作的建议。
🔹 八、多模态提示词的高级技巧
▸ 8.1 上下文链式提示
技巧:先发送一张图建立上下文,再发送第二张图要求分析
[发送产品概念图]
AI:请描述这款概念产品的设计理念
[发送量产产品图]
AI:现在对比概念图和量产图,分析设计做了哪些调整?原因可能是什么?
[发送用户评价截图]
AI:结合用户的反馈,这款产品需要改进什么?
适用场景:需要AI理解事物发展变化过程
▸ 8.2 指定分析框架
技巧:告诉AI用特定框架来分析图片
请用以下框架分析这张商业图表:
【框架】
1. 数据维度:展示了什么数据?
2. 趋势维度:数据呈现什么趋势?
3. 对比维度:有没有可对比的参照?
4. 洞察维度:有什么值得关注的问题?
5. 建议维度:基于数据应该怎么做?
[发送图表图片]
适用场景:需要AI给出结构化、有深度的分析
▸ 8.3 角色扮演式提示
技巧:让AI扮演特定角色来分析和回应
你是一位资深[产品经理/设计师/数据分析师],我发送一张图片,请从你的专业角度给出评价和建议。
[发送图片]
请分别从:
1. 专业度评分(1-10分)
2. 优点分析
3. 改进建议
4. 如果要你优化,你会怎么做?
四个维度来评价。
适用场景:需要AI提供专业、权威的意见
▸ 8.4 渐进式信息获取
技巧:不要一次性问太多问题,而是逐步深入
第一轮:
[发送图片]
请简要描述这张图片的主要内容。
第二轮:
基于刚才的描述,我想深入了解[某个点],请详细说明。
第三轮:
结合这张图,我想做[某个任务],请帮我[具体需求]。
适用场景:复杂任务、需要AI深入理解后再响应
🔹 九、常见问题与解决方案
▸ 问题一:AI识别图片不准确
原因:
- 图片质量太低(模糊、过小)
- 图片有水印或文字遮挡
- 图片格式不支持
解决方案:
- 确保图片清晰、分辨率足够(至少1024×1024)
- 如果有重要区域被遮挡,明确告诉AI”请忽略水印,专注于[某区域]”
- 使用主流格式(PNG、JPG、WebP)
▸ 问题二:AI回复太泛泛
原因:提示词不够具体,没有给出分析框架
解决方案:
- 添加明确的分析维度
- 要求AI给出具体例子
- 使用”请结合图片内容,不要泛泛而谈”等约束
▸ 问题三:多图分析时漏掉某些图
原因:AI处理的图片数量有限制
解决方案:
- 每批发送不超过5张图片
- 明确标注”[图1][图2][图3]”并要求AI在回答中引用
- 如果图片很多,可以分批处理后让AI做综合总结
▸ 问题四:视频理解效果差
原因:目前的视频理解能力弱于图像理解
解决方案:
- 截取关键帧(最能代表视频内容的图片)
- 提供视频的文字摘要或字幕
- 明确告诉AI”这是视频的关键帧”,让AI推测整体内容
🔹 十、总结与下期预告
▸ 本章知识点回顾
- 为什么多模态重要:让AI真正”看到”内容,解决说不清楚的问题
- 主流多模态模型:GPT-4o、Claude 3.5、 Gemini 3.1 Pro
- 核心技巧:
– 图像理解与描述
– 图表数据分析
– 多图对比分析
– 文档截图深度理解
– 视频内容提取
- 高级技巧:链式提示、框架分析、角色扮演、渐进式获取
▸ 多模态提示词的能力边界
| 擅长 | 不擅长 |
|---|---|
| 图像理解、图表分析 | 精确数值读取、复杂表格 |
| 视觉问答、内容提取 | 需要空间推理的任务 |
| 多图综合分析 | 视频细节的精确描述 |
▸ 下期预告
Day6我们将学习:API深度调用——如何通过代码调用AI API,实现更高级的自动化功能。
参考资料:
- OpenAI GPT-4o多模态文档
- Anthropic Claude 3.5视觉能力指南
- Google Gemini多模态API文档
关于作者:本文为AI进阶实战30天系列第5篇。
互动话题:你在使用多模态AI时遇到过什么有趣或头疼的问题?欢迎在评论区分享!
关注我,每天学习一个AI硬技能!
扫码关注公众号
扫码添加QQ
【Prompt炼金术】Day8|模板库:拿来即用的实战模板集合
【Prompt炼金术】Day8|模板库:拿来即用的实战模板集合
【Prompt炼金术】Day7|思维链:让AI从”胡言乱语”到”有理有据”
【Prompt炼金术】Day6|高级参数:让AI输出稳定可控的秘诀