你还在只用文字和AI对话吗?

2024年开始,多模态大模型彻底改变了AI的使用方式。不再是简单的”你问我答”,而是变成了真正的”全能助手”——它能看懂你发的图片、分析你画的图表、读懂你拍的视频。

这意味着什么?

你发一张产品照片,AI直接帮你写营销文案。

你发一张数据图表,AI直接帮你分析趋势。

你发一段视频,AI帮你提取关键信息。

这就是多模态提示词的威力。

本文将带你从零掌握多模态提示词的核心技巧,通过多个实战案例,让你真正学会如何同时利用文字、图片、音频、视频与AI高效协作。

🔹 一、为什么多模态这么重要

图表数据分析:AI理解数据可视化

图表数据分析:AI理解数据可视化

▸ 1.1 传统AI的局限

过去,我们和AI对话只能通过文字:

用户:帮我写一封营销邮件

AI:好的,请问产品是什么?有什么特点?

用户:是一款蓝牙耳机,主打降噪和续航

AI:[写出邮件]

问题在哪?说不清楚

你想让AI看看产品长什么样?看不到。想让AI分析一下竞品对比图?看不到。想让AI直接从你的手绘草图中理解需求?更是天方夜谭。

▸ 1.2 多模态如何解决这个问题

多模态(Multimodal)AI能够同时处理多种类型的信息:

模态 说明 示例
文本(Text) 文字描述 提问、指令、说明
图像(Image) 图片、截图、图表 产品图、数据图表、手绘图
音频(Audio) 语音、音乐、声音 会议录音、音乐片段
视频(Video) 视频、动图 教程视频、演示片段

当你向AI同时传递图片和文字时,效果完全不同:

用户:[发送一张蓝牙耳机产品图]

用户:帮我分析这张产品的卖点,然后写一段营销文案

AI:这张耳机有以下几个特点:

1. 入耳式设计 + 多型号耳塞,佩戴舒适

2. 主动降噪(ANC)功能

3. USB-C充电口,续航约6小时

4. 触控操作面板

基于这些卖点,营销文案如下:

[具体文案内容]

这就是多模态提示词的威力——让AI真正”看到”你的内容。

▸ 1.3 主流多模态模型对比

目前主流的多模态模型主要有三个:

模型 图像理解 视频理解 中文优化 费用 适用场景
GPT-4o ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐ 较高 全能型选手,各方面均衡
Claude 3.5 ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ 中等 长文本处理、图表分析更强
Gemini 3.1 Pro ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 较低 视频理解最强,免费额度大

选择建议

  • 图表分析、数据解读 → Claude 3.5
  • 视频理解、多模态创作 → Gemini 3.1 Pro
  • 综合应用、日常使用 → GPT-4o

🔹 二、多模态提示词的核心概念

多图对比分析:AI评估产品差异

多图对比分析:AI评估产品差异

▸ 2.1 什么是多模态提示词

多模态提示词是指同时包含两种或以上模态信息的提示词,让AI能够综合理解多种信息源并给出响应。

简单来说:

  • 单模态:`”这张图片里有什么?”`(只有文字)
  • 多模态:`[图片] + “这张图片里有什么?”`(图片+文字)

▸ 2.2 多模态提示词的基本结构

一个完整的多模态提示词通常包含:

📋 上下文说明(可选)
让AI理解你发送内容的背景

🖼️ 图像/视频/音频(核心)
发送给AI的内容

📝 具体指令
你想让AI做什么

▸ 2.3 常见的多模态任务类型

任务类型 输入 输出 示例
图像描述 图片 文字描述 “这张图里有什么?”
视觉问答 图片+问题 文字回答 “这个图表显示的趋势是什么?”
图文匹配 图片+选项 选择答案 “这张图最符合哪种情绪?”
视频理解 视频+问题 文字回答 “这个视频的主要观点是什么?”
多图分析 多张图片 综合分析 “对比这三款产品的差异”

🔹 三、实战一:图像理解与描述

视频内容理解:AI提取关键帧信息

视频内容理解:AI提取关键帧信息

▸ 3.1 基础图像问答

场景:你看到一张产品图,想了解它的特点

提示词模板

请仔细观察这张图片,然后回答我的问题:

1. 图片中的主要产品/主题是什么?

2. 产品有哪些可见的特征(外观、功能、使用场景等)?

3. 图片的整体风格是什么(专业/休闲/高端/简约)?

4. 如果要给这张图写一句产品卖点,你会怎么写?

问题:[你的具体问题]

实际示例

请仔细观察这张图片,然后回答我的问题:

1. 图片中的主要产品/主题是什么?

2. 产品有哪些可见的特征?

3. 图片的整体风格是什么?

4. 如果要给这张图写一句产品卖点,你会怎么写?

问题:这是一款什么产品?适合什么人群使用?

▸ 3.2 图表数据分析

场景:你有一张数据图表,想让AI帮你分析

提示词模板

我发送了一张数据图表,请帮我分析:

1. 这张图表的类型是什么(柱状图/折线图/饼图/散点图等)?

2. 图表展示的主要数据趋势或结论是什么?

3. 有哪些值得关注的数据点或异常值?

4. 如果要用简洁的语言总结这个图表,你会怎么说?

5. 基于这个数据,你会给业务决策什么建议?

请用通俗易懂的语言回答,避免过于专业的术语。

实际示例

我发送了一张数据图表,请帮我分析:

1. 这张图表的类型是什么?

2. 图表展示的主要数据趋势是什么?

3. 有哪些值得关注的数据点?

4. 总结这个图表的核心结论

5. 基于这个数据,给出业务建议

▸ 3.3 截图信息提取

场景:你截了一张网页或App的图,想提取信息

提示词模板

我发送了一张[截图类型,如:网页截图/App界面/文档图片],请帮我:

1. 识别并提取页面中的关键信息

2. 列出页面的主要功能模块或内容区域

3. 如果有文字信息,请完整转录

4. 这张截图的整体内容可以概括为什么主题?

注意:请尽量完整地提取信息,特别是数字、日期、名称等关键数据。

🔹 四、实战二:多图对比分析

▸ 4.1 产品对比

场景:你想对比多款产品的差异

提示词模板

我发送了3-5张产品图片,请帮我进行对比分析:

【产品信息】

- 图1:[产品名称/型号]

- 图2:[产品名称/型号]

- 图3:[产品名称/型号]

(根据实际情况添加)

【对比维度】

请从以下几个方面进行对比:

1. 外观设计:造型、颜色、材质

2. 功能特点:主要功能、特殊卖点

3. 目标用户:适合什么人群

4. 性价比:预估价格区间

【输出要求】

请用表格形式展示对比结果,最后给出你的购买建议。

实际示例

我发送了三款蓝牙耳机的产品图,请帮我对比:

【产品信息】

- 图1:AirPods Pro 2

- 图2:Sony WF-1000XM5

- 图3:华为FreeBuds Pro 3

【对比维度】

1. 外观设计

2. 降噪效果

3. 续航时间

4. 适合人群

【输出要求】

用表格对比,最后给出我的选购建议(主要用来跑步运动)

▸ 4.2 风格对比

场景:你想让AI帮你分析不同设计风格的差异

提示词模板

我发送了多张设计作品图片,请帮我分析:

1. 每张作品属于什么设计风格(如:极简风/赛博朋克/复古风/新中式等)?

2. 这些作品在色彩运用上有什么特点?

3. 它们在视觉元素的使用上有什么共同点和差异?

4. 如果要学习这些设计风格,你建议从哪个开始?理由是什么?

请结合具体图片内容进行分析,不要泛泛而谈。

🔹 五、实战三:文档与截图深度理解

▸ 5.1 论文摘要提取

场景:你有一篇论文截图或照片,想快速了解核心内容

提示词模板

我发送了一张学术论文的图片(可以是标题页、摘要页或内页),请帮我:

1. 识别并转录图片中的文字内容

2. 提炼这篇论文的核心研究主题

3. 总结论文的主要贡献或创新点

4. 如果这是摘要页,列出关键词和研究方法

5. 用一句话概括这篇论文的价值

请注意学术术语的准确性。

▸ 5.2 会议纪要整理

场景:你拍了会议白板或PPT,想快速提取要点

提示词模板

我发送了一张[白板照片/PPT截图/会议现场照片],请帮我:

1. 识别并转录所有文字内容

2. 梳理出主要的讨论议题

3. 提取关键决策或结论

4. 列出待办事项或行动计划(如果有)

5. 如果有数据或数字,请特别标注

请尽可能完整地提取信息,包括手写文字。

▸ 5.3 流程图解读

场景:你有一个流程图,想让AI帮你理解或优化

提示词模板

我发送了一张流程图,请帮我:

1. 识别并转录流程图中的所有步骤

2. 用文字描述这个完整流程

3. 分析这个流程是否合理,有无优化空间

4. 如果发现流程中的问题,请具体指出并给出改进建议

5. 这个流程适用的场景或行业是什么?

请特别注意流程图中的箭头走向和判断条件。

🔹 六、实战四:视频内容理解

▸ 6.1 视频核心内容提取

场景:你看了一个视频,想快速了解核心内容

提示词模板

我发送了一段视频链接/截图,请帮我:

1. 描述视频的主要内容主题

2. 列出视频的主要观点或要点(至少5个)

3. 视频中是否有数据或统计信息?请转录出来

4. 视频的结论或核心message是什么?

5. 如果要向没看过这个视频的人简要介绍,你会怎么说?

请注意提取视频中的关键细节,而不仅仅是泛泛的总结。

▸ 6.2 教程视频步骤提取

场景:你有一个教程视频,想提取操作步骤

提示词模板

我发送了一个教程视频,请帮我:

1. 识别这个教程的主题和目标

2. 按顺序列出视频中的所有操作步骤

3. 每个步骤的关键要点是什么?

4. 视频中提到了哪些工具、材料或前提条件?

5. 视频有没有提到常见的错误或注意事项?

请尽可能详细地还原整个操作流程。

🔹 七、实战五:综合多模态分析

▸ 7.1 产品上市分析

场景:你想让AI综合分析一个产品的多个维度

提示词模板

我发送了一套产品资料,包括:

- 产品主图(图1)

- 产品细节图(图2-4)

- 竞品对比图(图5)

- 用户评价截图(图6)

请帮我进行综合分析:

【产品分析】

1. 这个产品的核心卖点是什么?

2. 产品在外观和功能上有什么亮点和不足?

3. 与竞品相比,差异化优势在哪里?

【市场定位】

4. 这个产品定位的人群是什么?

5. 适合什么场景使用?

【营销建议】

6. 基于这些资料,你会如何撰写产品详情页的文案?

7. 主图应该突出什么卖点?

请结合所有图片信息进行综合分析。

▸ 7.2 营销活动策划

场景:你想让AI帮你分析营销活动效果

提示词模板

我发送了本次营销活动的相关资料:

- 活动海报/素材(图1-3)

- 数据截图或图表(图4-5)

- 用户反馈/评价截图(图6-7)

请帮我分析:

【活动物料分析】

1. 这些素材传达的核心信息是什么?

2. 设计风格和视觉表现如何?

3. 文案是否有吸引力?理由是什么?

【活动效果分析】

4. 根据提供的数据,这次活动的效果如何?

5. 用户反馈整体是正向还是负向?

【改进建议】

6. 如果要改进这次活动,你会从哪些方面着手?

7. 下一次类似活动应该注意什么?

请给出具体、可操作的建议。

🔹 八、多模态提示词的高级技巧

▸ 8.1 上下文链式提示

技巧:先发送一张图建立上下文,再发送第二张图要求分析

[发送产品概念图]

AI:请描述这款概念产品的设计理念

[发送量产产品图]

AI:现在对比概念图和量产图,分析设计做了哪些调整?原因可能是什么?

[发送用户评价截图]

AI:结合用户的反馈,这款产品需要改进什么?

适用场景:需要AI理解事物发展变化过程

▸ 8.2 指定分析框架

技巧:告诉AI用特定框架来分析图片

请用以下框架分析这张商业图表:

【框架】

1. 数据维度:展示了什么数据?

2. 趋势维度:数据呈现什么趋势?

3. 对比维度:有没有可对比的参照?

4. 洞察维度:有什么值得关注的问题?

5. 建议维度:基于数据应该怎么做?

[发送图表图片]

适用场景:需要AI给出结构化、有深度的分析

▸ 8.3 角色扮演式提示

技巧:让AI扮演特定角色来分析和回应

你是一位资深[产品经理/设计师/数据分析师],我发送一张图片,请从你的专业角度给出评价和建议。

[发送图片]

请分别从:

1. 专业度评分(1-10分)

2. 优点分析

3. 改进建议

4. 如果要你优化,你会怎么做?

四个维度来评价。

适用场景:需要AI提供专业、权威的意见

▸ 8.4 渐进式信息获取

技巧:不要一次性问太多问题,而是逐步深入

第一轮

[发送图片]

请简要描述这张图片的主要内容。

第二轮

基于刚才的描述,我想深入了解[某个点],请详细说明。

第三轮

结合这张图,我想做[某个任务],请帮我[具体需求]。

适用场景:复杂任务、需要AI深入理解后再响应

🔹 九、常见问题与解决方案

▸ 问题一:AI识别图片不准确

原因

  1. 图片质量太低(模糊、过小)
  2. 图片有水印或文字遮挡
  3. 图片格式不支持

解决方案

  • 确保图片清晰、分辨率足够(至少1024×1024)
  • 如果有重要区域被遮挡,明确告诉AI”请忽略水印,专注于[某区域]”
  • 使用主流格式(PNG、JPG、WebP)

▸ 问题二:AI回复太泛泛

原因:提示词不够具体,没有给出分析框架

解决方案

  • 添加明确的分析维度
  • 要求AI给出具体例子
  • 使用”请结合图片内容,不要泛泛而谈”等约束

▸ 问题三:多图分析时漏掉某些图

原因:AI处理的图片数量有限制

解决方案

  • 每批发送不超过5张图片
  • 明确标注”[图1][图2][图3]”并要求AI在回答中引用
  • 如果图片很多,可以分批处理后让AI做综合总结

▸ 问题四:视频理解效果差

原因:目前的视频理解能力弱于图像理解

解决方案

  • 截取关键帧(最能代表视频内容的图片)
  • 提供视频的文字摘要或字幕
  • 明确告诉AI”这是视频的关键帧”,让AI推测整体内容

🔹 十、总结与下期预告

▸ 本章知识点回顾

  1. 为什么多模态重要:让AI真正”看到”内容,解决说不清楚的问题
  2. 主流多模态模型:GPT-4o、Claude 3.5、 Gemini 3.1 Pro
  3. 核心技巧

– 图像理解与描述

– 图表数据分析

– 多图对比分析

– 文档截图深度理解

– 视频内容提取

  1. 高级技巧:链式提示、框架分析、角色扮演、渐进式获取

▸ 多模态提示词的能力边界

擅长 不擅长
图像理解、图表分析 精确数值读取、复杂表格
视觉问答、内容提取 需要空间推理的任务
多图综合分析 视频细节的精确描述

▸ 下期预告

Day6我们将学习:API深度调用——如何通过代码调用AI API,实现更高级的自动化功能。

参考资料

  • OpenAI GPT-4o多模态文档
  • Anthropic Claude 3.5视觉能力指南
  • Google Gemini多模态API文档

关于作者:本文为AI进阶实战30天系列第5篇。

互动话题:你在使用多模态AI时遇到过什么有趣或头疼的问题?欢迎在评论区分享!

关注我,每天学习一个AI硬技能!