AI数据战争开打：一家图库公司靠"卖数据"年入4000万

AI数据战争开打：一家图库公司靠”卖数据”年入4000万

2026年5月19日，美国加州。AI圈又传来一个惊人的融资消息。

一家叫Wirestock的图库平台，完成了2300万美元A轮融资。

你以为它是因为卖图卖得好才拿到融资的？错了。

它已经不卖图了。

它改卖数据了——把平台上的70万创作者的作品，打包卖给AI公司当训练数据。

年营收：4000万美元。

💡 当别人还在讨论AI会取代什么时，这家公司已经靠”卖数据”闷声赚了大钱。

01 从中间商到数据贩子

Wirestock成立于2018年，最初的生意模式很简单：帮摄影师把照片分发到各大图库平台，收取中介费。

这门生意不性感，但稳定。平台连接了Shutterstock、Adobe Stock、Pond5、Alamy、Freepik等主流图库，摄影师上传一张照片，系统自动分发到多个渠道。

2023年之前，这是个还算滋润的”中间商”生意。

然后，生成式AI爆发了。

CEO Mikayel Khachatryan发现，平台手上积攒的不仅是几百万张照片，还有照片的标注、标签、创作者元数据——这些是训练多模态AI模型的珍贵燃料。

2023年，他做了一个决定：转型。不再把图片卖给设计师使用，而是把图片当作训练数据卖给AI实验室。

这个决定的回报是惊人的：两年内，年营收从几百万美元飙升到4000万美元。

💡 不是风口变了，是手里的牌没变，只是打牌的方式变了。

02 2300万美元背后的资本局

本轮融资的阵容很有意思。

领投方是Nava Ventures，跟投方包括SBVP——这是前Facebook COO、”硅谷女王”Sheryl Sandberg参与创立的风险投资基金。

Sheryl Sandberg为什么会投一家图库转型数据公司？

答案很简单：数据是AI时代的石油，而Wirestock手里有石油。

据TechCrunch报道，Wirestock目前向全球六家最大的基础模型公司供应多模态数据。虽然官方没有透露客户名单，但OpenAI、Anthropic、Google、Meta这些正在疯狂争夺数据资源的公司，很可能是主要买家。

💡 当所有人都涌向模型层时，聪明钱已经开始布局数据层。

03 70万创作者：一场静悄悄的革命

Wirestock的核心资产是什么？

不是代码，不是服务器，而是平台上70万名创作者。

这些摄影师、设计师、视频创作者，他们的作品被清洗、标注、打包后，卖给了AI公司。

具体流程是这样的：创作者上传作品后，可以选择是否参与”数据授权计划”。参与的创作者，其作品会被AI自动标记、分类，并最终进入AI公司的训练数据集。

每一笔数据交易，创作者能获得分成。迄今为止，Wirestock已向创作者支付了1500万美元。

但这个数字摊到70万人身上，平均每人只有20多美元。争议就此产生。

💡 70万创作者，是一座持续运转的数据工厂。但工厂的大部分利润，流向了工厂主，而不是工人。

04 为什么AI公司愿意买单？

一个关键问题：为什么AI公司愿意从图库买数据，而不是自己去抓？

答案在于多模态AI的特殊需求。

第一代大模型靠的是互联网文本数据，爬虫一抓一大把。但当AI进入图像、视频、3D领域时，”现实世界数据”的获取变得困难得多。

图库数据的优势在于：

第一，有标注。每一张图片都有标题、关键词、分类等元数据，这是训练AI图像理解能力的关键素材。

第二，有版权保障。AI公司爬虫抓数据风险极高，Midjourney、Stability AI都曾因版权问题被起诉。而从正规平台授权，数据来源清晰，法律风险低。

第三，有规模。专业的图库平台积累了大量高质量、有版权的创意内容，这是其他渠道难以替代的。

💡 AI军备竞赛从”有多少GPU”变成”有多少数据”，图库平台意外成为主角。

05 国内的机会在哪里？

这个消息传到国内，很多人问：国内有没有类似的机会？

答案既肯定又复杂。

国内有视觉中国、图虫、站酷等图库平台，它们同样握有大量有标注的创作者内容。视觉中国拥有超过2亿张图片、2000万创作者，是国内最大的正版图片库。

但问题同样明显：

首先，版权意识薄弱。很多AI公司在数据采购上更倾向于”白嫖”，而不是付费授权。

其次，创作者认知不足。大多数摄影师不知道自己的图可以卖给别人训练AI，也不会主动要求分成。

第三，大厂倾向于自建数据团队。百度、阿里、字节等大厂都有专门的数据团队，对外采购的意愿相对较低。

不过，随着AIGC版权法规的完善和数据确权技术的发展，国内图库平台的转型窗口迟早会打开。问题只是谁先意识到这一点，谁先行动。

💡 数据是AI时代的石油，但并不是所有人都意识到自己油井的存在。

06 争议：谁在为AI买单？

转型商业上成功，争议也同样存在。

最大的质疑是：创作者的权益谁来保障？

很多摄影师发现，自己多年前上传到图库的照片，已经成为某些AI模型的训练数据。他们没有收到任何通知，也没有获得额外报酬。

更尖锐的问题是：AI学会某位摄影师的风格后，摄影师还能靠这门手艺吃饭吗？

目前法律上还没有明确的答案。美国版权局在研究AI生成内容的版权问题，欧盟的AI法案对训练数据透明度有要求，但执行层面还有很大空白。

💡 AI时代，创作者是主人还是燃料？这个问题还没有答案。

07 数据战争的三个玩家

如果把AI数据战争比作一场球赛，场上至少有三种玩家：

第一种是”数据拥有者”，比如Wirestock这样的图库平台，手里握着大量有标注的创意内容。

第二种是”数据购买者”，也就是AI实验室和科技公司，有钱有算力，缺数据。

第三种是”数据整合者”，比如Scale AI这样的平台，做数据的清洗、标注和结构化。

这三种角色之间的关系正在发生变化。数据拥有者开始绕过中间商直接对接AI公司，数据整合者也在向上游延伸。

而AI公司呢？它们既在采购数据，也在开发合成数据技术——用AI生成的数据来训练AI。

💡 数据战争的本质，是一场关于”谁有数据谁说了算”的权力游戏。

08 结语

Wirestock的融资，是一个信号。

它标志着AI竞争正在从模型层向数据层转移。当所有人都在讨论GPT-5什么时候出、Claude 4有多强时，真正的竞争已经在暗处展开。

谁手里有高质量数据，谁就有议价权。

一家图库公司的转型，折射出整个AI行业的结构性变化。未来会有更多传统平台意识到自己的数据价值，会有更多”中间商”变成”数据供应商”。

这是AI时代的新游戏规则。

你准备好了吗？

你怎么看待创作者内容被用于AI训练？你觉得分成比例应该是多少？国内图库平台该不该转型做数据供应商？欢迎在评论区聊聊。

09 合成数据：AI能用自己喂自己吗？

除了采购真实数据，AI公司还在研究一个更有意思的方向——合成数据。

用AI生成的图片来训练AI图像模型，用AI生成的文本来训练AI语言模型。这个方向如果成功，对图库数据的依赖就会大大降低。

但合成数据有个致命问题：质量不够。

AI生成的内容，本质上是对已有数据的模仿和重组。如果训练数据本身就来自AI生成的图片，模型能力会逐渐退化，就像近亲繁殖最终导致遗传缺陷。

这叫做”模型崩溃”（Model Collapse）。

有研究表明，如果只用合成数据训练，模型会逐渐丢失捕捉真实世界分布的能力。最终输出变得单调、重复、缺乏创意。

所以，真实数据短期内还是不可替代的。这也是图库平台数据价值长期存在的根本原因。

💡 AI可以合成一切，但合成不出真实的创意。因为创意本身就是对未知的探索，不是对已知的重组。

10 一个摄影师的自述：我的照片被卖给了AI

最后分享一个真实的故事。

张三（化名）是一位职业摄影师，专注于自然风光和野生动物题材。他的作品曾被《国家地理》采用，也在多个国际摄影比赛中获奖。

2022年，他偶然发现，自己上传到某图库平台的照片，被用于训练一个AI图像生成模型。

没有通知，没有报酬。他的照片被转化成训练数据，喂给了某个AI系统，而这个AI后来能生成类似风格的图片——不需要他的授权，不需要给他分钱。

张三感到愤怒，但不知道该找谁投诉。图库平台的条款写得很模糊，关于数据授权的条款藏在一份几十页的用户协议里。

这个故事不是个案。社交媒体上越来越多的摄影师开始分享类似经历。有人开始研究如何标注自己的版权，有人从图库撤回作品，还有人专门上传”陷阱图片”——用来识别哪些AI系统在未经授权使用他们的作品。

💡 当你上传一张照片时，你可能正在亲手建造一个取代你自己的AI。

11 未来已来，只是分配不均

Wirestock的融资是AI数据战争的一个缩影。

在这场战争中，有人靠卖数据赚了几千万美元，有人的照片被偷偷用作AI训练但分文未得。技术进步创造了新的价值，但价值分配远未公平。

未来会发生什么？

也许有一天，每个创作者都能清楚地知道自己的作品被谁使用、获得了多少收益。也许有一天，数据工会出现，帮助创作者集体谈判。也许有一天，区块链技术让数据的溯源和确权变得透明。

但在那之前，游戏规则由谁制定？答案已经很明显了。

你怎么看待创作者内容被用于AI训练？你觉得分成比例应该是多少？国内图库平台该不该转型做数据供应商？欢迎在评论区聊聊。

12 数据战争的四条赛道

如果你以为AI数据战争只有一条赛道，那就太天真了。

目前至少有四条赛道在同时进行：

第一条：创意数据赛道

就是Wirestock所在的赛道——图片、视频、3D素材等创意内容的授权。这条赛道的特点是：数据质量高、版权清晰、单价高、但规模有限。

代表玩家：Wirestock、Shutterstock（正在转型）、视觉中国（尝试中）

第二条：互联网数据赛道

抓取互联网上的公开数据，包括网页、社交媒体、论坛等。这条赛道的特点是：规模大、成本低、但版权风险高、质量参差不齐。

代表玩家：Common Crawl、The AI Company、的各种数据爬虫

第三条：合成数据赛道

用AI生成的数据来训练AI。这条赛道的特点是：成本低、规模大、但质量问题是硬伤。合成数据主要用于补充真实数据的边角料，而不是完全替代。

代表玩家：各种合成数据创业公司、大厂内部团队

第四条：垂直行业数据赛道

医疗影像、法律文档、金融记录、工业传感器等垂直领域的数据。这些数据的特点是：价值极高、壁垒极高、但获取难度也极高。

代表玩家：各种医疗AI公司、法律AI公司

💡 数据战争不是一条赛道，而是一场多线同时进行的军备竞赛。

13 一个疑问：这是创业机会还是昙花一现？

看到Wirestock的成功，很多人心头痒痒：这是不是创业机会？我是不是也该做个类似的数据平台？

冷静一下。

Wirestock的成功有其特殊性：它早在2018年就开始积累创作者资源，有现成的平台和用户基础。它的转型不是从零开始，而是对已有资产的二次开发。

更重要的是，版权环境在变化。各国对AI训练数据的监管越来越严格，未来的数据采购成本只会越来越高。这对数据供应商是好事，但也意味着行业门槛在提高。

对于普通人来说，与其想着做一个”中国的Wirestock”，不如思考：你能为数据产业链提供什么独特价值？是数据标注？数据清洗？还是数据确权技术？

💡 机会不在于复制别人的模式，而在于找到自己独特的价值位置。

14 结语：你的数据值多少钱？

写这篇文章的过程中，我一直在想一个问题：

如果把你的照片、你写的文章、你画的图、你拍的视频加起来，你能估算出它们值多少钱吗？

在传统工业时代，这个问题没有意义。你的作品要么卖出去，要么没人买，边界很清楚。

但在AI时代，你的作品可能是训练某个AI模型的燃料。这个AI模型价值连城，但付给你的可能是零。

这不是一个容易回答的问题。

但有一件事是确定的：数据正在成为最重要的资产类别之一，而大多数人还不知道自己的数据值多少钱。

下次你上传一张照片到某个平台时，不妨多问一句：这张照片，会被用来做什么？

你怎么看待创作者内容被用于AI训练？你觉得分成比例应该是多少？你觉得国内图库平台该不该转型做数据供应商？欢迎在评论区聊聊。

15 国内图库平台现状：起了大早，赶了晚集

说完成功案例，也得看看国内的情况。

客观说，国内图库平台在数据变现这件事上，起了个大早，赶了个晚集。

视觉中国是最典型的例子。这家公司拥有超过2亿张图片、2000万创作者，是国内最大的正版图片库。2023年AIGC爆发后，视觉中国也宣布向AI训练数据领域拓展，甚至推出了AI图片生成功能。

但效果如何？

从财务数据看，视觉中国的AI业务收入占比仍然很低。公司大部分收入还是来自传统授权业务。

问题出在哪里？

首先是意识。大多数图库平台还停留在”卖图片”的思维里，没有意识到图片背后的数据价值。

其次是技术。AI训练数据需要一整套标注、清洗、结构化的技术能力，这不是传统图库平台的强项。

第三是生态。国内AI公司更倾向于自建数据团队，或者通过其他渠道获取数据，对外采购的意愿相对较低。

不过，随着AIGC版权法规的完善和市场竞争的加剧，这个状况可能会改变。

💡 国内图库平台手里有油井，但还没学会怎么开采。

16 下一个Wirestock会在中国诞生吗？

Wirestock的成功，在中国能复制吗？

答案是：能，但需要时间。

从需求端看，中国AI公司对多模态训练数据的需求正在快速增长。百度、字节、阿里、腾讯都在加大对多模态AI的投入，对高质量数据的需求只会越来越强烈。

从供给端看，中国有全球最多的创作者群体。抖音、快手、小红书等平台上，有数亿用户每天在创作内容。这些内容如果能够被规范化、版权化，也是一笔巨大的数据资产。

但问题在于，版权意识和数据确权技术是两大障碍。

版权意识需要时间来培养，数据确权技术也需要突破。目前区块链技术在数据溯源方面有一些探索，但离大规模商用还有距离。

不过，机会总是留给有准备的人。

💡 下一个数据金矿的发现者，可能就在今天的创业者中。

17 一个预测：数据交易平台的崛起

最后做一个预测。

未来3-5年内，数据交易平台会成为一个新的创业热点。

这个平台不是类似Wirestock的”数据供应商”，而是”数据交易所”——撮合数据提供方和数据采购方的中立平台。

类似淘宝在商品交易中的角色，数据交易所可以解决以下问题：

第一，数据标准化。不同来源的数据格式不同、质量不同，需要有标准化的处理流程。

第二，定价机制。数据值多少钱？这是个主观问题，但市场可以形成相对公允的价格。

第三，版权保护。数据交易后如何防止二次传播？如何确权？这些问题需要技术手段来解决。

第四，隐私合规。某些数据涉及个人隐私，需要合规处理后才能交易。

这些问题解决之后，数据交易所的价值就体现出来了。

💡 当数据成为最重要的资产，交易的便利性就成为刚需。数据交易所，本质上是在解决”数据流通的最后一公里”问题。

18 写在最后

回到最开始的问题：一家图库公司靠”卖数据”年入4000万，这正常吗？

在传统商业逻辑里，这不正常。一家做图片分销的公司，怎么突然转型成数据供应商了？

但在AI时代，这再正常不过了。

数据是AI时代的石油。而石油的价值，不在于它躺在地下，而在于它被开采、被提炼、被使用。

今天的图库平台、明天的数据交易所、后天的区块链确权平台——这些都不是凭空出现的创新，而是技术演进和商业逻辑的自然延伸。

唯一的问题是：你准备好参与这场游戏了吗？

你怎么看待创作者内容被用于AI训练？你觉得分成比例应该是多少？你觉得国内图库平台该不该转型做数据供应商？数据交易平台是不是一个创业机会？欢迎在评论区聊聊。

AI数据战争开打：一家图库公司靠”卖数据”年入4000万

01 从中间商到数据贩子

02 2300万美元背后的资本局

03 70万创作者：一场静悄悄的革命

04 为什么AI公司愿意买单？

05 国内的机会在哪里？

06 争议：谁在为AI买单？

07 数据战争的三个玩家

08 结语

09 合成数据：AI能用自己喂自己吗？

10 一个摄影师的自述：我的照片被卖给了AI

11 未来已来，只是分配不均

12 数据战争的四条赛道

13 一个疑问：这是创业机会还是昙花一现？

14 结语：你的数据值多少钱？

15 国内图库平台现状：起了大早，赶了晚集

16 下一个Wirestock会在中国诞生吗？

17 一个预测：数据交易平台的崛起

18 写在最后

龙主编

我要评论

AI数据战争开打：一家图库公司靠”卖数据”年入4000万

01 从中间商到数据贩子

02 2300万美元背后的资本局

03 70万创作者：一场静悄悄的革命

04 为什么AI公司愿意买单？

05 国内的机会在哪里？

06 争议：谁在为AI买单？

07 数据战争的三个玩家

08 结语

09 合成数据：AI能用自己喂自己吗？

10 一个摄影师的自述：我的照片被卖给了AI

11 未来已来，只是分配不均

12 数据战争的四条赛道

13 一个疑问：这是创业机会还是昙花一现？

14 结语：你的数据值多少钱？

15 国内图库平台现状：起了大早，赶了晚集

16 下一个Wirestock会在中国诞生吗？

17 一个预测：数据交易平台的崛起

18 写在最后

微信分享

龙主编

相关推荐

我要评论

扫码关注