AI数据战争开打:一家图库公司靠”卖数据”年入4000万

2026年5月19日,美国加州。AI圈又传来一个惊人的融资消息。

一家叫Wirestock的图库平台,完成了2300万美元A轮融资。

你以为它是因为卖图卖得好才拿到融资的?错了。

它已经不卖图了。

它改卖数据了——把平台上的70万创作者的作品,打包卖给AI公司当训练数据。

年营收:4000万美元。

💡 当别人还在讨论AI会取代什么时,这家公司已经靠”卖数据”闷声赚了大钱。

01 从中间商到数据贩子

Wirestock成立于2018年,最初的生意模式很简单:帮摄影师把照片分发到各大图库平台,收取中介费。

这门生意不性感,但稳定。平台连接了Shutterstock、Adobe Stock、Pond5、Alamy、Freepik等主流图库,摄影师上传一张照片,系统自动分发到多个渠道。

2023年之前,这是个还算滋润的”中间商”生意。

然后,生成式AI爆发了。

CEO Mikayel Khachatryan发现,平台手上积攒的不仅是几百万张照片,还有照片的标注、标签、创作者元数据——这些是训练多模态AI模型的珍贵燃料。

2023年,他做了一个决定:转型。不再把图片卖给设计师使用,而是把图片当作训练数据卖给AI实验室。

这个决定的回报是惊人的:两年内,年营收从几百万美元飙升到4000万美元。

💡 不是风口变了,是手里的牌没变,只是打牌的方式变了。

02 2300万美元背后的资本局

本轮融资的阵容很有意思。

领投方是Nava Ventures,跟投方包括SBVP——这是前Facebook COO、”硅谷女王”Sheryl Sandberg参与创立的风险投资基金。

Sheryl Sandberg为什么会投一家图库转型数据公司?

答案很简单:数据是AI时代的石油,而Wirestock手里有石油。

据TechCrunch报道,Wirestock目前向全球六家最大的基础模型公司供应多模态数据。虽然官方没有透露客户名单,但OpenAI、Anthropic、Google、Meta这些正在疯狂争夺数据资源的公司,很可能是主要买家。

💡 当所有人都涌向模型层时,聪明钱已经开始布局数据层。

03 70万创作者:一场静悄悄的革命

Wirestock的核心资产是什么?

配图

不是代码,不是服务器,而是平台上70万名创作者。

这些摄影师、设计师、视频创作者,他们的作品被清洗、标注、打包后,卖给了AI公司。

具体流程是这样的:创作者上传作品后,可以选择是否参与”数据授权计划”。参与的创作者,其作品会被AI自动标记、分类,并最终进入AI公司的训练数据集。

每一笔数据交易,创作者能获得分成。迄今为止,Wirestock已向创作者支付了1500万美元。

但这个数字摊到70万人身上,平均每人只有20多美元。争议就此产生。

💡 70万创作者,是一座持续运转的数据工厂。但工厂的大部分利润,流向了工厂主,而不是工人。

04 为什么AI公司愿意买单?

一个关键问题:为什么AI公司愿意从图库买数据,而不是自己去抓?

答案在于多模态AI的特殊需求。

第一代大模型靠的是互联网文本数据,爬虫一抓一大把。但当AI进入图像、视频、3D领域时,”现实世界数据”的获取变得困难得多。

图库数据的优势在于:

第一,有标注。每一张图片都有标题、关键词、分类等元数据,这是训练AI图像理解能力的关键素材。

第二,有版权保障。AI公司爬虫抓数据风险极高,Midjourney、Stability AI都曾因版权问题被起诉。而从正规平台授权,数据来源清晰,法律风险低。

第三,有规模。专业的图库平台积累了大量高质量、有版权的创意内容,这是其他渠道难以替代的。

💡 AI军备竞赛从”有多少GPU”变成”有多少数据”,图库平台意外成为主角。

05 国内的机会在哪里?

这个消息传到国内,很多人问:国内有没有类似的机会?

答案既肯定又复杂。

国内有视觉中国、图虫、站酷等图库平台,它们同样握有大量有标注的创作者内容。视觉中国拥有超过2亿张图片、2000万创作者,是国内最大的正版图片库。

但问题同样明显:

首先,版权意识薄弱。很多AI公司在数据采购上更倾向于”白嫖”,而不是付费授权。

其次,创作者认知不足。大多数摄影师不知道自己的图可以卖给别人训练AI,也不会主动要求分成。

第三,大厂倾向于自建数据团队。百度、阿里、字节等大厂都有专门的数据团队,对外采购的意愿相对较低。

不过,随着AIGC版权法规的完善和数据确权技术的发展,国内图库平台的转型窗口迟早会打开。问题只是谁先意识到这一点,谁先行动。

💡 数据是AI时代的石油,但并不是所有人都意识到自己油井的存在。

06 争议:谁在为AI买单?

转型商业上成功,争议也同样存在。

最大的质疑是:创作者的权益谁来保障?

很多摄影师发现,自己多年前上传到图库的照片,已经成为某些AI模型的训练数据。他们没有收到任何通知,也没有获得额外报酬。

更尖锐的问题是:AI学会某位摄影师的风格后,摄影师还能靠这门手艺吃饭吗?

目前法律上还没有明确的答案。美国版权局在研究AI生成内容的版权问题,欧盟的AI法案对训练数据透明度有要求,但执行层面还有很大空白。

💡 AI时代,创作者是主人还是燃料?这个问题还没有答案。

07 数据战争的三个玩家

如果把AI数据战争比作一场球赛,场上至少有三种玩家:

第一种是”数据拥有者”,比如Wirestock这样的图库平台,手里握着大量有标注的创意内容。

第二种是”数据购买者”,也就是AI实验室和科技公司,有钱有算力,缺数据。

第三种是”数据整合者”,比如Scale AI这样的平台,做数据的清洗、标注和结构化。

这三种角色之间的关系正在发生变化。数据拥有者开始绕过中间商直接对接AI公司,数据整合者也在向上游延伸。

而AI公司呢?它们既在采购数据,也在开发合成数据技术——用AI生成的数据来训练AI。

💡 数据战争的本质,是一场关于”谁有数据谁说了算”的权力游戏。

08 结语

Wirestock的融资,是一个信号。

配图

它标志着AI竞争正在从模型层向数据层转移。当所有人都在讨论GPT-5什么时候出、Claude 4有多强时,真正的竞争已经在暗处展开。

谁手里有高质量数据,谁就有议价权。

一家图库公司的转型,折射出整个AI行业的结构性变化。未来会有更多传统平台意识到自己的数据价值,会有更多”中间商”变成”数据供应商”。

这是AI时代的新游戏规则。

你准备好了吗?

你怎么看待创作者内容被用于AI训练?你觉得分成比例应该是多少?国内图库平台该不该转型做数据供应商?欢迎在评论区聊聊。

09 合成数据:AI能用自己喂自己吗?

除了采购真实数据,AI公司还在研究一个更有意思的方向——合成数据。

用AI生成的图片来训练AI图像模型,用AI生成的文本来训练AI语言模型。这个方向如果成功,对图库数据的依赖就会大大降低。

但合成数据有个致命问题:质量不够。

AI生成的内容,本质上是对已有数据的模仿和重组。如果训练数据本身就来自AI生成的图片,模型能力会逐渐退化,就像近亲繁殖最终导致遗传缺陷。

这叫做”模型崩溃”(Model Collapse)。

有研究表明,如果只用合成数据训练,模型会逐渐丢失捕捉真实世界分布的能力。最终输出变得单调、重复、缺乏创意。

所以,真实数据短期内还是不可替代的。这也是图库平台数据价值长期存在的根本原因。

💡 AI可以合成一切,但合成不出真实的创意。因为创意本身就是对未知的探索,不是对已知的重组。

10 一个摄影师的自述:我的照片被卖给了AI

最后分享一个真实的故事。

张三(化名)是一位职业摄影师,专注于自然风光和野生动物题材。他的作品曾被《国家地理》采用,也在多个国际摄影比赛中获奖。

2022年,他偶然发现,自己上传到某图库平台的照片,被用于训练一个AI图像生成模型。

没有通知,没有报酬。他的照片被转化成训练数据,喂给了某个AI系统,而这个AI后来能生成类似风格的图片——不需要他的授权,不需要给他分钱。

张三感到愤怒,但不知道该找谁投诉。图库平台的条款写得很模糊,关于数据授权的条款藏在一份几十页的用户协议里。

这个故事不是个案。社交媒体上越来越多的摄影师开始分享类似经历。有人开始研究如何标注自己的版权,有人从图库撤回作品,还有人专门上传”陷阱图片”——用来识别哪些AI系统在未经授权使用他们的作品。

💡 当你上传一张照片时,你可能正在亲手建造一个取代你自己的AI。

11 未来已来,只是分配不均

Wirestock的融资是AI数据战争的一个缩影。

在这场战争中,有人靠卖数据赚了几千万美元,有人的照片被偷偷用作AI训练但分文未得。技术进步创造了新的价值,但价值分配远未公平。

未来会发生什么?

也许有一天,每个创作者都能清楚地知道自己的作品被谁使用、获得了多少收益。也许有一天,数据工会出现,帮助创作者集体谈判。也许有一天,区块链技术让数据的溯源和确权变得透明。

但在那之前,游戏规则由谁制定?答案已经很明显了。

你怎么看待创作者内容被用于AI训练?你觉得分成比例应该是多少?国内图库平台该不该转型做数据供应商?欢迎在评论区聊聊。

12 数据战争的四条赛道

如果你以为AI数据战争只有一条赛道,那就太天真了。

目前至少有四条赛道在同时进行:

第一条:创意数据赛道

就是Wirestock所在的赛道——图片、视频、3D素材等创意内容的授权。这条赛道的特点是:数据质量高、版权清晰、单价高、但规模有限。

代表玩家:Wirestock、Shutterstock(正在转型)、视觉中国(尝试中)

第二条:互联网数据赛道

抓取互联网上的公开数据,包括网页、社交媒体、论坛等。这条赛道的特点是:规模大、成本低、但版权风险高、质量参差不齐。

代表玩家:Common Crawl、The AI Company、的各种数据爬虫

第三条:合成数据赛道

用AI生成的数据来训练AI。这条赛道的特点是:成本低、规模大、但质量问题是硬伤。合成数据主要用于补充真实数据的边角料,而不是完全替代。

代表玩家:各种合成数据创业公司、大厂内部团队

第四条:垂直行业数据赛道

医疗影像、法律文档、金融记录、工业传感器等垂直领域的数据。这些数据的特点是:价值极高、壁垒极高、但获取难度也极高。

配图

代表玩家:各种医疗AI公司、法律AI公司

💡 数据战争不是一条赛道,而是一场多线同时进行的军备竞赛。

13 一个疑问:这是创业机会还是昙花一现?

看到Wirestock的成功,很多人心头痒痒:这是不是创业机会?我是不是也该做个类似的数据平台?

冷静一下。

Wirestock的成功有其特殊性:它早在2018年就开始积累创作者资源,有现成的平台和用户基础。它的转型不是从零开始,而是对已有资产的二次开发。

更重要的是,版权环境在变化。各国对AI训练数据的监管越来越严格,未来的数据采购成本只会越来越高。这对数据供应商是好事,但也意味着行业门槛在提高。

对于普通人来说,与其想着做一个”中国的Wirestock”,不如思考:你能为数据产业链提供什么独特价值?是数据标注?数据清洗?还是数据确权技术?

💡 机会不在于复制别人的模式,而在于找到自己独特的价值位置。

14 结语:你的数据值多少钱?

写这篇文章的过程中,我一直在想一个问题:

如果把你的照片、你写的文章、你画的图、你拍的视频加起来,你能估算出它们值多少钱吗?

在传统工业时代,这个问题没有意义。你的作品要么卖出去,要么没人买,边界很清楚。

但在AI时代,你的作品可能是训练某个AI模型的燃料。这个AI模型价值连城,但付给你的可能是零。

这不是一个容易回答的问题。

但有一件事是确定的:数据正在成为最重要的资产类别之一,而大多数人还不知道自己的数据值多少钱。

下次你上传一张照片到某个平台时,不妨多问一句:这张照片,会被用来做什么?

你怎么看待创作者内容被用于AI训练?你觉得分成比例应该是多少?你觉得国内图库平台该不该转型做数据供应商?欢迎在评论区聊聊。

15 国内图库平台现状:起了大早,赶了晚集

说完成功案例,也得看看国内的情况。

客观说,国内图库平台在数据变现这件事上,起了个大早,赶了个晚集。

视觉中国是最典型的例子。这家公司拥有超过2亿张图片、2000万创作者,是国内最大的正版图片库。2023年AIGC爆发后,视觉中国也宣布向AI训练数据领域拓展,甚至推出了AI图片生成功能。

但效果如何?

从财务数据看,视觉中国的AI业务收入占比仍然很低。公司大部分收入还是来自传统授权业务。

问题出在哪里?

首先是意识。大多数图库平台还停留在”卖图片”的思维里,没有意识到图片背后的数据价值。

其次是技术。AI训练数据需要一整套标注、清洗、结构化的技术能力,这不是传统图库平台的强项。

第三是生态。国内AI公司更倾向于自建数据团队,或者通过其他渠道获取数据,对外采购的意愿相对较低。

不过,随着AIGC版权法规的完善和市场竞争的加剧,这个状况可能会改变。

💡 国内图库平台手里有油井,但还没学会怎么开采。

16 下一个Wirestock会在中国诞生吗?

Wirestock的成功,在中国能复制吗?

答案是:能,但需要时间。

从需求端看,中国AI公司对多模态训练数据的需求正在快速增长。百度、字节、阿里、腾讯都在加大对多模态AI的投入,对高质量数据的需求只会越来越强烈。

从供给端看,中国有全球最多的创作者群体。抖音、快手、小红书等平台上,有数亿用户每天在创作内容。这些内容如果能够被规范化、版权化,也是一笔巨大的数据资产。

但问题在于,版权意识和数据确权技术是两大障碍。

版权意识需要时间来培养,数据确权技术也需要突破。目前区块链技术在数据溯源方面有一些探索,但离大规模商用还有距离。

不过,机会总是留给有准备的人。

💡 下一个数据金矿的发现者,可能就在今天的创业者中。

17 一个预测:数据交易平台的崛起

最后做一个预测。

未来3-5年内,数据交易平台会成为一个新的创业热点。

这个平台不是类似Wirestock的”数据供应商”,而是”数据交易所”——撮合数据提供方和数据采购方的中立平台。

类似淘宝在商品交易中的角色,数据交易所可以解决以下问题:

第一,数据标准化。不同来源的数据格式不同、质量不同,需要有标准化的处理流程。

第二,定价机制。数据值多少钱?这是个主观问题,但市场可以形成相对公允的价格。

第三,版权保护。数据交易后如何防止二次传播?如何确权?这些问题需要技术手段来解决。

第四,隐私合规。某些数据涉及个人隐私,需要合规处理后才能交易。

这些问题解决之后,数据交易所的价值就体现出来了。

💡 当数据成为最重要的资产,交易的便利性就成为刚需。数据交易所,本质上是在解决”数据流通的最后一公里”问题。

18 写在最后

回到最开始的问题:一家图库公司靠”卖数据”年入4000万,这正常吗?

在传统商业逻辑里,这不正常。一家做图片分销的公司,怎么突然转型成数据供应商了?

但在AI时代,这再正常不过了。

数据是AI时代的石油。而石油的价值,不在于它躺在地下,而在于它被开采、被提炼、被使用。

今天的图库平台、明天的数据交易所、后天的区块链确权平台——这些都不是凭空出现的创新,而是技术演进和商业逻辑的自然延伸。

唯一的问题是:你准备好参与这场游戏了吗?

你怎么看待创作者内容被用于AI训练?你觉得分成比例应该是多少?你觉得国内图库平台该不该转型做数据供应商?数据交易平台是不是一个创业机会?欢迎在评论区聊聊。