图片来源:由无界 AI 生成
“几乎没有一家大模型公司的 AI 视频生成训练,会找视频网站授权。”2025 年伊始,在视频生成领域立志“追平 Sora”的大模型公司,撞上了版权墙。
AI 创业者陈临告诉字母榜(ID:wujicaijing),这其中也包括被称为“AI 六小虎”的 6 家中国大模型独角兽。而缺乏授权的模型训练,势必将成为大模型公司们的潜在风险。
如今,在热度不减的 AI 视频生成赛道,“视频平台诉大模型侵权”第一案已经出现。
日前,有报道称爱奇艺起诉 MiniMax 旗下海螺 AI 侵犯著作权,据悉事由或为 MiniMax 未经授权使用了爱奇艺享有版权的素材进行模型训练,目前正在走司法程序。对此,爱奇艺回复字母榜,确认案件正在审理中。MiniMax 则尚无正式回应。
就在去年 9 月 MiniMax 刚刚推出视频大模型时,其创始人闫俊杰对字母榜表示,MiniMax 用于训练的数据,除了语料公司的高质量数据,还有部分采购来的平台化数据。
图注:MiniMAX 创始人闫俊文介绍海螺 AI
图源:字母榜拍摄
大公司也屡屡因版权陷入纠纷。去年 8 月,OpenAI 被超过 100 位 YouTube 主播集体诉讼,指控其擅自转录数百万个 YouTube 视频来训练大模型。英伟达、苹果、Anthropic 等巨头也涉及其中。OpenAI 的前任 CEO Mira,曾在采访中被记者提问是否拿 YouTube 的视频训练 Sora,Mira 选择了拒绝回答。
虽然 OpenAI 已经和 Politico、《大西洋月刊》《时代》《金融时报》等签订了付费协议用于训练,但这类授权都属于文字领域,陈临告诉字母榜,在 Sora 视频的训练协议中,“OpenAI 还没有签过相应的协议。”
数据、算法和算力是 AI 大模型的三大支柱,其中数据更是大模型进行训练的根本。可以说,生成式 AI 的繁荣是建立在数据规模之上的。训练数据越多,模型就越强大。数据赋予模型用于学习和思考的海量知识,数据也成了模型厂商技术壁垒的一部分。
不像 BAT 们,在图文时代、移动互联网时代早已积攒起巨量的私域数据库,并且这些数据早已被不同平台瓜分。晚来的大模型六小龙,被重重壁垒所环绕。
一旦爱奇艺的诉讼成功,或许预告着一场更大规模的大模型版权纠纷时代的来临。
“爱奇艺成功了,优酷、腾讯视频也可能会起诉,”陈临表示,这无疑是兜头浇了狂奔中的大模型公司们一盆冷水。对于独立进行大模型训练的公司来说,“视频要版权费,图片也要版权费,文字可能也要版权费,致使 AI 的训练成本会比现在高出许多。”
如今,孰是孰非暂无定论,只是可以肯定的是,大模型的狂飙路上,正在竖起一面新的版权墙。
国内 AI 视频生成第一个侵权案,已经出现了。
近日,据外媒报道,MiniMax 被指控未经授权使用爱奇艺享有版权的素材进行模型训练,爱奇艺已向上海市徐汇区人民法院提起诉讼,要求 MiniMax 立即停止侵权行为,并索赔约 10 万元人民币。
去年 8 月底,MiniMax 推出视频大模型,用户登录海螺 AI 就能体验 MiniMax 的视频生成模型。根据 AI 产品榜数据,去年 9 月,海螺 AI 搜索热度暴涨,海螺 AI 网页版 9 月访问量增幅达 860%,一举登顶 2024 年 9 月全球及国内 AI 应用增速榜首。
不过,加入“追平 Sora”大军的 MiniMax,也如同 OpenAI 被《纽约时报》起诉一样,撞上了版权墙。
根据我国法律规定,生成式人工智能服务提供者必须采用“合法来源”的数据和基础模型,以确保不侵犯他人的知识产权。
《互联网法律评论》主编张颖告诉字母榜,在这场民事诉讼中,爱奇艺起诉,需要证明 MiniMax 存在未经其允许的情况下使用爱奇艺数据训练,并且在生成内容中包含了其版权内容。此外,爱奇艺还需要证明被告在主观上有过错,即故意或者未尽到注意义务。
也就是说,海螺 AI 的“侵权”存在两种可能。
一种可能是 MiniMax 海螺 AI 视频生成的训练中,未经授权使用了爱奇艺享有版权的素材内容。
另一种可能,则是用户使用海螺 AI 时,未经爱奇艺授权,上传了版权素材做 AI“魔改”。
图注:AI 魔改视频,下方都备注内容疑似用 AI 技术合成
图源:字母榜截图
《甄嬛传》变枪战片、《红楼梦》变武打剧,用 AI 视频工具就能让尔康喝啤酒、甄嬛啃汉堡、林黛玉抄起加特林。陈临表示,以上这些 AI“魔改”经典影视剧的小视频,都在社交平台得到数百万的播放量。
这些“没有逻辑,只有搞笑”的 AI“魔改”视频,大多没有授权,“部分是大模型公司推广产品时,委托第三方投流公司的作品,更多的则是用户的无厘头脑洞。”去年 12 月,广电网络视听司也发布了《管理提示》,提出要排查清理 AI“魔改”影视剧的短视频。这意味着生成式 AI 将面临更细致的内容审核。
而作为被起诉方,如果 MiniMax 想证明自己没有侵权,大概需要证明自身数据来源、生成内容与爱奇艺无关,或者没有故意侵权。
在海螺 AI 的用户协议中,也要求用户保证不利用平台制作的内容或用于相关用途,包括“未经授权自行剪切、改编电影、电视剧、网络影视剧等各类视听节目及片段”。
不过,值得注意的是,“10 万元赔偿金对爱奇艺来说太少了。”张颖表示,尽管缺乏爱奇艺的起诉书作为依据,但从金额来看,推测 MiniMax 的侵权情况可能并不严重,双方和解的可能性很大。 走向和解,对于 MiniMax 来说,不管是照价赔偿 10 万元,还是交上一笔不菲的版权费,都似乎免不了为版权墙“破财”了。
实际上,“国内 AI 从业者对于训练数据没有很高的版权意识,通常认为版权会阻碍 AI 训练。”
离开某大厂开始 AI 应用创业后,陈临发现,国内主动要求版权授权的 AI 训练公司似乎并不多。原因不仅在于本身便高昂的 AI 训练成本,也是由于一旦视频、图片,甚至文字都需要版权,对于 AI 创企来说,“模型就没法训练了。”
不少 AI 创企做视频生成训练的第一步,正是“从网上扒视频训练”。
为了规避版权风险,企业会通过关键词过滤,尽量避免用户输入比如米老鼠这种版权字眼,来减少生成侵权内容。
图注:以即梦 AI 为例,AI 视频生成自动过滤关键词
图源:陈临提供
新壹科技 CEO 雷涛告诉字母榜,作为 To B 的 AIGC 视频生成公司,新壹科技用来训练 AI 视频大模型的数据,来自此前在秒拍、小咖秀等应用的数据积累,还有定向合作数据库,以及依托原算法训练的“从无到有”的素材。但只有 AI 视频生成的足够真实,才能起到训练效果。
而对于既没有攒够数据,又付不起定向合作版权费的 AI 创企而言,想要坐上牌桌,撞上版权墙,或早或晚,都是必然的结果。
不过,这种争议并不是新鲜事。
在图文时代,图片版权的纠纷一度让创作者们“不敢配图”。有自媒体大 V 被告知,历史文章中有数十张来自搜索引擎的图片涉嫌侵权,在删除全部原创文章后,还支付了不菲的侵权费用于和解。有摄影师使用了自己拍摄的 173 张照片进行配图,却被视觉中国提起诉讼,指其侵权。
如今,轮到 AI 站上了被告席。
在国内,去年 6 月,4 名画师起诉小红书 AI 大模型“Trik AI”侵权,这是国内第一起 AI 模型训练数据集体侵权的案件,如今诉讼正在进行。
在国外,Meta、OpenAI 都曾陷入版权纠纷。
去年 4 月底,《纽约每日新闻》《芝加哥论坛报》等美国八家知名报纸联合起诉 OpenAI 和微软,指控它们未经允许使用数百万篇版权新闻文章训练其 AI 聊天机器人。为此,OpenAI 与 Politico、《大西洋月刊》《时代》《金融时报》等新闻出版商达成付费协议,来使用并引用版权新闻文章。
早在 2023 年 5 月,OpenAI 首席执行官奥特曼便公开承认,AI 公司在不久的将来会耗尽互联网上所有的数据。2024 年 6 月,研究机构 Epoch AI 也发布研究预测,可用于 AI 语言模型公开训练的数据,将在 2026 年到 2032 年间,被科技公司耗尽。
对于大模型创企来说,高质量的数据永远稀缺,大模型公司间的算力战、应用战,也将拓展到数据战。
只是 OpenAI 的诉讼或许传达出了明确的信号,高质量的训练数据不是免费的。对于大模型创企而言,不像 Meta、BAT 等公司,早已积累起近 20 年的社交媒体数据,它们或许只能“花钱开路”。
不过,想要解决版权这个绊脚石,大模型公司们需要回答一个问题,钱从哪里来?
对于尚未盈利的大模型创企而言,投资人的钱袋子越来越紧了。
根据字母榜统计,大模型六小虎(包括零一万物、MiniMax、百川智能、智谱 AI、阶跃星辰、月之暗面)中,2024 年有五家拿到亿元级融资。目前,智谱、月之暗面、百川智能、阶跃星辰的估值均已超 200 亿元。
但根据《智能涌现》报道,随着估值跨上 200 亿元台阶,国内大模型公司最新的单轮次融资规模将卡在 50 亿元左右。即估值越高,融资越难。根据华兴资本数据,2024 年前三季度国内全市场投融资总额为 2603 亿元,不及近三年同期的 40%。
以月之暗面为例,2024 年 2 月份 A+ 轮完成超 10 亿美元融资,投后估值一路涨至 25 亿美元。随后的 8 月,首轮参投的小红书、美团龙珠、红杉中国已不见身影,月之暗面 B 轮的融资额为超 3 亿美元。风波中的 MiniMax,则在去年 3 月拿到 6 亿美元 B 轮融资后,暂未等来新的融资消息。
对于大模型创企们而言,“等钱开干”的紧迫性无异于等米下锅。
等来的数十亿元融资,大模型创企不仅要分给持续堆参数的模型训练,还要分给需要上亿元投流烧钱营销的 AI 应用,能留给大模型购买版权的钱,并不富裕。
而大模型创企的灵魂拷问远不止版权纠纷这一点,高昂的研发投入和颇为有限的商业变现,才是悬在“六小虎”头顶的达摩克利斯之剑。
马斯克曾估算,GPT-5 的训练成本是 3 万 -5 万张 H100,仅芯片成本就超过 7 亿美元(约合 50 亿元)。目前六小虎的收入均未透露,仅根据外媒爆料,MiniMax 预计年收入 7000 万美元。目前看来,哪怕是已经在海外靠 Talkie 赚到钱的 MiniMax,也难以在短期内实现营收打正。
大模型水温转凉,最先感知到的或许是扑腾其中的从业者。
“有一家大模型公司裁员后人数已经降到 500 人,另一家直接放弃了预训练和 C 端市场,剩下的几家几乎进入静默状态,不再开放 HC(招聘名额)了。”
陈临告诉字母榜,2024 年年底几乎已经拿不到 70w+ 的 AI offer 了。2023 年只要有 AI 相关经验,就能有面试机会,现在过去一年,不仅要求有落地经验,涨薪幅度也打了折扣。目前除了北京之外,其他城市的 AI 岗位招聘也是少的可怜。
可以肯定的是,2025 年想要继续留在牌桌上的大模型创企们,在模型训练过程中为版权付费只是第一步,降本不是长久之计,想法子赚钱增效,才是关键。
(文中陈临为化名)
中国 AIGC 产业应用峰会回顾
2024 年 1 月 5 日,【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。
大会汇集行业资深专家及领军企业,共同聚焦 AIGC 领域,围绕当下热点话题进行深度延展,探讨行业激烈竞争下的运营新思路、发展新模式!点击文章,回顾精彩内容~
AI 新智界园区开放合作啦!
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。