VANA:打破数据孤岛,助力 AI 模型训练
2024-12-16 17:52
初焱
2024-12-16 17:52
订阅此专栏
收藏此文章

在人工智能时代,数据的重要性不言而喻。数据作为 AI 大模型的基础,训练数据源的质量决定了 AI 的能力以及产品用户体验。拥有大量、多维度业务数据的互联网科技巨头,具有场景优势,通过多年互联网平台运行过程中的数据积累以及平台现有的用户使用场景,可以产生大量私有数据,其在模型训练优化上的优势明显。

早期 AI 产品上线后,其依靠自身用户群体与产品交互的反馈对模型进行调优,从而产生数据飞轮效应,持续优化迭代,后期这将会成为 AI 产品的护城河。而 AI 赛道的初创企业却苦于没有足够数量、质量的数据源去训练模型,这种数据壁垒和形成的数据孤岛将会阻碍人工智能的发展。

VANA:打破数据孤岛,用户分享数据价值

早期的互联网百花齐放,涌现出各种颠覆传统行业运营模式的互联网公司,但后来随着行业的发展,头部互联网科技公司开始垄断市场,大型互联网平台掌控着流量入口,拥有大量的用户数据。头部平台可以使用这些用户数据去做算法推荐、信用贷款获取商业价值,Reddit 已通过出售用户生成的内容作为 AI 训练数据获得了 2 亿美元的收益,但产生数据的用户并没有分享到数据的价值和成果。VANA 的出现将打破数据孤岛,让用户拥有数据,共享数据收益。

VANA 是一个开放且去中心化的数据主权协议,作为与 EVM 兼容的 L1,VANA 让用户拥有自己的数据,贡献个人数据分享人工智能产生收益。

VANA 解决 AI 模型训练数据来源的问题

众所周知,互联网科技公司 AI 模型的训练数据来源主要通过爬虫、付费购买以及自身业务沉淀。爬虫数据的优势在于易获取,但数据质量低,清洗难度大;付费购买的数据同质化严重,因为商业竞争的缘故,真正有价值的业务数据源少,这种数据很难给 AI 模型带来差异化优势;业务场景沉淀的数据价值高,但该方式对于初创小微企业不友好。

而 VANA 的数据来源于生态系统中的用户贡献,VANA 生态参与用户向 DataDAO 贡献 X、LinkedIn 等社交媒体或者物联网数据,这些数据都将安全的存储在链下。数据经过验证、清洗标记后应用于 AI 模型的开发。参与的用户贡献数据后可以获得 DataDAO 的治理权,决定数据的使用权,分享数据产生的价值。

VANA 模式的优势

  • 采用去中心化的治理方式,让用户拥有数据的所有权,自主决定数据的使用方式;
  • 用户通过 VANA 可转换成可交易的数据资产,用于去中心人工智能的应用;
  • 通过采用零知识证明(ZKP)和可信执行环境(TEE)保障数据隐私和安全。

VANA 网络构成

VANA 的参与者主要包含贡献数据者 Data Contributors、验证者 Validators、质押者、数据消费者 Data Consumers 以及 DLP(Data Liquidity Pool Creator),也就是 DataDAO。

1、Data Contributors

参与用户可以选择 VANA 网络中成立的 DataDAO 贡献自己的数据,提交的数据链下存储,链上存储贡献证明。以 ChatGPT DataDAO 举例,用户通过邮件请求 OpenAI 导出 ChatGPT 数据,收到邮件回复后将数据和下载链接通过 gptdatadao.org 上传。

2、DataDAO

质押至少价值 100 美金的 VANA 可以创建注册 DataDAO,完成注册后,DataDAO 将会出现在 DataHub 上供数据贡献者选择。为了推动 DataDAO 持续发展,VANA 将为质押 VANA 数据排名前 16 的 DataDAO 提供奖励,前三年质押奖励为代币总量的 15%,每 21 天一个奖励周期,质押解锁需要 7 天。VANA 的奖励数量由质押数量、质押时间、DataDAO 获取奖励的数量决定。DataDAO 需要质押至少 10000VANA 才有机会获取奖励。奖励的 50% 固定归质押者所有,剩余的奖励由 DataDAO 决定是否其用途。

目前已注册创建了 17 个 DataDAO,其中包含专注于 Twitter/X 数据的 Volara、Reddit 的 R/DataDAO 以及 LinkedIn 简历数据的 DLP Labs,已有 14w 名 Reddit 用户加入了 R/DataDAO,现在已经训练了第一个用户拥有的 AI 模型。

3、Validators

验证者负责 Vana Layer 1 区块链的安全性、完整性和功能,确保数据交易得到正确的验证、记录和添加到区块链中,主要包含 L1 Validators 和 Satya Validators。

L1 Validators 负责 VANA 的安全和共识。最少质押 35000 个 VANA 成为 L1 Validators,初始 L1 Validators 为 64 个,后续拓展到 128 个。每个块获得 5VANA,宕机将会受到 10% 的处罚,奖励每年减少 10%。

Satya Validators 提供可信执行环境(TEE)对用户贡献的数据进行验证,并且保证验证过程的数据安全和隐私。从而获得 VANA 奖励。

4、Data Consumers

AI 模型的开发者作为 Data Consumers 选择并购买适合 AI 模型开发需求的数据集访问权限,使用 Vana 的基础设施进行 AI 训练和数据分析,与 DataDAO 合作优化 AI 模型。

以 ChatGPT DataDAO 为例,用户上传下载链接和数据文件都经过加密传输给 Satya Validators。Satya Validators 解密后计算校验,确保用户上传的数据的真实性,没有被篡改。

VANA 代币应用场景及经济模型

1、Validators 质押 VANA 保障网络安全和验证数据获得 VANA 奖励;

2、VANA 作为网络中执行合约、DataDAO 交互等链上操作的 GAS;

3、用户在 DataDAO 质押 VANA,从而获取 VANA 质押奖励;

4、Data Consumers 访问数据时默认使用 VANA;

5、VANA 持有者参与治理,并对提案投票,VANA 作为 DataDAO 发行代币的主要交易对。

VANA 总量上限 1.2 亿个,代币分配如下图所示。

  • Community 社区

主要包含 DataDAO 的高质量数据贡献奖励、早期使用者的空投以及开发人员。TGE 供应 20.3%VANA,没有锁定期。

  • Ecosystem 生态系统

主要包含支持 DataDAO 发行的代币、区块奖励及合作伙伴,TGE 供应 4.8%VANA,并不锁仓。

  • Investors 投资人

Vana 目前已获得总计 2500 万美元的融资,其中 包括 Coinbase Ventures 的 500 万美元战略轮融资、 Paradigm 的 1800 万美元 A 轮融资以及 Polychain 的 200 万美元种子轮融资。

  • Core Contributors 核心开发团队

综上,TGE 时 VANA 的总流通量为 3000w 个,其中包括 binance launchpool 的 480w 个 VANA。

VANA 模式如果在中国存在的法律风险

VANA 这种去中心化 AI 模型数据项目以更加低廉的成本去解决 AI 模型训练的数据问题,让 AI 模型的创业者可以拥有高质量的训练数据,打破大型互联网企业制造的数据孤岛,让腾讯获取阿里用户数据去训练 AI 模型的场景拥有了可能,对一些致力于 AI 模型创业的个人及企业降低了门槛,但这种模式在中国复制可能会存在数据出境的风险。

国家互联网信息办公室发布《数据出境安全评估申报指南 ( 第一版 )》中明确规定数据出境行为包括:

(一)数据处理者将在境内运营中收集和产生的数据传输、存储至境外;

(二)数据处理者收集和产生的数据存储在境内,境外的机构、组织或者个人可以查询、调取、下载、导出;

(三)国家网信办规定的其他数据出境行为。

《中华人民共和国出境入境管理法》第八十九条明确规定,出境是指由中国内地前往其他国家或者地区,由中国内地前往香港特别行政区、澳门特别行政区,由中国大陆前往台湾地区。由此可以看出判断是否出境是以司法辖区为依据。

DataDAO 的创建以及用户贡献数据并没有任何限制,Data Consumers 不需要做 KYC,只要支付 VANA 就可访问收集的数据。在这种情况下,国内用户参与各种 DataDAO 贡献社交媒体、简历数据可能会涉及数据出境。

对于个人数据信息的定义:根据《中华人民共和国网络安全法》第七十六条规定:个人信息,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。

DataDAO 收集的简历、医疗健康数据中会涉及姓名、出生日期、电话号码等个人信息甚至敏感个人信息。《中华人民共和国个人信息保护法》对于这些数据信息的使用以及跨境都有限制规定。

如果您有任何问题,可以关注微信公众号:初焱,联系初焱律师。

添加初焱律师微信
关注初焱律师微信公众号

初焱律师曾任职于全球头部加密资产交易所、区块链安全公司,负责监管合规产品从 0–1 的设计以及加密资产链上数据溯源及调证分析,多次配合司法机关破获某比特币被盗案、某交易所假 APP 钓鱼案等涉币重大刑事案件。办理过北京互联网法院 NFT 数藏第一案、虚拟货币投资理财纠纷案、矿机合同纠纷案以及国内头部链上数据服务商数据合规项目。

主要服务内容:加密资产被盗、被骗等刑事控告以及币圈刑事辩护、银行卡及交易所账户解冻、币圈民事投资理财、矿机合同纠纷等业务。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

初焱
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开