当我们回看 23 年中至今,高额融资主要集中在游戏我们曾讨论过 AI 和 Web3 能够如何各取所长,在计算网络、代理平台和消费应用等各个垂直产业上相辅相成。当聚焦在数据资源这一垂直领域,Web 新兴代表项目为数据的获取,共享和利用提供了新的可能性。
撰文:IOSG Ventures
我们曾讨论过 AI 和 Web3 能够如何各取所长,在计算网络、代理平台和消费应用等各个垂直产业上相辅相成。当聚焦在数据资源这一垂直领域,Web 新兴代表项目为数据的获取,共享和利用提供了新的可能性。
数据已成为各行业创新和决策的关键驱动。UBS 预测全球数据量预计将在 2020 年至 2030 年间增长超过十倍达到 660 ZB,到 2025 年,全球每人每天将产生 463 EB(Exabytes,1EB=10 亿 GB)的数据。数据即服务(DaaS)市场在快速扩张,根据 Grand View Research 的报告,全球 DaaS 市场在 2023 年的估值为 143.6 亿美元,预计到 2030 年将以 28.1% 的复合年增长率增长,最终达到 768 亿美元。这些高增长的数字背后是多个产业领域对高质量、实时可信赖数据的需求。
AI 模型训练依赖大量数据输入,用于识别模式和调整参数。训练后也需要数据集测试模型的性能和泛化能力。此外,AI agent 作为未来可预见的新兴智能应用形式, 需要实时可靠的数据源,以确保准确的决策和任务执行。
(Source: Leewayhertz)
商业分析的需求也在变得多样和广泛,并成为驱动企业创新的核心工具。比如社交媒体平台和市场研究公司需要可靠的用户行为数据来制定策略和洞察趋势, 整合多个社交平台的多元数据, 构建更全面的画像。
对于 Web3 生态,链上也需要可靠真实数据来支持一些新型金融产品。随着越来越多新型资产在被通证化,需要灵活且可靠的数据接口,以支持创新产品的开发和风险管理,让智能合约可以基于可验证的实时数据执行。
除了以上,还有科研,物联网 (IoT) 等等。新用例表面各行业对于多样、真实、实时的数据需求激增,而传统系统可能难以应对快速增长的数据量和不断变化的需求。
典型的数据生态系统包括数据收集、存储、处理、分析和应用。中心化模式的特点是数据集中收集并存储、由核心企业 IT 团队管理运维, 并实施严格的访问控制。
比如谷歌的数据生态系统涵盖了从搜索引擎、Gmail 到 Android 操作系统等多个数据源,通过这些平台收集用户数据, 存储在其全球分布的数据中心, 然后使用算法处理和分析,以支撑各种产品和服务的开发与优化。
在金融市场里举例,数据和基础设施 LSEG(前 Refinitiv)则通过从全球交易所、银行和其他主要金融机构获取实时和历史数据,同时利用自有的 Reuters News 网络收集市场相关新闻,运用专有算法和模型生成分析数据和风险评估作为附加产品。
(Source: kdnuggets.com)
传统数据架构在专业服务方面有效,但集中化模式的局限性日益明显。特别是在新兴数据源的覆盖、透明度和用户隐私保护方面,传统数据生态系统正面临挑战。这里例举几个方面:
比如 2021 年 GameStop 事件就揭示了传统金融数据提供商在分析社交媒体情绪时的局限性。Reddit 等平台上的投资者情绪迅速改变了市场走势,但像 Bloomberg 和 Reuters 这样的数据终端未能及时捕捉到这些动态,导致市场预测滞后。
除此以外,还有成本效率、灵活性等问题。传统数据商正在积极应对这些挑战, 但异军突起的 Web3 技术为解决这些问题提供了新的思路和可能性。
自 2014 年 IPFS(InterPlanetary File System)等去中心化存储方案发布以来,业界涌现出一系列新兴项目,致力于解决传统数据生态的局限性。我们看到去中心化数据解决方案已经形成了一个多层次、相互连接的生态系统,涵盖了数据生命周期的各个阶段,包括数据生成、存储、交换、处理与分析、验证与安全,以及隐私与所有权。
随着数据交换和利用的日益频繁,数据的真实性、可信度和隐私保护成为了不可忽视的关键问题。这促使 Web3 生态系统将创新延伸到了数据验证和隐私保护领域,催生了一系列突破性的解决方案。
许多 web3 技术及原生项目正致力于解决数据真实性和私有数据保护问题。除了 ZK,MPC 等技术发展被广泛应用,其中传输层安全协议公证(TLS Notary)作为一种新兴的验证方法尤其值得关注。
TLS Notary 简介
传输层安全协议(TLS)是一种广泛用于网络通信的加密协议,旨在确保客户端和服务器之间的数据传输的安全性、完整性和保密性。它是现代网络通信中常见的加密标准,被用于 HTTPS、电子邮件、即时通讯等多个场景。
(TLS 加密原理, Source:TechTarget)
十年前诞生之际,TLS Notary 的最初目标是通过在客户端 (Prover)、服务器以外引入第三方「公证人」来验证 TLS 会话的真实性。
使用密钥分割技术,TLS 会话的主密钥被分为两部分,分别由客户端和公证人持有。这种设计允许公证人作为可信第三方参与验证过程,但不能访问实际通信内容。这种公证机制旨在检测中间人攻击、防止欺诈性证书,确保通信数据在传输过程中没有被篡改,并允许受信任的第三方确认通信的合法性,同时保护通信隐私。
由此,TLS Notary 提供了安全的数据验证,并有效平衡了验证需求和隐私保护。
在 2022 年, TLS Notary 项目由以太坊基金会的隐私和扩展探索 (PSE) 研究实验室重新构建。新版本的 TLS Notary 协议从头开始用 Rust 语言重写, 融入了更多先进的加密协议(如 MPC), 新的协议功能允许用户向第三方证明他们从服务器接收到的数据的真实性,同时不泄露数据内容。在保持原有 TLS Notary 核心验证功能的同时,大幅提升了隐私保护能力,使其更适合当前和未来的数据隐私需求。
近年 TLS Notary 技术也在持续演进,在基础上发展产生了多个变体,进一步增强了隐私和验证功能:
Web3 项目们使用这些加密技术来增强数据验证和隐私保护,打破数据垄断,解决数据孤岛和可信传输问题,让用户得以不泄露隐私地证明如社媒账号拥有权、用以金融借贷的购物记录,银行信用记录、职业背景和学历认证等信息,比如:
(Projects working on TLS Oracles, Source: Bastian Wetzel)
Web3 数据验证作为数据生态链条上的一个重要环节,应用前景十分广阔,其生态的兴荣正引导着一个更开放、动态和以用户为中心的数字经济。然而,真实性验证技术的发展仅仅是构建新一代数据基础设施的开始。
一些项目则结合上述的数据验证技术,在数据生态的上游,即数据溯源、数据的分布式采集和可信传输上做出更深入的探索。下面重点讨论几个代表性项目:OpenLayer,Grass 和 Vana,它们在构建新一代数据基础设施方面展现出独特的潜力。
OpenLayer 是 a16z Crypto 2024 春季加密创业加速器项目之一,作为首个模块化的真实数据层,致力于提供一个创新的模块化解决方案,用于协调数据的收集、验证和转换,以同时满足 Web2 和 Web3 公司的需求。OpenLayer 已吸引了包括 Geometry Ventures、LongHash Ventures 在内的知名基金和天使投资者的支持。
传统数据层存在多重挑战:缺乏可信验证机制,依赖中心化架构导致访问性受限,不同系统间的数据缺乏互操作性和流动性,同时也没有公平的数据价值分配机制。
一个更加具象化的问题是,当今 AI 训练数据正变得日益稀缺。在公共互联网上,许多网站开始通过反爬虫限制措施来防止 AI 公司大规模抓取数据。
而在私密专有数据方面,情况则更为复杂,许多有价值的数据由于其敏感性质而以隐私保护的方式存储,缺乏有效的激励机制。在这种现状下,用户无法安全地通过提供私人数据获得直接收益,因此不愿意共享这些敏感数据。
为了解决这些问题,OpenLayer 结合数据验证技术搭建了一个模块化真实数据层(Modular Authentic Data Layer),并以去中心化 + 经济激励的方式来协调数据收集、验证和转换过程,为 Web2 和 Web3 公司提供一个更安全、高效率、灵活的数据基础设施。
4.1.1OpenLayer 模块化设计的核心组件
OpenLayer 提供了一个模块化的平台以简化数据的收集、可信验证和转换过程流程:
a) OpenNodes
OpenNodes 是 OpenLayer 生态系统中负责去中心化数据收集的核心组件,通过用户的移动应用、浏览器扩展等渠道收集数据,不同的运营商 / 节点可以根据其硬件规格执行最适合的任务而优化回报。
OpenNodes 支持三种主要的数据类型,以满足不同类型任务的需求:
开发者可以轻松添加新的数据类型,指定新的数据源,需求和数据检索方法, 用户可以选择提供去识别化的数据以换取奖励。这种设计使得系统可以不断扩展以适应新的数据需求,多样化的数据源使得 OpenLayer 能够为各种应用场景提供全面的数据支持,也降低了数据提供的门槛。
b) OpenValidators
OpenValidators 负责收集之后的数据验证,允许数据消费者确认用户提供的数据与数据源的完全匹配。所有提供的验证方法可以进行加密证明的, 验证结果可以在事后被证实。同一类型的证明,有多个不同的提供商提供服务。开发者可以根据自己的需求选择最适合的验证提供商。
在初始用例中,特别是针对来自互联网 API 的公共或私有数据, OpenLayer 以 TLSNotary 作为验证解决方案,从任何 Web 应用程序导出数据,并在不损害隐私的情况下证明数据的真实性。
不局限于 TLSNotary,得益于其模块化设计, 验证系统可以轻松接入其他验证方法,以适应不同类型的数据和验证需求包括但不限于:
c) OpenConnect
OpenConnect 是 OpenLayer 生态系统中负责数据转换,实现可用性的核心模块,处理来自各种来源的数据, 确保数据在不同系统间的互操作性,以满足不同应用的需求。例如:
对于来自用户私人账户的数据,OpenConnect 提供了数据脱敏功能以保护隐私,也提供了组件来增强数据共享过程中的安全性,减少数据泄露和滥用。为了满足 AI 和区块链等应用对实时数据的需求, OpenConnect 支持高效的实时数据转换。
当下,通过和 Eigenlayer 的集成,OpenLayer AVS 运营商监听数据请求任务,负责抓取数据并进行验证,然后将结果报告回系统,通过 EigenLayer 质押或重质押资产,为其行为提供经济担保。如恶意行为被证实,将面临质押资产被罚没的风险。作为 EigenLayer 主网上最早的的 AVS( 主动验证服务 ) 之一,OpenLayer 已经吸引了超过 50 个运营商和 40 亿美元的再质押资产。
总的来说,OpenLayer 所构建的去中心化数据层在不牺牲实用性和效率的前提下,扩展了可用数据的范围和多样性, 同时通过加密技术和经济激励,确保了数据的真实性和完整性。其技术对于寻求获取链下信息的 Web3 Dapp、需要用真实输入来训练和推断的 AI 模型,以及希望根据现有身份和声誉来细分和定位用户的公司都有广泛的实际用例。用户也得以价值化他们的私有数据。
Grass 是由 Wynd Network 开发的旗舰项目,旨在创建一个去中心化的网络爬虫和 AI 训练数据平台。在 2023 年末,Grass 项目完成了由 Polychain Capital 和 Tribe Capital 领投的 350 万美元种子轮融资。紧接着,在 2024 年 9 月,项目又迎来了由 HackVC 领投的 A 轮融资,Polychain、Delphi、Lattice 和 Brevan Howard 等知名投资机构也参与其中。
我们提到 AI 训练需要新的数据敞口,而其中一个解决方案是使用多 IP 来突破数据访问的权限,为 AI 进行数据喂养。Grass 由此出发,创造了一个分布式爬虫节点网络, 专门致力于以去中心化物理基础设施的方式,利用用户的闲置带宽为 AI 训练收集并提供可验证数据集。节点通过用户的互联网连接路由 web 请求, 访问公开网站并编译结构化数据集。它使用边缘计算技术进行初步数据清理和格式化,提高数据质量。
Grass 采用了 Solana Layer 2 Data Rollup 架构,建立在 Solana 之上以提高处理效率。Grass 使用验证器接收、验证和批处理来自节点的 web 交易,生成 ZK 证明以确保数据真实性。验证后的数据存储在数据账本 (L2) 中,并链接到相应的 L1 链上证明。
4.2.1 Grass 主要组件
a) Grass 节点
与 OpenNodes 类似,C 端用户安装 Grass 应用或浏览器扩展并运行, 利用闲置带宽进行网络爬虫操作, 节点通过用户的互联网连接路由 web 请求, 访问公开网站并编译结构化数据集,使用边缘计算技术进行初步数据清理和格式化。用户根据贡献的带宽和数据量获得 GRASS 代币奖励。
b) 路由器 (Routers)
连接 Grass 节点和验证器,管理节点网络并中继带宽。Routers 被激励运营并获得奖励,奖励比例与通过其中继的总验证带宽成正比。
c) 验证器 (Validators)
接收、验证和批处理来自路由器的 web 交易, 生成 ZK 证明,使用独特的密钥集来建立 TLS 连接,为与目标 web 服务器的通信选择适当的密码套件。Grass 目前采用中心化验证器,未来计划转向验证器委员会。
d) ZK 处理器 (ZK Processor)
接收来自验证者的生成每个节点会话数据的证明,批处理所有 web 请求的有效性证明并提交到 Layer 1(Solana)。
e) Grass 数据账本(Grass L2)
存储完整的数据集,并链接到相应的 L1 链(Solana)上证明。
f) 边缘嵌入模型
负责将非结构化 web 数据转换为可用与 AI 训练的结构化模型。
Source:Grass
分析对比 Grass 和 OpenLayer
OpenLayer 和 Grass 都利用分布式网络为公司提供了访问开放互联网数据和需要身份验证的封闭信息的机会。以激励机制促进了数据共享和高质量数据的生产。两者都致力于创造一个去中心化数据层(Decentralized Data Layer)以解决数据获取访问和验证的问题, 但采用了略有不同的技术路径和商业模式。
技术架构的不同
Grass 使用 Solana 上的 Layer 2 Data Rollup 架构, 目前采用中心化的验证机制, 使用单一的验证器。而 Openlayer 作为首批 AVS,基于 EigenLayer 构建, 利用经济激励和罚没机制实现去中心化的验证机制。并采用模块化设计,强调数据验证服务的可扩展性和灵活性。
产品差异
两者都提供了类似的 To C 产品,允许用户通过节点进行数据的价值变现。在 To B 用例上,Grass 提供了一个有趣的数据市场模型,并使用 L2 来可验证地存储完整的数据,来为 AI 公司提供结构化、高质量、可验证的训练集。而 OpenLayer 并没有暂时专用的数据存储组件,但提供更广泛的实时数据流验证服务(Vaas),除了为 AI 提供数据,也适用于需要快速响应的场景,比如作为 Oracle 为 RWA/DeFi/ 预测市场项目喂价,提供实时社交数据等等。
因此,如今 Grass 的目标客户群主要面向 AI 公司和数据科学家,提供大规模、结构化的训练数据集,也服务于需要大量网络数据集的研究机构和企业;而 Openlayer 则暂时面向需要链下数据源的链上开发者,需要实时、可验证的数据流的 AI 公司,以及支持创新的用户获取策略,如验证竞品使用历史的 Web2 公司。
未来的潜在竞争
然而,考虑到行业发展趋势, 两个项目的功能确实有可能在未来趋同。Grass 不久后可能也将提供实时的结构化数据。而 OpenLayer 作为一个模块化平台,未来也有可能扩展到数据集管理拥有自己的 data ledger, 因此两者的竞争领域可能会逐渐重叠。
并且,两个项目都可能会考虑加入数据标注 (data labelling) 这一关键环节。Grass 在这方面可能会更快推进, 因为他们拥有庞大的节点网络 - 据报道已超过 220 万个活跃节点。这一优势使 Grass 有潜力提供基于人类反馈的强化学习 (RLHF) 服务,利用大量标注数据来优化 AI 模型。
然而,OpenLayer 凭借其在数据验证和实时处理方面的专长, 其在私人数据的专注,可能会在数据质量和可信度方面保持优势。此外,OpenLayer 作为 Eigenlayer 的 AVS 之一, 可能在去中心化验证机制上有更深入的发展。
尽管两个项目可能在某些领域展开竞争, 但它们各自的独特优势和技术路线也可能导致它们在数据生态系统中占据不同的利基市场。
(Source:IOSG, David)
作为一个以用户为中心的数据池网络,Vana 同样致力于为 AI 和相关应用提供高质量数据。相比 OpenLayer 和 Grass,Vana 采用了更不同的技术路径和商业模式。Vana 在 2024 年 9 月完成 500 万美元融资,由 Coinbase Ventures 领投,此前获得 Paradigm 领投的 1800 万美元 A 轮融资,其他知名投资者包括 Polychain, Casey Caruso 等。
最初于 2018 年作为 MIT 的一个研究项目启动,Vana 旨在成为一个专门为用户私有数据设计的 Layer 1 区块链。其在数据所有权和价值分配上做出的创新使用户能够从基于其数据训练的 AI 模型中获利。Vana 的核心在于通过无需信任、私密且可归因的数据流动性池(Data Liquidity Pool)和创新的 Proof of Contribution 机制来实现私人数据的流通和价值化:
4.3.1. 数据流动性池(Data Liquidity Pool)
Vana 引入了一个独特的数据流动性池(DLP)概念:作为 Vana 网络的核心组件,每个 DLP 都是一个独立的点对点网络,用于聚合特定类型的数据资产。用户可以将他们的私人数据(如购物记录、浏览习惯、社交媒体活动等)上传至特定 DLP,并灵活选择是否将这些数据授权给特定的第三方使用。数据通过这些流动性池被整合和管理,这些数据经过去识别化处理,确保用户隐私的同时允许数据参与商业应用,例如用于 AI 模型训练或市场研究。
用户向 DLP 提交数据并获得相应的 DLP 代币(每一个 DLP 都有特定的代币)奖励,这些代币不仅代表用户对数据池的贡献,还赋予用户对 DLP 的治理权和未来利润分配权。用户不仅可以分享数据,还可以从数据的后续调用中获取持续的收益(并提供可视化追踪)。与传统的单次数据售卖不同,Vana 允许数据持续参与经济循环。
Vana 的另一核心创新之一是 Proof of Contribution(贡献证明)机制。这是 Vana 确保数据质量的关键机制,让每个 DLP 可以根据其特性定制独特的贡献证明函数,以验证数据的真实性和完整性,并评估数据对 AI 模型性能提升的贡献。这一机制确保用户的数据贡献得到量化和记录,从而为用户提供奖励。与加密货币中的「工作量证明」(Proof of Work)类似,Proof of Contribution 根据用户贡献的数据质量、数量以及被使用的频次来为用户分配收益。通过智能合约自动执行,确保贡献者获得与其贡献匹配的奖励。
Vana 的技术架构
这是 Vana 的核心层,负责数据的贡献、验证和记录到 DLPs,将数据作为可转移的数字资产引入链上。DLP 创建者部署 DLP 智能合约,设定数据贡献目的、验证方法和贡献参数。数据贡献者和托管者提交数据进行验证,贡献证明(PoC)模块会执行数据验证和价值评估,根据参数给予治理权和奖励。
这是数据贡献者和开发者的开放数据平台,也是 Vana 的应用层。Data Portability Layer 为数据贡献者和开发者提供一个协作空间,以使用 DLPs 中积累的数据流动性构建应用。为 User-Owned 模型分布式训练,AI Dapp 开发提供基础设施。
一个去中心化账本,也是一个贯穿整个 Vana 生态系统的实时数据流图,使用权益证明共识(Proof of Stake)记录 Vana 生态系统中的实时数据交易。确保 DLP 代币的有效转移并为应用提供跨 DLP 数据访问。与 EVM 兼容,允许与其他网络、协议和 DeFi 应用程序互操作。
(Source:Vana)
Vana 提供了一条较为不同的路径,专注于用户数据的流动性和价值赋能,这种去中心化的数据交换模式不仅适用于 AI 训练、数据市场等场景,也为 Web3 生态系统中用户数据的跨平台互通与授权提供了一个新的解决方案,最终创建一个开放的互联网生态系统,让用户拥有并管理自己的数据,以及由这些数据创造的智能产品。
数据科学家克莱夫·哈姆比(Clive Humby)在 2006 年说过数据是新时代的石油。近 20 年间,我们见证了「提炼」技术的飞速发展。大数据分析、机器学习等技术使得数据价值得到了空前释放。根据 IDC 的预测,到 2025 年,全球数据圈将增长到 163 ZB,其中大部分将来自个人用户,随着 IoT、可穿戴设备、AI 与个性化服务等新兴科技的普及,未来大量需要商用的数据将也将来源于个人。
传统方案的痛点:Web3 的解锁创新
Web3 数据解决方案通过分布式节点网络,突破了传统设施的局限,实现了更广泛、更高效的数据采集,同时提升了特定数据的实时获取效率和验证可信度。在此过程中,Web3 技术确保了数据的真实性和完整性,并能有效保护用户隐私,从而实现更公平的数据利用模式。这种去中心化的数据架构,推动了数据获取的民主化。
不管是 OpenLayer 和 Grass 的用户节点模式,还是 Vana 通过用户私有数据的货币化,除了提高特定数据采集的效率,也让普通用户共享数据经济的红利,创造一种用户与开发者双赢的模式,让用户真正掌控和获益于他们的数据和相关资源。
通过代币经济,Web3 数据方案重新设计了激励模型,创造了一个更加公平的数据价值分配机制。吸引了大量用户、硬件资源与资本的注入,从而协调并优化了整个数据网络的运行。
比起传统数据解决方案,它们也拥有模块化与可扩展性:比如 Openlayer 的模块化设计,为未来的技术迭代和生态扩展提供了灵活性。得益于技术特性,优化 AI 模型训练的数据获取方式,提供更丰富、更多样化的数据集。
从数据生成、存储、验证到交换与分析,Web3 驱动的解决方案通过独有技术优势解决者传统设施的诸多弊端,同时也赋予用户对个人数据的变现能力,引发数据经济模式的根本转变。随着技术进一步发展演进和应用场景的扩大,去中心化数据层有望和其他 Web3 数据解决方案一起,成为下一代关键基础设施,为广泛的数据驱动型产业提供支持。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。