爆米花独角兽独家整理翻译
前言
圆桌系列是爆米花独角兽独家整理了 16(17)家来自全球范围内的 VC 发表关于他们对 AI 赛道投资的理解。
这是第十一篇《美国硅谷银行:“构建数据”的价值远超“大数据”》
其他圆桌系列,
《圆桌 | 德国 Cherry Venture 的 AI 投资理念》
《圆桌 | 美国 Flybridge 投资理念:人工智能的未来》
《圆桌 | 中东欧 Movens Capital 的 AI 投资理念》
《圆桌 | 印度 Pentathlon 谈 AI SaaS 的愿景》
《圆桌 | 阿联酋 Terra Nova :AI 数据需求的三个类别》
《圆桌 | 美国 Montage VC:硅谷富豪的长寿特权》
💡SVB 简介💡
硅谷银行(Silicon Valley Bank,简称 SVB)是一家专注于为初创企业和风险投资公司提供金融服务的银行。成立于 1983 年,总部位于加利福尼亚州圣克拉拉,是 SVB 金融集团(SVB Financial Group)的一部分。截至 2022 年底,SVB 的总资产约为 2117 亿美元,是美国第 16 大银行。
SVB 金融集团通过其子公司 SVB Capital 专注于风险投资业务。SVB Capital 成立于 1998 年,目前管理着约 55 亿美元的基金。该机构在全球范围内管理着超过 10 亿美元的基金,并且在中国也设有直投基金。SVB Capital 团队由 22 名投资专业人士组成,其中包括 8 名管理合伙人,由高级管理合伙人 Julia Feldman 领导。
SVB Capital 的投资组合包括直接投资基金和基金中的基金,主要投资于科技、生命科学和医疗保健领域的公司。此外,SVB Capital 还通过其直接投资部门参与了多个直接投资活动。
💡 构建数据简介💡
“构建数据”通常指的是在数据管理和分析过程中创建和组织数据结构的过程。这一过程涉及多个方面,包括数据建模、数据仓库的构建以及数据层的设计等。
数据建模简介
数据建模是创建可视化表示或定义信息收集与管理系统的蓝图的过程。它帮助不同利益相关者(如数据分析师和工程师)建立统一的数据视图,概述企业收集的数据、数据集之间的关系,以及存储和分析数据的方法。
数据仓库构建
构建数据仓库是为了集中存储和管理来自不同源的数据,以便进行有效的数据分析和报告。这个过程通常包括识别源数据、对其进行建模、设计数据库结构,以及确保数据质量和一致性。
数据层设计
在应用程序开发中,构建数据层是指建立一个用于管理应用数据的架构层。这个层次不仅管理数据的创建、存储和更新,还包含业务逻辑,以确保应用程序能够有效地处理和展示信息
💡摘要💡
尽管人工智能(AI)领域在基础设施和模型层面的投资和炒作众多,但阻碍 AI 全面发挥潜力的真正瓶颈在于数据——即需要更优质、清晰、组织良好的数据来训练模型,从而实现跨行业的“ChatGPT”式应用。SVB Capital 的合伙人 Dave Mullen 详细阐述了“构建数据”——作为下一代大数据的创新概念——为何将成为全球企业释放 AI 潜力的关键驱动因素。围绕“构建数据”展开的数据创新,使 AI 具备了前所未有的准确性和适应性,从而为该领域带来了数十亿美元的巨大价值。
01.
Dave Mullen 的核心观点
为何数据将比基础设施和 AI 模型的进步更关键?
●企业采用 AI 的一个主要瓶颈在于它们利用数据的能力。随着各类组织纷纷制定 AI 战略,提升内部数据及其外部数据的质量、全面性和适用性显得尤为重要。Mullen 指出:“很多情况下,企业可获取的数据是分散的、非结构化的、缺乏组织,且受制于合规要求而难以集中管理。”他认为,“构建数据”将赋予组织更大的数据能力。如今,专有数据成为竞争优势的关键,无法利用这些数据推动 AI 战略无疑是一个重大问题。企业采用 AI 的一个主要瓶颈在于它们利用数据的能力。随着各类组织纷纷制定 AI 战略,提升内部数据及其外部数据的质量、全面性和适用性显得尤为重要。Mullen 指出:“很多情况下,企业可获取的数据是分散的、非结构化的、缺乏组织,且受制于合规要求而难以集中管理。”他认为,“构建数据”将赋予组织更大的数据能力。如今,专有数据成为竞争优势的关键,无法利用这些数据推动 AI 战略无疑是一个重大问题。
“在专有数据成为组织竞争优势的背景下,无法利用数据推动 AI 战略是一大难题。”
—— Dave Mullen
●数据从原始状态到 AI 应用的转化过程中存在复杂性,这为新一代价值数十亿美元的公司创造了机会。许多 CEO 和 CIO 面对如何启动数据到 AI 的转化过程感到不确定,因此市场急需能弥合数据与 AI 之间差距的解决方案。“Snowflake 等公司的成功表明,满足企业数据需求已创造了巨大价值,包括数据存储、处理、共享和分析。随着企业越来越注重利用数据支持定制 AI 应用,整个数据价值链中蕴含的市场机会逐渐显现,足以支撑数十亿美元的商业价值。”
💡Snowflake 简介💡
Snowflake Inc.(股票代码:SNOW)是一家成立于 2012 年的美国公司,总部位于蒙大拿州博兹曼。
Snowflake 的产品包括基于云的数据仓库基础设施、数据分析服务和数据共享平台。这些产品使企业能够集中存储、安全地管理和分析数据,从而避免了多个副本和版本更新问题。
截至 2024 年 9 月,Snowflake 的市值约为 650 亿美元。Snowflake 的投资人包括知名投资者如伯克希尔·哈撒韦公司,红杉资本、Salesforce Ventures 等。
什么是“构建数据”?其将如何影响 AI 价值链的核心领域?
●“构建数据”可以视作大数据的进化版——更大规模、更强大且更智能。通过管理高度本地化、结构良好的数据集,组织可以实现更高效的 AI 应用,将原始数据转化为具影响力的 AI 商业应用。“构建数据”也是更广泛的“杠铃战略”的核心。
●Mullen 提出的“杠铃战略”框架用于评估 AI 技术堆栈中最具价值的领域:
大数据:杠铃的一端是数据,作为实现更大规模、高性能 AI 模型的机制。这包括清理、组织、分类、增强和标注数据的功能,以及管理 AI 特有的威胁因素(如数据中毒和恶意提示注入)的合规性和安全性。
商业应用:杠铃的另一端是商业 AI 应用,这些应用与“构建数据”交互,构建变革性 AI 解决方案,从而释放巨大企业价值。企业优先考虑入职、风险管理、决策和客户支持等 AI 应用,以实现业务优化。
基础设施和模型构建层:在数据和商业应用之间的基础设施和 LLM 构建层中,“构建数据”所带来的机会相对不太明显。Mullen 指出:“我们认识到基础设施层的价值,但考虑到该层的高资本密集度及其高估可能性,我们认为‘构建数据’和商业应用在创造价值方面具有显著的 Alpha 优势。”
最具前景的商业模式如何利用或支持企业的“构建数据”?
●在杠铃的“构建数据”端,数据流经价值链时带来的安全和治理需求尤为显著,尤其是在应对数据中毒和恶意提示注入等威胁时。
●尽管特定行业的商业应用有机会解决如银行和医疗的挑战,但最大的潜力在于帮助各行业企业充分利用自身数据。这些公司将来自一个行业的洞察应用到其他行业,提升 AI 驱动解决方案的适用性和有效性。典型的示例包括:
Hyperplane,一个数据智能平台,起步于金融领域,释放第一方数据的潜力。通过集中式智能,Hyperplane 帮助银行更好地建模、理解并与客户互动。其超个性化功能使银行能够根据客户的财务需求定制服务,从而提升客户满意度、参与度,并最终建立更有利可图的数字关系。“Hyperplane 的智能层甚至可将银行的洞察延伸至保险和电子商务产品,”Mullen 补充道。
Chalk,一个用于实时数据查询的基础设施平台,支持跨部门无缝整合新的内部和外部数据。在模型构建中确保数据安全的同时,Chalk 的预构建库满足 80% 的通用数据需求,并可根据行业特定需求(如金融和农业的隐私法规)提供进一步定制。
Sixfold,一个生成式 AI 助手,支持保险行业的大量保单开户管理。Sixfold 可将内部风险框架实时应用到策略中,从而具备跨行业应用潜力,如入职流程的横向扩展。
Ketch,一个专注于在线隐私和数据合规的平台,帮助企业在不同业务单元和地理区域间确保数据的合规使用。无论是美国的数据治理要求,还是英国的法规合规,Ketch 都提供全面解决方案,降低法律风险并保护敏感信息。
5.Unstructured, 一个管理 LLM 与非结构化数据集成的解决方案,能够提取和转换常见的复杂数据格式(如 HTML、PDF、CSV、PNG、PPTX)以供矢量数据库和 LLM 框架使用,适用于企业中约 80% 的非结构化数据。
●商业应用程序可借助“构建数据”支持金融服务、供应链、气候科技、环境资产和保险等领域的 AI 转型:
在金融服务领域,数据量之庞大和 AI 应用潜力使其在众多类别中尤为突出。许多企业正在构建 OpenAI 和 Anthropic 等专有模型,或选择开源替代方案以满足隐私和安全需求。尽管多数企业不准备自行构建 LLM,但部分企业强调特定任务的专用模型开发。金融服务公司优先解决代码清理、客户支持、引导、个性化和欺诈检测等关键任务,以保持竞争力。
数据平台将成为气候技术和环境资产管理的基础。地理空间数据的应用使气候监测、实时天气模式分析、公司温室气体排放评估成为可能。Treefera——一个环境资产管理数据平台——展示了如何利用“构建数据”提升 AI 在供应链托管、合规性以及碳信用评估等多个细分市场的应用价值。
供应链物流在利用 AI 提升运营效率方面具有重要潜力。AI 洞察提供库存、需求波动和物流挑战的实时可见性,助力企业主动决策,减少瓶颈。AI 应用还能促进预测分析和机器学习算法的使用,帮助企业预测需求、优化路线并降低运输成本。
02.
潜在的挑战
●全球数据隐私法规将持续对企业和新数据解决方案提供商构成挑战。Mullen 指出:“围绕隐私和数据安全的法规只会愈发严格,尤其对于面向消费者的业务而言。与此同时,企业在实施 AI 战略前还需加强合规性和数据治理,这是一段漫长的路。”
●数据安全责任的界限不明在高度监管的行业中带来了额外阻力。以开放银行为例,银行不仅对存储的数据负责,还需担负第三方共享数据的责任。然而,银行必须与初创公司及其他未承担同等责任的组织共享数据,从而引发数据泄露时责任分担的不确定性。这些问题短期内难以解决,且将成为这一领域的持续挑战。
●解决方案需兼容本地和云数据环境。本地和云数据存储的动态平衡要求解决方案针对两者进行优化,以便在各自市场取得重要份额,同时应兼顾行业、地域的特定需求。
03.
投资者的见解
作为 A/B 轮的投资者,我寻求已经吸引主流商业买家的机会。通过与技术买家的对话,数据对模型的作用至关重要,从反欺诈到聊天机器人应用,各类企业都意识到去中介化的重要性。正因如此,我认为“构建数据”是一个引人注目的机会——买家意识到问题的存在且准备好投入,但需要工具来填补这一缺口。
这一趋势的加速有诸多迹象。例如,Reddit 的成功 IPO 的核心原则之一便是将训练模型的数据货币化,这或将成为行业标准。Reddit 语料库囊括了 19 年的人类经验,内容按主题分类且具备相关性,对构建会话能力和保持信息时效性至关重要。其他组织能否复制这种模式,将成为“构建数据”崛起的关键节点。
Q&A
问:“构建数据”机会是否涵盖公开数据语料库,或仅限于组织的专有数据集?
答:任何高质量数据都应加以利用。关键在于准备数据供模型使用的过程,包括合规性、数据组织、清理和分类。尽管内部数据未必总是结构化或干净的,但处理外部抓取数据尤其复杂。这需要额外的清理和组织步骤。下一代数据公司在应对这一挑战、整合数据集或增强数据方面将有巨大潜力。
写在最后
敬请期待。
除此之外,如果在阅读本篇时,略有困难,那是因为您尚未阅读他的前述文章,
第一篇《AI 算法分析 94 家海外 AI 独角兽》,我们分析了 2015 年后成立的 6500 家 AI 公司, 并且整理出了 94 家海外 AI 独角兽。
第二篇团队分析《原创研究 | AI 创业:团队决定命运?》。
第三篇机构分析 《AI 投资新格局:科技巨头主导,VC 退居二线》。
第四篇,OpenAI 分析《原创研究 | OpenAI 黑帮使命:从邪恶的 OpenAI 手中拯救人类》。
第五篇中美技术对比《原创研究 | 大国竞争之中美 AI(一)技术篇》。
第六篇中国独角兽分析《大国竞争 | 中美 AI 对比(二)独角兽篇》。
第七篇中国 AI 独角兽点评《人工智能:爆米花独角兽与数字庞氏的交响》。
第八篇国内创业方向分析《大国竞争 | 中美 AI 对比(三) 创业方向和人才来源》。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。