走近 Scale AI:AI 数据标注赛道“独角兽”
2024-05-06 22:06
自从“软件正在吞噬世界”的名言出现,已经超过十年。无论是在购物、娱乐、医疗还是教育领域,软件已经成为几乎每个生活领域的关键组成部分。直到人工智能(AI)和机器学习(ML)开始吞噬软件。这方面的早期例子包括特斯拉的 Autopilot、GitHub Copilot、TikTok 的内容推荐以及人工智能生成的艺术作品。通过减少某些任务所需的时间,如生成初始代码草稿、代码校正和重构、根本原因分析以及生成新的系统设计,生成式人工智能可以直接提高 20-45% 的软件工程生产力。很多人不了解的是,缺乏构建模型所需的组织良好的数据,已成为建立人工智能和机器学习应用程序的一个长期问题。数据缺乏会延长构建 AI 模型所需的时间,并导致应用程序的准确性降低。如果没有强大的数据集来训练这些 AI 应用程序,这些应用程序往往功能会降低,并且更加脆弱。缺乏数据甚至会阻断一些新程序的产生。例如,在医学研究中,由于可用于诊断罕见疾病和病况的数据有限,构建用于识别此类病况的 AI 应用程序通常是困难和不准确的。Scale AI 旨在解决这些问题。Scale AI 的愿景是成为人工智能和机器学习应用程序背后的基础设施。该公司始于用于构建 AI/ML 模型的数据标注和注释。数据标注和数据注释涉及在数据集中标记相关信息或元数据,以便用于训练 ML 模型;要训练和构建任何 ML 算法,模型都需要以正确标记的准确数据为基础。Scale AI 以确保公司有正确标记的数据来构建有效的 ML 模型为核心价值主张。通过构建全面的数据集来训练 AI/ML 应用程序,Scale AI 使开发人员能够构建准确的应用程序,功能也可以得到增强。2016 年,Alexandr Wang(CEO)和 Lucy Guo(联合创始人)共同创立了 Scale AI。Wang 和 Guo 在 Quora 工作时相识。Wang 是一位机器学习爱好者,意识到训练数据对推动人工智能发展的重要性。他在麻省理工学院学习时想出了这个创意,因为他注意到他的同行们尽管接受了培训,却没有构建 AI 产品,原因是缺乏他们构建模型所需的组织良好的数据。他认识到市场上存在一个空白:为了弥合人类和机器学习能力之间的差距,需要准确标记的数据集来训练 AI 模型。Wang 招募了同事兼产品设计师 Lucy Guo,帮助实现这一愿景。团队的使命是构建一个平台,将人类智慧与机器学习算法结合起来,为人工智能创建一个可靠的数据训练系统。当时,AI 开发受到数据标记、注释和质量控制的限制。Wang 和 Guo 于 2016 年创立了 Scale AI,以解决这些限制。Wang 辍学于麻省理工学院,Guo 辍学于卡内基梅隆大学,共同创建了 Scale AI。2016 年 8 月,Scale AI 以 12 万美元的种子轮融资被 Y Combinator 接受。到 2018 年,公司已经显著发展壮大,Wang 和 Guo 都入选了福布斯 30 位 30 岁以下精英榜单。在这个时候,Guo 离开了 Scale AI,共同创立了风投公司 Backend Capital。2022 年,25 岁的 Wang 成为了最年轻的自创亿万富翁。要对 Scale AI 有基本的了解,很重要的是要先理解为任何特定行业垂直领域构建机器学习模型的生命周期。整个路线图始于数据及其来源,然后转向数据工程,这是数据科学的一个组成部分。Scale AI 的核心价值建立在这个生命周期的数据工程组件之上。具体而言,Scale AI 帮助公司进行数据标注和“地面真实”数据的标签化。这里的地面真实数据指的是以预期格式正确标记数据,比如将一张猫的图片标记为“猫”,或者在图像中协助区分狗和猫。Scale AI 通过提供各种产品解决方案来管理 ML 生命周期的每个步骤,包括数据标注、数据管理、自动化数据提取、模型评估和合成数据生成。Scale AI 的主要产品是其数据引擎,公司可用其来构建和训练 ML 算法。数据引擎收集、筛选和标注数据以训练和评估模型。包括 Lyft、Toyota、Airbnb 和通用汽车在内的公司向 Scale AI 支付费用,以获得由人类承包商或 ML 算法标注的高质量标注数据。Scale AI 标注许多不同类型的数据,包括 3D 传感器融合、图像、视频、文本、音频和地图。尽管图像、视频、文本和音频产品可能适用于多个行业,但 3D 传感器融合和地图标注专门用于自动驾驶、机器人技术以及增强现实和虚拟现实(AR/VR)行业。Scale Rapid 是供 ML 团队快速开发生产质量的训练数据的标注平台。它允许用户上传数据、设置标注说明,并在几小时内获得初步标签的反馈和校准,以便快速扩展数据标注过程以处理更大的数据量。Scale AI 提供了标注数据所需的标注员工。Scale Studio 是用于管理公司标注项目和员工的平台。该产品提供了一个工具,用于跟踪和可视化标注员工的指标,并提供 ML 辅助标注工具以加速标注。它跟踪吞吐量、效率和准确性等指标。Scale Studio 和 Scale Rapid 之间的区别在于标注数据的方法。Scale Rapid 要求由 Scale AI 进行标注,而 Scale Studio 要求公司自己提供标注员工。2020 年 8 月,Scale AI 推出了 Nucleus,一款“数据调试 SaaS 产品”。Nucleus 提供了用于理解、可视化、筛选和协作公司数据的高级工具,使团队能够构建更好的 ML 模型。具体来说,Nucleus 允许进行数据探索、调试错误标签、比较不同版本 ML 模型的准确度指标,并找出失败案例。Scale AI 还提供定制的 ML 模型和解决方案服务,包括其 Document AI 产品。Document AI 从数字文档中提取信息。像 Brex 和 Flexport 这样的公司将其用于发票和物流文件。Scale AI 声称,与传统的光学字符识别(OCR)方法相比,Document AI 产生的数据质量更高,延迟更低,有助于节省时间和金钱。Scale Forge 是一款由人工智能驱动的营销套件。该产品使营销人员和创意人员能够生成产品图像、社交媒体广告和生活方式图片。Scale AI 声称这些图像可以在几秒钟内生成。营销人员可以尝试和原型化不同的视觉产品,生成产品图像,并通过高质量的图像提高转化率。
Scale E-Commerce AI 是一款专为电子商务平台打造的产品,用于创建、丰富和增强电子商务目录数据。Scale AI 声称这款产品可以提高用户参与度、可发现性和转化率。该产品使电子商务和零售团队能够从卖家提供的信息源和公共互联网中获取高质量的数据。这款电子商务套件使用注释功能来去除重复项、合并变体、修复不一致之处,并在电子商务平台上纠正错误。Scale Content Understanding 旨在通过丰富内容元数据、发现趋势见解和标记敏感内容来改善业务智能和分析。具体而言,内容理解可以通过完全管理复杂的机器学习功能,如去重、对象识别和欺诈检测,来减少开销。Scale Synthetic 是一款产品,帮助公司生成合成数据,即计算机算法作为真实世界数据替代品生成的注释信息。合成数据提高了机器学习模型的性能,并且获取成本更低。截至 2023 年 9 月,Scale AI 支持生成合成图像、视频和 3D 点云合成数据。然而,合成数据与真实数据之间的领域差距可能不会提高机器学习模型的性能;Scale AI 承认了这一风险。此外,生成 3D 合成数据在计算和人力投入方面成本高昂,尽管这种成本可能会随着时间的推移而降低。Scale Donovan 是一款面向联邦政府的人工智能套件。Donovan 从云端、混合和本地源中摄取数据,对数据进行组织使其可交互,并使操作员和分析师能够对传感器数据提出问题并进行地图 / 模型化。此外,Donovan 生成行动方案、摘要报告和其他可操作见解,以帮助操作员实现任务目标。Scale Spellbook 是 Scale AI 旨在为开发人员打造的产品,用于构建、比较和部署大型语言模型应用程序。Spellbook 于 2022 年 11 月宣布推出。其功能包括扩展 CPU 和 GPU 计算、管理模型部署和 A/B 测试,以及监控实时指标,如正常运行时间、延迟和性能。Spellbook 还通过回归测试和模型比较提供了对机器学习模型的结构化测试。Scale AI 采用了一种销售模式,其中大部分收入来自一小部分大型数据标注客户。这些公司包括通用汽车的 Cruise、Zoox、Nuro 等大型组织,以及其他需要大量标记相机数据的自动驾驶公司。Scale AI 的客户不仅包括自动驾驶公司,还包括机器人公司,包括 Kodiak Trucks、Embark、Skydio 和丰田研究所。通过 Document AI 产品,Scale AI 将其客户群扩展到 Flexport、Brex 和 SAP 等公司。Scale AI 还有一些初创公司客户,它们利用计算机视觉来进行产品开发,包括用于管理葡萄酒收藏的 CellarEye、用于优化原木库存和管理的 TimberEye,以及用于加速房地产交易的 States Title。Scale AI 的营销和电子商务套件使其能够接触到营销人员和零售平台。截至 2023 年 9 月,Scale Forge 仍然是一个逐渐通过等待列表逐步推出的新产品,因此公司没有列出值得注意的客户。另一方面,Scale AI 的电子商务套件被包括 Instacart、Faire、Pinterest 和 Square 在内的公司所采用。随着 Scale Donovan 的推出,Scale AI 扩大了为联邦政府和国防承包商提供服务的范围。关键客户包括美国陆军、美国空军和国防创新单位。人工智能的崛起可以归因于几个关键因素,包括人工智能芯片的计算能力增强、训练数据量的增加、技术瓶颈的改善(例如消失的梯度,导致了 Transformer 的发现),以及云存储和计算成本的降低。凭借其数据标注和注释产品,Scale AI 主要针对数据收集和标注市场,据估计,到 2030 年这一市场规模将达到 171 亿美元,并预计从 2023 年到 2030 年的复合年增长率为 28.9%。Scale AI 的模型定制和数据调试产品线已经扩展到全球人工智能市场。2022 年,全球人工智能市场价值为 1366 亿美元,预计到 2030 年将以 37.3% 的复合年增长率增长。在数据收集和标注市场中,Scale AI 面临来自 Amazon Mechanical Turk、Labelbox、Appen 和 Hive 等竞争对手的竞争。这些竞争对手也利用人力为那些没有资源自行进行数据标注的公司标记数据。数据标注行业相对来说比较商品化,因为除了运营效率以外,几乎没有什么独特的竞争优势。长期来看,Scale AI 的竞争优势来自于改进其内部机器学习标注算法,使整个人工标注更加自动化和更便宜,从而实现规模经济效益。《Not Boring》的作者 Packy McCormick 解释道:“Scale 必须承认,长期来看,以人工为主的方法并不是正确的方法,但这对于数据轮效应至关重要。当 Scale 的人工团队标记数据时,他们也在训练 Scale 的标注模型。随着时间的推移,人机比例已经减少;越来越多的工作由算法完成。向更多算法标记的转变实际上对 Scale 来说是一个福音,因为它已经在全球训练了比几乎任何其他公司都多的人类标注数据。这对于像 Appen 这样的竞争对手来说是更糟糕的,它们更像是面向标注者的 Upwork,而不是一家人工智能公司。”随着新产品的推出,如 Scale Nucleus、Document AI 和 Launch,Scale AI 的范围已从数据收集和标注公司扩展到了一个机器学习基础设施公司。在这个类别中,他们面对的传统竞争对手要少得多。这个领域主要有两种典型公司:ML SaaS 独角兽和企业云平台。ML SaaS 平台:像 Databricks 这样的公司在一个关键的差异化楔子上构建 ML 产品。对于 Databricks 来说,它的楔子是其数据湖仓库,存储着 AI 工作流和模型训练系统所消耗的数据。其他类似的公司还包括 C3、H2O 和 Dataiku。企业云平台:像 AWS 这样的公司在其产品线中有一个 ML 生态系统,包括从 Mechanical Turk 标记数据,到存储数据的 S3 和 Redshift,再到使用 Sagemaker 对该数据进行 ML 模型训练。微软和谷歌也在 Azure 和 GCP 上构建类似的平台。在这些中,Scale AI 属于第一类别,试图在其数据标注的楔子上构建 ML 工具。然而,由于 Scale AI 并不提供自己的存储,它需要读写像 AWS 的 S3 这样的存储,这使得 Scale AI 的后续 ML 产品的成本比 AWS 更高。如果一家公司想要使用 Scale AI 进行标注,并利用 Sagemaker,那么 Scale AI 没有太多办法阻止它,除非提供具有竞争力的功能。Labelbox:成立于 2018 年,Labelbox 是一个用于机器学习应用的训练数据平台。该公司已经从安德森·霍洛维茨(Andreessen Horowitz)和 Snowpoint Ventures 等投资者那里筹集了总计 1.88 亿美元的资金。2022 年 1 月,Labelbox 在未公开的估值下通过软银领投完成了 1.1 亿美元的 D 轮融资。与 Scale AI 类似,Labelbox 提供了一个用于 AI 模型训练数据的平台,但在更专注于机器学习应用方面有所不同。Scale AI 的机器学习开发工具 Spellbook 于 2022 年 10 月推出。Scale AI 的企业计划包括在其开发工具中提供新功能的访问权限,表明该公司有意提供更强大的 Spellbook 版本。Hive:成立于 2013 年,Hive 提供基于云的 AI 解决方案,用于理解内容,类似于 Scale AI。截至 2023 年 6 月,Hive 已经从包括 General Catalyst 和 8VC 在内的投资者那里筹集了总计 1.2 亿美元的资金,最后一次融资是于 2021 年 4 月以 20 亿美元的估值完成的 8500 万美元的 D 轮融资。虽然 Scale AI 更倾向于以政府和企业云服务为其客户群,但 Hive 推广了市场、约会应用程序和其他 B2C 和点对点导向的公司的预构建模型。因此,Hive 更专注于实时内容标记,以进行用户生成内容的审核。Scale AI 的政府和企业重点使其产品对于开发复杂云服务的公司更有用。Appen:成立于 2011 年,Appen 收集和标注内容,以构建和改进 AI 模型。2023 年 9 月,Appen 的市值约为 2.213 亿美元。与 Scale AI 类似,Appen 专注于企业 AI 解决方案,包括从文件中提取信息、为自动驾驶车辆进行目标检测以及其他各种数据类型。Appen 强调了与 AWS、Nvidia 和 Salesforce 的合作关系。Scale AI 和 Appen 都能够获得企业和长期合同,但两家公司的使用表明了产品差异化不足和竞争优势有限。Databricks:成立于 2013 年,Databricks 帮助公司构建 ML 产品,并拥有一个定制的数据存储解决方案,供其 AI 工作流和模型训练系统使用。2021 年 8 月,Databricks 完成了一笔价值 160 亿美元的 H 轮融资,估值 380 亿美元,累计融资金额达到了 35 亿美元。与 Scale AI 相比,Databricks 的独特卖点是其数据湖仓库基础设施,它是其所有 ML 产品的基础,而 Scale AI 则更广泛地关注于产品,如 Scale Nucleus、Document AI 和 Launch。Humanloop:成立于 2020 年,Humanloop 通过提示和响应评级,帮助公司简化调整 LLM 模型。2022 年 7 月,该公司完成了由 Index Ventures 领投的 260 万美元种子轮融资,使其截至 2023 年 9 月的总融资额达到 270 万美元。与 Scale AI 专注于通过工程师优先的 API 和平台提供各种数据标注服务不同,Humanloop 专注于自然语言处理(NLP)模型,提供无代码优先和 API 其次的培训解决方案,表明其在 AI 领域更狭窄和初学者导向的关注点。Scale AI 的平台更为强大,提供视频和文档的数据标注,帮助公司解决更多的生成性文本之外的问题。AWS 机器学习套件:AWS ML 套件是由亚马逊云服务提供的一套机器学习工具。它与 Scale AI 竞争,提供了超过 27 个机器学习服务,但它是亚马逊提供的更大套件的一部分。亚马逊在 2015 年推出了其 ML 倡议。亚马逊于 1997 年 5 月开始公开交易,截至 2023 年 9 月,亚马逊的交易价格约为 1.5 万亿美元。然而,根据 Scale AI 的合作伙伴关系,Scale AI 可以与 AWS 并行使用,甚至集成使用。Scale AI 不公开披露其定价模式。它有两种定价层次:一种针对企业客户,另一种针对个人。Scale AI 为企业提供基于定制定价的数据标注服务。针对 Scale AI 的自助式数据引擎,客户可以在一个地方管理和标注用于机器学习项目的数据,但是使用自己的工作人员。Scale AI 根据信用卡的按使用情况付费来定价这款产品。前 1,000 个标注单位免费,超过 1,000 个标注的价格未公开。公司向 Scale AI 支付费用来对数据进行标注,价格根据数据量和数据类型(图像、视频、文本、3D LiDAR 等)而异。Scale AI 利用超过 100,000 名承包商作为劳动力来源进行数据标注。该公司还建立了内部算法以确保数据的质量。Scale AI 还利用自己的机器学习算法自动化标注过程。据 2023 年 1 月报道,Scale AI 据称年度循环收入(ARR)为 2.9 亿美元。然而,同月,由于 2021 年和 2022 年过度招聘,Scale AI 裁员了 20% 的员工。Scale AI 已经超越了自动驾驶车辆标注市场,开始接手大型政府合同以标注地理空间数据。此外,Scale AI 已成功与 Brex 和 OpenAI 等公司签订了自然语言处理的企业合同。该公司近年来加快了产品的发布速度,将之前仅限于标注的产品线扩展到了包括模型训练、数据收集和调试在内的更多领域。2021 年 4 月,Scale AI 进行了一轮价值为 3.25 亿美元的 E 轮融资,由 Dragonner、Greenoaks Capital 和 Tiger Global 共同领投。这一最新的融资使该公司的总融资额达到了约 6.026 亿美元。相对于竞争对手而言,Scale AI 最新的 73 亿美元估值较高。而 Appen 在 2022 年营收达到 3.885 亿美元的同时,其市值约为 22.13 亿美元。Scale AI 专注于为特定行业开发数据标注和注释服务,包括自动驾驶。获取新客户并扩展到新的行业是一个重要的机遇。Scale AI 已通过标注各种数据类型来证明自己;2018 年,Scale AI 专注于自动驾驶公司,如通用汽车、Cruise、Lyft、Zoox 和 nuTonomy。在 2023 年,其客户包括像美国国防部(DoD)这样的政府机构,像 Airbnb 这样的市场平台,像 Brex 这样的金融科技公司,以及人工智能开发商 OpenAI。每个客户都有非常不同的数据标注需求,但 Scale AI 已经证明可以赢得合同,并为每个客户提供高质量的服务。在 2023 年,Scale AI 已经暗示将扩展到增强现实和虚拟现实(AR/VR)领域。Scale AI 可以在机器学习生命周期的各个阶段扩展其产品。Scale AI 已经推出了 Nucleus 产品,帮助公司评估和调试数据。此外,Scale AI 还开发了 Synthetic,用于生成用于训练机器学习模型的合成数据。尽管合成数据与真实世界的数据存在一些差距,但是将合成数据与真实世界数据结合用于训练机器学习模型可以提高模型性能,同时降低数据采集成本。Scale AI 可以利用最新的人工智能生成艺术的进展来扩展合成数据的能力。截至 2023 年 9 月,Scale AI 正在开发并推出 Forge,供营销团队生成图像。未来,Scale AI 可以继续寻找其他行业和用例的新创新人工智能应用。Scale AI 面临的一个关键风险是欧盟的立法,例如《通用数据保护条例》(GDPR)和《人工智能法案》,要求对其公民收集的数据进行存储,并限制某些类型的人工智能应用。这项立法意味着 Scale AI 可能不能在其他地理区域使用在欧盟收集的数据,需要它构建额外的服务以确保合规性。此外,这可能会导致在 Scale AI 的客户运营的欧盟地区应用的人工智能应用减少。Scale AI 正在扩展到机器学习堆栈的不同部分,包括 Nucleus 等产品的机器学习模型调试和评估。然而,在机器学习基础设施的每个领域中,包括 Databricks、Labelbox Model 和 Snorkel Flow 等竞争对手都有更多的竞争对手。Scale AI 的核心区别在于其规模化的人机协同数据标注的较低成本。激烈的竞争可能导致一些重要客户,包括三星、英伟达和 AirBnB 在 2023 年 1 月离开了 Scale AI。然而,Scale AI 在扩展到机器学习基础设施的不同部分时可能没有同样的产品壕沟面对激烈的竞争。Scale AI 已经确立了自己在自动驾驶和机器人行业数据标注领域的领先地位。该公司正在迅速扩展到新兴的机器学习类别,以及电子商务、营销和政府合同等新的垂直领域。它已经在相对短的时间内取得了一定的成绩。尽管在一些全球最大的公司中取得了重大进展和突破,但该公司的大部分业务仍然基于相对未差异化的数据标注产品。机器学习基础设施领域的竞争十分激烈,这使得 Scale AI 成为了 AWS、GCP 和微软等公司的竞争目标,这些公司受益于拥有自己数据中心和存储基础设施所带来的规模经济效应。Scale AI 未来的成功将取决于其在机器学习生命周期的新方面的执行能力。《白露会客厅》2023 年初由 Web3 知名媒体人、KOL、香港区块链协会副会长、深圳信息服务业区块链协会常务副会长白露发起。平台聚焦香港虚拟资产管理市场,深度陪跑 Web3 及 AI 优秀创业者,并为行业伙伴提供全球品牌市场战略咨询服务。(Twitter 关注:@luluWeb3)
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。