详解 HuggingFace 上新:沙特阿语 AI 模型 ALLaM
2025-02-24 23:44
最近,SDAIA(沙特数据与人工智能局)的 ALLaM 模型现在已正式在 HuggingFace 平台上开放,ALLaM-7B-Instruct 是一款专为阿拉伯语设计的语言模型,由 SDAIA 下属的国家人工智能中心(NCAI:笔者注:国家人工智能中心是 019 年 8 月 30 日成立的政府机构,隶属于沙特数据与人工智能局。)开发。该模型不仅能够理解标准阿拉伯语,还可以理解沙特方言。
该模型经过 5.2 万亿 tokens 的预训练,其中包括阿拉伯语和英语两种语言的数据。
模型详情
预训练的主要路径有两种:
对于本版本,这里提供的是经过指令调优的 7B 参数生成模型,且该模型是从零开始训练的。
模型的一些参数如下表所示:
ALLaM-7B-Instruct-preview 在总计 5.2 万亿个英文和阿拉伯文标记上进行了预训练,训练代码库建立在 NVIDIA/MegatronLM 上。训练期间的平均 MFU(计算资源使用率)约为 42%,使用 bf16 混合精度进行模型训练。需要注意的是,该模型优化设计为无需预定义系统提示。虽然 ALLaM 没有默认的系统提示,但它提供了添加自定义系统提示的灵活性。例如,一个精心设计的系统提示可能是:“你是 ALLaM,一款双语的英阿 AI 助手。” 系统提示词也可以是阿拉伯语:用户可以创造性地设计他们的提示词,系统提示集成在分词器配置中(通过 apply_chat_template() 模块访问)。用户可以通过 HuggingFace transformers 访问 ALLaM 模型的检查点权重(测试通过 transformers>=4.40.1)。以下代码示例展示了如何加载模型并使用 ALLaM-AI/ALLaM-7B-Instruct-preview 模型生成文本。笔者和 SDAIA 多有来往,也做了不少研究。沙特数据与人工智能局(SDAIA)自 2019 年成立以来,主要是推动沙特阿拉伯在数字化转型和人工智能技术领域的深度发展。该机构的核心目标之一是加强沙特在全球数据和 AI 领域的领导地位,推动各行业数字化转型,优化资源利用。由于沙特对本国文化的保护和重视,SDAIA 特别注重发展符合阿拉伯语言和文化的人工智能技术,力图提升阿拉伯语在全球人工智能应用中的地位。ALLaM(阿拉伯语大型语言模型)便是这一战略的典型代表,旨在促进阿拉伯语的数字化,推动其在国际上的传播和应用。除了阿拉伯语 AI 技术的突破,SDAIA 还积极推动沙特阿拉伯成为全球人工智能和技术创新的中心。通过与全球科技公司、学术机构和行业领军企业的广泛合作,SDAIA 助力沙特在人工智能研究和应用领域取得了显著进展。与此同时,SDAIA 还重视人工智能领域的培训和人才发展。通过提供专业培训和教育项目,SDAIA 不断培养和吸引世界级的 AI 人才,为沙特及全球的人工智能创新提供支持。2024 年 9 月 10 日至 12 日举行的第三届全球人工智能峰会(GAIN Summit)期间,沙特SDAIA 宣布,其阿拉伯语大型语言模型 ALLaM 根据阿拉伯语 MMLU 基准测试,在全球同类模型中荣获最佳生成性阿拉伯语语言模型的第一名。ALLaM 由 SDAIA 下属的国家人工智能中心的本土技术团队开发,约有 400 多名专家的支持,并利用超过 5000 亿个阿拉伯语文本单元的大型阿拉伯语数据集进行模型开发和训练。SDAIA 表示,ALLaM 是基于多个模型开发的,模型的参数数量从 70 亿到 700 亿不等。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。