2023 年十大人工智能（LLM）必读论文（下）

2024-01-01 14:09

阿法兔研究笔记

2024-01-01 14:09

来源链接

订阅此专栏

收藏此文章

用读论文迎接新的一年，新年快乐！！！看到这篇的朋友 2024 运气爆棚，顺利满满！

欢迎大家点击在看，或转发到朋友圈~~这样兔儿就更有动力发更多好内容了~

LLM

*本文 4400 字左右

作者：SEBASTIAN RASCHKA, PHD，原文名称：Ten Noteworthy AI Research Papers of 2023

2023 年，是机器学习和人工智能发展最为迅速的一年，这里和分享分享 10 篇笔者认为最值得关注的论文（今天是第二部分）。

上一篇见：2023 年十大人工智能（LLM）必读论文（上）

当然，这里主要是以大语言模型（LLM）论文为主。选择标准可能也会稍显主观，但还是基于笔者个人特别喜欢或认为有影响力、值得关注的论文。( 注：这里的排序顺序是推荐阅读顺序，而不是根据质量或影响力排序）。

6）Mistral 7B

尽管 Mistral 7B 论文有些简短，但它提出的模式很有影响力:

决定将这篇论文列入这份名单，是因为 Mistral 7B 模型不仅在发布时非常受欢迎，而且还作为基础模型，促进了其他两个知名模型的进步：Zephyr 7B 与最新的 Mistral Mixture of Experts (MoE) 。而这些是我预见的 2024 年上半年小型 LLM 趋势的良好范例。

在讨论 Zephyr 7B 和 Mistral MoE 模型之前，先简单谈谈 Mistral 7B 本身：

简而言之，Mistral 7B 论文介绍了一个紧凑但功能强大的语言模型，尽管它的规模相对较小，只有 70 亿个 Token，但在各种 benchmark测试中，它的表现却优于更大的同类模型，比如它的表现超过了 13B Llama 2 模型。( 除了比其大两倍的 Qwen 14B 之外，Mistral 7B 也是今年 NeurIPS LLM Finetuning & Efficiency 挑战赛获胜方案中使用的 base mode）

来自 https://arxiv.org/abs/2310.06825 的注释图，Mistral 7B 和 Llama 13B 的性能比较

Mistral 7B 的性能为什么如此之好的原因尚不清楚，但很可能是和它的训练数据有关。Llama 2 和 Mistral 都没有公布训练数据，因此我们只能推测。

从架构上来看，Mistral 7B 与 Llama 2 共享了 group-query attention，虽然与 Llama 2 非常相似，但 Mistral 架构中的一个有趣的补充是 sliding window attention ，用以节约内存并提高计算吞吐量，从而加快训练速度。（Sliding window attention was previously proposed in Child et al. 2019 and Beltagy et al. 2020）

Mistral 中使用的The sliding window attention mechanism，本质上是一个固定大小的注意力块 ( fixed-sized attention block)，它只允许当前标记关注特定数量的前一个 Token（ (instead of all previous tokens)如下图所示：

在 7B Mistral 的具体案例中， the attention block size是 4096 个 Token，研究人员训练模型时使用了多达 100,000 个 Token 的 context size。举一个具体的例子，在常规的自注意力机制中，处于第 50,000 个 Token 的模型可以关注之前的所有 49,999 个 token。而在sliding window self-attention 机制中，Mistral 模型只能关注从 45,904 至 50,000 的 Token（因为 50,000 - 4,096 = 45,904）

然而，sliding window self-attention主要用于提高计算性能。而 Mistral 性能优于更大的 Llama 2 模型，很可能不单单是因为sliding window self-attention。

Zephyr 和 Mixtral

Mixtral Mistral 7B 之所以是有影响力的模型，原因在于它可以作为 Zephyr 7B 的base model，正如上一篇文章（2023 年十大人工智能（LLM）必读论文（上））在 DPO 部分提到的。Zephyr 7B 是第一个使用 DPO 训练并超越其他替代模型的流行模型，可能为 DPO 成为未来几个月内调整聊天模型的首选方法，铺平了道路。

另一个从 Mistral 7B 衍生出的值得注意的模型是最近发布的 Mistral Mixture of Experts (MoE) model，也称为 Mixtral-8x7B。这个模型在几个Public benchmarks中匹敌或超过了更大的 Llama-2-70B 模型的性能。

有关更多 Benchmark 测试，请参阅 Mixtral 的官方博客文章公告。Mixtra 团队还发布了经 DPO 调整后的 Mixtral-8x7B-Instruct 模型（但截至目前，尚无与 Llama-2-70-Chat 进行比较的基准测试数据，后者是经过 RLHF 调整的模型）。

也有传闻认为，GPT-4 是由 16 个 submodule组成的 MoE。据说这 16 个 submodule中的每一个都拥有 1110 亿个参数（(for reference, GPT-3 has 175 billion parameters)。不知道 MoE 是否能在 2024 年将开源模型提升到新的高度，看起来 Mixtral 已经提前开始了这一趋势，相信这只是个开始。

Mixture of Experts 101

如果你对 MOE 还比较陌生，可以参考下面的解释：

上面的图表展示了 Switch Transformer 的架构，该架构对每个 Token 使用 1 个Expert ，总共有 4 个Expert。另一方面，Mixtral-8x-7B 由 8 个Expert组成，每个 Token 对应 2 个Expert。

为什么选择 MoE？

结合起来，像 Mixtral 这样的 7B 模型中的 8 个Expert，总共有约 56B 个参数。实际上，它少于 56B，因为 MoE 方法仅应用于 FFN (feed forward network, aka fully-connected) ，而不是self-attention weight matrices。因此，它可能更接近 40-50B 个参数。请注意， Router 会 rerouteToken，这样在前向传播过程中一次只使用<14B 个参数（2x <7B，而不是全部<56B），因此与传统的非 MoE 方法相比，训练（尤其是 inference）将会更快。

如果想要了解更多关于 MOE 的内容，这里有一个 Sophia Yang推荐的阅读清单：

The Sparsely-Gated Mixture-of-Experts Layer (2017)
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)
MegaBlocks: Efficient Sparse Training with Mixture-of-Experts (2022)
Mixture-of-Experts Meets Instruction Tuning (2023)

此外，如果读者对尝试 MoE 和 LLM 感兴趣，也可以查看 OpenMoE 的repository,在今年早些时候实现并分享了 MoE LLM

地址：https://github.com/XueFuzhao/OpenMoE

其他小型但有竞争力的 LLM Mistral 7B、Zephyr 7B 和 Mixtral-8x7B 是 2023 年小型但功能强大的模型取得进展的优秀例子，这些模型具有公开可用的权重。另一个值得注意的模型，也是我最喜欢的论文列表中其中一个是微软的 phi 系列。phi 的优势在于训练高质量数据，这些数据是通过过滤网络数据获得的。phi 模型在 2023 年分阶段发布，包括 phi-1(1.3B parameters)、phi-1.5(1.3B parameters)）和 phi-2(2.7B parameters)。phi-2 两周前刚刚发布，有说法已经与 Mistral 7B 匹敌甚至超过，尽管它的大小只有一半。

(via the phi-1.5 paper,https://arxiv.org/abs/2309.05463)

更多关于 phi models 的资料：

Textbooks Are All You Need-- the phi-1 paper
Textbooks Are All You Need II: phi-1.5 Technical Report
The Phi-2: The Surprising Power of Small Language Models announcement

7) Orca 2: Teaching Small Language Models How to Reason

这是一篇相对较新的论文，因此时间会证明它是否会在未来数月或数年内对我们如何训练 LLM 产生持久的影响。

收录这篇论文的原因在于：它融合了多个概念和观点：

其一，从 GPT-4 等大型、功能强大的模型中提炼数据，创建一个合成数据集来训练小型但功能强大的 LLM。这一想法在去年发表的《Self-Instruct》论文中有所描述。今年早些时候，Alpaca（根据 ChatGPT 输出 Finetune 的 Llama 模型）真正推广了这种方法。

它是如何工作的？简而言之，主要分为 4 个步骤：

用一组人类编写的指令（本例中为 175 条）和示例指令建立任务池；（Seed task pool with a set of human-written instructions (175 in this case) and sample instructions;）
使用预训练 LLM（如 GPT-3）确定任务类别；（ Use a pretrained LLM (like GPT-3) to determine the task category）
给定新指令，让经过预训练的 LLM 生成响应（Given the new instruction, let a pretrained LLM generate the response）
收集、修剪和过滤回复，然后将其添加到任务池中（Collect, prune, and filter the responses before adding them to the task pool）

注释图基于 Self-Instruct 论文，https://arxiv.org/abs/2212.10560

另一个思路可能并不出人意料，但值得强调：高质量的数据对于finetuning非常重要。例如，LIMA 论文 (https://arxiv.org/abs/2305.11206) 提出了一个由人类生成的高质量数据集，该数据集仅包含 1k 个训练示例，可用于微调，其效果优于在 50k ChatGPT 生成的回复上进行finetuning的同一模型。

LIMA 论文中的注释图，https://arxiv.org/abs/2305.11206

与以往严重依赖模仿学习来复制大型模型输出结果的研究不同，Orca 2 的目标是向 "小型"（即 7B 和 13B）LLM 传授各种推理技巧（如逐步推理、先召回再生成等），并帮助它们为每项任务确定最有效的策略。通过这种方法，Orca 2 的表现明显优于类似大小的模型，甚至可以与 5-10 倍大的模型相媲美。

虽然还没有看到这方面的广泛研究，但 Orca 2 方法或许还能解决《the The False Promise of Imitating Proprietary LLMs 》论文中强调的使用合成数据的问题。在这篇论文中，研究人员使用 Alpaca 和 Self-Instruct 等实例，研究了如何对较弱的语言模型进行微调，以模仿 ChatGPT 等较强的专有模型。最初，模仿模型显示出了可喜的成果，与 ChatGPT 相比，它们在遵循指令方面表现良好，并从人群工作者那里获得了有竞争力的评分。然而，更多的后续评估显示，这些模仿模型似乎只在人类观察者面前表现良好，但却经常产生与事实不符的回答。

8) ConvNets Match Vision Transformers at Scale

近年来，由于 Large language transformers 和 vision transformers (ViTs) 的良好性能，我使用它们的频率很高。

在过去的三篇论文中，我从语言模型论文转向了计算机视觉论文，计算机视觉变换器特别吸引人的地方在于，预训练的视觉变换器甚至比卷积神经网络更容易进行 Finetune。还有就是《ConvNets Match Vision Transformers at Scale》这篇论文，该论文显示，如果能够访问足够大的数据集，卷积神经网络（CNN）实际上与 ViTs 具有竞争力。

ConvNets Match Vision Transformers at Scale (https://arxiv.org/abs/2310.16764) 论文中的注释图

在这里，研究人员投入了多达 11 万 TPU 小时的计算预算，对 ViT 和 CNN 进行了公平的比较。结果表明，当使用与 ViTs 通常使用的计算预算类似的计算预算对 CNN 进行预训练时，CNN 的性能可以与 ViTs 相媲美。为此，他们在 JFT 的 40 亿张标注图像上进行了预训练，随后在 ImageNet 上对模型进行了 Finetuning。

9) Segment Anything

在图像和视频中的Object recognition和segmentation，以及分类和生成建模，是计算机视觉的主要研究领域。

简要说明这两项任务之间的区别：Object recognition是预测边界框和相关标签；segmentation则是对每个像素进行分类，以区分前景和背景物体：

Object recognition（上图）与 Segmentation（下图）。

图片来自 YOLO 论文（https://arxiv.org/abs/1506.02640）和 Mask R-CNN 论文（https://arxiv.org/abs/1703.06870v3）

Meta 的论文“Segment Anything”论文是开源和图像segmentation研究的一个重要里程碑。该论文介绍了图像segmentation的新任务、新模型和新数据集。随附的图像数据集是迄今为止最大的segmentation数据集，包含超过 10 亿个mask，构建在 1100 万张图像基础上。

SAM 旨在高效、基于提示的图像 Segmentation: 来自“Segment Anything”论文的标注截图，https://arxiv.org/abs/2304.02643

然而，罕见且值得称赞的是，研究人员使用了许可和尊重隐私的图像，因此该模型可以在没有重大版权问题的情况下开源。

The Segment Anything Model 三个主要组成部分，见https://arxiv.org/abs/2304.02643 稍微详细一点，这三个部分可以总结如下：

An image encoder utilizing a masked autoencoder based on a pretrained vision transformer (ViT) that can handle high-resolution inputs. This encoder is run once per image and can be applied before prompting the model
A prompt encoder that handles two types of prompts: sparse (points, boxes, text) and dense (masks). Points and boxes are represented by positional encodings combined with learned embeddings for each prompt type. And free-form text uses an off-the-shelf text encoder from CLIP. Dense prompts, i.e., masks, are embedded using convolutions and summed element-wise with the image embedding.
A mask decoder maps the image embedding, prompt embeddings, and an output token to a mask. This is a decoder-style transformer architecture that computes the mask foreground probability at each image location.

图像segmentation对于自动驾驶汽车、医学成像等应用至关重要。在短短 6 个月内，该论文已经被引用超过 1500 次，并且已经有许多项目在这篇论文的基础上构建。

10) Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

Emu 视频：通过显式图像条件分解文本到视频生成，是 Meta 研究部门的另一个值得注意的计算机视觉项目。

Emu 是一个可以从文本提示生成整个视频的文本到视频模型,虽然它不是第一个令人印象深刻的文本到视频生成模型，但它与以前的作品相比有很大优势:

Emu 与其他文本到视频模型的性能比较，见https://arxiv.org/abs/2311.10709 正如作者所指出的，与之前的方法相比，Emu 架构的设置相对简单。

本论文作者所指出的，Emu 的架构设置相较于以往的方法来说相对简单。这里的一个主要思想是，Emu 将生成过程分解为两个步骤：首先基于文本生成图像（使用扩散模型），然后基于文本和生成的图像创建视频（使用另一个扩散模型）。

2022 年对于文本到图像模型（如 DALL-E 2、Stable Diffusion 和 Midjourney）来说是重要的一年。尽管文本到图像模型在 2023 年仍然非常受欢迎（尽管大型语言模型（LLMs）在这一年里获得了更多关注），但我认为文本到视频模型即将在在线社区中变得更加普遍。

笔者不是图像或视频设计师，目前我没有使用这些工具的用例；然而，文本到图像和文本到视频模型作为衡量计算机视觉进步的一般指标，仍然值得关注。

新年快乐！

新年快乐！2024 大展宏图，越来越好!

【阅读更多】

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

Zephyr 和 Mixtral

Mixture of Experts 101

10) Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

推荐专栏