2025-04-22

什么是DARTS

AI领域的发展日新月异，其中一个重要的方向就是如何更高效、更智能地设计神经网络。就像高级厨师设计菜肴或建筑师设计大楼一样，构建一个高性能的神经网络往往需要大量的专业知识、经验和反复试验。而“可微分架构搜索（Differentiable Architecture Search, 简称DARTS）”技术，正是为了自动化这个复杂过程而生。

一、什么是DARTS？——AI的“自动设计师”

在人工智能，特别是深度学习领域，神经网络的“架构”指的是它的结构，比如有多少层，每一层使用什么样的操作（例如卷积、池化、激活函数等），以及这些操作之间如何连接。传统上，这些架构都是由人类专家凭经验手动设计，耗时耗力，而且很难保证找到最优解。

想象一下，你是一家餐厅的老板，要想推出一道新菜。你可以请一位经验丰富的大厨（人类专家）来设计食谱。他会根据经验挑选食材、烹饪方法，然后调试很多次，最终确定出美味的菜肴。这个过程非常考验大厨的功力，且效率有限。

而“神经网络架构搜索”（Neural Architecture Search, NAS）的目标，就是让AI自己来做这个“大厨”的工作。DARTS就是NAS领域中一种非常高效且巧妙的方法。它不同于以往NAS方法（例如基于强化学习或进化算法），后者通常需要尝试无数种离散的架构组合，耗费巨大的计算资源，就像要让机器人尝试每一种可能的食材和烹饪方式组合，才能找到最佳食谱一样。

DARTS的核心思想是：把原本离散的“选择哪个操作”的问题，变成一个连续的、可以被“微调”的问题。这就像是，我们不再是简单地选择“加盐”还是“加糖”，而是可以“加0.3份盐和0.7份糖”这样精细地调整比例。通过这种“软选择”的方式，DARTS能够使用我们熟悉的梯度下降法来优化神经网络的结构，大大提高了搜索效率。

二、DARTS的工作原理：一道“融合菜”的诞生

要理解DARTS如何实现这种“软选择”，我们可以用一个“融合菜”的比喻来解释。

1. 搭建“超级厨房”——定义搜索空间

首先，我们需要一个包含了所有可能操作的“超级厨房”，这在DARTS中被称为“搜索空间”。这个空间不是指整个神经网络，而是指构成神经网络基本单元（通常称为“Cell”或“单元模块”）内部的结构。

食材与烹饪工具（操作集）： 在每个“烹饪环节”（节点之间的连接）中，我们可以选择不同的“食材处理方式”或“烹饪工具”，比如：切丁（3x3卷积）、切片（5x5卷积）、焯水（最大池化）、过油（平均池化），甚至什么都不做（跳跃连接，即直接传递）。DARTS预定义了8种不同的操作供选择。
菜谱骨架（Cell单元）： 我们的目的是设计一个核心的“菜谱单元”。这个单元通常有两个输入（比如前两道菜的精华），然后通过一系列内部的烹饪环节，最终产生一个输出。通过重复堆叠这种“单元”，就能构成整个“大菜”（完整的神经网络）。

2. 制作“魔法调料包”——连续松弛化

传统方法是在每个烹饪环节从菜单中“明确选择”一个操作。但DARTS的巧妙之处在于，它引入了一个“魔法调料包”。在任何一个烹饪环节，我们不再是选择单一的操作，而是将所有可能的操作用一定的“权重”混合起来，形成一个“混合操作”。

举个例子，在某一步，我们不是选“切丁”或“焯水”，而是用了一个“50%切丁 + 30%焯水 + 20%什么都不做”的混合操作。这些百分比就是DARTS中的“架构参数”（α），它们是连续的，可以被微调。

这样，原本在离散空间中“生硬选择”的问题，就转化成了在连续空间中“调整比例”的问题。我们就拥有了一个包含所有可能菜谱的“超级食谱”（Supernet），它一次性包含了所有可能的结构。

3. “先尝后调”——双层优化

有了这个“魔法调料包”和“超级食谱”，DARTS如何找到最佳比例呢？它采用了一种“两步走”的优化策略，称为“双层优化”：

内层优化（调整菜的味道）： 想象一下，你根据当前的“混合比例”（建筑参数 α）制作了一道“融合菜”。在确定了调料包的比例后，你需要快速品尝并调整这道菜的“细微火候和时间”（模型权重 w），让它在“训练餐桌”（训练数据集）上尽可能美味。
外层优化（调整调料包比例）： 在上一道菜尝起来还不错的基础上，你会把它端到另一张“顾客品鉴餐桌”（验证数据集）上，看看顾客的反馈。根据顾客的评价，你就可以知道是“切丁”的比例太少，还是“焯水”的比例太多。然后，你再回头调整你的“魔法调料包”的配方（架构参数 α），让下一道菜更受“顾客”欢迎。

这两个过程交替进行，就像大厨在烹饪过程中，一边小尝微调，一边根据反馈调整整体配方。最终，当“魔法调料包”的比例调整到最佳时，我们就得到了最优的“菜谱单元”结构。

4. “定型”最佳菜谱——离散化

当训练结束，架构参数（α）稳定后，每个“混合操作”中各个子操作的权重就确定了。DARTS会选择每个混合操作中权重最大的那个子操作，从而生成一个具体的、离散的神经网络结构。这就像是从“50%切丁 + 30%焯水”中，最终确定“切丁”是最佳选择。

三、DARTS的优势与挑战

优势：快而准

效率高： 由于可以应用梯度下降进行优化，DARTS的搜索速度比传统的黑盒搜索方法快几个数量级，能够在短短几个GPU天（甚至更短时间）内找到高性能的架构。

挑战：美味之路并非坦途

性能崩溃： 尽管DARTS非常高效，但有时会遇到“性能崩溃”问题。随着训练的进行，搜索到的最佳架构倾向于过度使用“跳跃连接”（skip connection，即什么都不做，直接传递数据），导致模型性能不佳。这就像在设计菜谱时，有时“魔法调料包”会越来越倾向于“什么都不加”，最终做出来的菜平淡无味。
内存消耗： 训练一个包含了所有可能操作的“超级食谱”仍然需要较大的内存。

四、最新进展：克服挑战，追求更稳健的自动化设计

针对DARTS的性能崩溃问题，研究者们提出了许多改进方案。例如：

DARTS+： 引入了“早停”机制，就像在“魔法调料包”开始走偏时及时停止调整，避免过度优化导致性能下降。
Fair DARTS： 进一步分析发现，性能崩溃可能是因为在竞争中，某些操作（如跳跃连接）拥有“不公平的优势”。Fair DARTS尝试通过调整优化方式，让不同操作之间的竞争更加公平，并鼓励架构权重趋向于0或1，从而获得更稳健的架构。

五、结语

DARTS作为可微分架构搜索的开创性工作，让神经网络的结构设计从繁重的手工劳动迈向了智能自动化。它深刻地改变了AI模型的开发流程，使研究人员和工程师能够更快速、更高效地探索更优异的神经网络结构。尽管面临性能崩溃等挑战，但通过不断的改进和创新，DARTS及其衍生的方法正持续推动着AI领域的发展，让AI成为更优秀的“自动设计师”，为我们创造出更强大、更精妙的智能系统。

一、 什么是DARTS？——AI的“自动设计师”