核心思想 传统的剪枝方法通常依赖权重大小来判断神经元的重要性,但作者质疑了这种假设。他们提出用神经元对最终损失的贡献来衡量重要性,并通过泰勒展开来近似计算这种贡献。 方法原理 重要性定义 对于参数 $w_m$,其重要性定义为移除该参数后损失的平方变化: Im=∣E(D,W)−E(D,W∣wm=0)∣2I_m = |E(D, W) - E(D, W|w_m = 0)|^2I<