LightGNN Simple Graph Neural Network for Recommendation

codex --dangerously-bypass-approvals-and-sandbox
claude --dangerously-skip-permissions

LightGNN: 推荐系统剪枝框架

🤖 Assistant

这是一个关于推荐系统图神经网络（GNN）剪枝框架 "LightGNN" 的学术论文全文翻译。
注意：为了保证阅读的流畅性，我移除了原文中的页码标记（如 --- PAGE 1 ---）和引用源标记（如 ``），并按照论文的逻辑结构进行了排版。参考文献列表保留了原文（因为翻译文献标题通常不利于检索），但章节标题已翻译。

LightGNN：用于推荐的简单图神经网络

作者：Guoxuan Chen, Lianghao Xia, Chao Huang
单位：香港大学，中国香港
会议：WSDM '25, 2025年3月10-14日，德国汉诺威

摘要

图神经网络（GNN）凭借其进行高阶表示平滑的能力，能够有效捕捉用户交互模式中的结构信息，在协同过滤推荐中展现出了卓越的性能。然而，现有的 GNN 范式在处理大规模、含噪声的真实数据集时，面临着可扩展性和鲁棒性方面的巨大挑战。为了解决这些挑战，我们提出了 LightGNN，这是一种轻量级且基于蒸馏的 GNN 剪枝框架，旨在大幅降低模型复杂度的同时保留核心的协同建模能力。我们的 LightGNN 框架引入了一个计算高效的剪枝模块，该模块能够自适应地识别并移除冗余的边和嵌入条目（embedding entries）以实现模型压缩。该框架由一个资源友好型的分层知识蒸馏目标所指导，其中间层对观测图进行增强以维持性能，特别是在高压缩率的场景下。在公开数据集上的广泛实验证明了 LightGNN 的有效性，它在计算效率和推荐准确性上均有显著提升。值得注意的是，LightGNN 在减少了 80% 的边数量和 90% 的嵌入条目的情况下，仍能保持与更复杂的最新基线模型相当的性能。
我们的 LightGNN 框架实现代码已开源：https://github.com/HKUDS/LightGNN
CCS 概念：信息系统 → 推荐系统
关键词：图学习，推荐，知识蒸馏

1. 引言

推荐系统已成为现代在线平台不可或缺的一部分，有效地解决了信息过载问题，并通过个性化服务提升了用户参与度。在这些系统的核心，协同过滤（CF）作为一种主导范式，利用用户的历史交互来建模潜在偏好以进行行为预测。协同过滤的演变催生了多种方法，从经典的矩阵分解方法（如 [13]）到复杂的神经架构（如 [9]）。在这些发展中，图神经网络（GNN）已成为基于 CF 的推荐系统的强大工具，其独特之处在于能够通过迭代的嵌入平滑来捕捉复杂的高阶交互模式。开创性的工作包括引入图卷积网络（GCN）来建模用户-物品关系的 NGCF [25]，以及将 GCN 简化为推荐系统核心组件的 LightGCN [8]。为了解决 GNN 推荐中交互稀疏的挑战，研究人员开发了创新的自监督学习（SSL）技术，包括 SGL [27]、NCL [15] 和 HCCF [30]。这些方法通过利用自我增强的监督信号显著提高了推荐准确性。
尽管 GNN 取得了显著进展，但我们要强调两个持续挑战 GNN 协同过滤模型的固有局限性：
i) GNN 的可扩展性有限：在线推荐服务通常处理海量的关系数据（例如数百万次交互）。这导致用户-物品图的规模急剧增加，造成 GNN 内部大量的信息传播操作。这种可扩展性问题在存储、计算时间和内存需求方面提出了挑战。此外，基于 GNN 的 CF 严重依赖于 ID 对应的嵌入来表示用户和物品 [8]，这些嵌入的复杂性与用户和物品数量的增长直接相关，导致巨大的内存成本。
ii) 交互图中普遍存在噪声：协同过滤推荐系统主要利用用户的隐式反馈（如点击和购买），因为这些数据非常丰富。然而，这些交互记录往往包含大量偏离用户真实偏好的噪声，包括误点击和流行度偏差 [23]。虽然现有的部分方法试图通过随机丢弃（如 PinSage [33]）或知识蒸馏（KD）（如 SimRec [29]）等技术来解决可扩展性问题，但它们仍然容易受到错误信息的影响，可能导致压缩后的推荐系统做出不准确的预测。
为了解决这些局限性，本文建议对 GNN 中的冗余和噪声组件进行剪枝，具体针对图的边和嵌入条目。我们的目标是增强模型的可扩展性，同时保留关键的用户偏好特征。然而，实现这一目标面临着非同小可的挑战：

如何在用户-物品交互图中识别真正冗余或嘈杂的图边和嵌入条目？
当移除大量结构和节点特定信息后，如何维持基于 GNN 的 CF 的高性能？
如图 1(a) 所示，用户交互的物品中有相当一部分属于同一类别，导致了关于用户偏好的冗余信息。通过识别并从结构和参数中移除这种冗余，我们可以显著降低基于 GNN 的 CF 的复杂性。此外，如评论文本所示，许多观测到的交互代表了与用户负面反馈相关的噪声。这种噪声会破坏现有压缩 CF 方法的偏好建模，因为这些方法通常无法显式地识别此类噪声信息。
关于第二个挑战，如图 1(b) 所示，由于边和参数数量有限，传统的知识蒸馏方法在对 GNN 模型进行高比例压缩时难以有效维持性能。相比之下，我们创新的分层 KD 提供了更强的保留能力。
充分意识到这些挑战后，我们引入了一个名为 LightGNN 的 GNN 剪枝框架，以促进高效且去噪的推荐。LightGNN 结合了图结构学习，显式评估每个边和嵌入条目为冗余或噪声的可能性。这一学习过程通过端到端的方式进行监督，利用下游推荐任务以及分层知识蒸馏范式。受推荐中全局关系学习优势的启发 [30]，我们的 KD 方法具有一个中间蒸馏层，利用高阶关系来增强压缩模型中的候选边。这种增强提高了模型在高压缩率下维持推荐性能的能力。通过创新的重要性蒸馏以及预测级和嵌入级对齐，我们的分层知识蒸馏利用丰富的监督信号丰富了可学习的剪枝过程，提升了其压缩能力。
LightGNN 的贡献总结如下：
我们引入了一种用于推荐的新型 GNN 剪枝框架，显式识别并消除 GNN 中的冗余和噪声，以实现高效且去噪的推荐。
我们的 LightGNN 框架集成了一种创新的分层知识蒸馏范式，能够在高比例压缩 GNN 的同时无缝保留预测准确性。
我们进行了广泛的实验，证明了 LightGNN 在推荐准确性、推理效率、模型鲁棒性和可解释性方面的优越性。

2. 基于 GNN 的协同过滤

图神经网络（GNN）已被证明是协同过滤（CF）最有效的解决方案之一 [4, 28]。CF 任务通常涉及一个用户集 $U$ ( $| U | = I$ )，一个物品集 $V$ ( $| V | = J$ )，以及一个用户-物品交互矩阵 $A \in R^{I \times J}$ 。对于用户 $u_{i} \in U$ 和物品 $v_{j} \in V$ ，如果用户 $u_{i}$ 与物品 $v_{j}$ 有过交互，则条目 $a_{i, j} \in A$ 等于 1，否则 $a_{i, j} = 0$ 。常见的交互包括用户的评分、浏览和购买。

基于 GNN 的 CF 方法基于交互矩阵 $A$ 构建用户-物品图。该图可以表示为 $G = (U, V, E)$ ，其中 $U, V$ 作为图的顶点， $E$ 表示边集。对于每个满足 $a_{i, j} = 1$ 的 $(u_{i}, v_{j})$ ，存在双向边 $(u_{i}, v_{j}), (v_{j}, u_{i}) \in E$ 。
基于用户-物品图 $G$ ，GNN 进行信息传播以平滑用户/物品嵌入，从而更好地反映交互数据。具体来说，它首先分别为每个用户 $u_{i}$ 和物品 $v_{j}$ 分配初始嵌入 $e_{i}, e_{j} \in R^{d}$ 。这里 $d$ 代表隐藏层维度。然后，它迭代地将每个节点的嵌入传播到其邻居节点以进行表示平滑。以广泛应用的 LightGCN [8] 为例，用户 $u_{i}$ 和物品 $v_{j}$ 在第 $l$ 次迭代中的嵌入为：

e_{i, l} = \sum_{(v_{j}, u_{i}) \in E} \frac{1}{\sqrt{d_{i} d_{j}}} e_{j, l - 1} (1)

其中 $e_{i, l}, e_{i, l - 1} \in R^{d}$ 表示 $u_{i}$ 在第 $l$ 层和第 $(l - 1)$ 层的嵌入向量， $e_{j, l}, e_{j, l - 1}$ 使用类似的符号。第 0 层嵌入向量 $e_{i, 0}, e_{j, 0}$ 使用初始嵌入 $e_{i}, e_{j}$ 。 $d_{i}, d_{j}$ 分别表示节点 $u_{i}, v_{j}$ 的度，用于拉普拉斯归一化。
经过总共 $L$ 次迭代后，基于 GNN 的 CF 聚合多阶嵌入以得到最终表示 ${\bar{e}}_{i}, {\bar{e}}_{j} \in R^{d}$ 和用户-物品关系预测 ${\hat{y}}_{i, j}$ ，如下所示：

{\bar{e}}_{i} = \sum_{l = 0}^{L} e_{i, l}, {\hat{y}}_{i, j} = {\bar{e}}_{i}^{⊤} {\bar{e}}_{j} (2)

有了预测分数 ${\hat{y}}_{i, j}$ ，GNN 模型通过最小化 BPR 损失函数 [18] 进行优化，涵盖所有正用户-物品对 $(u_{i}, v_{j^{+}}) \in E$ 和采样的负对 $(u_{i}, v_{j^{-}})$ ：

L_{b p r} = \sum_{(u_{i}, v_{j^{+}}, v_{j^{-}})} - \log σ ({\hat{y}}_{i, j^{+}} - {\hat{y}}_{i, j^{-}}) (3)

尽管上述 GNN 框架在推荐中达到了最先进的性能，但其可扩展性受到大规模交互图和嵌入表的限制。鉴于此，本文提出了 LightGNN，旨在有效地剪枝 GNN 模型以实现高效的图神经协同过滤。

3. 方法论

本节详细介绍提出的 LightGNN 的技术细节。整体框架如图 2 所示。

3.1 图神经网络剪枝

受 GNN 彩票假设 [5, 6] 的启发，我们建议仅使用 GNN 参数的一个子集，该子集能最大程度地保留模型功能，从而提高其效率。具体而言，上述典型 GNN 模型的时间复杂度为 $O (L \times | E | \times d)$ ，空间复杂度相应为 $O (| E | + (I + J) \times d)$ 。因此，通过减少边数量 $| E |$ 以及 $d$ 个嵌入维度中的非零元素数量，LightGNN 能够优化计算效率和内存效率。为了实现这一目标，必须识别边 $E$ 和嵌入表 $E = {e_{i}, e_{j} | u_{i} \in U, v_{j} \in V}$ 中的噪声和冗余部分，以防止性能下降。

3.1.1 边剪枝 (Edge Pruning)

为此，LightGNN 采用一个稀疏权重矩阵 $W \in R^{I \times J}$ 进行边剪枝。如果一条边 $(u_{i}, v_{j})$ 是剪枝的候选对象，则 $W$ 中对应的权重 $w_{i, j}$ 是一个可学习参数。否则， $w_{i, j}$ 设为 0 且不进行优化。利用权重矩阵 $W$ ，剪枝后的 GNN 的图信息传播过程如下：

E_{U, l} = D_{U}^{- \frac{1}{2}} \cdot (A ⊙ W) \cdot D_{V}^{- \frac{1}{2}} \cdot E_{V, l - 1} + E_{U, l - 1} (4)

其中 $⊙$ 表示逐元素乘积运算符，将可学习权重 $W$ 注入信息传播过程。这里 $E_{U, l}, E_{U, l - 1} \in R^{I \times d}$ 表示第 $l$ 层和第 $(l - 1)$ 层的用户嵌入表， $E_{V, l - 1} \in R^{J \times d}$ 表示第 $(l - 1)$ 层的物品嵌入矩阵。 $D_{U} \in R^{I \times I}, D_{V} \in R^{J \times J}$ 分别表示用户和物品的度矩阵。获取高阶物品嵌入 $E_{V, l}$ 的信息传播类似地使用 $(A ⊙ W)^{⊤}$ 。
基于参数化的信息传播，权重 $W$ 参与最终用户/物品嵌入的计算，进而用于预测和损失计算。通过反向传播， $W$ 被调整以反映边的重要性，其中较大的 $| w_{i, j} |$ 表示边 $(u_{i}, v_{j})$ 对产生更好的推荐结果有更大的影响。鉴于此特性，LightGNN 框架在训练后剪枝不太重要的边（噪声或冗余），具体做法是将重要性最低的 $ρ %$ 候选边设为 0（见 3.2.3），其中 $ρ \in (0, 100)$ 表示丢弃比例。剪枝算法遵循多次运行的迭代方式。在每次运行中，LightGNN 首先进行模型训练和剪枝权重调整的参数优化，然后通过丢弃边和其他参数来剪枝 GNN。

3.1.2 嵌入和层剪枝 (Embedding and Layer Pruning)

正如 GNN 的复杂度分析所示，用于表示用户和物品的参数（即嵌入 $E$ ）也对 GNN 的运行时间和内存成本有显著贡献。因此，LightGNN 遵循与边类似的剪枝算法来剪枝嵌入矩阵 $E$ 中的条目。由于 $E$ 中的标量参数已经反映了其对应条目的重要性，LightGNN 不对嵌入使用额外的剪枝权重。类似地，LightGNN 根据 $| e_{i, d^{'}} |$ 的绝对值交替进行模型训练和比例为 $ρ^{'} %$ 的参数剪枝，其中 $e_{i, d^{'}}$ 表示 $i$ 的嵌入向量中的第 $d^{'}$ 维。
除了边和嵌入，GNN 的时间复杂度表明图传播层数 $L$ 也极大地影响 GNN 的计算时间。此外，在实践中， $L$ 对堆叠中间结果的临时内存成本也有显著影响。因此，LightGNN 进一步减少图迭代次数 $L$ 以提高效率，这也减轻了 GNN 的过平滑效应 [30]。

3.2 分层知识蒸馏

3.2.1 双层对齐 (Bilevel Alignment)

受知识蒸馏（KD）在将先进模型的学习知识压缩到轻量级架构中的优势 [29] 的启发，LightGNN 开发了一个分层知识蒸馏框架，以最大程度地在剪枝后的 GNN 模型中保留原始的高性能。LightGNN 以一个训练良好的 GNN 模型（如 LightGCN [8]）作为教师，将具有剪枝结构、嵌入和 GNN 层的学生模型与教师模型在隐藏嵌入和最终预测两个方面进行对齐。
在预测层面上，应用以下损失函数：

L_{p - k d} = \sum_{v} - (σ (ϵ_{v}^{t} / τ) \cdot \log σ (ϵ_{v}^{s} / τ) + \bar{σ} (ϵ_{v}^{t} / τ) \cdot \log \bar{σ} (ϵ_{v}^{s} / τ)) (5)

其中 $v = (u_{i}, v_{j^{1}}, v_{j^{2}})$ ， $\bar{σ} (x) = 1 - σ (x)$ ， $ϵ_{v}^{*} = {\hat{y}}_{i, j^{1}}^{*} - {\hat{y}}_{i, j^{2}}^{*}$ 。这里 $(u_{i}, v_{j^{1}}, v_{j^{2}})$ 表示随机采样的训练元组，类似于 BPR 损失，但 $v_{j^{1}}$ 和 $v_{j^{2}}$ 不固定为正样本或负样本。 $σ (\cdot)$ 表示 sigmoid 函数，将值约束在 (0, 1) 之间。 $τ \in R$ 称为温度系数 [10]。我们用上标 $s$ 表示学生模型的预测，用上标 $t$ 表示教师模型的预测。通过这个训练目标，LightGNN 框架鼓励剪枝后的 GNN 模型模仿包含所有边、嵌入条目和传播迭代的完整 GNN 模型的预测，从而尽可能获得教师的预测能力。
除了预测级对齐外，LightGNN 还通过将学习到的嵌入视为对比学习的成对数据视图来对齐教师模型和学生模型。具体而言，应用以下 InfoNCE 损失函数 [16]：

L_{e - k d} = - \sum_{u_{i} \in U} \log softmax (S_{U}, u_{i}) - \sum_{v_{j} \in V} \log softmax (S_{V}, v_{j}) (6)

其中 $softmax (S_{U}, u_{i})$ 基于余弦相似度计算。这里 $S_{U}$ 中的元素表示学生模型和教师模型分别为用户 $u_{i}$ 生成的最终嵌入 ${\bar{e}}_{i}^{s}, {\bar{e}}_{i}^{t}$ 之间的余弦相似度。物品侧的嵌入级 KD 计算类似。通过这种嵌入级 KD 目标，LightGNN 可以更好地指导剪枝后的 GNN 在更深层次上保留基本的图结构和参数。

3.2.2 用于结构增强的中间 KD 层

由于用户-物品交互数据的稀疏性，一些关键的偏好模式并未反映在直接的邻居关系中，而是保留在高阶关系中。为了在边剪枝过程中促进捕捉这些高阶连接，我们利用一个用于边增强的中间 KD 层模型来增强 LightGNN 的知识蒸馏。
具体来说，LightGNN 进行两阶段蒸馏：首先从原始 GNN 到增强 GNN，然后从增强 GNN 到最终剪枝 GNN。增强 GNN 不剪枝任何边或嵌入条目，而是包含高阶连接作为增强边。形式上，增强 GNN 具有与学生相同的模型架构（公式 4），但在以下增强的交互图上工作：

\bar{G} = (U, V, \bar{E}), \bar{E} = {(u_{i}, v_{j}), (v_{j}, u_{i}) | {\bar{a}}_{i, j}^{(h)} \neq 0} (7)

其中 ${\bar{a}}_{i, j}^{(h)}$ 表示带自环的对称邻接矩阵的 $h$ 次幂中 $(u_{i}, v_{j})$ 的条目 [25]。换句话说，如果在原始图中 $u_{i}$ 可以通过任何长度小于或等于 $h$ 跳的路径连接到 $v_{j}$ ，则边 $(u_{i}, v_{j})$ 存在于增强图 $\bar{G}$ 中。通过这种结构增强，增强 GNN 直接在其模型参数中包含高阶连接，以防止在激进的边剪枝中丢失关键的高阶模式。在中间 KD 期间，增强 GNN 由原始 GNN（无权重）监督，不仅为了模仿其准确的预测，还为了学习所有边的适当权重 $W^{t}$ 。中间 KD 层利用来自原始 GNN 的双层蒸馏监督和自适应边权重，防止增强的较大图引入噪声。

3.2.3 用于剪枝的重要性蒸馏

在从原始 GNN 到增强 GNN 模型的第一次知识蒸馏之后，LightGNN 将其学到的带有结构增强的知识蒸馏到最终的剪枝 GNN 模型中。除了上述的双层对齐外，LightGNN 进一步通过重要性蒸馏增强了这第二次 KD，该蒸馏显式利用中间模型中学习到的重要性权重来提高最终模型中剪枝权重的精度。具体来说，最终剪枝 GNN 中的剪枝权重矩阵是一个复合变量，其条目计算如下：

{\bar{w}}_{i, j}^{s} = w_{i, j}^{s} + β_{1} \cdot w_{i, j}^{t} + β_{2} \cdot σ ({\bar{e}}_{i}^{t ⊤} {\bar{e}}_{j}^{t}) for (u_{i}, v_{j}) \in E (8)

其中 ${\bar{w}}_{i, j}^{s} \in R$ 表示决定是否剪枝边 $(u_{i}, v_{j})$ 的权重，它是利用最终学生模型的独立边权重 $w_{i, j}^{s} \in W^{s}$ 、作为教师模型的中间 GNN 的调整边权重 $w_{i, j}^{t} \in W^{t}$ ，以及中间 GNN 的最终嵌入 ${\bar{e}}_{i}^{t}, {\bar{e}}_{j}^{t}$ 产生的边预测来获得的。 $β_{1}, β_{2}$ 表示两个用于加权的超参数。我们定义稀疏决策矩阵 ${\bar{W}}^{s} = {{\bar{w}}_{i, j}^{s}}_{I \times J}$ 。
通过边剪枝中的这种重要性蒸馏，最终学生模型中的剪枝权重 ${\bar{W}}^{s}$ 不仅通过双层 KD 目标以端到端的方式进行训练，还直接受到中间教师模型中训练良好的权重的调整。此外，通过利用在增强图中获得的边权重，剪枝后的 GNN 被注入了高阶连接性，以促进边丢弃和全局关系学习。值得注意的是，除了边剪枝外，学生的边权重也用于图信息传播，以用更少但具有补偿性、自适应性和信息性的边重要性来丰富剪枝后的 GNN。

3.3 带均匀性约束的优化

受 CF 中学习均匀嵌入优势 [22, 28] 的启发，LightGNN 提出基于对比学习的自适应均匀性约束来规范模型优化。具体来说，该约束最小化嵌入之间的成对内积以强制表示的均匀性，同时最大化具有相似剪枝掩码（pruning masks）的节点之间的嵌入相似性。通过这种方式，正向关系通过学习到的剪枝权重得到增强。形式上，自适应均匀性约束如下：

L_{u - r e g} = \sum_{u_{i} \in U} (- \log \frac{\sum_{u_{i^{'}} \in S_{i}} \exp ({\hat{e}}_{i}^{s ⊤} {\hat{e}}_{i^{'}}^{s} / τ)}{\sum_{u_{i^{″}} \in U} \exp ({\hat{e}}_{i}^{s ⊤} {\hat{e}}_{i^{″}}^{s} / τ)}) + \sum_{v_{j} \in V} (- \log \frac{\sum_{v_{j^{'}} \in S_{j}} \exp ({\hat{e}}_{j}^{s ⊤} {\hat{e}}_{j^{'}}^{s} / τ)}{\sum_{v_{j^{″}} \in V} \exp ({\hat{e}}_{j}^{s ⊤} {\hat{e}}_{j^{″}}^{s} / τ)}) (9)

其中 $S_{i}$ 和 $S_{j}$ 分别表示用户 $u_{i}$ 和物品 $v_{j}$ 的正样本集，通过选取在嵌入剪枝中共享最高相似度的用户/物品来确定。以用户侧为例，邻域集 $S_{i}$ 通过以下方式获取：

S_{i} = {u_{i^{'}} ∣ ∥ w_{i} ⊙ w_{i^{'}} ∥_{0} \geq max (∥ w_{i} ∥_{0}, ∥ w_{i^{'}} ∥_{0}) - δ} (10)

其中 $w_{i}, w_{i^{'}} \in {0, 1}^{d}$ 分别表示第 0 层嵌入向量 $e_{i}^{s}$ 和 $e_{i^{'}}^{s}$ 的二进制剪枝掩码。算子 $⊙$ 表示逐元素乘法， $∥ \cdot ∥_{0}$ 表示向量的 $L_{0}$ 范数。 $δ$ 表示相似度松弛的阈值超参数，根据剪枝比例选择。
通过上述使用相似剪枝嵌入作为正样本集的对比损失，LightGNN 可以在学习均匀分布嵌入的同时捕捉剪枝过程中的节点级相似性。结合协同过滤损失 $L_{b p r}$ 、双层 KD 损失 $L_{p - k d}$ 和 $L_{e - k d}$ ，以及参数 $Θ$ 上的权重衰减正则化项，LightGNN 应用以下多任务训练损失，其中 $λ$ 为超参数：

L = λ_{0} L_{b p r} + λ_{1} L_{p - k d} + λ_{2} L_{e - k d} + λ_{3} L_{u - r e g} + λ_{4} ∥ Θ ∥_{F}^{2} (11)

4. 评估

我们在 LightGNN 框架上进行了广泛的实验，旨在回答以下研究问题（RQs）：

RQ1：与现有的推荐方法相比，模型剪枝后 LightGNN 的性能如何？
RQ2：与基线相比，我们的剪枝 GNN 效率如何？
RQ3：LightGNN 的各组件如何影响剪枝 GNN 的推荐性能？
RQ4：剪枝比例如何影响剪枝 GNN 的推荐性能和效率？
RQ5：LightGNN 框架能否通过其分层知识蒸馏缓解过平滑效应？
RQ6：LightGNN 能否有效识别用户-物品交互图中的冗余和噪声信息？

4.1 实验设置

4.1.1 数据集。LightGNN 使用三个真实世界数据集进行评估：Gowalla, Yelp, 和 Amazon。Gowalla 数据集包含从 Gowalla 平台获取的 2010 年 1 月至 6 月用户在地理位置的签到记录。Yelp 数据集来自 Yelp 平台，包含 2018 年 1 月至 6 月用户对场所的评分。Amazon 数据集包含 2013 年期间人们在 Amazon 平台上对书籍的评分。遵循 [29]，我们过滤掉交互少于 3 次的用户和物品，并将原始数据集按 70:5:25 的比例划分为训练集、验证集和测试集。此外，遵循 [8]，我们将评分转换为二进制隐式反馈。
4.1.2 评估协议。我们遵循推荐系统通用的评估协议 [25, 35]。对于每个用户，我们将测试集中的正样本物品与所有未交互的物品进行排序，这种方法称为全排序评估。我们使用两个常用指标 Recall@N 和 NDCG@N [24, 27]，其中 $N = 20$ 和 $40$ 。
4.1.3 基线。我们将 LightGNN 与 18 个不同类别的基线进行比较，包括分解方法 (BiasMF [13])，深度神经 CF 方法 (NCF [9], AutoR [19])，基于图的方法 (GCMC [1], PinSage [33], STGCN [36], NGCF [25], GCCF [4], LightGCN [8], DGCF [26])，自监督推荐系统 (SLRec [32], SGL [27], NCL [15], SimGCL [34], HCCF [30])，以及压缩 CF 方法 (GLT [5], UnKD [3], SimRec [29])。
4.1.4 超参数设置。我们使用 PyTorch 实现 LightGNN，使用 Adam 优化器和 Xavier 初始化器，采用默认参数。对于所有模型，训练批次大小设为 4096，默认嵌入大小为 32。对于所有基于 GNN 的模型，我们将层数设为 2。LightGNN 中的权重 $λ_{0}, λ_{1}, λ_{2}$ 在 ${1 e^{- k} | k = 0, 1, . . ., 4}$ 中调整。 $λ_{3}$ 在更宽的范围内调整，额外包含 ${1 e^{- 5}, 1 e^{- 6}}$ 。权重衰减正则化权重 $λ_{4}$ 从 ${1 e^{- k} | k = 3, 4, . . ., 9}$ 中选择。所有温度系数从 ${1 e^{- k}, 3 e^{- k}, 5 e^{- k} | k = - 1, 0, 1, 2}$ 中选择。基线方法使用其发布的代码实现，并通过网格搜索进行超参数调整。效率测试在配备 NVIDIA GeForce RTX 3090 GPU 的设备上进行。

4.2 性能比较 (RQ1)

我们首先在推荐准确性上将 LightGNN 与基线进行比较。结果如表 2 所示（注：表2为原文中的大表格，展示了各模型在三个数据集上的 Recall 和 NDCG 表现）。我们得出以下观察结果：

LightGNN 的卓越性能：提出的 LightGNN 模型在各个类别中均超越了所有基线，包括简单的神经 CF、基于图的推荐器、自监督方法和压缩方法。这种性能优势表明，我们的可学习剪枝框架和分层蒸馏范式不仅在模型压缩后保持了预测准确性，而且增强了现有的推荐框架。有效消除交互图和嵌入参数中的噪声和冗余促成了这些性能提升。
无模型压缩 CF 的缺陷：对比表现最好的 CF 方法（如 SGL, HCCF, SimGCL 等自监督 CF 技术）与压缩方法（如 UnKD 和 SimRec），很明显，没有模型压缩的 CF 方法在推荐准确性上有所欠缺。这种差异可归因于 UnKD 和 SimRec 的知识蒸馏过程中嵌入的去偏和抗过平滑效应。这表明模型压缩技术（如知识蒸馏）不仅仅能提高模型效率，还能解决观测数据和建模框架中存在的不利因素，如数据偏差、噪声和过平滑效应。
显式噪声消除的重要性：虽然 UnKD 和 SimRec 通过解决 GNN CF 中的偏差和过平滑效应来优化蒸馏模型，但它们仅依赖于高层级的监督方法。相比之下，LightGNN 显式识别并消除了模型中的细粒度噪声和冗余元素（如边和嵌入条目）。这赋予了 LightGNN 在推荐器优化方面的显著优势，导致了显著的性能优越性。

4.3 效率测试 (RQ2)

为了评估模型效率，我们评估了 LightGNN 和基线的内存及计算成本。对比的基线包括 NGCF, GCCF, HCCF 以及现有的 GNN 压缩方法 UnKD。LightGNN 在不同的保留率下进行了测试。图 3 展示了相对于 NGCF 性能的结果。我们得出以下观察：

简化版 GNN：尽管通过移除变换和激活简化了 GNN 架构，但像 GCCF 这样的一些 GNN 方法未能显著降低与图存储和信息传播相关的内存和时间成本。因此，GCCF 的成本与 NGCF 相当。这证明了架构简化在提高基于图的推荐效率方面的局限性。
SSL 增强的 GNN：SSL 技术已被用于通过生成自监督信号来增强图推荐器。然而，值得注意的是，这些方法可能会引入额外的操作，导致内存和时间成本增加。HCCF 的表现就是一个例子，使用额外的超图传播需要更多的 FLOPs，并导致计算时间显著增加。

file-20260323040550921.png|475
file-20260323040550946.png|475

现有的压缩 GNN：UnKD 在实现效率提升方面取得了成功，特别是在计算时间方面。然而，将 UnKD 与 LightGNN 相比，明显的劣势显现出来。这一限制源于 UnKD 缺乏对 GNN 模型中冗余和噪声的显式识别和移除。因此，UnKD 无法像 LightGNN 框架那样剪枝更大部分的 GNN 以实现卓越的效率提升。
LightGNN 的效率：结果显示，考虑到参数数量和存储大小，LightGNN 的内存减少了 70%。此外，前向传播中的 FLOPs 减少了超过 90%，物理预测时间减少了超过 50%。这些效率优化归功于两个关键方面。首先，可学习的 GNN 剪枝范式准确地移除了 GNN 中的冗余和噪声信息。这促进了计算资源的有效利用。其次，我们的可学习剪枝机制由分层 KD 监督，该 KD 结合了多维对齐和高阶结构增强。这最大化了性能的保留，允许对参数进行更广泛的剪枝。

4.4 消融实验 (RQ3)

我们使用 Gowalla 和 Yelp 数据，在不同剪枝比例下调查 LightGNN 技术设计的有效性。结果如表 3 所示。我们有以下观察：

GNN 剪枝技术的有效性：
- -EmbP, -EdgeP, -BothP：我们将可学习剪枝替换为随机丢弃。这三个变体分别替换嵌入剪枝、边剪枝和两者。在不同剪枝比例下均观察到显著的性能下降，表明了我们的可学习剪枝在识别关键嵌入条目和边方面的有效性。特别是，当以高比例丢弃时（例如仅保留 11% 和 8% 的条目），随机变体的预测能力经历了破坏性（超过 70%）的衰减，而 LightGNN 保留了其大部分准确性。
- BnEdge：为了研究学习到的边权重 $W^{s}$ 的效果，BnEdge 在 GNN 传播中使用二进制边权重代替 $W^{s}$ 。虽然它保持可学习剪枝过程不变，但可以观察到明显的退化。这表明学习权重的关键作用。它们不仅识别哪些边需要剪枝，还有效地保留了剪枝后的信息。
知识蒸馏的有效性：
- -BiAln：为了评估 KD 约束对有效剪枝的重要性，我们移除了双层对齐，包括预测级和嵌入级 KD。显著的性能下降验证了将教师模型与剪枝模型对齐以有效保留模型性能的重要性。
- -IntKD：此变体移除了 LightGNN 中的中间 KD 层。结果显示其性能显著恶化，特别是在 Yelp 数据集上。该模块对 Yelp 的重要性增加可归因于该数据集更高的稀疏性。在这种情况下，中间 KD 层能够从高阶关系中寻找更多边来丰富较小的边集。
- -ImpD：此变体移除了重要性蒸馏，结果证实了将中间 KD 层模型的学习边权重和预测纳入边丢弃决策过程的好处。

4.5 剪枝比例的影响 (RQ4)

在这个实验中，我们调查了边和嵌入条目的剪枝比例对模型性能和效率的影响。图 4 展示了在不同保留率下的评估模型性能和前向传播计算 FLOPs。我们展示了两种剪枝方案：温和剪枝方案（移除较少图边）和激进剪枝方案（移除更多边）。基于结果，我们得出以下观察：

性能变化：随着我们丢弃更多的嵌入条目和图边，我们观察到性能持续下降。然而，值得注意的是，即使移除了 GNN 模型的很大一部分，与 SimGCL 和 LightGCN 相比，LightGNN 始终保持高水平的推荐性能。这种韧性可归因于分层 KD，它通过双层对齐有效地将学生模型的预测与表现良好的教师模型对齐，以及重要性蒸馏给出了最佳的丢弃策略。此外，带有结构增强的中间 KD 层通过整合从高阶关系中采样的更多边，进一步增强了推荐能力。这些特性共同促成了 LightGNN 的鲁棒性能。
效率变化：随着剪枝比例增加，LightGNN 展现出 FLOPs 的显著下降。这证实了通过剪枝嵌入和结构来增强 GNN 效率的有效性。具体来说，LightGNN 在保持与 SimGCL 相当性能的同时实现了 90% 的 FLOPs 减少，在表现与 LightGCN 相似时实现了 95% 的 FLOPs 减少。这些 FLOPs 的大幅减少突显了我们可学习剪枝策略在最小化计算操作方面的有效性。
跨数据集差异：此外，值得一提的是，在 Amazon 数据集上剪枝相同比例的信息时，LightGNN 表现出比 Gowalla 数据集更好的推荐性能保留。这一观察表明 Amazon 数据中存在更多冗余或噪声，这与 Amazon 数据集中存在的更多边和用户/物品数量相符。

4.6 抗过平滑效应研究 (RQ5)

为了评估 LightGNN 在剪枝过程中缓解 GNN 过平滑效应的能力，我们将模型的嵌入分布均匀性与基线方法进行比较。此比较在两个维度上进行。

嵌入分布可视化：从图 5 绘制的嵌入分布中，我们可以观察到：i) LightGCN 在 2D 图和角度图中均观察到明显的聚类效应，证明了迭代嵌入平滑范式导致的严重过平滑效应。ii) 为解决此问题，SGL 和 SimGCL 结合对比学习以增强嵌入的分布均匀性。这两种方法在估计分布中显示出比 LightGCN 更高的均匀性，SimGCL 由于其较少随机性的增强设计而表现出一些优势。iii) 与 SimGCL 相比，LightGNN 在嵌入分布环中显示出更少的暗区，表明更高的均匀性。这一优势在基于角度的图中更为明显，其中低概率与 LightGNN 中的高概率更为接近。这一观察强烈表明 LightGNN 具有更高的抗过平滑能力，这可归因于嵌入剪枝引起的稀疏化效应以及 LightGNN 中的均匀性约束。
平均距离 (MAD) 值：我们进一步评估了表 4 中的 MAD 值 [2, 29]，从中我们得出以下观察：i) 基于 GNN 的 CF 范式 GCCF 和 LightGCN 通常表现出比其他采用对比学习的方法更低的 MAD 值。这突显了基于传播的图编码器固有的过平滑问题。ii) 对于其他基线，我们观察到 NCL 和 SGL 显示较低的 MAD 值，表明较强的过平滑效应。这揭示了它们随机结构增强方法的局限性，易受数据噪声影响。iii) SimGCL 和 SimRec 的优越性验证了它们推开所有嵌入的有效设计。相比之下，LightGNN 通过使用嵌入剪枝中的节点级相似性构建有意义的正样本对，取得了进一步的进步。这种技术有效地以可学习的方式增强了正向关系学习。

4.7 噪声和冗余识别 (RQ6)

我们探索了 LightGNN 削减交互数据中噪声和冗余的能力。结果详见图 6。
噪声剪枝。在图 6(a) 中，展示了两组左侧边的决策权重 ${\bar{W}}^{s}$ ，以及右侧用户对相应物品的文本评论和评分。值得注意的是，这些评论和评分并未暴露给 LightGNN。结果显示，LightGNN 为诸如 $< U_{310}, V_{1704} >$ 和 $< U_{4470}, V_{4641} >$ 的交互分配了低权重，这与用户的负面反馈（例如，“太咸了”）一致。在图 CF 的背景下，此类负面反馈实例被视为常规用户-物品交互，可能会对用户偏好建模产生不利影响。在我们的结果中频繁出现的类似观察表明，LightGNN 有效地识别并处理了图结构中的噪声，从而改善了基于 GNN 的推荐的剪枝效果。
冗余剪枝。在图 6(b) 中，一些代表性案例展示了 LightGNN 冗余剪枝的功效，其中三个用户与多个共享相同类别（如中餐馆和美国酒吧）的场所进行交互，反映了冗余的用户兴趣信息。尽管 LightGNN 是类别不可知的，但它识别出了这些相似性，为一些冗余物品分配了较低的权重。这鼓励剪枝算法消除冗余，从而提高模型效率。此外，得益于中间 KD 层中的可学习边权重，LightGNN 保留了每种兴趣的偏好强度，而不是依赖于每种兴趣的物品计数。

5. 相关工作

5.1 图神经推荐系统

图神经网络（GNN）已成为推荐系统的基础架构。早期工作如 NGCF [25] 和 GCMC [1] 将图卷积网络（GCN）引入协同推荐。后续研究包括 STGCN [36]，其在 GNN 编码器内集成了自动编码架构，以及 DGCF [26]，其将表示解耦模块纳入基于图的协同过滤。LightGCN [8] 和 GCCF [4] 强调了先前图神经架构中的冗余，并通过消除非线性和线性映射实现了性能提升。最近，自监督学习（SSL）因其生成丰富监督信号和解决推荐中数据稀疏问题的能力而受到关注。基于对比学习（CL）的图 CF（例如 SGL [27], SimGCL [34], DirectAU [22], AdaGCL [12]）是一种流行的 SSL 技术，可有效学习均匀分布以对抗 GNN 的过平滑效应。HCCF [30] 和 NCL [15] 引入额外的编码视图以丰富图 CL。此外，基于图的推荐也通过基于掩码自动编码的生成式 SSL 技术得到增强，如 AutoCF [28] 和 DGMAE [17]。
尽管 GNN 的进步显著增强了推荐性能，但 GNN 广泛的信息传播和节点特定参数带来的低效率仍然是一个固有局限。在此背景下，LightGNN 旨在有效地剪枝 GNN 的冗余和噪声组件，同时通过蒸馏约束保持高性能。

5.2 图模型的模型压缩

为了增强 GNN 的可扩展性，先前的工作利用随机节点和边采样技术处理大图（例如 PinSAGE [33], HGT [11]）。然而，这些随机策略不能确保保留关键信息，可能会显著影响模型性能。作为回应，出现了几种方法来更好地保留原始模型的重要模式。GLT [5] 主张通过学习边对下游任务性能的重要性来仅保留基本边。其他研究通过知识蒸馏改进压缩监督。GLNN [37] 和 SimRec [29] 提出从更重的 GNN 中蒸馏出基于 MLP 的高效学生模型。UnKD [3] 使用分层蒸馏策略进一步减轻 KD 过程中的偏差。此外，KD 也被应用于压缩基于非 GNN 架构的推荐器（例如 [21, 31]）。
与先前通过用更简单的架构替换 GNN 来广泛降低模型复杂度的方法不同，LightGNN 保留了 GNN 强大的拓扑提取能力。它通过显式识别并消除 GNN 结构和嵌入中的冗余和噪声来实现效率。这种策略有效地减轻了图中的错误信息，同时通过剪枝信息增强了可解释性。

6. 结论

本文介绍了一种新颖的剪枝框架 LightGNN，旨在解决基于 GNN 的协同过滤中的可扩展性和鲁棒性挑战。LightGNN 显式建模 GNN 推荐器中每个边和嵌入参数的冗余和噪声概率，从而能够精确剪枝错误信息。它由创新的分层蒸馏目标驱动，利用高阶关系和多级蒸馏来增强性能保留。广泛的实验表明，LightGNN 在推荐性能、压缩效率和鲁棒性方面优于基线。

A. 伦理考量

A.1 伦理影响

针对 LightGNN（一种基于蒸馏的 GNN 剪枝框架）提出的研究引入了用于图神经网络（GNN）模型压缩的创新技术，以在保持推荐准确性的同时降低模型复杂性。虽然该领域的进步前景广阔，但由于基于图的推荐系统通常依赖敏感的用户交互数据，因此需要考虑伦理影响。

隐私考量：GNN 对用户交互数据的利用引起了对隐私的担忧。剪枝过程必须防止对图数据中包含的敏感用户信息的未授权访问。此外，压缩期间边和嵌入条目的移除应以不无意中暴露或保留可识别用户信息的方式进行。
安全与保障：基于可学习算法的剪枝组件可能会引入漏洞，从而损害推荐系统的完整性，可能导致数据泄露或操纵。此外，为实现高压缩率而进行的激进剪枝可能会损害 GNN 模型的鲁棒性，使其更容易受到对抗性攻击或出现意外行为。

A.2 缓解策略

下面，我们介绍一些可能的缓解策略。

隐私保护技术：实施加密和匿名化方法来保护用户数据，同时确保剪枝过程不会损害个人隐私。
安全审计：进行彻底的安全评估，以识别和解决剪枝框架引入的潜在漏洞，确保数据完整性和系统安全。
透明度与问责制：保持剪枝过程的透明度，提供关于组件如何被剪枝的清晰解释，并使用户能够理解和质疑系统做出的推荐。
总之，虽然 LightGNN 在降低模型复杂性同时保持推荐性能方面显示出前景，但研究人员和开发人员必须优先考虑伦理因素，以减轻潜在的负面社会影响，并维护推荐中 AI 系统的完整性和公平性。