🎲 [ICLR 2025] DICE:去中心化学习中的数据影响力级联

社区文章 发布于 2025年7月17日

总结: 我们提出了 DICE,这是首个用于衡量完全去中心化学习 (decentralized learning) 中数据影响 (data influence) 的框架。

标签: 数据影响 (Data_Influence), 去中心化学习 (Decentralized_Learning)


作者:   Tongtian Zhu1    Wenhao Li1    Can Wang1    Fengxiang He2

1浙江大学      2爱丁堡大学

📄 论文 • 💻 代码 • 📚 预印本 • 🔗 推特 • 🖼️ 海报 • 📊 PPT • 🎥 视频 (中文)

DICE框架示意图

正在更新中,敬请期待更多内容! 😉

🗓️ 2025-07-17 — 更新了主要结果


主要结果

定理 (r-hop DICE-GT 的近似)

r-hop DICE-GT 影响 IDICEGT(r)(zjt,z)\mathcal{I}_{\mathrm{DICE-GT}}^{(r)}(\boldsymbol{z}_j^t, \boldsymbol{z}^{\prime}) 可以近似如下:

IDICEE(r)(zjt,z)=ρ=0r(k1,,kρ)Pj(ρ)ηtqkρ(s=1ρWks,ks1t+s1)通信图相关项×L(θkρt+ρ;z)测试梯度×(s=2ρ(Iηt+s1H(θkst+s1;zkst+s1)))曲率相关项×Δj(θjt,zjt)优化相关项 \begin{equation} \begin{split} &\mathcal{I}_{\mathrm{DICE-E}}^{(r)}(\boldsymbol{z}_j^t, \boldsymbol{z}^{\prime})\\ & = - \sum_{\rho=0}^{r} \sum_{ (k_1, \dots, k_{\rho}) \in P_j^{(\rho)} } \eta^{t} q_{k_\rho} \underbrace{ \left( \prod_{s=1}^{\rho} \boldsymbol{W}_{k_s, k_{s-1}}^{t+s-1} \right) }_{\text{通信图相关项}} \times \underbrace{ \nabla L\bigl(\boldsymbol{\theta}_{k_{\rho}}^{t+\rho}; \boldsymbol{z}^{\prime}\bigr)^\top }_{\text{测试梯度}} \\ & \quad \times \underbrace{ \left( \prod_{s=2}^{\rho} \left( \boldsymbol{I} - \eta^{t+s-1} \boldsymbol{H}(\boldsymbol{\theta}_{k_s}^{t+s-1}; \boldsymbol{z}_{k_s}^{t+s-1}) \right) \right) }_{\text{曲率相关项}} \times \underbrace{ \Delta_j(\boldsymbol{\theta}_j^t,\boldsymbol{z}_j^t) }_{\text{优化相关项}} \end{split} \end{equation}

其中 Δj(θjt,zjt)=Oj(θjt,zjt)θjt\Delta_j(\boldsymbol{\theta}_j^t,\boldsymbol{z}_j^t) = \mathcal{O}_j(\boldsymbol{\theta}_j^t,\boldsymbol{z}_j^t)-\boldsymbol{\theta}_j^t, 且 k0=jk_0 = j. 这里的 Pj(ρ)P_j^{(\rho)} 表示所有满足 ksNout(1)(ks1)k_s \in \mathcal{N}_{\mathrm{out}}^{(1)}(k_{s-1})(对于 s=1,,ρs=1,\dots,\rho)的序列 (k1,,kρ)(k_1, \dots, k_{\rho}) 的集合。 H(θkst+s;zkst+s)\boldsymbol{H}(\boldsymbol{\theta}_{k_s}^{t+s}; \boldsymbol{z}_{k_s}^{t+s}) 是损失函数 LL 关于 θ\boldsymbol{\theta}θkst+s\boldsymbol{\theta}_{k_s}^{t+s} 和数据 zkst+s\boldsymbol{z}_{k_s}^{t+s} 处求值的 Hessian 矩阵。

DICE 的核心洞见

我们的理论揭示了在去中心化学习中,塑造数据影响力的各种因素之间复杂的相互作用:

  • 1. 非对称影响与通讯拓的扑重要性: 相同数据的影响力在网络中并非均匀分布。 相反,具有更高拓扑重要性的节点 (node) 会产生更强的影响力。
  • 2. 中间节点与损失景观的角色: 中间节点会主动构成一条“影响链 (influence chain)”。当影响力在网络中传播时,这些模型的局部损失景观 (loss landscape) 也会主动地塑造影响。
  • 3. 带有阻尼衰减的影响级联: 数据影响力会以一种由混合参数 W 引起的“阻尼衰减 (damped decay)”形式进行级联传播。这种衰减可能随跳数 (hop) 呈指数级下降,确保了影响力的“局部性 (localized)”

引用

如果我们的工作对您有所启发,欢迎引用我们的论文。

@inproceedings{zhu2025dice,
  title="{DICE: Data Influence Cascade in Decentralized Learning}",
  author="Tongtian Zhu and Wenhao Li and Can Wang and Fengxiang He",
  booktitle="The Thirteenth International Conference on Learning Representations",
  year="2025",
  url="[https://openreview.net/forum?id=2TIYkqieKw](https://openreview.net/forum?id=2TIYkqieKw)"
}

社区

注册登录 进行评论