🎲 [ICLR 2025] DICE: 去中心化学习中的数据影响级联

社区文章 发布于 2025年7月17日

TLDR: 我们引入了 DICE,这是第一个用于衡量去中心化学习中数据影响的框架。

标签: 数据_影响,去中心化_学习

作者:   朱通天1    李文豪1    王灿1    何凤祥2

1浙江大学      2爱丁堡大学

📄 Openreview • 💻 代码 • 📚 arXiv • 🔗 Twitter • 🖼️ 海报 • 📊 幻灯片 • 🎥 视频 (中文)

DICE

更新中。更多内容即将推出!😉

🗓️ 2025-07-17 — 更新了主要结果

主要成果

定理 (r-跳 DICE-GT 的近似)

r-跳 DICE-GT 影响 IDICEGT(r)(zjt,z)\mathcal{I}_{\mathrm{DICE-GT}}^{(r)}(\boldsymbol{z}_j^t, \boldsymbol{z}^{\prime}) 可近似如下

IDICEE(r)(zjt,z)=ρ=0r(k1,,kρ)Pj(ρ)ηtqkρ(s=1ρWks,ks1t+s1)communication graph-related term×L(θkρt+ρ;z)test gradient×(s=2ρ(Iηt+s1H(θkst+s1;zkst+s1)))curvature-related term×Δj(θjt,zjt)optimization-related term

其中 Δj(θjt,zjt)=Oj(θjt,zjt)θjt\Delta_j(\boldsymbol{\theta}_j^t,\boldsymbol{z}_j^t) = \mathcal{O}_j(\boldsymbol{\theta}_j^t,\boldsymbol{z}_j^t)-\boldsymbol{\theta}_j^t, k0=jk_0 = j。这里 Pj(ρ)P_j^{(\rho)} 表示所有序列 (k1,,kρ)(k_1, \dots, k_{\rho}) 的集合,使得 ksNout(1)(ks1)k_s \in \mathcal{N}_{\mathrm{out}}^{(1)}(k_{s-1}) 对于 s=1,,ρs=1,\dots,\rhoH(θkst+s;zkst+s)\boldsymbol{H}(\boldsymbol{\theta}_{k_s}^{t+s}; \boldsymbol{z}_{k_s}^{t+s})LL 相对于 θ\boldsymbol{\theta}θkst+s\boldsymbol{\theta}_{k_s}^{t+s} 和数据 zkst+s\boldsymbol{z}_{k_s}^{t+s} 处的Hessian矩阵。

对于 ρ=0\rho = 0ρ=1\rho = 1 的情况,相关乘积表达式被定义为单位矩阵,从而确保 r-跳 DICE-E 仍然是良好定义的。

DICE 的主要见解

我们的理论揭示了去中心化学习中数据影响的复杂因素交织

  • 1. 不对称影响和拓扑重要性: 相同数据在网络中的影响并非一致。 相反,拓扑重要性更高的节点会产生更强的影响。
  • 2. 中间节点和损失平面的作用: 中间节点积极参与到 “影响链” 中。这些模型的局部损失平面也积极地塑造了影响在网络中的传播。
  • 3. 带有阻尼衰减的影响级联: 数据影响级联具有混合参数 W 引起的 “阻尼衰减”。这种衰减可能随跳数呈指数级,确保影响 “局部化”

引用

引用我们的论文 😀

如果您觉得我们的工作富有启发性,我们将非常感谢您的引用。

@inproceedings{zhu2025dice,
  title="{DICE: Data Influence Cascade in Decentralized Learning}",
  author="Tongtian Zhu and Wenhao Li and Can Wang and Fengxiang He",
  booktitle="The Thirteenth International Conference on Learning Representations",
  year="2025",
  url="[https://openreview.net/forum?id=2TIYkqieKw](https://openreview.net/forum?id=2TIYkqieKw)"
}

社区

注册登录 以评论