🎲 [ICLR 2025] DICE: 去中心化学习中的数据影响级联
TLDR: 我们引入了 DICE,这是第一个用于衡量去中心化学习中数据影响的框架。
标签: 数据_影响,去中心化_学习
作者: 朱通天 1 李文豪 1 王灿 1 何凤祥 2
1 浙江大学 2 爱丁堡大学
📄 Openreview • 💻 代码 • 📚 arXiv • 🔗 Twitter • 🖼️ 海报 • 📊 幻灯片 • 🎥 视频 (中文)
更新中。更多内容即将推出!😉
🗓️ 2025-07-17 — 更新了主要结果
主要成果
定理 (r-跳 DICE-GT 的近似)
r-跳 DICE-GT 影响 I D I C E − G T ( r ) ( z j t , z ′ ) \mathcal{I}_{\mathrm{DICE-GT}}^{(r)}(\boldsymbol{z}_j^t, \boldsymbol{z}^{\prime})I DICE − GT ( r ) ( z j t , z ′ ) 可近似如下
I D I C E − E ( r ) ( z j t , z ′ ) = − ∑ ρ = 0 r ∑ ( k 1 , … , k ρ ) ∈ P j ( ρ ) η t q k ρ ( ∏ s = 1 ρ W k s , k s − 1 t + s − 1 ) ⏟ communication graph-related term × ∇ L ( θ k ρ t + ρ ; z ′ ) ⊤ ⏟ test gradient × ( ∏ s = 2 ρ ( I − η t + s − 1 H ( θ k s t + s − 1 ; z k s t + s − 1 ) ) ) ⏟ curvature-related term × Δ j ( θ j t , z j t ) ⏟ optimization-related term I DICE − E ( r ) ( z j t , z ′ ) = − ρ = 0 ∑ r ( k 1 , … , k ρ ) ∈ P j ( ρ ) ∑ η t q k ρ communication graph-related term ( s = 1 ∏ ρ W k s , k s − 1 t + s − 1 ) × test gradient ∇ L ( θ k ρ t + ρ ; z ′ ) ⊤ × curvature-related term ( s = 2 ∏ ρ ( I − η t + s − 1 H ( θ k s t + s − 1 ; z k s t + s − 1 ) ) ) × optimization-related term Δ j ( θ j t , z j t )
其中 Δ j ( θ j t , z j t ) = O j ( θ j t , z j t ) − θ j t \Delta_j(\boldsymbol{\theta}_j^t,\boldsymbol{z}_j^t) = \mathcal{O}_j(\boldsymbol{\theta}_j^t,\boldsymbol{z}_j^t)-\boldsymbol{\theta}_j^tΔ j ( θ j t , z j t ) = O j ( θ j t , z j t ) − θ j t , k 0 = j k_0 = jk 0 = j 。这里 P j ( ρ ) P_j^{(\rho)}P j ( ρ ) 表示所有序列 ( k 1 , … , k ρ ) (k_1, \dots, k_{\rho})( k 1 , … , k ρ ) 的集合,使得 k s ∈ N o u t ( 1 ) ( k s − 1 ) k_s \in \mathcal{N}_{\mathrm{out}}^{(1)}(k_{s-1})k s ∈ N out ( 1 ) ( k s − 1 ) 对于 s = 1 , … , ρ s=1,\dots,\rhos = 1 , … , ρ 且 H ( θ k s t + s ; z k s t + s ) \boldsymbol{H}(\boldsymbol{\theta}_{k_s}^{t+s}; \boldsymbol{z}_{k_s}^{t+s})H ( θ k s t + s ; z k s t + s ) 是 L LL 相对于 θ \boldsymbol{\theta}θ 在 θ k s t + s \boldsymbol{\theta}_{k_s}^{t+s}θ k s t + s 和数据 z k s t + s \boldsymbol{z}_{k_s}^{t+s}z k s t + s ) 处的Hessian矩阵。
对于 ρ = 0 \rho = 0ρ = 0 和 ρ = 1 \rho = 1ρ = 1 的情况,相关乘积表达式被定义为单位矩阵,从而确保 r-跳 DICE-E 仍然是良好定义的。
DICE 的主要见解
我们的理论揭示了去中心化学习中数据影响的复杂因素交织
1. 不对称影响和拓扑重要性: 相同数据在网络中的影响并非一致。 相反,拓扑重要性更高的节点会产生更强的影响。
2. 中间节点和损失平面的作用: 中间节点积极参与到 “影响链” 中。这些模型的局部损失平面也积极地塑造了影响在网络中的传播。
3. 带有阻尼衰减的影响级联: 数据影响级联具有混合参数 W 引起的 “阻尼衰减” 。这种衰减可能随跳数呈指数级,确保影响 “局部化” 。
引用
引用我们的论文 😀
如果您觉得我们的工作富有启发性,我们将非常感谢您的引用。
@inproceedings{zhu2025dice,
title="{DICE: Data Influence Cascade in Decentralized Learning}",
author="Tongtian Zhu and Wenhao Li and Can Wang and Fengxiang He",
booktitle="The Thirteenth International Conference on Learning Representations",
year="2025",
url="[https://openreview.net/forum?id=2TIYkqieKw](https://openreview.net/forum?id=2TIYkqieKw)"
}