FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement - researchr publication

researchr

You are not signed in
Sign in
Sign up

Xiaonan Nie, Xupeng Miao, Zilong Wang, Zichao Yang, Jilong Xue, Lingxiao Ma, Gang Cao, Bin Cui 0001. FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement. Proc. ACM Manag. Data, 1(1), 2023. [doi]

Abstract is missing.

runs on WebDSL