Towards Scalable Distributed Training of Deep Learning on Public Cloud Clusters - researchr publication related

researchr

You are not signed in
Sign in
Sign up

Shaohuai Shi, Xianhao Zhou, Shutao Song, Xingyao Wang, Zilin Zhu, Xue Huang, Xinan Jiang, Feihu Zhou, Zhenyu Guo, Liqiang Xie, Rui Lan, Xianbin Ouyang, Yan Zhang, Jieqian Wei, Jing Gong, Weiliang Lin, Ping Gao, Peng Meng, Xiaomin Xu, Chenyang Guo, Bo Yang, Zhibo Chen 0006, Yongjian Wu, Xiaowen Chu 0001. Towards Scalable Distributed Training of Deep Learning on Public Cloud Clusters. In Alex Smola, Alex Dimakis, Ion Stoica, editors, Proceedings of Machine Learning and Systems 2021, MLSys 2021, virtual, April 5-9, 2021. mlsys.org, 2021. [doi]

The following publications are possibly variants of this publication:

Towards GPU Memory Efficiency for Distributed Training at ScaleRunxiang Cheng, Chris Cai, Selman Yilmaz, Rahul Mitra, Malay Bag, Mrinmoy Ghosh, Tianyin Xu. CLOUD 2023: 281-297 [doi]

Accelerating large-scale distributed neural network training with SPMD parallelismShiwei Zhang, Lansong Diao, Chuan Wu 0001, Siyu Wang, Wei Lin 0016. CLOUD 2022: 403-418 [doi]

BigDL: A Distributed Deep Learning Framework for Big DataJason Jinquan Dai, Yiheng Wang, Xin Qiu, Ding Ding, Yao Zhang, Yanzhang Wang, Xianyan Jia, Cherry Li Zhang, Yan Wan, Zhichao Li, Jiao Wang, Shengsheng Huang, Zhongyuan Wu, Yang Wang, Yuhao Yang, Bowen She, Dongjie Shi, Qi Lu, Kai Huang, Guoqiong Song. CLOUD 2019: 50-60 [doi]

Chronus: A Novel Deadline-aware Scheduler for Deep Learning Training JobsWei Gao, Zhisheng Ye, Peng Sun, Yonggang Wen 0001, Tianwei Zhang 0004. CLOUD 2021: 609-623 [doi]

Elastic parameter server load distribution in deep learning clustersYangrui Chen, Yanghua Peng, Yixin Bao, Chuan Wu, Yibo Zhu, Chuanxiong Guo. CLOUD 2020: 507-521 [doi]

Fast Distributed Deep Learning via Worker-adaptive Batch SizingChen Chen 0015, Qizhen Weng, Wei Wang 0030, Baochun Li, Bo Li 0001. CLOUD 2018: 521 [doi]

Adversarial robustness of deep neural networks: A survey from a formal verification perspectiveMeng, Mark Huasong, Bai, Guangdong, Teo, Sin Gee, Hou, Zhe, Xiao, Yan, Lin, Yun, Dong, Jin Song. IEEE Transactions on Dependable and Secure Computing, , 2022.

runs on WebDSL