Optimized large-message broadcast for deep learning workloads: MPI, MPI+NCCL, or NCCL2? - researchr publication references

researchr

You are not signed in
Sign in
Sign up

Ammar Ahmad Awan, Karthik Vadambacheri Manian, Ching-Hsiang Chu, Hari Subramoni, Dhabaleswar K. Panda. Optimized large-message broadcast for deep learning workloads: MPI, MPI+NCCL, or NCCL2?. Parallel Computing, 85:141-152, 2019. [doi]

No references recorded for this publication.

No citations of this publication recorded.

runs on WebDSL