<https://arxiv.org/pdf/2008.08272.pdf>`_
Scaling Distributed Training with Adaptive Summation
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
précédent
2021-01-05 Quelques articles
suivant
2020-08-13 Pose2seq