分布式训练#

作者: joyeewang & horse6 & caixiiaoyang & jing-alice

NeurAI将提供分布式训练模块,其主要作用是划分训练数据,分配训练任务,调配计算资源并整合分布式的训练结果,以期达到训练速度和训练精度的完美平衡。 如图,基于通用计算图,根据用户的分布式配置策略,进行了计算的划分与资源分配:

../_images/dis_intro.png

融合框架分布式模块主要实现了八个功能:分布式集群管理、分布式图编译器、分布式策略、运行时调度、混合精度训练、分布式数据库、内存卸载优化、 模型分布式保存和加载、分布式容灾功能。

您可以从以下几个方面了解分布式训练模块的相关内容::

  1. 混合精度训练,参考 混合精度训练

混合精度训练