分布式训练#
作者: joyeewang & horse6 & caixiiaoyang & jing-alice
NeurAI将提供分布式训练模块,其主要作用是划分训练数据,分配训练任务,调配计算资源并整合分布式的训练结果,以期达到训练速度和训练精度的完美平衡。 如图,基于通用计算图,根据用户的分布式配置策略,进行了计算的划分与资源分配:

融合框架分布式模块主要实现了八个功能:分布式集群管理、分布式图编译器、分布式策略、运行时调度、混合精度训练、分布式数据库、内存卸载优化、 模型分布式保存和加载、分布式容灾功能。
您可以从以下几个方面了解分布式训练模块的相关内容::
混合精度训练,参考 混合精度训练。