.. raw:: html
==== 六、大模型训练
===================
- 待更新…
..
希望这个系列能够给大家、朋友们带来一些些帮助,也希望自己能够继续坚持完成所有内容哈!
课程简介
--------
- 待更新…
课程细节
--------
``PPT``\ 和\ ``字幕``\ 需要到
`Github `__
下载,网页课程版链接会失效哦~
建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
分布式集群
~~~~~~~~~~
《分布式集群》随着AI集群的出现,越来越多的网络模型运行在集群上面,但是AI集群如何管理?如何通信?如何协同工作?AI框架如何支持分布式功能都需要我们去了解,才能更好地利用AI集群算力。
+-----------------------+-----------------------+-----------------------+
| 分类 | 名称 | 内容 |
+=======================+=======================+=======================+
| 分布式集群 | 01 基本介绍 | `PPT |
| | | <./04_AICluster/01.i |
| | | ntroduction.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式集群 | 02 AI集群服务器架构 | `PPT |
| | | <./04_AICluster/02.a |
| | | rchitecture.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式集群 | 03 AI集群软硬件通信 | `PPT |
| | | <./04_AICluster/03.co |
| | | mmunication.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式集群 | 04 集合通信原语 | ` |
| | | PPT <./04_AICluster/0 |
| | | 4.primitive.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式算法 | 05 AI框架分布式功能 | `PPT <./04_AICluste |
| | | r/05.system.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
分布式算法
~~~~~~~~~~
《分布式算法》随着大模型的出现,越来越多的大模型算法涌现,特别是Transformer和MOE结构,引爆了千亿乃至万亿规模的大模型,新的AI算法奇点来了,AI工程师也需要了解最新的动态。
+-----------------------+-----------------------+-----------------------+
| 分类 | 名称 | 内容 |
+=======================+=======================+=======================+
| 分布式算法 | 06 大模型训练的挑战 | `PPT <./05_AIAlgo/0 |
| | | 6.challenge.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式算法 | 07 | `PP |
| | 算法:大模型算法结构 | T <./05_AIAlgo/07.alg |
| | | orithm_arch.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式算法 | 08 | `PP |
| | 算法 | T <./05_AIAlgo/08.alg |
| | :亿级规模SOTA大模型 | orithm_sota.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
分布式并行
~~~~~~~~~~
《分布式并行》可是在AI集群,想要训练起千亿乃至万亿规模的大模型,谈何容易,于是出现了不同类型的分布式并行策略,目的是解决性能墙、内存墙、调优墙等并行问题,使的开发者能够真正让AI算法快速在AI集群上执行。
+-----------------------+-----------------------+-----------------------+
| 分类 | 名称 | 内容 |
+=======================+=======================+=======================+
| 分布式并行 | 01 基本介绍 | `PP |
| | | T <./06_Parallel/01.i |
| | | ntroduction.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式并行 | 02 数据并行 | `PPT |
| | | <./06_Parallel/02.da |
| | | ta_parallel.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式并行 | 03 模型并行之张量并行 | `PPT < |
| | | ./06_Parallel/03.tens |
| | | or_parallel.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式并行 | 04 MindSpore张量并行 | `PPT <./0 |
| | | 6_Parallel/04.mindspo |
| | | re_parallel.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式并行 | 05 模型并行之流水并行 | `PPT <./ |
| | | 06_Parallel/05.pipeli |
| | | ne_parallel.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式并行 | 06 混合并行 | `PPT < |
| | | ./06_Parallel/06.hybr |
| | | id_parallel.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+
| 分布式汇总 | 07 分布式训练总结 | `PPT <./06_Parallel |
| | | /07.summary.pptx>`__, |
| | | `视频 `__ |
+-----------------------+-----------------------+-----------------------+