==== 六、大模型训练¶
待更新…
希望这个系列能够给大家、朋友们带来一些些帮助,也希望自己能够继续坚持完成所有内容哈!
课程简介¶
待更新…
课程细节¶
PPT和字幕需要到 Github 下载,网页课程版链接会失效哦~建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
分布式集群¶
《分布式集群》随着AI集群的出现,越来越多的网络模型运行在集群上面,但是AI集群如何管理?如何通信?如何协同工作?AI框架如何支持分布式功能都需要我们去了解,才能更好地利用AI集群算力。
分类 |
名称 |
内容 |
|---|---|---|
分布式集群 |
01 基本介绍 |
ntroduction.pptx>`__, 视频 |
分布式集群 |
02 AI集群服务器架构 |
rchitecture.pptx>`__, 视频 |
分布式集群 |
03 AI集群软硬件通信 |
|
分布式集群 |
04 集合通信原语 |
` PPT <./04_AICluster/0 4.primitive.pptx>`__, 视频 |
分布式算法 |
05 AI框架分布式功能 |
分布式算法¶
《分布式算法》随着大模型的出现,越来越多的大模型算法涌现,特别是Transformer和MOE结构,引爆了千亿乃至万亿规模的大模型,新的AI算法奇点来了,AI工程师也需要了解最新的动态。
分类 |
名称 |
内容 |
|---|---|---|
分布式算法 |
06 大模型训练的挑战 |
|
分布式算法 |
07 算法:大模型算法结构 |
|
分布式算法 |
08 算法 :亿级规模SOTA大模型 |