运维掌握 GPU 相关管理运维;网络熟悉相关体系设计及协议以优化网络;开发了解架构原理
人群专属课程:运维工程师、网络工程师、开发工程师

深入硬件架构:GPU、集群部署、网络结构、虚拟化




-
本课程主题聚焦于 AI 大模型硬件架构以及 GPU 相关技术,包含从 GPU 基础架构、服务器架构,到分布式训练 IO 体系、GPU 集群网络设计与算力调度等多方面内容。
-
在当今 AI 快速发展的时代,硬件是支撑大模型训练与运行的关键。了解 GPU 架构与相关技术,能让学员明白硬件性能瓶颈所在,有针对性地进行优化。掌握算力调度技术可提升硬件资源利用率,降低成本。对于从事 AI 开发、数据中心运维等领域的人员,这些知识是构建高效、稳定系统的基础,对推动 AI 技术在各行业的落地应用具有重要意义 。
-
适合运维工程师。课程中关于 GPU 服务器设计与实现总结、管理 GPU 集群(BMC 与 IPMI 的实现)、GPU 集群的专线与互联网访问等内容,能帮助运维工程师深入了解硬件架构与集群管理方式,更好地进行服务器日常运维、故障排查以及资源管理,提升运维效率和系统稳定性。
-
网络工程师也能从课程中受益。分布式训练 IO 体系、GPU 集群的网络设计与实现(三张网与两套方案)等知识,涉及多种网络连接方式、通信协议,如 RDMA 实现方式等,可助力网络工程师进行更合理的网络规划与部署,优化网络性能,保障 GPU 集群间高效通信。
-
对于开发工程师而言,课程提供了丰富的底层硬件知识。从英伟达 H100 等 GPU 架构解析,到 GPU 与用户内存通信(GPUDirectSharedMemory)原理等内容,有助于开发工程师在开发过程中更好地利用硬件资源,优化算法与程序,提升软件与硬件的适配性,开发出更高效的应用程序 。
-
硬件知识缺失问题。学员能全面了解 AI 大模型硬件架构,包括英伟达 H100 等多种 GPU 架构、不同服务器架构特点。
-
性能优化问题。掌握提升 GPU 计算效率的方法,如 TMA 原理等,明白如何通过优化缓存机制、通信方式等提升硬件性能。
-
资源管理问题。学会 GPU 多组用户实现方法,以及 GPU 板卡级算力调度技术,有效管理硬件资源,提高利用率。
-
集群部署与通信问题。解决分布式训练 IO 体系搭建、GPU 集群网络设计与实现问题,包括多种通信协议、连接方案的应用。
-
GPU 架构:英伟达 H100 基本架构、核心详解、SM 流式多处理器内部架构、缓存机制、提升计算效率原理。
-
服务器架构:传统 AI 服务器(Apollo6500)、英伟达 DGX 服务器、AMD 晓龙处理器(ROME7742)架构解析。
-
连接技术:PCIE-Switch、NVLink-Switch 应用,多个 A100 连接方式。
-
分布式训练与通信:分布式训练 IO 体系(MagnumIO),GPU 与用户内存通信(GPUDirectSharedMemory),多种 GPU Direct 通信原理及 RDMA 实现方式。
-
GPU 集群管理:网络设计与实现(三张网与两套方案),DGXA100 不同连接方案,管理 GPU 集群(BMC 与 IPMI 实现),集群访问方式。
-
算力调度与模式:GPU 板卡级算力调度技术,KVMPCI-e 直通模式,KVM 直通模式租户独占 GPU 过程,K8s 容器独占模式。
-
数据中心运维场景:运维工程师可依据所学的 GPU 服务器架构知识,如传统 AI 服务器(Apollo6500)、英伟达 DGX 服务器架构解析等内容,更高效地进行服务器硬件维护、故障排查与性能优化。在管理 GPU 集群时,利用 BMC 与 IPMI 的实现方法以及 GPU 板卡级算力调度技术,合理分配资源,确保集群稳定运行,提升数据中心整体运维效率。
-
网络部署与优化场景:网络工程师学习了分布式训练 IO 体系、GPU 集群的网络设计与实现等知识后,能够在构建和优化数据中心网络时,根据不同需求选择合适的网络连接方式,如三张网与两套方案、DGXA100 的 IB 网与以太网方案等。掌握 RDMA 实现方式等通信协议原理,有助于优化网络性能,降低延迟,保障 GPU 之间以及 GPU 与其他设备之间的高速稳定通信。
-
AI 开发与应用场景:开发工程师通过对英伟达 H100 等 GPU 架构的深入理解,以及 GPU 与用户内存通信原理、提升计算效率的方法(如 TMA 原理解析)等知识的掌握,在开发 AI 应用程序时,能够更精准地利用硬件资源,针对不同 GPU 特性进行算法优化。在进行分布式训练时,结合课程中的分布式训练 IO 体系知识,合理设计数据传输与计算方案,提高模型训练速度和效率。
-
云计算资源管理场景:在云计算环境中,借助课程所学的 KVMPCI – e 直通模式、KVM 直通模式 – 租户独占 GPU 全过程以及 K8s 容器独占模式等内容,云服务提供商可以更灵活地为租户分配 GPU 资源,实现资源的高效利用与隔离,满足不同租户对 GPU 计算资源的需求,提升云计算服务的质量和竞争力。

1 AI大模型硬件架构-课程介绍.mp4
2 AMD晓龙处理器ROME7742架构.mp4
3 DGXA100-IB网与以太网方案.mp4
4 DGXA100-三种GPU连接方式.mp4
5 DGXA100-以太网连接方案.mp4
6 GPU Direct P2P-Peer-to-Peer.mp4
7 GPU板卡级算力调度技术-总结.mp4
8 GPU板卡级算力调度技术.mp4.mp4
9 GPU初登场-英伟达H100基本架构与CPU通信方式.mp4
10 GPU多组用户实现-从Ampere到Hopper.mp4
11 GPU服务器设计与实现总结.mp4
12 GPU集群的网络设计与实现-三张网与两套方案.mp4
13 GPU集群的网络设计与实现-总结.mp4
14 GPU集群的专线与互联网访问.mp4
15 GPU内部架构以及运作原理总结.mp4
16 GPU与用户内存通信.mp4
17 K8s容器独占模式.mp4
18 KVMPCI-e直通模式.mp4
19 KVM直通模式-租户独占GPU全过程.mp4
20 NVLink-Switch多个A100如何连接.mp4
21 PCIE-Switch在DGX中的应用.mp4
22 RDMA实现方式-4种协议.mp4
23 SM流式多处理器内部架构-从指令缓存到运算单元.mp4
24 传统AI服务器-Apollo6500架构解析.mp4
25 分布式训练IO体系-MagnumIO概要和组成.mp4
26 分布式训练IO体系-总结.mp4
27 管理GPU集群-BMC与IPMI的实现.mp4
28 跨服务器的GPU互通-GPU Direct RDMA.mp4
29 英伟达DGX服务器架构设计与分析.mp4
30 英伟达H100-GPU核心详解-计算控制与缓存.mp4
31 英伟达H100缓存机制梳理-指令缓存与数据缓存.mp4
32 英伟达H100提升计算效率-TMA原理解析.mp4
02-大模型硬件架构.pptx
资源下载客服QQ 488090338 随时可联系我
评论0