智算网络运维方向赛事大纲
命题大纲
二〇二五年六月
一、参赛对象说明
此赛项仅设置职工组,主要面向从事智算网络运维领域的信息通信网络运行管理员等相关专业或职业的企业职工。
二、赛事内容大纲
赛事内容大纲的设计原则:
(一)围绕参赛人员的岗位能力模型,覆盖能力要求,牵引人才培养,“以赛促学、以赛促训”;
(二)聚焦于“智算网络运维”领域,注重理论和实操相结合,保持内容的实用性、先进性。
赛事内容主要包括智算网络、人工智能与模型、智能运维三方面。
三、赛事命题大纲
(1)理论知识-初级
课程模块 | 培训内容 | 专业能力要求 | 相关知识要求 |
---|---|---|---|
1. 智能计算基础 | 1.1 智能计算发展背景 | 1.1.1 能够阐述智能计算发展的关键历史节点和代表性事件。 1.1.2 能够分析和总结推动智能计算发展至今的核心驱动因素。 1.1.3 能够识别不同发展阶段的技术特点和局限性。 | 1.1.1 了解智能计算的早期理论基础。 1.1.2 掌握人工智能早期探索的关键事件和概念。 1.1.3 熟悉智能算法初步发展阶段的代表性技术和成就。 1.1.4 理解智能算法技术突破时期的核心进展。 1.1.5 认知当前智能计算多元化与融合阶段的特点。 1.1.6 了解国家战略层面(对智能计算发展的引领作用。 1.1.7 理解算力基础设施完善对智能计算发展的支撑作用。 1.1.8 掌握技术突破与算法效率提升对智能计算发展的推动作用。 |
1.2 算力的分类与定义 | 1.2.1 理解算力的核心定义与关键度量单位。 1.2.2 辨析主要算力类型的特征与应用领域。 1.2.3 识别不同算力类型的硬件基础并能进行初步选型。 1.2.4 对比分析通用算力中关键的 CPU 架构特性。 | 1.2.1 理解算力的核心概念。 1.2.2 掌握算力的主要分类依据。 1.2.3 熟悉通用算力的定义、特点及主要应用场景。 1.2.4 了解通用算力的主要 CPU架构及其各自的引领者、特点。 1.2.5 熟悉智能算力的定义、特点及主要应用场景。 1.2.6 了解智能算力的主要硬件基础:GPU、FPGA、ASIC。 1.2.7 掌握 GPU、FPGA、ASIC 在并行计算能力、灵活性、功耗、成本、整体性能和主要应用领域的对比。 1.2.8 熟悉超算算力的定义、特点及主要应用场景。 1.2.9 了解超算参考架构的主要构成部分。 1.2.10 理解算力的主要度量单位:FLOPS、IPS、TOPS。 | |
1.3 智算硬件产品认知 | 1.3.1 阐述智算服务器的核心构成与关键加速部件的特性与应用。 1.3.2 对比分析主流 GPU 的技术架构与选型要素。 1.3.3 辨析智能网卡/DPU 的技术演进、核心功能与实现差异。 1.3.4 阐述智算网络中常见硬件设备和分类对比。 1.3.5 能够初步为AI 应用场景选择合适的智算硬件组合并识别市场主流产品。 | 1.3.1 了解智算服务器的定义、主要特点。 1.3.2 掌握智算服务器的主要组成部件及其功能。 1.3.3 理解智算服务器的典型硬件架构示意图,包括 CPU、GPU、PCIe Switch、NIC 之间的连接关系 1.3.4 熟悉国际主流 GPU 厂商及国产 GPU 厂商的代表性 GPU 架构及其关键特性和适用场景。 1.3.5 了解智算服务器集群在人工智能训练场景中的构成。 1.3.6 理解智能网卡的定义和基本功能。 1.3.7 了解智能网卡的发展,不同阶段智能网卡的主要功能特点。 1.3.8 熟悉智能网卡的硬件组成和分类。 1.3.9 理解 DPU 的定义和核心功能。 1.3.10 初步了解 RoCE 与 IB 交换机的定义、功能特点 | |
1.4 高速互联技术 | 1.4.1 阐释互联重要性,区分 Scale-Up/Out 特点场景。 1.4.2 识别主流 Scale-Up/Out 技术并说明其核心优势。 1.4.3 描述 NVLink 在 GPU 互联中的作用与技术演进。 1.4.4 解释 RDMA 原理作用,对比主流 RDMA 技术应用优劣。 | 1.4.1掌握Scale-Up互联的定义、特点及主要技术。 1.4.2 掌握 Scale-Out 互联的定义、特点及主要技术。 1.4.3 了解 PCIe 技术的定义、发展历程、主要特点及其在多 GPU 系统中的瓶颈。 1.4.4 了解 NVLink 技术的定义、发展历程、主要特点及其相比 PCIe 的优势。 1.4.5 了解 NVLink Switch 的定义和作用。 1.4.6 理解 RDMA 技术的定义、核心优势。 1.4.7了解RDMA技术的发展阶段,以及当前主流应用。 1.4.8 掌握 IB 的定义和特点。 1.4.9 掌握 iWARP 的定义和特点。 1.4.10 了解 RoCE v1/v2 的定义和特点。 | |
2.智算网络基础 | 2.1 智算网络发展背景 | 2.1.1 阐述智算网络起源、数据中心网络演进及 AI 驱动。 2.1.2 阐述智算网络的应用方向。 2.1.3 分析智算网络快速发展的原因 | 2.1.1 了解数网演进及 AI 算力驱动的必然性。 2.1.2 掌握智算网络萌芽至概念形成的关键阶段与技术。 2.1.3 理解硬件、网络及软件等关键技术创新驱动。 2.1.4 了解国家政策引导与市场需求的关键推动作用。 2.1.5 认知产业生态协同(厂商合作/标准)发展贡献。 2.1.6 了解大模型与科学计算对网络的高性能需求。 2.1.7 理解边缘智能对网络的实时性需求。 2.1.8 熟悉元宇宙及云边协同等对网络的新兴需求。 |
2.2 智算网络定义 | 2.2.1 能阐述智算网络的基本概念与目标。 2.2.2 能识别智算网络高性能服务的关键特征。 2.2.3 能解释计算、存储、网络资源融合的意义。 2.2.4 能列举智算网络支持的主要应用场景。 2.2.5 能说明“算、网、脑”三大核心组成部分。 | 2.2.1 掌握智算网络的基本定义。 2.2.2 了解智算网络的基本构成。 2.2.3 AI业务对只算网络的要求。 2.2.4 熟悉智算网络常见应用场景。 2.2.5 书序智算网络增强以太网、改良型 IB 和新型网络 3 种行业解决方案。 2.2.6 InfiniBand 与 RoCE v2 技术与方案比对。 | |
2.3 智算网络技术架构 | 2.3.1 能概述智算网络技术架构核心组成。 2.3.2 能识别典型网络拓扑架构及其特点。 2.3.3 能阐述无损网络关键技术作用原理。 2.3.4 能描述常用负载均衡技术核心思想。 2.3.5 能分析不同拓扑选择对性能的影响。 2.3.6 能说明无损技术如何保障网络质量。 | 2.3.1 智算网络技术架构的三要素:拓扑,无损,均衡。 2.3.2 CLOS/胖树拓扑的分层与无阻塞特性。 2.3.3 Dragonfly拓扑的小直径与成本优势。 2.3.4 Rail-Only拓扑的简化与低时延特点。 2.3.5 PFC基于优先级的逐跳流控机制。 2.3.6 ECN显式拥塞通知以避免拥塞丢包。 2.3.7 DCQCN量化拥塞通知与速率调整。 2.3.8 基于网络状态感知的动态负载均衡。 2.3.9 基于流切片(Flowlet)的负载均衡原理。 2.3.10 逐包负载均衡技术实现。 2.3.11 基于信元交换的负载均衡。 | |
2.4 行业应用与典型案例 | 2.4.1 能列举智算网络在关键行业的应用。 2.4.2 能分析典型案例中智算网络应用特点。 | 2.4.1 智算网络四大应用领域:制造金融交通医疗。 2.4.2 行业应用对高性能、AI 算力的共同需求。 2.4.3 智能制造:数字孪生、AI 研发、智能生产。 2.4.4 金融风控:智能信贷、交易监测、反洗钱。 2.4.5 智能交通:交通管理、车路协同、智能停车。 2.4.6 医疗健康:影像分析、辅助决策、药物研发。 2.4.7 智算网络提升各行业运营效率与创新能力。 2.4.8 典型案例展示,智算网络赋能具体业务场景。 | |
3.虚拟化网络技术与原理 | 3.1 虚拟化网络基础概念与分类 | 3.1.1 能阐述虚拟化基本概念及核心思想。 3.1.2 能区分不同类型的虚拟化技术。 3.1.3 能阐述网络虚拟化定义并说明其主要特点。 3.1.4 能列举网络虚拟化的主要分类。 3.1.5 能识别Linux 虚拟网络设备。 3.1.6 能够对veth-pair 设备进行简单配置和查看管理。 | 3.1.1 虚拟化技术的基本概念。 3.1.2 虚拟化的基本分类。 3.1.3 网络虚拟化的定义与特点。 3.1.4 网络虚拟化技术的分类。 3.1.5 Linux 虚拟化网络设备概念。 3.1.6 熟悉 veth-pair 设备及其常用命令。 3.1.7 熟悉 TAP 和 TUN 设备,了解其区别与工作原理。 3.1.8 了解 Linux Bridge 的基本原理以及其不同的模型。 3.1.9 熟悉 Open vSwitch 的概念。 |
3.2 虚拟化网络核心技术解析 | 3.2.1 能描述 VPN技术的定义。 3.2.2 能描述VXLAN 技术的基本原理和流量转发过程。 3.2.4 能说明 SDN的基本原理以及其技术架构。 3.2.5 能概述 NFV架构及与 SDN 的协同关系。 3.2.6 能识别智能网卡/DPU 在虚拟化中作用。 | 3.2.1 虚拟网络核心技术分类。 3.2.2 VPN 技术定义和分类。 3.2.3 VXLAN 的定义及其报文格式。 3.2.4 VXLAN 流量转发的流程。 3.2.5 SDN 的定义。 3.2.6 SDN 技术的架构。 3.2.7 SDN 运用到的关键技术。 3.2.8 NFV 的定义。 3.2.9 NFV 的技术架构。 3.2.10 SDN 和 NFV 的关系。 3.2.11 智能网卡和 DPU 在虚拟网络中的应用。 | |
3.3 虚拟化网络应用场景与工具 | 3.3.1 能理解虚拟化网络在云、云原生及5G 中如何应用。 3.3.2 能阐述OpenStack Neutron 核心组件与抽象对象。 3.3.3 能描述Docker 网络模型及主要网络模式,能够初步创建不同网络模式。 3.3.4 能阐述为什么需要 K8s 网络。 3.3.5 能描述 K8s网络模型及 CNI 和 CRI作用 3.3.6 能初步通过CNI 定义网络配置。 | 3.3.1 虚拟化网络典型应用场景:云计算、云原生、5G 承载。 3.3.2 OpenStack 基本概念。 3.3.3 Neutron 架构和组成。 3.3.4 Neutron 虚拟网络拓扑。 3.3.5 Neutron 抽象对象介绍。 3.3.6 Neutron网络实现—VXLAN。 3.3.7 Docker 网络模型。 3.3.8 Docker 网络分类。 3.3.9 Docker 自定义网络 3.3.10 Docker Overlay 网络。 3.3.11 K8s 网络架构。 3.3.12 K8s Pod 网络创建。 3.3.13 CRI 和 CNI 原理介绍。 3.3.14 Service 集群网络。 3.3.15 网络切片技术。 | |
4.自动化运维工具 Ansible 基本原理与实践 | 4.1 Ansible 基础概念与核心原理 | 4.1.1 阐述Ansible 自动化运维的优势,对比传统运维的不足之处。 4.1.2 描述Ansible 的核心架构、组件构成及其主要工作特点。 4.1.3 能够解释Ansiable 任务执行流程。 4.1.4 能够完成Ansible 工具的安装和基本环境配置。 4.1.5 管理和维护Ansible 的资产清单文件,定义受管主机。 4.1.6 运用Ansible 常用模块(如ping、copy、service、yum 等)执行基本的自动化运维任务。 | 4.1.1 传统运维方式的劣势。 4.1.2 Ansiable 的定义和特点。 4.1.3 Ansiable 任务执行流程。 4.1.4 Ansiable 资产文件。 4.1.5 Ansiable 常用模块。 4.1.6 Ansiable 常用模块的基本命令。 |
4.2 Playbook 语法 | 4.2.1 掌握 YAML 语法及数据结构。 4.2.2 能够编写和理解 Playbook。 4.2.3 熟练使用变量。 4.2.4 掌握 Jinja2模板的运用。 4.2.5 能够运用循环和条件控制任务。 4.2.6 能够创建和使用角色。 | 4.2.1 YAML 基础语法。 4.2.2 Playbook 核心概念和组成元素。 4.2.3 变量的定义与使用。 4.2.4 Jinja2 模板引擎。 4.2.5 循环语句。 4.2.6 条件控制。 4.2.7 Ansible 角色概念。 4.2.8 角色目录结构。 4.2.9 角色的创建与使用。 | |
5.虚拟网络实操 | 5.1 虚拟网络基础原理 | 5.1.1 能够熟练使用 Linux 命令配置网络。 5.1.2 掌握Openvswitch 交换机原理,熟练使用 OVS 的常用命令。 5.1.3 掌握虚拟专用网 VPN 的原理。 5.1.4 能够熟练使用 Wireshark 工具抓包分析。 5.1.5 理解 VXLAN隧道技术原理。 | 5.1.1 Linux 基础与命令,Linux网络命令。 5.1.2 OVS 工作原理。 5.1.3 VPN 工作原理。 5.1.4 网络抓包原理。 5.1.5 Wireshark 工具使用。 5.1.6 PPTP VPN 协议原理。 5.1.7 VXLAN 隧道技术原理。 |
5.2 虚拟网络基础配置 | 5.2.1 能进行Linux 主机上的网络命令操作。 5.2.2 能配置 OVS网桥实现基本连通。 5.2.3 能部署 PPTPVPN 服务端与客户端,实现 VPN 网络通信。 5.2.4 能使用Wireshark 抓取并初步分析 VPN 数据包。 | 5.2.1 Linux 网络基础与命令。 5.2.2 Open vSwitch (OVS) 基本原理。 5.2.3 OVS 网桥管理。 5.2.4 OVS 端口管理。 5.2.5 OVS 流表查看。 5.2.6 PPTP VPN 服务基础配置。 5.2.7 Wireshark 网络抓包与分析。 5.2.8 VPN 数据包结构识别与分析。 | |
5.3 VXLAN 隧道部署实践 | 5.3.1 配置 OVS 实现控制与数据平面基础分离。 5.3.2 能使用 OVS命令创建和配置 VXLAN隧道。 5.3.3 实现 VXLAN相同网段和不同网段之间的通信. 5.3.4 能够初步分析 VXLAN 封装的数据包。 | 5.3.1 多个 OVS 网桥的创建和管理。 5.3.2 Linux网络静态路由配置方法。 5.3.3 OVS VXLAN 隧道配置。 5.3.4 VXLAN 报文封装结构。 5.3.5 tcpdump 命令的使用方法。 5.3.6 识别 VXLAN 封装的数据流的方法。 | |
6.Ansible 实操 | 6.1 Ansible Playbook 核心实践 | 6.1.1 能够独立安装 Ansible。 6.1.2 能够编写Playbook 安装配置Nginx 服务。 6.1.3 自动化部署网页应用。 6.1.4 掌握Playbook 中变量的定义与使用。 6.1.5 应用条件判断控制 Playbook 执行流程。 | 6.1.1 Playbook 结构与核心组件。 6.1.2 Ansible 模块概念与常用模块类型。 6.1.3 变量定义、作用域及调用方法。 6.1.4 基础的 Playbook 调试与排错。 6.1.5 YAML 语言基础及其在Playbook 中的应用。 6.1.6 Handlers 与 Notify 机制的理解。 6.1.6 任务(Task)定义与执行控制。 6.1.7 条件语句(when)的应用场景。 |
6.2Ansible 进阶应用与角色实践 | 6.2.1 创建和组织Ansible 角色结构。 6.2.2 能够定义角色内容。 6.2.3 正确调用和管理角色。 6.2.4 能够使用Ansible 管理系统定时任务 | 6.2.1Ansible 角色的核心作用与优势。 6.2.2 角色的标准化目录结构与规范。 6.2.3 ansible-galaxy 工具的应用与管理。 6.2.4 角色中任务、变量、模板、处理程序的协同。 6.2.5 Playbook 与 Role 的依赖关系及调用。 6.2.6 定时任务 (Cron) 的概念与配置。 6.2.7 Ansible cron 模块的核心参数。 |
(2)理论知识-中级
课程模块 | 培训内容 | 专业能力要求 | 相关知识要求 |
---|---|---|---|
1.智算网络原理 | 1.1 智算网络基础概念 | 1.1.1 熟悉智算网络常见的网络架构与优势。 1.1.2 掌握熟悉网络优化与负载均衡技术。 1.1.3 了解智算网络自动化运维方法。 | 1.1.1 高性能计算网络需求。 1.1.2 AI 集群网络通信关键技术。 1.1.3 Spine-Leaf 架构设计原则。 1.1.4 Leaf 与 Spine 交换机功能。 1.1.5 ECMP 等价多路径负载均衡。 1.1.6 POD 模块化网络设计理念。 1.1.7 Clos 网络架构基本原理。 1.1.8 Fat-Tree 网络模型概念。 1.1.9 东西向与南北向流量概念。 1.1.10 RDMA、RoCE、InfiniBand 技术。 1.1.11 PFC 优先级流控机制。 1.1.12 ECN 显式拥塞通知作用。 1.1.13 VXLAN 网络虚拟化技术。 1.1.14 网络自动化配置工具(如 Ansible)。 1.1.15 智算网络设备选型考量。 1.1.16 无损网络构建关键技术。 1.1.17 网络延迟与吞吐量优化。 |
1.2 智算网络组网拓扑 | 1.2.1 评估不同智算网络架构优劣,分析不同组网特点。 1.2.2 能够设计规划高性能、高可靠的Spine-Leaf 网络。 1.2.3 掌握 Dragonfly直连拓扑应用。 1.2.4 理解 Rail-Only针对 GPU 优化方案。 | 1.2.1 Spine-Leaf 架构可靠性机制。 1.2.2 Spine-Leaf 网络水平扩展能力。 1.2.3 ECMP 等多路径负载均衡技术。 1.2.4 CLOS 网络架构核心思想。 1.2.5 Fat-Tree 无阻塞网络构建原则。 1.2.6 Dragonfly 直连拓扑概念。 1.2.7 Dragonfly 自适应路由。 1.2.8 GW-DF+直连架构。 1.2.9 Rail-optimized 网络。 1.2.10 高带宽域(HB Domain)概念。 1.2.11 LLM 模型流量特性分析。 1.2.12 Rail-Only 网络架构简化。 1.2.13 网络收敛比概念与影响。 | |
1.3 智算网络的无损技术 | 1.3.1 理解无损网络流量控制原理。 1.3.2 掌握网络拥塞控制核心机制。 1.3.3 分析 PFC 死锁成因与解决方案。 1.3.4 理解 ECN 技术在拥塞避免作用。 1.3.5 掌握 DCQCN 等拥塞协议原理。 1.3.6 理解 ETS 技术服务质量保障。 | 1.3.1 无损网络核心技术组成。 1.3.2 RoCEv2 对网络环境的要求。 1.3.3 流量控制PFC的基本原理。 1.3.4 PFC PAUSE 帧的作用机制。 1.3.5 PFC 死锁产生原因与危害。 1.3.6 PFC 死锁检测与判定方法 1.3.7 PFC 死锁自动恢复流程。 1.3.8 ECN 显式拥塞通知概念。 1.3.9 IP 报文中 ECN 字段含义。 1.3.10 DCQCN 端到端拥塞控制协议。 1.3.11 DCQCN 中 RP/CP/NP 角色功能。 1.3.12 DCQCN 降速与升速过程。 1.3.13 ETS 增强传输选择技术。 1.3.14 ETS 两级调度与带宽保障。 | |
1.4 智算网络运维管理 | 1.4.1 理解 RDMA 网络运维核心挑战。 1.4.2 掌握 Prometheus监控系统原理。 1.4.3 了解 Grafana 数据可视化技术,以及Prometheus + Grafana的运维方案。 1.4.4 理解 UFM 平台 IB网络管理作用。 1.4.5 辨析不同智算网络运维监控方案。 | 1.4.1 RDMA 流量特性与挑战。 1.4.2 传统网络运维方式不足。 1.4.3 智算网络运维新需求。 1.4.4 Prometheus 告警监控方案。 1.4.5 Alertmanager 告警处理机制。 1.4.6 Grafana 数据可视化平台。 1.4.7 Grafana 主要特性与作用。 1.4.8 Prometheus 与 Grafana 组合优势。 1.4.9 传统监控方案的痛点。 1.4.10 RoCE 网络高精度流量监控方案。 1.4.11 Prometheus Exporter概念。 1.4.12 Prometheus 数据采集方式。 1.4.13 IB 网络 UFM 平台概述与功能。 1.4.14 UFM 平台架构与核心组件。 | |
1.5 典型应用场景与案例分析 | 1.5.1 辨析智算网络典型应用场景。 1.5.2 分析不同场景网络设计需求。 1.5.3 理解案例中关键技术选型。 1.5.4 评估案例网络方案优缺点。 1.5.5 掌握案例分析的方法与思路。 1.5.6 洞察智算网络未来发展趋势。 | 1.5.1 AI 训练集群网络需求特点。 1.5.2 HPC 对网络环境的需求。 1.5.3 云数据中心网络架构演进。 1.5.4 大规模分布式存储网络方案。 1.5.5 典型行业智算网络应用案例。 1.5.6 网络拓扑选择参考依据。 1.5.7 无损网络技术的选择应用。 1.5.8 性能瓶颈与优化分析。 1.5.9 不同行业智算网络拓扑架构。 1.5.10 新兴智算应用的网络挑战。 | |
2.人工智能技术 | 2.1 人工智能基础与发展趋势 | 2.1.1 理解人工智能核心概念与范畴。 2.1.2 掌握 AI 主要技术分支与原理。 2.1.3 分析 AI 发展历程及关键节点。 2.1.4 辨识当前 AI 技术发展新趋势。 2.1.5 展望人工智能未来发展方向。 | 2.1.1 人工智能的定义与分类。 2.1.2 AI 发展简史与重要里程碑。 2.1.3 数据在人工智能中的核心作用。 2.1.4 AI 模型的训练与推理过程。 2.1.5 当前 AI 技术的主要流派。 2.1.6 生成式AI的技术原理与影响。 2.1.7 大语言模型(LLM)的进展。 2.1.8 多模态 AI 的发展与应用。 2.1.9 AI 在各行业的赋能与变革。 2.1.10 AI 芯片与算力发展趋势。 2.1.11 边缘 AI 与端侧智能部署。 2.1.12 通用人工智能(AGI)的探索。 |
2.2 机器学习与深度学习 | 2.2.1 理解机器学习核心原理与分类。 2.2.2 掌握主流 ML 算法思想与特点。 2.2.3 理解深度学习神经网络结构。 2.2.4 掌握典型 DL 模型(CNN/RNN)原理。 2.2.5 分析模型训练与评估关键环节。 2.2.6 辨析 ML 与 DL 的主要应用领域。 | 2.2.1 机器学习基本定义与任务类型。 2.2.2 监督学习与无监督学习。 2.2.3 强化学习基本框架与要素。 2.2.4 决策树和随机森林思想。 2.2.5 特征工程与数据预处理方法。 2.2.6 模型评估常用指标。 2.2.7 激活函数的种类与作用。 2.2.8 反向传播算法核心思想。 2.2.9 卷积神经网络(CNN)构成与应用。 2.2.10 循环神经网络(RNN)及其变体。 2.2.11 Transformer 模型与自注意力机制。 2.2.12 常见深度学习框架介绍。 2.2.13 深度学习在图像识别的应用。 2.2.14 深度学习在自然语言处理应用。 | |
2.3 主流模型分析 | 2.3.1 理解各类主流 AI模型结构。 2.3.2 掌握关键模型的核心工作原理。 2.3.3 分析不同模型的优缺点及适用性。 2.3.4 评估主流模型的性能与局限。 | 2.3.1 经典 CNN 模型分析。 2.3.2 Transformer 模型解读。 2.3.3 Transformer 架构与自注意力机制。 2.3.4 BERT 等预训练语言模型。 2.3.5 GPT 系列大语言模型特点。 2.3.6 生成对抗网络(GANs)原理与变体。 2.3.7 扩散模型(DiffusionModels)原理。 2.3.8 知识图谱嵌入模型分析。 2.3.9 模型轻量化与压缩方法。 2.3.10 模型的可解释性与鲁棒性。 2.3.11 不同模型训练资源需求。 | |
3.可视化运维工具实践 | 3.1 Prometheus 基础与核心架构 | 3.1.1 掌握 Prometheus核心架构与组件。 3.1.2 分析 Prometheus数据模型特点。 3.1.3 理解 Prometheus数据采集机制。 3.1.4 辨析 Prometheus监控方案优势。 3.1.5 了解 Prometheus生态及集成性。 | 3.1.1 Prometheus 的核心优势。 3.1.2 Prometheus 易于管理的特性。 3.1.3 PromQL 查询语言。 3.1.4 Prometheus 的数据模型。 3.1.5 指标名称与标签(Label)概念。 3.1.6 时间序列样本(Sample)的构成。 3.1.7 Prometheus 的可扩展性。 3.1.8 联邦集群(Federation)。 3.1.9 功能分区(FunctionalSharding)。 3.1.10 Exporter 的作用与分类。 3.1.11 AlertManager 告警处理角色。 3.1.12 PushGateway 适用场景与机制。 3.1.13 服务发现(ServiceDiscovery)机制。 3.1.14 Pull 与 Push 数据采集模型。 |
3.2 数据采集原理以及 Exporter 介绍与使用 | 3.2.1 理解 Prometheus数据采集核心原理。 3.2.2 掌握 Exporter 在监控中作用与分类。 3.2.3 分析不同Exporter 的运行方式。 3.2.4 能对主流的Exporter 进行配置与使用。 3.2.5 能配置Prometheus 采集Exporter 数据。 3.2.6 能够应用 PromQL查询和分析指标。 | 3.2.1 Prometheus 数据采集基本原理。 3.2.2 Exporter 定义及其在监控中角色。 3.2.3 社区提供Exporter的适用范围。 3.2.4 自定义Exporter的开发方式。 3.2.5 直接/采集采集型Exporter 运行特点。 3.2.6 Exporter 返回数据格式规范。 3.2.7 HELP 与 TYPE 注释的含义。 3.2.8 时间序列样本的组成部分。 3.2.9 指标名称与标签的命名规则。 3.2.10 Node Exporter 采集主机指标。 3.2.11 cAdvisor Exporter 监控容器。 3.2.12 MySQLD Exporter 监控数据库。 3.2.13 Blackbox Exporter 黑盒监控。 3.2.14 HTTP 探针的配置与使用。 3.2.15 自定义 HTTP 请求与探针行为。 3.2.16 Prometheus 中配置Exporter 采集。 3.2.17 Metric 类型 3.2.18 PromQL 的使用 | |
3.3 Prometheus 规则告警 | 3.3.1 理解 Prometheus告警架构与流程。 3.3.2 能够配置和管理告警规则文件。 3.3.3 掌握构建有效PromQL 告警表达式。 3.3.4 能够实施与优化Alertmanager 策略。 3.3.5 分析并验证告警触发与通知。 | 3.3.1 告警规则核心构成。 3.3.2 Alertmanager 特性。 3.3.3 Prometheus 告警规则的定义。 3.3.4 Prometheus 告警规则的模板化/查看告警。 3.3.5 Alertmanager 集成 SMTP邮件告警。 3.3.6 PromQL 在告警规则中的应用。 | |
3.4 Grafana 数据可视化介绍 | 3.4.1 理解 Grafana 在可视化运维中作用。 3.4.2 掌握 Grafana 核心概念与特性。 3.4.3 能够配置Grafana 中多种数据源。 3.4.4 能够构建和定制化仪表盘。 3.4.5 能够运用不同Panel 展示数据。 3.4.6 掌握 Dashboard模板化与变量应用。 | 3.4.1 Dashboard 核心作用。 3.4.2 Panel 功能。 3.4.3 PromQL 在 Grafana 中的使用。 3.4.4 使用 Graph 面板可视化Counter/Gauge。 3.4.5 使用 Heatmap 可视化Histogram 样本分布情况。 3.4.6 SingleStat Panel 使用。 3.4.7 模板化 Dashboard。 3.4.8 Dashboard 中定义变量。 3.4.9 使用变量动态创建 Panel和 Row。 | |
4.人工智能模型部署与应用 | 4.1 AI模型部署与应用 | 4.1.1 容器化部署 AI 模型。 4.1.2 能够操作模型推理过程。 | 4.1.1 BERT 模型应用。 4.1.2 DeepSpeech 模型应用。 4.1.3 VGG 模型应用。 4.1.4 模型推理流程理解。 |
5.RDMA网络应用实践 | 5.1 RDMA 网络部署与应用 | 5.1.1 熟练安装配置Soft-RoCE 核心组件。 5.1.2 配置 Soft-RoCE虚拟 RDMA 设备。 5.1.3 通过 Soft-RoCE实现两台虚拟机间的RDMA 通信。 5.1.4 能够使用专业工具测试 RDMA 网络的连通性、带宽和延迟。 | 5.1.1 理解 Soft-RoCE 基本原理与 RoCE 差异。 5.1.2 了解 Soft-RoCE 实现 RDMA功能原理。 5.1.3 熟悉 RoCE 与 RDMA 核心概念及优势。 5.1.4 掌握 Soft-RoCE 部署成本与应用场景。 5.1.5 掌握 Soft-RoCE 基于Linux 内核实现原理。 5.1.6 RoCE 报文封装与传输流程。 |
6.可视化运维实践 | 6.1 可视化运维工具部署与应用 | 6.1.1 在 Linux 系统上安装和配置 Prometheus及 Grafana。 6.1.2 能够将 Grafana与 Prometheus 及其他常见数据源进行有效连接和管理。 6.1.3 创建和定制基础Grafana 仪表盘的能力。 6.1.4 告警规则配置。 6.1.5 具备运维数据解读能力。 | 6.1.1 了解 RoCE 网络重要的网络指标项。 6.1.2 Prometheus 及Grafana 的组件构成、工作原理. 6.1.3 仪表盘设计原则。 6.1.4 不同图表类型的适用场景。 6.1.5 告警的生命周期。 6.1.6 运维系统的各种通知机制。 6.1.7 智算网络性能重要的衡量指标。 |
(3)理论知识-高级
课程模块 | 培训内容 | 专业能力要求 | 相关知识要求 |
---|---|---|---|
1.智算网络技术综合应用 | 1.1 智算关键技术解析 | 1.1.1 能够对智算网络的负载均衡技术选型。 1.1.2 通过无损保障技术的组合构建 RDMA 网络。 1.1.3 掌握多种机内高速互联方案。 1.1.4 能设计智算网络可靠性方案。 1.1.5 了解智算网络前沿技术与发展方向。 | 1.1.1 PFC、ECN 等保障网络无丢包技术的深度理解。 1.1.2 针对AI训练的集合通信加速方法。 1.1.3 智算网络中的冗余可靠性机制。 1.1.4 AI 在网络监控、故障预测的应用。 1.1.5 各类负载聚合方案的深度理解与方案设计。 1.1.6 NVLink、CXL 等高速互联技术。 |
1.2 智算网络规划设计 | 1.2.1 智算网络CLOS 架构设计。 1.2.2 带宽规划与计算。 1.2.3 网络性能参数分析,包括收敛比、接入能力等。 1.2.4 网络扩展性评估。 1.2.5 分区组网方案设计。 1.2.6 高可用网络设计。 | 1.2.1 智算业务需求分析。 1.2.2 CLOS 网络架构原理。 1.2.3 带宽设计方法。 1.2.4 收敛比概念与影响。 1.2.5 网络接入能力。 1.2.6 网络扩展性。 1.2.7 分区组网技术。 1.2.8 网络可靠性技术。 | |
1.3 智算网络故障排查 | 1.3.1 故障定位工具应用。 1.3.2 掌握 RoCE v2网络常见故障处理。 1.3.3 有效处理和解决各类智算网络故障。 | 1.3.1 智算网络故障排查的系统化方法。 1.3.2 常用排障命令工具使用。 1.3.3 日志分析与监控。 1.3.4 RoCE v2 常见故障分析。 1.3.5 配置错误排查。 1.3.6 性能瓶颈分析。 | |
1.4 智算网络性能调优 | 1.4.1 性能瓶颈精准定位。 1.4.2 网络参数优化调整。 1.4.3 调优工具熟练运用。 1.4.4 实现对调优效果的量化评估。 | 1.4.1 性能评估指标体系。 1.4.2 网络监控与可视化。 1.4.3 拥塞控制机制调优。 1.4.4 操作系统网络调优。 1.4.5 集合通信优化。 1.4.6 端到端链路分析。 | |
2.大模型基础架构与原理 | 2.1 大模型基础架构与原理 | 2.1.1 了解大模型发展背景。 2.1.2 掌握大模型主流架构特征。 2.1.3 AI 硬件对大模型支撑情况。 2.1.4 分析大模型系统组件与依赖。 | 2.1.1 Transformer 架构深度解析。 2.1.2 自注意力与多头注意力机制。 2.1.3 分布式系统与并行计算技术。 2.1.4 硬件 AI 加速原理。 2.1.5 典型大模型技术架构剖析。 |
2.2 大模型训练与推理 | 2.2.1 掌握大模型训练关键步骤与策略。 2.2.2 理解模型优化核心技术。 2.2.3 评估训练/推理过程效率与瓶颈。 2.2.4 分析推理加速方法与应用场景 | 2.2.1 大规模数据预处理与增强。 2.2.2 预训练任务与自监督学习。 2.2.3 高效微调方法与原理。 2.2.4 常用优化器与学习率调整策略。 2.2.5 模型压缩技术。 2.2.6 模型评估指标与训练监控方法。 | |
3.虚拟化网络新技术 | 3.1 VXLAN 技术架构 | 3.1.1 掌握 VXLAN网络模型与原理。 3.1.2 分析 VXLAN报文封装及转发。 3.1.3 理解 VXLAN控制平面。 3.1.4 理解 VXLAN数据平面。 3.1.5 辨识不同VXLAN 部署模式特点。 | 3.1.1 VXLAN 技术背景与核心价值。 3.1.2 VXLAN 报文结构与隧道封装。 3.1.3 VTEP、VNI 等核心技术概念。 3.1.4 VXLAN 数据平面转发机制。 3.1.5 VXLAN 控制平面架构。 3.1.6 VXLAN 集中式与分布式网关。 3.1.7 VXLAN 在云网络中应用场景。 |
3.2 EVPN 技术架构 | 3.2.1 掌握 EVPN 核心工作原理与优势。 3.2.2 分析 EVPN 多种路由类型功能。 3.2.3 理解 EVPN 多宿主与防环机制。 3.2.4 评估 EVPN 在数据中心互联应用。 3.2.5 EVPN 与VXLAN 的结合使用。 | 3.2.1 EVPN 技术背景与 MP-BGP扩展。 3.2.2 EVPN 路由类型(Type1-5)。 3.2.3 EVI/ESI/Ethernet Tag 等概念。 3.2.4 EVPN MAC/IP 学习与通告机制。 3.2.5 EVPN 多宿主(单活/全活)技术。 3.2.6 EVPN 集成 VXLAN/MPLS 数据平面。 3.2.7 EVPN IRB 对称/非对称模型。 | |
3.3 SRv6 技术架构 | 3.3.1 掌握 SRv6 核心原理与网络编程。 3.3.2 分析 SRv6SID 结构与转发行为。 3.3.3 理解 SRv6 路径构建与 TE 机制。 3.3.4 评估 SRv6 网络简化与可编程性。 3.3.5 规划 SRv6 业务部署与演进方案。 | 3.3.1 SRv6 技术背景与设计理念。 3.3.2 SRH、SID 等核心技术概念。 3.3.3 SRv6 数据平面与封装结构。 3.3.4 SRv6 控制平面协议。 3.3.5 SRv6 网络编程。 3.3.6 SRv6 TE 与路径策略应用。 3.3.7 SRv6 与现有网络互通演进。 | |
4.可视化运维工具编程 | 4.1 可视化运维编程基础 | 4.1.1 编写 Python基础脚本。 4.1.2 配置Prometheus 监控任务。 4.1.3 编写Prometheus 告警规则。 4.1.4 搭建基础监控告警流程。 | 4.1.1 Python 语言核心语法。 4.1.2 Prometheus 配置文件结构。 4.1.3 监控 Target 的配置方法 4.1.4 PromQL 查询语言 (基本查询、操作符、函数)。 4.1.5 告警规则定义与语法。 |
4.2 自定义 Exporter 开发 | 4.2.1 掌握Exporter 设计模式与开发思想。 4.2.2 掌握自定义指标采集与暴露原理。 4.2.3 掌握仪表盘模板化与变量应用逻辑。 4.2.4 了解主流可视化工具架构与特性。 | 4.2.1 Exporter 基本架构与工作流程。 4.2.2 HTTP Metrics 端点实现方法。 4.2.3 Dashboard 构成。 4.2.4 常用可视化图表类型与选型。 4.2.5 模板变量定义与联动机制。 4.2.6 可视化工具的核心功能。 | |
5.智算网络故障排除与优化 | 5.1 RoCE v2 网络参数调优及常见故障 | 5.1.1 RoCE v2 网络性能分析与瓶颈定位。 5.1.2 熟练调整RoCE v2 关键网络参数。 5.1.3 Soft-RoCE 环境配置与优化实操。 5.1.4 诊断与处理RoCE v2 常见网络故障。 5.1.5 理解硬件RoCE与Soft-RoCE差异。 | 5.1.1 RoCE v2 协议原理与特性。 5.1.2 RoCE 交换机特性与配置。 5.1.3 PFC/ECN 等拥塞控制机制。 5.1.4 网络监控与抓包分析工具。 5.1.5 RoCE 性能测试方法与指标。 5.1.6 典型故障场景与排查思路。 |
6.虚拟网络实操 | 6.1 大二层网络实操 | 6.1.1 搭建 OVS 虚拟交换网络。 6.1.2 配置和搭建VXLAN 隧道。 6.1.3 实现跨子网二层互联。 6.1.4 验证大二层网络通信。 | 6.1.1 Linux 网络虚拟化基础。 6.1.2 VXLAN 技术核心与优势。 6.1.3 OVS 交换机功能与应用。 6.1.4 VTEP、VNI 等 VXLAN 组件的作用。 6.1.5 Overlay 网络概念及实现。 |
7.人工智能应用开发 | 7.1 模型训练与开发 | 7.1.1 训练数据预处理。 7.1.2 能够实操模型训练。 7.1.3 模型调优 7.1.4 通过 API 调用 AI 模型。 | 7.1.1 数据集处理与加载技术。 7.1.2 模型训练参数与策略。 7.1.3 模型推理结果深度分析。 7.1.4 AI 模型架构原理。 7.1.5 API 接口与 Web 框架基础。 |
8.可视化运维工具开发 | 8.1 自定义数据采集器、扩展告警、指标模板等 | 8.1.1 依据智算网络需求,开发自定义的Prometheus Exporter。 8.1.2 能够编写PromQL 查询。 8.1.3 熟练运用Grafana 的模板变量功能。 8.1.4 定制Alertmanager 的告警模板和路由逻辑。 | 8.1.1 掌握 Python 等编程语言,开发自定义采集器和自动化脚本。 8.1.2 熟悉 Prometheus 客户端库的使用。 8.1.3 Grafana API 的调用方法。 8.1.4 数据结构和算法在监控数据模型设计中的应用。 8.1.5 了解告警逻辑设计、告警抑制和降噪。 |
(4)实操模块
实操模块 | 实操子项 | 详细内容 | 资格赛 | 选拔赛 | 决赛 |
---|---|---|---|---|---|
Linux 系统维护 | 用户管理 | 创建或删除用户和用户组,用户权限管理等 | √ | √ | √ |
文件系统管理 | 文件权限管理,文件归属管理等 | √ | √ | √ | |
软件管理 | 更新安装源、安装以及卸载软件等 | √ | √ | √ | |
系统管理 | 维护主机名、IP、时间同步、安全加固、防火墙配置等 | √ | √ | √ | |
系统监控 | 监控系统的运行状态,收集并统计系统运行数据、运行日志等 | √ | √ | √ | |
Shell 脚本 | 编写 shell 脚本,完成自动化运维任务 | √ | √ | √ | |
虚拟网络实操 | 路由协议 | 使用指定的路由协议使虚拟网络连通 | √ | √ | √ |
VPN | 配置 VPN 相关数据,建立 VPN 链路 | √ | √ | √ | |
隧道 | 配置隧道相关数据,建立 Overlay 网络互通 | √ | √ | ||
智算网络实操 | 智算网络配置 | 使用工具配置智算网络 | √ | √ | |
智算网络验证测试 | 使用智算网络传输模型训练数据 | √ | √ | ||
人工智能实操 | 模型部署 | 准备基础环境、数据集处理 | √ | √ | |
训练与推理 | 部署模型服务,提供训推能力 | √ | √ | ||
模型开发 | 优化模型的开发代码 | √ | |||
可视化运维 | 工具部署 | 安装部署可视化运维工具 | √ | √ | |
指标模拟 | 创建指标脚本,定时采集数据 | √ | |||
可视化展示 | 可视化展示指标数据 | √ | |||
自动化运维 | 部署自动化运维工具 | 按照任务要求,编写自动化运维脚本完成任务 | √ | √ | √ |
(5)竞赛阶段内容
阶段 | 时长 | 模块 | 考核内容 |
---|---|---|---|
资格赛 | 120 分钟 | 理论 | 智算网络概念 虚拟化网络技术与原理 自动化运维工具 |
实操 | 虚拟网络实操 自动化运维工具实践 | ||
选拔赛 | 180 分钟 | 理论 | 智算网络原理与 RDMA 人工智能技术 可视化运维工具 |
实操 | 人工智能模型部署与应用 RDMA 网络应用实践 可视化运维实践 | ||
全 国 总 决 赛 | 240 分钟 | 理论 | 智算网络架构 智能算力调度 人工智能模型应用 可视化运维工具编程 |
实操 | 智算网络故障排除与优化 人工智能应用开发 可视化运维工具开发 |
(6)权重占比
理论知识权重
级别 | 知识模块 | 初级(%) | 中级(%) | 高级(%) |
---|---|---|---|---|
基本要求 | 职业道德 | 5 | 5 | 5 |
基础知识 | 35 | 20 | 20 | |
理论知识要求 | 智算网络 | 35 | 25 | 25 |
虚拟网络 | 15 | - | 20 | |
人工智能技术 | - | 25 | 20 | |
可视化运维等 | 10 | 25 | 10 | |
合计 | 100 | 100 | 100 |
实操能力权重:
级别 | 知识模块 | 初级(%) | 中级(%) | 高级(%) |
---|---|---|---|---|
实操能力要求 | 智算网络 | - | 25 | 25 |
虚拟网络 | 75 | - | 25 | |
人工智能技术 | - | 25 | 25 | |
可视化运维等 | 25 | 50 | 25 | |
合计 | 100 | 100 | 100 |