第一部分:理论知识
第一章:智算网络概念
第1节:智能计算基础
1.1 智能计算发展背景
- 早期理论基础: 了解智能计算的早期理论,如图灵测试、感知机模型等。
- 早期探索: 掌握人工智能早期探索的关键事件和概念,如LISP语言的诞生、第一次AI寒冬等。
- 初步发展: 熟悉智能算法初步发展阶段的代表性技术和成就,如专家系统、神经网络的初步应用。
- 技术突破: 理解深度学习等技术突破时期的核心进展,如AlexNet在ImageNet竞赛中的胜利。
- 多元化与融合: 认知当前智能计算多元化与融合阶段的特点,AI向各个行业渗透。
- 国家战略: 了解国家战略层面(如“新一代人工智能发展规划”)对智能计算发展的引领作用。
- 算力基础设施: 理解算力基础设施(如数据中心、超算中心)的完善对智能计算发展的支撑作用。
- 技术与算法: 掌握技术突破与算法效率提升(如Transformer模型)对智能计算发展的推动作用。
1.2 算力的分类与定义
- 核心概念: 理解算力的核心概念,即计算能力,是设备通过处理数据,实现特定结果输出的能力。
- 主要分类: 掌握算力的主要分类依据,通常分为通用算力、智能算力、超算算力。
- 通用算力: 熟悉通用算力的定义、特点及主要应用场景(如日常办公、网页浏览)。了解其主要CPU架构(x86、ARM)及其引领者与特点。
- 智能算力: 熟悉智能算力的定义、特点及主要应用场景(如AI训练、推理)。了解其主要硬件基础:GPU、FPGA、ASIC。掌握这三者在并行计算能力、灵活性、功耗、成本等方面的对比。
- 超算算力: 熟悉超算算力的定义、特点及主要应用场景(如气象预测、科学计算)。了解其参考架构的主要构成。
- 度量单位: 理解算力的主要度量单位:FLOPS(每秒浮点运算次数)、IPS(每秒指令数)、TOPS(每秒万亿次操作)。
1.3 智算硬件产品认知
- 智算服务器: 了解其定义、特点,掌握其主要组成部件(CPU、GPU、内存、高速网卡、PCIe Switch)及其功能。理解其典型硬件架构。
- GPU: 熟悉国际(如NVIDIA)及国产GPU厂商的代表性架构(如Ampere, Hopper)及其关键特性和适用场景。
- 智能网卡/DPU: 理解智能网卡(SmartNIC)的定义、发展历roughput)和DPU(Data Processing Unit)的定义、核心功能。了解其硬件组成和分类。
- 交换机: 初步了解RoCE与IB交换机的定义和功能特点。
1.4 高速互联技术
- Scale-Up vs Scale-Out: 掌握Scale-Up(纵向扩展,增强单机能力)和Scale-Out(横向扩展,增加机器数量)互联的定义、特点及主要技术。
- PCIe: 了解PCIe技术的定义、发展历程、主要特点及其在多GPU系统中的瓶颈。
- NVLink: 了解NVLink技术的定义、发展历程、主要特点及其相比PCIe的优势。了解NVLink Switch的作用。
- RDMA (Remote Direct Memory Access): 理解RDMA技术的定义和核心优势(低延迟、高吞吐、CPU offload)。
- RDMA网络: 了解RDMA技术的发展阶段,掌握IB(InfiniBand)、iWARP、RoCE v1/v2的定义和特点。
第2节:智算网络基础
2.1 智算网络发展背景
- 发展必然性: 了解数据中心网络演进及AI算力驱动的必然性。
- 关键阶段: 掌握智算网络从萌芽到概念形成的关键阶段与技术。
- 驱动因素: 理解硬件、网络及软件等关键技术创新是其内生驱动力。
- 外部推动: 了解国家政策引导与市场需求是其关键推动作用。
- 生态协同: 认知产业生态协同(厂商合作、标准制定)对发展的贡献。
- 应用需求: 了解大模型、科学计算、边缘智能、元宇宙等对网络的高性能、实时性等新兴需求。
2.2 智算网络定义
- 基本定义: 掌握智算网络是以数据为中心,高效连接和智能调度计算、存储等资源的新型网络架构。
- 基本构成: 了解智算网络由“算”(计算资源)、“网”(网络资源)、“脑”(智能管控)三大部分组成。
- 业务要求: 理解AI业务对智算网络提出的高带宽、低延迟、无损、高可靠等要求。
- 应用场景: 熟悉智算网络在AI训练、HPC、大数据分析等常见应用场景。
- 行业方案: 熟悉增强以太网(RoCE)、改良型IB和新型网络3种行业解决方案,并能对InfiniBand与RoCE v2技术方案进行比对。
2.3 智算网络技术架构
- 三要素: 掌握智算网络技术架构的三要素:拓扑(Topology)、无损(Lossless)、均衡(Load Balancing)。
- 网络拓扑:
- CLOS/胖树: 了解其分层与无阻塞特性。
- Dragonfly: 了解其小直径与成本优势。
- Rail-Only: 了解其简化与低时延特点。
- 无损技术:
- PFC: 理解其基于优先级的逐跳流控机制。
- ECN: 理解其显式拥塞通知以避免拥塞丢包的原理。
- DCQCN: 了解其量化拥塞通知与速率调整的机制。
- 负载均衡:
- 了解基于网络状态感知的动态负载均衡。
- 了解基于流切片(Flowlet)的负载均衡原理。
- 了解逐包负载均衡技术实现。
- 了解基于信元交换的负载均衡。
2.4 行业应用与典型案例
- 四大领域: 了解智算网络在制造、金融、交通、医疗四大应用领域。
- 共同需求: 理解行业应用对高性能、AI算力的共同需求。
- 具体场景:
- 智能制造: 数字孪生、AI研发、智能生产。
- 金融风控: 智能信贷、交易监测、反洗钱。
- 智能交通: 交通管理、车路协同、智能停车。
- 医疗健康: 影像分析、辅助决策、药物研发。
- 核心价值: 理解智算网络如何提升各行业运营效率与创新能力,并通过典型案例展示其如何赋能具体业务场景。
第二章:虚拟化网络技术与原理
第1节:虚拟化网络基础概念与分类
- 虚拟化概念: 理解虚拟化是将物理资源抽象为逻辑资源的技术。
- 虚拟化分类: 了解虚拟化的基本分类:服务器虚拟化、网络虚拟化、存储虚拟化。
- 网络虚拟化: 掌握其定义(将物理网络抽象为逻辑网络)与特点(灵活性、隔离性、可扩展性)。了解其技术分类(如Overlay、SDN)。
- Linux虚拟网络设备:
- veth-pair: 熟悉其概念(虚拟网线)及常用命令。
- TAP/TUN: 了解TAP(二层)和TUN(三层)设备的区别与工作原理。
- Linux Bridge: 了解其作为虚拟交换机的基本原理。
- Open vSwitch: 熟悉OVS是一个功能更强大的开源虚拟交换机。
第2节:虚拟化网络核心技术解析
- 核心技术分类: 了解VPN、VXLAN、SDN、NFV等核心技术。
- VPN: 掌握其定义(在公网上建立加密隧道)和分类。
- VXLAN: 理解其定义(网络覆盖技术)及其报文格式(L2 over L4)。了解其流量转发流程。
- SDN: 掌握其定义(软件定义网络)和核心思想(控制与转发分离)。了解其三层技术架构(应用、控制、基础设施)。
- NFV: 掌握其定义(网络功能虚拟化)和技术架构。理解其与SDN的关系(NFV关注功能,SDN关注控制)。
- 智能网卡/DPU: 理解它们在虚拟网络中通过硬件卸载来提升性能的应用。
第3节:虚拟化网络应用场景与工具
- 典型场景: 理解虚拟化网络在云计算、云原生、5G承载中的应用。
- OpenStack Neutron:
- 了解其基本概念、架构和组成。
- 熟悉其核心抽象对象:
network
, subnet
, port
, router
。
- 了解其如何通过VXLAN实现虚拟网络。
- Docker 网络:
- 了解Docker的CNM网络模型。
- 掌握其网络分类:
bridge
, host
, none
, overlay
。
- 了解如何创建和管理自定义网络。
- Kubernetes 网络:
- 了解K8s的网络架构和Pod网络创建原理。
- 理解CRI(容器运行时接口)和CNI(容器网络接口)的原理。
- 了解Service作为集群网络的实现方式。
- 网络切片: 了解5G中的网络切片技术。
第三章:自动化运维工具 Ansible
第1节:Ansible 基础概念与核心原理
- 传统运维劣势: 理解手动操作、脚本维护的痛点。
- Ansible 定义与特点: 掌握其定义(自动化运维工具)和特点(简单、Agentless、幂等性、模块化)。
- 任务执行流程: 了解Ansible通过SSH推送并执行临时模块的工作流程。
- 资产文件 (Inventory): 了解其作用和语法。
- 常用模块: 熟悉
ping
, copy
, file
, service
, yum
/apt
, command
, shell
等常用模块及其基本用法。
第2节:Playbook 语法
- YAML 基础: 掌握YAML的语法:缩进、列表、字典。
- Playbook 核心概念: 了解Playbook的组成元素:
hosts
, tasks
, vars
, handlers
, roles
。
- 变量: 掌握变量的定义与使用方法。
- Jinja2 模板: 了解Jinja2模板引擎的基本语法
{{...}}
。
- 循环 (
loop
): 掌握循环语句的使用。
- 条件 (
when
): 掌握条件控制语句的使用。
- 角色 (Roles):
- 理解角色的概念和优势(结构化、复用)。
- 熟悉角色的标准目录结构。
- 了解如何创建和使用角色。
第二部分:实践操作
第四章:虚拟网络实操
第1节:虚拟网络基础原理
- Linux 基础: 熟练使用Linux基础命令与网络配置命令(如
ip
, ifconfig
)。
- OVS 原理: 掌握Open vSwitch的工作原理。
- VPN 原理: 掌握虚拟专用网VPN的工作原理,特别是PPTP VPN协议原理。
- 抓包分析: 掌握网络抓包原理和Wireshark工具的使用。
- VXLAN 原理: 理解VXLAN隧道技术原理。
第2节:虚拟网络基础配置
- Linux 网络操作: 能进行Linux主机的网络命令操作。
- OVS 配置: 能配置OVS网桥实现基本连通,包括网桥和端口管理,以及流表查看。
- VPN 部署: 能部署PPTP VPN服务端与客户端,实现VPN网络通信。
- 抓包分析: 能使用Wireshark抓取并初步分析VPN数据包结构。
第3节:VXLAN 隧道部署实践
- OVS 进阶: 能配置多个OVS网桥,实现控制与数据平面基础分离。
- VXLAN 配置: 能使用OVS命令创建和配置VXLAN隧道。
- 跨网段通信: 实现VXLAN相同网段和不同网段之间的通信(通常需要结合Linux路由)。
- 报文分析: 能够使用
tcpdump
等工具初步分析VXLAN封装的数据包,识别其封装结构。
第五章:Ansible 实操
第1节:Ansible Playbook 核心实践
- Playbook 结构: 掌握Playbook结构与核心组件(
tasks
, handlers
, notify
)。
- 模块应用: 掌握Ansible常用模块类型的使用。
- 变量与调试: 掌握变量定义、作用域及调用方法,以及基础的Playbook调试与排错技巧。
- 实践案例: 能够独立安装Ansible,并编写Playbook完成Nginx服务的安装、配置及网页应用的自动化部署。掌握在Playbook中应用条件判断(
when
)来控制执行流程。
第2节:Ansible 进阶应用与角色实践
- 角色核心: 理解Ansible角色的核心作用与优势。
- 角色结构: 掌握角色的标准化目录结构与规范。
- ansible-galaxy: 了解
ansible-galaxy
工具的应用与管理。
- 协同工作: 理解角色中任务、变量、模板、处理程序的协同工作方式。
- 调用关系: 掌握Playbook与Role的依赖关系及调用方法。
- 实践案例: 能够创建和组织Ansible角色结构,定义角色内容,并正确调用和管理角色。能够使用Ansible的
cron
模块管理系统的定时任务。