跳到主要内容

智算网络运维资格赛备考手册


第一部分:理论知识

第一章:智算网络概念

第1节:智能计算基础

1.1 智能计算发展背景
  • 早期理论基础: 了解智能计算的早期理论,如图灵测试、感知机模型等。
  • 早期探索: 掌握人工智能早期探索的关键事件和概念,如LISP语言的诞生、第一次AI寒冬等。
  • 初步发展: 熟悉智能算法初步发展阶段的代表性技术和成就,如专家系统、神经网络的初步应用。
  • 技术突破: 理解深度学习等技术突破时期的核心进展,如AlexNet在ImageNet竞赛中的胜利。
  • 多元化与融合: 认知当前智能计算多元化与融合阶段的特点,AI向各个行业渗透。
  • 国家战略: 了解国家战略层面(如“新一代人工智能发展规划”)对智能计算发展的引领作用。
  • 算力基础设施: 理解算力基础设施(如数据中心、超算中心)的完善对智能计算发展的支撑作用。
  • 技术与算法: 掌握技术突破与算法效率提升(如Transformer模型)对智能计算发展的推动作用。
1.2 算力的分类与定义
  • 核心概念: 理解算力的核心概念,即计算能力,是设备通过处理数据,实现特定结果输出的能力。
  • 主要分类: 掌握算力的主要分类依据,通常分为通用算力、智能算力、超算算力。
  • 通用算力: 熟悉通用算力的定义、特点及主要应用场景(如日常办公、网页浏览)。了解其主要CPU架构(x86、ARM)及其引领者与特点。
  • 智能算力: 熟悉智能算力的定义、特点及主要应用场景(如AI训练、推理)。了解其主要硬件基础:GPU、FPGA、ASIC。掌握这三者在并行计算能力、灵活性、功耗、成本等方面的对比。
  • 超算算力: 熟悉超算算力的定义、特点及主要应用场景(如气象预测、科学计算)。了解其参考架构的主要构成。
  • 度量单位: 理解算力的主要度量单位:FLOPS(每秒浮点运算次数)、IPS(每秒指令数)、TOPS(每秒万亿次操作)。
1.3 智算硬件产品认知
  • 智算服务器: 了解其定义、特点,掌握其主要组成部件(CPU、GPU、内存、高速网卡、PCIe Switch)及其功能。理解其典型硬件架构。
  • GPU: 熟悉国际(如NVIDIA)及国产GPU厂商的代表性架构(如Ampere, Hopper)及其关键特性和适用场景。
  • 智能网卡/DPU: 理解智能网卡(SmartNIC)的定义、发展历roughput)和DPU(Data Processing Unit)的定义、核心功能。了解其硬件组成和分类。
  • 交换机: 初步了解RoCE与IB交换机的定义和功能特点。
1.4 高速互联技术
  • Scale-Up vs Scale-Out: 掌握Scale-Up(纵向扩展,增强单机能力)和Scale-Out(横向扩展,增加机器数量)互联的定义、特点及主要技术。
  • PCIe: 了解PCIe技术的定义、发展历程、主要特点及其在多GPU系统中的瓶颈。
  • NVLink: 了解NVLink技术的定义、发展历程、主要特点及其相比PCIe的优势。了解NVLink Switch的作用。
  • RDMA (Remote Direct Memory Access): 理解RDMA技术的定义和核心优势(低延迟、高吞吐、CPU offload)。
  • RDMA网络: 了解RDMA技术的发展阶段,掌握IB(InfiniBand)、iWARP、RoCE v1/v2的定义和特点。

第2节:智算网络基础

2.1 智算网络发展背景
  • 发展必然性: 了解数据中心网络演进及AI算力驱动的必然性。
  • 关键阶段: 掌握智算网络从萌芽到概念形成的关键阶段与技术。
  • 驱动因素: 理解硬件、网络及软件等关键技术创新是其内生驱动力。
  • 外部推动: 了解国家政策引导与市场需求是其关键推动作用。
  • 生态协同: 认知产业生态协同(厂商合作、标准制定)对发展的贡献。
  • 应用需求: 了解大模型、科学计算、边缘智能、元宇宙等对网络的高性能、实时性等新兴需求。
2.2 智算网络定义
  • 基本定义: 掌握智算网络是以数据为中心,高效连接和智能调度计算、存储等资源的新型网络架构。
  • 基本构成: 了解智算网络由“算”(计算资源)、“网”(网络资源)、“脑”(智能管控)三大部分组成。
  • 业务要求: 理解AI业务对智算网络提出的高带宽、低延迟、无损、高可靠等要求。
  • 应用场景: 熟悉智算网络在AI训练、HPC、大数据分析等常见应用场景。
  • 行业方案: 熟悉增强以太网(RoCE)、改良型IB和新型网络3种行业解决方案,并能对InfiniBand与RoCE v2技术方案进行比对。
2.3 智算网络技术架构
  • 三要素: 掌握智算网络技术架构的三要素:拓扑(Topology)、无损(Lossless)、均衡(Load Balancing)。
  • 网络拓扑:
    • CLOS/胖树: 了解其分层与无阻塞特性。
    • Dragonfly: 了解其小直径与成本优势。
    • Rail-Only: 了解其简化与低时延特点。
  • 无损技术:
    • PFC: 理解其基于优先级的逐跳流控机制。
    • ECN: 理解其显式拥塞通知以避免拥塞丢包的原理。
    • DCQCN: 了解其量化拥塞通知与速率调整的机制。
  • 负载均衡:
    • 了解基于网络状态感知的动态负载均衡。
    • 了解基于流切片(Flowlet)的负载均衡原理。
    • 了解逐包负载均衡技术实现。
    • 了解基于信元交换的负载均衡。
2.4 行业应用与典型案例
  • 四大领域: 了解智算网络在制造、金融、交通、医疗四大应用领域。
  • 共同需求: 理解行业应用对高性能、AI算力的共同需求。
  • 具体场景:
    • 智能制造: 数字孪生、AI研发、智能生产。
    • 金融风控: 智能信贷、交易监测、反洗钱。
    • 智能交通: 交通管理、车路协同、智能停车。
    • 医疗健康: 影像分析、辅助决策、药物研发。
  • 核心价值: 理解智算网络如何提升各行业运营效率与创新能力,并通过典型案例展示其如何赋能具体业务场景。

第二章:虚拟化网络技术与原理

第1节:虚拟化网络基础概念与分类

  • 虚拟化概念: 理解虚拟化是将物理资源抽象为逻辑资源的技术。
  • 虚拟化分类: 了解虚拟化的基本分类:服务器虚拟化、网络虚拟化、存储虚拟化。
  • 网络虚拟化: 掌握其定义(将物理网络抽象为逻辑网络)与特点(灵活性、隔离性、可扩展性)。了解其技术分类(如Overlay、SDN)。
  • Linux虚拟网络设备:
    • veth-pair: 熟悉其概念(虚拟网线)及常用命令。
    • TAP/TUN: 了解TAP(二层)和TUN(三层)设备的区别与工作原理。
    • Linux Bridge: 了解其作为虚拟交换机的基本原理。
    • Open vSwitch: 熟悉OVS是一个功能更强大的开源虚拟交换机。

第2节:虚拟化网络核心技术解析

  • 核心技术分类: 了解VPN、VXLAN、SDN、NFV等核心技术。
  • VPN: 掌握其定义(在公网上建立加密隧道)和分类。
  • VXLAN: 理解其定义(网络覆盖技术)及其报文格式(L2 over L4)。了解其流量转发流程。
  • SDN: 掌握其定义(软件定义网络)和核心思想(控制与转发分离)。了解其三层技术架构(应用、控制、基础设施)。
  • NFV: 掌握其定义(网络功能虚拟化)和技术架构。理解其与SDN的关系(NFV关注功能,SDN关注控制)。
  • 智能网卡/DPU: 理解它们在虚拟网络中通过硬件卸载来提升性能的应用。

第3节:虚拟化网络应用场景与工具

  • 典型场景: 理解虚拟化网络在云计算、云原生、5G承载中的应用。
  • OpenStack Neutron:
    • 了解其基本概念、架构和组成。
    • 熟悉其核心抽象对象:network, subnet, port, router
    • 了解其如何通过VXLAN实现虚拟网络。
  • Docker 网络:
    • 了解Docker的CNM网络模型。
    • 掌握其网络分类:bridge, host, none, overlay
    • 了解如何创建和管理自定义网络。
  • Kubernetes 网络:
    • 了解K8s的网络架构和Pod网络创建原理。
    • 理解CRI(容器运行时接口)和CNI(容器网络接口)的原理。
    • 了解Service作为集群网络的实现方式。
  • 网络切片: 了解5G中的网络切片技术。

第三章:自动化运维工具 Ansible

第1节:Ansible 基础概念与核心原理

  • 传统运维劣势: 理解手动操作、脚本维护的痛点。
  • Ansible 定义与特点: 掌握其定义(自动化运维工具)和特点(简单、Agentless、幂等性、模块化)。
  • 任务执行流程: 了解Ansible通过SSH推送并执行临时模块的工作流程。
  • 资产文件 (Inventory): 了解其作用和语法。
  • 常用模块: 熟悉ping, copy, file, service, yum/apt, command, shell等常用模块及其基本用法。

第2节:Playbook 语法

  • YAML 基础: 掌握YAML的语法:缩进、列表、字典。
  • Playbook 核心概念: 了解Playbook的组成元素:hosts, tasks, vars, handlers, roles
  • 变量: 掌握变量的定义与使用方法。
  • Jinja2 模板: 了解Jinja2模板引擎的基本语法 {{...}}
  • 循环 (loop): 掌握循环语句的使用。
  • 条件 (when): 掌握条件控制语句的使用。
  • 角色 (Roles):
    • 理解角色的概念和优势(结构化、复用)。
    • 熟悉角色的标准目录结构。
    • 了解如何创建和使用角色。

第二部分:实践操作

第四章:虚拟网络实操

第1节:虚拟网络基础原理

  • Linux 基础: 熟练使用Linux基础命令与网络配置命令(如ip, ifconfig)。
  • OVS 原理: 掌握Open vSwitch的工作原理。
  • VPN 原理: 掌握虚拟专用网VPN的工作原理,特别是PPTP VPN协议原理。
  • 抓包分析: 掌握网络抓包原理和Wireshark工具的使用。
  • VXLAN 原理: 理解VXLAN隧道技术原理。

第2节:虚拟网络基础配置

  • Linux 网络操作: 能进行Linux主机的网络命令操作。
  • OVS 配置: 能配置OVS网桥实现基本连通,包括网桥和端口管理,以及流表查看。
  • VPN 部署: 能部署PPTP VPN服务端与客户端,实现VPN网络通信。
  • 抓包分析: 能使用Wireshark抓取并初步分析VPN数据包结构。

第3节:VXLAN 隧道部署实践

  • OVS 进阶: 能配置多个OVS网桥,实现控制与数据平面基础分离。
  • VXLAN 配置: 能使用OVS命令创建和配置VXLAN隧道。
  • 跨网段通信: 实现VXLAN相同网段和不同网段之间的通信(通常需要结合Linux路由)。
  • 报文分析: 能够使用tcpdump等工具初步分析VXLAN封装的数据包,识别其封装结构。

第五章:Ansible 实操

第1节:Ansible Playbook 核心实践

  • Playbook 结构: 掌握Playbook结构与核心组件(tasks, handlers, notify)。
  • 模块应用: 掌握Ansible常用模块类型的使用。
  • 变量与调试: 掌握变量定义、作用域及调用方法,以及基础的Playbook调试与排错技巧。
  • 实践案例: 能够独立安装Ansible,并编写Playbook完成Nginx服务的安装、配置及网页应用的自动化部署。掌握在Playbook中应用条件判断(when)来控制执行流程。

第2节:Ansible 进阶应用与角色实践

  • 角色核心: 理解Ansible角色的核心作用与优势。
  • 角色结构: 掌握角色的标准化目录结构与规范。
  • ansible-galaxy: 了解ansible-galaxy工具的应用与管理。
  • 协同工作: 理解角色中任务、变量、模板、处理程序的协同工作方式。
  • 调用关系: 掌握Playbook与Role的依赖关系及调用方法。
  • 实践案例: 能够创建和组织Ansible角色结构,定义角色内容,并正确调用和管理角色。能够使用Ansible的cron模块管理系统的定时任务。