一份接地气的网络运维手册实例分享

刚进公司那会儿,我接手了一个老项目,前任运维走得急,没留文档。路由器配置记在一张皱巴巴的纸上,交换机密码写在贴纸背面,连服务器 IP 都靠口头传递。不出三天,内网就断了一次,排查了两小时才发现是 VLAN 划分错了。

为什么需要运维手册

很多人觉得“我会就行”,可真到半夜告警、临时顶班时,没人能靠脑子记住所有细节。一份清晰的手册,不只是给新人看的,更是给自己兜底的。

真实场景下的手册结构

我在易用多识这个项目上搭了一套基础网络,下面这份手册结构是我们实际在用的:

network-docs/
├── topology.md # 网络拓扑图说明
├── devices/
│ ├── core-switch.conf # 核心交换机配置备份
│ ├── firewall.rules # 防火墙策略清单
│ └── device-inventory.xlsx # 设备资产表
├── procedures/
│ ├── restart-router.md # 路由器重启步骤
│ ├── add-new-vlan.md # 新增VLAN操作指南
│ └── backup-config.sh # 自动备份脚本
└── contacts.md # 厂商与责任人联系方式

关键内容怎么写

拓扑图不一定要专业绘图软件,用 Markdown 画个简图也行:

Internet
↓ [防火墙 FW1]
↓ [核心交换机 SW1]
↙ ↘
[接入交换机 AS1] [AS2]
↓ ↓
办公区 服务器区

设备清单里必须包含:IP 地址、登录凭证(加密存储)、型号、用途、负责人。我们用 Excel 管理,每周同步一次。

操作流程要像菜谱一样清楚

比如“重启路由器”这种事,不能只写“重启设备”,得拆解成步骤:

  1. 登录管理界面,地址 https://192.168.1.1,账号 admin,密码见密码管理器「网络设备」组
  2. 进入「系统工具」→「重启」,点击「重启路由器」
  3. 等待5分钟,ping 网关确认恢复
  4. 通知团队网络已恢复

最好配上截图,但别塞太多,关键节点来一张就够了。

自动化脚本也是手册的一部分

我们有个定时任务,每天凌晨两点自动拉取所有交换机配置:

#!/bin/bash
DEVICES="192.168.1.10 192.168.1.11"
DATE=$(date +%Y%m%d)
for ip in $DEVICES; do
ssh admin@$ip "show running-config" > /backup/configs/$ip-$DATE.cfg
done

更新比写更重要

手册最怕“写完就废”。我们的做法是:每次变更设备前,先更新文档,再操作。谁改了配置,就得负责更新对应章节。组长每月抽查一次,发现文档和现网不符,直接群里点名。

现在新同事入职第二天就能独立处理 VLAN 变更,靠的不是聪明,是那份不断迭代的手册。