高效排障指南:服务器 CPU / 内存 / 磁盘故障的定位与解决步骤

高效排障指南:服务器 CPU / 内存 / 磁盘故障的定位与解决步骤
服务器故障排查的核心不是 “试错”,而是 “精准定位”—— 尤其是 CPU、内存、磁盘这三大核心部件,其故障往往直接引发业务卡顿或中断。掌握 “先定位根因、再分步解决” 的逻辑,能将排障时间缩短 60% 以上。以下是三大部件常见故障的标准化排障流程。
一、CPU 高负载故障:从 “看使用率” 到 “找元凶”
常见表现:业务响应延迟、进程卡顿、系统负载(Load Average)远超 CPU 核心数。
定位步骤:
初判负载类型:用top命令查看 ——% us(用户进程占比)高,说明业务程序耗资源;% sy(系统进程占比)高,可能是内核线程或中断异常;% wa(I/O 等待占比)高,需关联磁盘 / 网络排查,而非单纯优化 CPU。
锁定异常进程:在top中按 “P” 按 CPU 使用率排序,记录高耗 CPU 进程的 PID;若进程名模糊,用pidstat -p [PID] 1 3查看该进程的实时 CPU 占用,确认是否持续高负载(排除瞬时峰值)。
深挖根因:若为业务进程(如 Java 服务),用jstack [PID]分析线程栈,看是否有死循环或线程阻塞;若为系统进程(如kworker),检查是否有硬件驱动异常或内核参数配置问题。
解决步骤:
临时缓解:若进程无核心作用(如异常脚本),用kill -9 [PID]终止;若为核心业务,先重启服务(如systemctl restart [服务名])恢复临时可用。
长期优化:用户进程高则优化代码(如减少死循环、优化查询);系统进程高则更新驱动或调整内核参数(如net.core.somaxconn);I/O 等待高则优先解决磁盘 / 网络瓶颈。
二、内存耗尽故障:区分 “真不足” 与 “假占用”
常见表现:OOM(内存溢出)报错、进程被内核杀死、系统频繁使用交换分区(Swap)导致卡顿。
定位步骤:
排除 “缓存干扰”:用free -h查看 —— 关注 “available”(实际可用内存,含可释放缓存),而非 “free”(完全空闲内存)。若 available 低但 cached 高,说明是缓存占用,无需扩容。
定位内存 “黑洞”:用top按 “M” 按内存占用排序,重点看 “RES”(进程实际占用物理内存);若某进程 RES 持续增长(如 1 小时内从 200M 涨到 2G),大概率是内存泄漏。
验证泄漏情况:用vmstat 1 5查看 “si”(Swap 读入)和 “so”(Swap 写出),若数值持续非 0,说明内存已不足,系统被迫使用 Swap。
解决步骤:
紧急释放:缓存占用高时,执行sync && echo 3 > /proc/sys/vm/drop_caches释放页缓存(不影响业务数据);内存泄漏进程需重启,并用ps -aux | grep [进程名]确认重启后内存是否回归正常。
根治方案:内存泄漏需修复代码(如检查未释放的对象、连接);若为业务扩容导致内存不足,需升级物理内存或开启大页内存(适合数据库等内存密集型服务)。
三、磁盘故障:分 “容量满” 与 “I/O 慢” 两类处理
常见表现:容量满则报错 “No space left on device”,I/O 慢则业务读写延迟(如数据库查询超时)。
定位步骤:
容量满定位:用df -h查看分区使用率,找到 100% 的分区;再用du -sh /* | sort -rh从根目录开始排查大目录,最终用find [目录] -size +100M定位大文件(如日志、冗余备份)。
I/O 慢定位:用iostat -x 1 3查看 ——% util(磁盘利用率)超 90% 说明磁盘饱和,await(平均 I/O 等待时间)超 20ms 说明读写卡顿;再用iotop定位高 I/O 进程(按 “o” 只显示有 I/O 活动的进程)。
解决步骤:
容量满:删除无用文件(如rm -rf [旧日志路径],删除前先备份关键日志);若为数据分区,可迁移部分非核心数据到其他磁盘,或扩容分区(如 LVM 逻辑卷直接扩展)。
I/O 慢:优化读写密集型业务(如数据库分表、减少频繁小文件写入);若磁盘硬件老化,更换为 SSD;临时可调整磁盘调度算法(如echo mq-deadline > /sys/block/sda/queue/scheduler,适合 SSD)。
排障核心原则
无论哪种故障,都需遵循 “先定位根因,再动手解决”—— 避免盲目重启服务器(可能丢失故障日志),也不要直接删除文件或终止进程(需先确认业务影响)。排障后,建议记录故障时间、根因、解决步骤,形成知识库,逐步减少同类故障复发率。

原创文章,作者:网站编辑,如若转载,请注明出处:https://devcn.xin/5743.html

(0)
网站编辑网站编辑认证
上一篇 2025年8月28日 上午3:29
下一篇 2025年8月28日 上午7:21

相关新闻