现在线上有一个接口延迟高，你怎么优化和排查？

约 1157 字大约 4 分钟

2025-03-20

字节 - 2024/12/25、

针对线上接口延迟高的问题，可以按照以下步骤进行排查和优化：

确认问题现象：
- 延迟高的接口是偶发还是持续？
- 影响范围是全部用户还是特定请求（如特定参数、时间段）？
查看监控告警：
- 服务器资源（CPU、内存、磁盘 I/O、网络带宽）是否异常？
- 数据库负载（QPS、慢查询、连接池使用率）是否飙升？
- 依赖的第三方服务（如支付、短信）是否响应变慢？

检查 CPU 使用率：
```
top -H -p <进程ID>      # 查看进程内线程的 CPU 占用
```
- 若某线程长期占用 CPU，可能是代码死循环或计算密集型操作。

检查内存使用：

free -h                # 查看内存和 Swap 使用
jstat -gcutil <PID>    # JVM 内存 GC 情况（Java 应用）

检查磁盘 I/O：
```
iostat -x 1            # 查看磁盘读写延迟和吞吐量
```
- 高 I/O 等待（%util > 80%）可能因频繁日志写入或数据库操作导致。

检查网络延迟和丢包：

ping <目标IP>           # 基础网络延迟
mtr <目标IP>            # 综合路由跟踪和丢包分析

分析慢查询日志：

-- MySQL 开启慢查询日志
SET GLOBAL slow_query_log = 'ON';
SHOW VARIABLES LIKE 'long_query_time'; -- 默认 10 秒

使用 Profiling 工具定位热点：
- Java：Arthas、Async Profiler 分析 CPU 和内存热点。
- Python：cProfile、Py-Spy 抓取函数耗时。
- 示例（Arthas 追踪方法耗时）：
```
trace com.example.Service * '#cost > 100'  # 捕获耗时超过 100ms 的方法
```
检查同步阻塞：
- 锁竞争（如 synchronized、ReentrantLock）或线程池排队。
- 使用线程转储（jstack）分析线程状态：
```
jstack <PID> > thread_dump.log
```

日志级别与输出：
- 避免生产环境打印 DEBUG 日志，减少磁盘 I/O。
- 使用异步日志框架（如 Log4j2 AsyncAppender）。

模拟请求：
- 使用 wrk、JMeter 压测接口，观察性能表现。
```
wrk -t4 -c100 -d30s --latency http://api.example.com/endpoint
```
对比优化效果：
- 优化前后对比响应时间、吞吐量（QPS/TPS）。