Kubernetes网络故障排查 - Kubernetes网络学习指南

Kubernetes网络故障排查概述

Kubernetes网络是一个复杂的系统，涉及多个层次和组件。当网络问题发生时，系统性的故障排查方法可以帮助您快速定位和解决问题。本指南将提供全面的Kubernetes网络故障排查策略和工具。

图1: Kubernetes网络故障排查流程

常见网络问题

了解Kubernetes中最常见的网络问题类型，包括Pod间通信失败、服务访问问题、DNS解析故障等。

排查工具

掌握网络故障排查的关键工具，如kubectl、tcpdump、netshoot、ping、traceroute等。

系统方法

学习系统性的网络故障排查方法，从应用层到物理网络层逐步排查。

最佳实践

了解Kubernetes网络故障排查的最佳实践和常见陷阱。

常见网络问题分类

在Kubernetes环境中，网络问题可以大致分为以下几类。了解这些分类有助于您更有针对性地进行故障排查。

Pod间通信问题

Service访问问题

DNS解析问题

外部访问问题

CNI插件问题

Pod间通信问题

Pod间通信是Kubernetes网络的基础。当Pod之间无法通信时，可能是由多种原因造成的。

常见症状：

Pod之间无法ping通
应用连接超时或拒绝连接
跨节点的Pod通信失败，但同节点通信正常

可能的原因：

CNI插件配置错误或故障
网络策略（NetworkPolicy）阻止了通信
Overlay网络隧道问题（如VXLAN、Geneve等）
MTU配置不当导致的数据包分片问题
节点间网络连接问题
iptables规则错误

# 检查Pod之间的连通性
kubectl exec -it  -- ping 

# 检查网络接口和路由
kubectl exec -it  -- ip addr
kubectl exec -it  -- ip route

# 查看CNI配置
kubectl get cm -n kube-system  -o yaml
                        

Service访问问题

Kubernetes Service提供了稳定的服务发现和负载均衡机制。Service访问问题通常与kube-proxy或DNS有关。

常见症状：

无法通过Service名称或ClusterIP访问服务
Service访问间歇性失败
部分Pod可以访问Service，部分不行

可能的原因：

Service选择器与Pod标签不匹配
Pod健康检查失败，未被纳入Service端点
kube-proxy未正确运行或配置错误
iptables或IPVS规则问题
DNS解析问题

# 检查Service定义和端点
kubectl describe svc 
kubectl get endpoints 

# 检查Pod标签是否匹配Service选择器
kubectl get pods --selector==

# 检查kube-proxy日志
kubectl logs -n kube-system -l k8s-app=kube-proxy

# 检查iptables规则
sudo iptables -t nat -L
                        

DNS解析问题

DNS问题是Kubernetes中最常见的网络问题之一，它会影响服务发现和应用通信。

常见症状：

无法解析Service名称
DNS解析缓慢
间歇性DNS解析失败
无法解析外部域名

可能的原因：

CoreDNS或kube-dns Pod不健康
DNS配置错误
DNS缓存问题
DNS策略配置不当
网络策略阻止了DNS流量

# 检查DNS服务状态
kubectl get pods -n kube-system -l k8s-app=kube-dns
kubectl logs -n kube-system -l k8s-app=kube-dns

# 在Pod中测试DNS解析
kubectl exec -it  -- nslookup kubernetes.default.svc.cluster.local
kubectl exec -it  -- cat /etc/resolv.conf

# 检查DNS配置
kubectl get cm -n kube-system coredns -o yaml
                        

外部访问问题

从集群外部访问Kubernetes服务或从集群内访问外部服务时可能遇到的问题。

常见症状：

无法通过NodePort或LoadBalancer访问服务
Ingress路由不正确
Pod无法访问外部网络

可能的原因：

防火墙规则阻止了流量
NodePort端口未开放
Ingress控制器配置错误
SNAT或DNAT配置问题
云提供商负载均衡器配置不当

# 检查Service和Ingress配置
kubectl get svc,ing

# 测试NodePort连接
curl http://:

# 检查Pod出站连接
kubectl exec -it  -- curl -v https://www.example.com

# 检查防火墙规则
sudo iptables -L
                        

CNI插件问题

CNI（容器网络接口）插件负责配置Pod网络。CNI插件问题通常会导致Pod网络完全不可用或性能下降。

常见症状：

Pod卡在ContainerCreating状态
Pod无法获取IP地址
网络性能明显下降
特定CNI功能不工作（如网络策略）

可能的原因：

CNI插件安装不完整或版本不兼容
CNI配置错误
IPAM（IP地址管理）问题，如IP地址耗尽
CNI插件与底层网络不兼容
节点上的CNI二进制文件损坏

# 检查CNI插件Pod状态
kubectl get pods -n kube-system -l k8s-app=

# 查看CNI日志
kubectl logs -n kube-system 

# 检查节点上的CNI配置
ls -la /etc/cni/net.d/
cat /etc/cni/net.d/10-.conf

# 检查CNI二进制文件
ls -la /opt/cni/bin/
                        

系统性故障排查方法

网络故障排查需要系统性的方法，从应用层到物理网络层逐步排查。以下是一个推荐的排查流程。

确认问题范围

首先确定问题的影响范围，这有助于缩小可能的原因。

是所有Pod都受影响，还是只有特定Pod？
是所有节点都有问题，还是只有特定节点？
问题是持续的还是间歇性的？
最近是否进行了集群更改（升级、配置变更等）？

检查Pod和节点状态

确认所有相关组件的运行状态。

# 检查Pod状态
kubectl get pods -A | grep -v Running

# 检查节点状态
kubectl get nodes
kubectl describe node 

# 检查关键系统组件
kubectl get pods -n kube-system
                        

验证基本连通性

从底层开始验证网络连通性。

# 检查节点间连通性
ping 

# 检查Pod IP分配
kubectl get pods -o wide

# 测试Pod间连通性
kubectl exec -it  -- ping 

# 测试DNS解析
kubectl exec -it  -- nslookup kubernetes.default
                        

检查网络配置

检查CNI和网络相关配置。

# 检查CNI配置
kubectl get cm -n kube-system  -o yaml

# 检查网络策略
kubectl get networkpolicies --all-namespaces

# 检查节点网络接口
ip addr
ip route
                        

分析网络流量

捕获和分析网络流量，查找异常。

# 捕获Pod网络流量
kubectl exec -it  -- tcpdump -i eth0 -n

# 捕获节点上的CNI流量
sudo tcpdump -i  -n

# 捕获特定协议流量
sudo tcpdump -i any udp port 4789 -n  # VXLAN流量
sudo tcpdump -i any udp port 6081 -n  # Geneve流量
                        

检查日志和事件

查看相关组件的日志和Kubernetes事件。

# 查看Pod日志
kubectl logs 

# 查看CNI插件日志
kubectl logs -n kube-system 

# 查看kube-proxy日志
kubectl logs -n kube-system 

# 查看Kubernetes事件
kubectl get events --sort-by='.lastTimestamp'
                        

应用解决方案

根据发现的问题应用相应的解决方案。

重启受影响的Pod或服务
更新CNI配置
修复网络策略
调整MTU设置
更新或回滚CNI插件版本

网络故障排查工具

以下是一些在Kubernetes环境中进行网络故障排查的常用工具。掌握这些工具的使用方法可以帮助您更高效地解决网络问题。

kubectl

kubectl是与Kubernetes集群交互的主要命令行工具，提供了许多用于网络故障排查的子命令。

常用命令：

# 查看Pod网络信息
kubectl get pods -o wide

# 在Pod中执行命令
kubectl exec -it  -- 

# 查看Pod日志
kubectl logs 

# 端口转发
kubectl port-forward  :

# 查看Service和Endpoints
kubectl get svc,ep

# 描述资源详情
kubectl describe pod/svc/node 
                        

netshoot

netshoot是一个包含多种网络工具的容器镜像，非常适合在Kubernetes环境中进行网络故障排查。

使用方法：

# 创建一个netshoot Pod
kubectl run netshoot --rm -it --image=nicolaka/netshoot

# 或者在现有命名空间中创建
kubectl run netshoot --rm -it --image=nicolaka/netshoot -n 

# 在特定节点上运行
kubectl run netshoot --rm -it --image=nicolaka/netshoot --overrides='{"spec": {"nodeSelector": {"kubernetes.io/hostname": ""}}}'
                        

netshoot包含的工具：ping, traceroute, tcpdump, nslookup, dig, curl, wget, iperf, netstat, nmap等。

tcpdump和Wireshark

tcpdump是一个强大的命令行数据包分析工具，可以捕获和分析网络流量。Wireshark提供了图形界面，可以更直观地分析tcpdump捕获的数据包。

常用命令：

# 在Pod中捕获流量
kubectl exec -it  -- tcpdump -i eth0 -w /tmp/capture.pcap

# 捕获特定协议的流量
kubectl exec -it  -- tcpdump -i eth0 tcp port 80 -n

# 捕获与特定IP通信的流量
kubectl exec -it  -- tcpdump -i eth0 host  -n

# 将捕获文件复制到本地进行分析
kubectl cp :/tmp/capture.pcap ./capture.pcap

# 在本地使用Wireshark分析
wireshark capture.pcap
                        

网络诊断工具

以下是一些常用的网络诊断命令，可以在Pod或节点上运行。

# 检查DNS解析
nslookup 
dig 

# 测试连接性
ping 
traceroute 
telnet  
nc -zv  

# 查看路由表
ip route
route -n

# 查看接口信息
ip addr
ifconfig

# 查看连接状态
netstat -tuln
ss -tuln

# 测试带宽
iperf -c  -p 
                        

CNI特定工具

不同的CNI插件可能提供特定的诊断工具。

Calico:

# 检查Calico节点状态
calicoctl node status

# 查看Calico网络策略
calicoctl get networkpolicy

# 查看BGP对等体
calicoctl node status
                        

Flannel:

# 检查VXLAN接口
ip -d link show flannel.1

# 查看Flannel网络配置
cat /run/flannel/subnet.env

# 检查VXLAN FDB表
bridge fdb show dev flannel.1
                        

Cilium:

# 检查Cilium状态
cilium status

# 查看Cilium端点
cilium endpoint list

# 调试特定端点
cilium endpoint get 
                        

Overlay网络特定问题解决方案

Overlay网络在Kubernetes中广泛使用，但也带来了一些特定的故障排查挑战。以下是一些常见的Overlay网络问题及其解决方案。

MTU配置问题

Overlay网络封装会增加数据包大小，如果MTU配置不当，可能导致数据包分片或丢弃。

症状：

大数据包传输失败，小数据包正常
间歇性连接问题
TCP连接建立但数据传输失败

解决方案：

# 检查当前MTU设置
ip link show

# 对于VXLAN (开销约50字节)，Pod MTU应设置为:
# 物理网络MTU - 50

# 在Flannel中配置MTU (ConfigMap)
data:
  net-conf.json: |
    {
      "Network": "10.244.0.0/16",
      "Backend": {
        "Type": "vxlan",
        "VNI": 1,
        "Port": 4789,
        "MTU": 1450
      }
    }

# 在Calico中配置MTU (ConfigMap)
data:
  calico_backend: "vxlan"
  veth_mtu: "1450"
                    

Overlay隧道建立失败

Overlay网络依赖于节点间的隧道连接，如果隧道无法建立，Pod间通信将失败。

症状：

跨节点的Pod无法通信
查看隧道接口状态异常
日志中有隧道建立失败的错误

解决方案：

# 检查隧道接口状态
ip -d link show type vxlan  # VXLAN
ip -d link show type geneve  # Geneve
ip -d link show type ipip  # IP-in-IP

# 检查UDP端口是否被阻断
netstat -anup | grep 4789  # VXLAN
netstat -anup | grep 6081  # Geneve

# 检查节点间连通性
ping 

# 检查防火墙规则
sudo iptables -L

# 常见需要开放的端口:
# - VXLAN: UDP 4789
# - Geneve: UDP 6081
# - IP-in-IP: Protocol 4
# - Calico BGP: TCP 179
                    

Overlay网络路由问题

Overlay网络依赖正确的路由表和转发规则，如果这些配置不正确，数据包可能无法到达目的地。

症状：

特定Pod或子网无法通信
路由表中缺少某些路由
FDB表或ARP表不完整

解决方案：

# 检查节点路由表
ip route | grep -E 'flannel|calico|cni'

# 检查VXLAN FDB表
bridge fdb show dev flannel.1

# 检查ARP表
ip neigh

# 重启CNI DaemonSet以重建路由
kubectl rollout restart ds -n kube-system 

# 手动添加缺失的路由(临时解决方案)
ip route add  via  dev 
                    

Overlay网络性能问题

Overlay网络可能引入额外的延迟和开销，导致网络性能下降。

症状：

网络延迟明显高于预期
吞吐量低于直接网络连接
CPU使用率高

解决方案：

# 启用VXLAN硬件卸载(如果网卡支持)
ethtool -k  | grep vxlan
ethtool -K  tx-udp_tnl-segmentation on

# 考虑使用更轻量级的Overlay技术
# 例如，Calico可以从VXLAN切换到IP-in-IP或直接路由

# 优化内核参数
sysctl -w net.core.rmem_max=16777216
sysctl -w net.core.wmem_max=16777216
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.ipv4.tcp_wmem="4096 65536 16777216"

# 使用跨节点亲和性减少跨节点流量
# 在Pod规范中添加亲和性规则
                    

Overlay网络与网络策略冲突

网络策略可能与Overlay网络交互，导致意外的通信阻断。

症状：

应用了网络策略后，某些通信失败
网络策略看起来配置正确，但不生效

解决方案：

# 检查网络策略
kubectl get networkpolicies --all-namespaces

# 确保网络策略允许必要的Overlay流量
# 例如，允许VXLAN UDP 4789端口

# 临时禁用网络策略进行测试
kubectl delete networkpolicy  -n 

# 检查CNI插件是否正确支持网络策略
# 某些CNI插件可能需要额外配置才能支持网络策略
                    

Kubernetes网络故障排查概述

常见网络问题

排查工具

系统方法

最佳实践

常见网络问题分类

Pod间通信问题

常见症状：

可能的原因：

Service访问问题

常见症状：

可能的原因：

DNS解析问题

常见症状：

可能的原因：

外部访问问题

常见症状：

可能的原因：

CNI插件问题

常见症状：

可能的原因：

系统性故障排查方法

确认问题范围

检查Pod和节点状态

验证基本连通性

检查网络配置

分析网络流量

检查日志和事件

应用解决方案

网络故障排查工具

常用命令：

使用方法：

常用命令：

Calico:

Flannel:

Cilium:

Overlay网络特定问题解决方案

MTU配置问题

症状：

解决方案：

Overlay隧道建立失败

症状：

解决方案：

Overlay网络路由问题

症状：

解决方案：

Overlay网络性能问题

症状：

解决方案：

Overlay网络与网络策略冲突

症状：

解决方案：

相关主题

Overlay网络概述

Geneve技术详解

网络桥接

Pod网络