Kubernetes网络故障排查[编辑 | 编辑源代码]

Kubernetes网络故障排查是管理和维护Kubernetes集群时的重要技能。由于Kubernetes的网络模型涉及多个组件（如Pod、Service、Ingress、CNI插件等），网络问题可能出现在不同层面。本文将详细介绍常见的网络故障场景、排查工具、方法及实际案例。

1. 简介[编辑 | 编辑源代码]

Kubernetes网络模型的核心原则是所有Pod之间可以直接通信，无需NAT。当网络通信失败时，可能的原因包括：

Pod网络配置错误
Service或Endpoint配置问题
节点间网络连通性问题
CNI插件故障
防火墙或安全组规则限制

2. 基础排查工具[编辑 | 编辑源代码]

以下工具是排查Kubernetes网络问题的基本手段：

2.1 kubectl[编辑 | 编辑源代码]

检查Pod状态

kubectl get pods -o wide

查看Pod日志

kubectl logs <pod-name>

检查Service和Endpoint

kubectl get svc,ep

2.2 ping和curl[编辑 | 编辑源代码]

在Pod内测试基础网络连通性：

# 进入Pod
kubectl exec -it &lt;pod-name&gt; -- sh

# 测试DNS解析
nslookup kubernetes.default

# 测试Service访问
curl -v http://&lt;service-name&gt;:&lt;port&gt;

2.3 tcpdump[编辑 | 编辑源代码]

抓包分析网络流量：

kubectl exec &lt;pod-name&gt; -- tcpdump -i eth0 -w /tmp/dump.pcap
kubectl cp &lt;pod-name&gt;:/tmp/dump.pcap ./dump.pcap

3. 常见问题及解决方案[编辑 | 编辑源代码]

3.1 Pod无法互相通信[编辑 | 编辑源代码]

现象: Pod A无法ping通Pod B

排查步骤： 1. 检查Pod是否在同一节点：

   kubectl get pods -o wide | grep -E "A|B"

2. 检查节点间网络：

  
graph LR
     PodA-->Node1
     PodB-->Node2
     Node1-->|Calico/Flannel|Node2

3. 验证CNI插件：

   # 检查CNI插件Pod状态
   kubectl get pods -n kube-system | grep -E "flannel|calico|weave"

3.2 Service无法访问[编辑 | 编辑源代码]

现象: 无法通过Service名称访问服务

排查步骤： 1. 检查Service和Endpoint：

   kubectl describe svc &lt;service-name&gt;
   kubectl get endpoints &lt;service-name&gt;

2. 验证kube-proxy：

   # 检查kube-proxy日志
   kubectl logs -n kube-system &lt;kube-proxy-pod&gt;

3. 检查iptables规则：

   iptables-save | grep &lt;service-name&gt;

3.3 DNS解析失败[编辑 | 编辑源代码]

现象: Pod内无法解析Service名称

排查步骤： 1. 检查CoreDNS状态：

   kubectl get pods -n kube-system -l k8s-app=kube-dns

2. 验证DNS配置：

   kubectl exec -it &lt;pod-name&gt; -- cat /etc/resolv.conf

4. 高级诊断工具[编辑 | 编辑源代码]

4.1 ksniff[编辑 | 编辑源代码]

使用Wireshark实时分析Pod流量：

kubectl sniff &lt;pod-name&gt; -n &lt;namespace&gt; -o - | wireshark -k -i -

4.2 NetworkPolicy验证[编辑 | 编辑源代码]

检查NetworkPolicy是否阻止流量： $Allowed = {\begin{cases} true, & if (sourceLabels \cap podLabels) \neq \emptyset \\ false, & otherwise \end{cases}$

5. 实际案例[编辑 | 编辑源代码]

案例1: 跨节点Pod通信失败

现象: 不同节点上的Pod无法互相ping通
原因: 节点防火墙阻止了CNI插件使用的端口（如Calico的179端口）
解决: 开放节点间TCP 179端口

案例2: ClusterIP无法访问

现象: 无法通过ClusterIP访问Service
原因: kube-proxy处于userspace模式导致性能问题
解决: 切换kube-proxy为iptables或ipvs模式

6. 总结[编辑 | 编辑源代码]

Kubernetes网络故障排查需要系统性地检查各个组件： 1. 从Pod层面验证基础网络 2. 检查Service和Endpoint配置 3. 验证CNI插件和节点间网络 4. 检查DNS和网络策略

掌握这些排查方法能有效解决大多数Kubernetes网络问题。对于复杂场景，建议结合多个工具进行综合分析。