编辑“︁Kubernetes网络故障排查”︁

= Kubernetes网络故障排查 =

'''Kubernetes网络故障排查'''是管理和维护Kubernetes集群时的重要技能。由于Kubernetes的网络模型涉及多个组件（如Pod、Service、Ingress、CNI插件等），网络问题可能出现在不同层面。本文将详细介绍常见的网络故障场景、排查工具、方法及实际案例。

== 1. 简介 ==
Kubernetes网络模型的核心原则是所有Pod之间可以直接通信，无需NAT。当网络通信失败时，可能的原因包括：
* Pod网络配置错误
* Service或Endpoint配置问题
* 节点间网络连通性问题
* CNI插件故障
* 防火墙或安全组规则限制

== 2. 基础排查工具 ==
以下工具是排查Kubernetes网络问题的基本手段：

=== 2.1 kubectl ===
<code lang="bash">
# 检查Pod状态
kubectl get pods -o wide

# 查看Pod日志
kubectl logs &lt;pod-name&gt;

# 检查Service和Endpoint
kubectl get svc,ep
</code>

=== 2.2 ping和curl ===
在Pod内测试基础网络连通性：
<syntaxhighlight lang="bash">
# 进入Pod
kubectl exec -it &lt;pod-name&gt; -- sh

# 测试DNS解析
nslookup kubernetes.default

# 测试Service访问
curl -v http://&lt;service-name&gt;:&lt;port&gt;
</syntaxhighlight>

=== 2.3 tcpdump ===
抓包分析网络流量：
<syntaxhighlight lang="bash">
kubectl exec &lt;pod-name&gt; -- tcpdump -i eth0 -w /tmp/dump.pcap
kubectl cp &lt;pod-name&gt;:/tmp/dump.pcap ./dump.pcap
</syntaxhighlight>

== 3. 常见问题及解决方案 ==

=== 3.1 Pod无法互相通信 ===
'''现象''': Pod A无法ping通Pod B

'''排查步骤'''：
1. 检查Pod是否在同一节点：
   <syntaxhighlight lang="bash">
   kubectl get pods -o wide | grep -E "A|B"
   </syntaxhighlight>

2. 检查节点间网络：
   <mermaid>
   graph LR
     PodA-->Node1
     PodB-->Node2
     Node1-->|Calico/Flannel|Node2
   </mermaid>

3. 验证CNI插件：
   <syntaxhighlight lang="bash">
   # 检查CNI插件Pod状态
   kubectl get pods -n kube-system | grep -E "flannel|calico|weave"
   </syntaxhighlight>

=== 3.2 Service无法访问 ===
'''现象''': 无法通过Service名称访问服务

'''排查步骤'''：
1. 检查Service和Endpoint：
   <syntaxhighlight lang="bash">
   kubectl describe svc &lt;service-name&gt;
   kubectl get endpoints &lt;service-name&gt;
   </syntaxhighlight>

2. 验证kube-proxy：
   <syntaxhighlight lang="bash">
   # 检查kube-proxy日志
   kubectl logs -n kube-system &lt;kube-proxy-pod&gt;
   </syntaxhighlight>

3. 检查iptables规则：
   <syntaxhighlight lang="bash">
   iptables-save | grep &lt;service-name&gt;
   </syntaxhighlight>

=== 3.3 DNS解析失败 ===
'''现象''': Pod内无法解析Service名称

'''排查步骤'''：
1. 检查CoreDNS状态：
   <syntaxhighlight lang="bash">
   kubectl get pods -n kube-system -l k8s-app=kube-dns
   </syntaxhighlight>

2. 验证DNS配置：
   <syntaxhighlight lang="bash">
   kubectl exec -it &lt;pod-name&gt; -- cat /etc/resolv.conf
   </syntaxhighlight>

== 4. 高级诊断工具 ==

=== 4.1 ksniff ===
使用Wireshark实时分析Pod流量：
<syntaxhighlight lang="bash">
kubectl sniff &lt;pod-name&gt; -n &lt;namespace&gt; -o - | wireshark -k -i -
</syntaxhighlight>

=== 4.2 NetworkPolicy验证 ===
检查NetworkPolicy是否阻止流量：
<math>
\text{Allowed} = \begin{cases}
\text{true}, & \text{if } (\text{sourceLabels} \cap \text{podLabels}) \neq \emptyset \\
\text{false}, & \text{otherwise}
\end{cases}
</math>

== 5. 实际案例 ==

'''案例1''': 跨节点Pod通信失败
* '''现象''': 不同节点上的Pod无法互相ping通
* '''原因''': 节点防火墙阻止了CNI插件使用的端口（如Calico的179端口）
* '''解决''': 开放节点间TCP 179端口

'''案例2''': ClusterIP无法访问
* '''现象''': 无法通过ClusterIP访问Service
* '''原因''': kube-proxy处于userspace模式导致性能问题
* '''解决''': 切换kube-proxy为iptables或ipvs模式

== 6. 总结 ==
Kubernetes网络故障排查需要系统性地检查各个组件：
1. 从Pod层面验证基础网络
2. 检查Service和Endpoint配置
3. 验证CNI插件和节点间网络
4. 检查DNS和网络策略

掌握这些排查方法能有效解决大多数Kubernetes网络问题。对于复杂场景，建议结合多个工具进行综合分析。

[[Category:集成部署]]
[[Category:Kubernetes]]
[[Category:Kubernetes服务与网络]]