定位服务器数据丢弃包问题

服务器
当某个服务器发生数据丢包时,它们肯定是由于某种原因。我们如何来分析为什么数据包丢失。

当某个服务器发生数据丢包时,它们肯定是由于某种原因。我们如何来分析为什么数据包丢失。

以下是我们想要了解的情况:

  • 一个数据包进入您计算机的网络堆栈( RX )(例如在端口 8000 上)。 在端口 8000 对应的应用程序接收之前被丢。
  • 发送一个数据包( TX )。 在它从您的机器发出之前被丢。

本文不关注“数据包在网络传输过程丢了,让我们用 traceroute / 通过计数 TCP 重传进行诊断”(虽然这也很重要)!

[[203000]]

怎么知道数据包是否被丢弃?

我在 Twitter 上提问,得到了非常有用的答案 “看 netstat -i !”这是我的笔记本电脑上运行得到的结果:

 

  1. bork@kiwi~> sudo netstat -i 
  2. Kernel Interface table 
  3. Iface       MTU Met   RX-OK RX-ERR RX-DRP RX-OVR    TX-OK TX-ERR TX-DRP TX-OVR Flg 
  4. docker0    1500 0         0      0      0 0             0      0      0      0 BMU 
  5. enp0s25    1500 0   1235101      0    242 0        745760      0      0      0 BMRU 
  6. lo        65536 0     21558      0      0 0         21558      0      0      0 LRU 
  7. nlmon0     3776 0    551262      0      0 0             0      0      0      0 ORU 

看起来有一些收到的( RX )数据包在 enp0s25 (我的无线网卡)上丢失了。 但是没有 TX 包丢失。

有人也告诉我,运行 ethtool -S 会有帮助,但是我的 ethtool 没有 -S 选项。

怎么知道为什么数据包被丢弃

通过谷歌搜索,发现一个很酷的工具叫 dropwatch 。 没有现成的 Ubuntu 安装软件包,但可以通过 github 下载:

https//github.com/pavel-odintsov/drop_watch

以下是我可以编译的说明:

 

  1. sudo apt-get install -y libnl-3-dev libnl-genl-3-dev binutils-dev libreadline6-dev 
  2. git clone https://github.com/pavel-odintsov/drop_watch 
  3. cd drop_watch/src 
  4. vim Makefile # comment out the -Werror argument to gcc 
  5. make 

 

这里是输出! 它告诉我哪个内核函数丢失数据包,酷!

 

  1. sudo ./dropwatch -l kas 
  2. Initalizing kallsyms db 
  3. dropwatch> start 
  4. Enabling monitoring... 
  5. Kernel monitoring activated. 
  6. Issue Ctrl-C to stop monitoring 
  7.  
  8. 1 drops at tcp_v4_do_rcv+cd (0xffffffff81799bad) 
  9. 10 drops at tcp_v4_rcv+80 (0xffffffff8179a620) 
  10. 1 drops at sk_stream_kill_queues+57 (0xffffffff81729ca7) 
  11. 4 drops at unix_release_sock+20e (0xffffffff817dc94e) 
  12. 1 drops at igmp_rcv+e1 (0xffffffff817b4c41) 
  13. 1 drops at igmp_rcv+e1 (0xffffffff817b4c41) 

 

用perf监控丢弃的数据包

还有另一个很酷的方法,用来调试发生什么。

thomas graf 告诉我,可以使用 perf 监视 kfree_skb 事件,这将告诉你什么时候丢弃数据包(内核堆栈发生的地方):

 

  1. sudo perf record -g -a -e skb:kfree_skb 
  2. sudo perf script 

 

英文原文:https://jvns.ca/blog/2017/09/05/finding-out-where-packets-are-being-dropped/

本 文作者 Julia Evans,由 Nana 翻译,转载译文请注明出处,技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。

责任编辑:未丽燕 来源: 推酷
相关推荐

2009-09-17 16:16:29

wsus服务器

2018-05-18 10:22:39

冲突游戏服务器

2018-07-04 10:21:21

2009-12-29 11:03:28

VPN服务器故障

2010-08-04 12:14:23

NFS服务器

2010-07-19 18:03:07

Telnet服务器

2018-04-24 10:38:46

服务器数据恢复存储

2018-09-20 08:35:13

机器学习云服务器故障

2010-05-18 18:47:31

2009-09-24 17:29:10

2010-08-31 17:15:57

DHCP服务器

2010-08-25 21:25:41

DHCP服务器

2019-07-24 11:52:11

CPU服务器面试官

2018-12-07 08:38:49

代理服务器Web服务器通信

2010-12-28 16:55:04

惠普MicroServer服务器

2010-09-01 15:40:10

DHCP服务器

2009-09-02 16:53:27

邮件服务器

2010-05-19 18:46:59

SVN服务器配置

2009-09-08 15:54:21

NFS服务器

2010-07-20 13:41:30

Telnet服务器
点赞
收藏

51CTO技术栈公众号