操作系统和Web服务器那点事儿

服务器
有些老实本分的会按照自己的规矩来做事,有些刺头儿喜欢问这问那,时不时还想搞点非法的访问,想访问别的进程的地址空间,甚至想访问内核的代码和数据! 这时候,我只有把他kill掉祭天,留下一个core dump的尸体让码农们去分析。

操作系统老大

又一个进程启动了,操作系统老大叹了一口气,毕竟自己的肩头又多了一份责任。

让人烦恼的是,新来的家伙们很无知,几乎就是一张白纸。有些老实本分的会按照自己的规矩来做事,有些刺头儿喜欢问这问那,时不时还想搞点非法的访问,想访问别的进程的地址空间,甚至想访问内核的代码和数据! 这时候,我只有把他kill掉祭天,留下一个core dump的尸体让码农们去分析。

[[244703]]

图片来自包图网

规矩很重要!

想到此处,老大又看了一眼自己的内核空间,这个机器只有可怜巴巴的4G内存,0-3G给各个进程共享使用,自己独占了从3G-4G的内存空间。

新启动的进程是一个Web服务器,自称小W,这是个喜欢问问题的家伙,他第一个问题就是: ”老大,你为啥不和群众打成一片,反而自己要独占空间呢?“

“这是为你们好?”

“为我们好? ”

“计算机的硬件资源是有限的,硬盘、内存、网卡,键盘,鼠标,时钟...... 如果任由你们这些进程随意访问,大家你争我抢,岂不乱套?”

“再说了,那些底层的硬件、驱动操作是极其麻烦的,让你们每个进程都去写那些‘恶心’的代码,你们受得了吗? “

”还有,如果某个恶意的家伙故意捣乱,那还了得?”

老大的三连问简直是振聋发聩, 小W立刻觉得气短了三分。

“所以你就不让我们直接访问了?”

“对啊,我就做了一个抽象层,你们必须通过这个抽象层来访问硬件资源。这个抽象层之下就是我的内核,是我的代码和数据,所以我必须得单独居住,不能和你们混在一起。”

系统调用

“那我想访问一个硬盘上的文件,到底该怎么办?” 小W问道。

“非常简单,我的抽象层中有对外提供的接口,叫做系统调用,例如read、open、close等。 你可以open 一个文件,read它的内容,读完了close。”

“听起来好像是函数调用啊!”

“对,就是函数调用,但是和你内部的函数调用有本质的不同,这种系统调用会让你从用户态切换到内核态, 也就是到我的内核代码中来执行!”

 

小W懵懂地点点头,似乎明白了。

他应该没有明白,他也明白不了, 操作系统老大心里想,系统调用之复杂远远超过他的想象。

首先所有Linux的系统调用的参数都是通过寄存器而不是栈来传递的,按照惯例寄存器EAX保存了系统调用的编号(例如1表示exit这个系统调用,2表示fork,3表示read......),寄存器EBX,ECX,EDX,ESI,EDI可以包含最多6个任意的参数。

比如:write(1,"hello",5);

这就是个系统调用, 就是向stdout(控制台)输出一个字符串,在运行时,必须把寄存器给设置好:

  • EAX = 4 (4表示系统调用的编号)
  • EBX = 1 (1 表示stdout)
  • ECX = 那个字符串的地址
  • EDX = 字符串的长度

然后调用int 0x80 系统中断,这就进入了内核, 我会取出EAX, 从一个内核的表格中查到第4号对应的系统调用处理程序来执行。

对了,我还需要把CPU的特权等级从3置为0,表示内核态。

看看,我容易吗我! 操作系统心里略微有点伤感。

read 和 write

这时候小W探出头来,兴奋地说:“hi ,老大,有客户要访问咱们硬盘的文件,我得读取一下,然后通过socket发出去。是不是需要系统调用了?”

“那是肯定的,访问文件系统必须得通过我,访问socket也得通过我,不用系统调用怎么可能? 除去open ,close, 你需要两个关键的系统调用:”

// 从文件(用fd表示)中读取len长度的内容,放到buffer中

  1. read(fd, buffer, len); 

// 把buffer中长度为len 的内容写入到socket中(用sockfd表示)

  1. write(sockfd, buffer, len); 

(注: read和write 应该是sys_read和sys_write的“包裹”函数,我们这里简化,认为就是直接的函数调用。)

“好滴!” 小W做了一些准备工作,然后便开始read, 然后满心欢喜地等待数据的到来。

操作系统收到read调用,陷入内核,正式进入了内核态,然后毫不客气地暂停了小W的执行,让他进入了阻塞队列(假设小W只有一个线程)。

小W表示不满:“怎么不让我运行了?”

“读取文件太慢,你先歇会儿,数据来了会通知你的。”

老大使用DMA(Direct Memory Access)的方式把文件的数据从硬盘复制到了内核的缓冲区, 然后又复制到了用户的缓冲区,read调用完成,返回用户态 ,小W可以继续执行了。

小W要通过socket发送数据,于是又发出了write调用,再次陷入内核,进入内核态。

老大把数据又从用户缓冲区复制到socket缓冲区, write调用返回,返回用户态。

小W问道:“这次这么快就返回了?数据发出去没有啊?”

老大说:“这就不用你操心了,网卡驱动会在合适的时候发送的,这是个异步的操作。”

小W画了一张图,试图理解整个过程,等他把图画完,不由得咂舌:“啧啧,这么两个简单的系统调用,代价竟然如此之高啊。”

 

 

[[244706]]

 

(1) 需要进入内核态两次,返回两次。

(2) 数据居然发生了三次复制,硬盘-->内核缓冲区-->用户缓冲区-->socket缓冲区

如果说第一次从硬盘到内核缓冲区必不可少,后面的两次就太浪费了。

老大说:“你看到了吧,系统调用的开销很大啊,以后要少点调用啊。”

小W说:“我觉得你这个内核虽然保护了硬件,但是导致效率很低啊,能不能优化一下,省去用户态<-->核心态之间的数据复制? 这太浪费了!”

sendfile

老大哈哈一笑, 说道: “我早就料到了这一层,我这里还有个系统调用,叫做sendfile,你可以试试啊,通过这个系统调用,可以直接把文件内容发给socket。 ”

  1. sendfile(socket, file, len); 

 

 

[[244706]]

 

小W一看,不错啊,自己只需要调用sendfile,进入内核态一次就可以了,老大可以把数据从硬盘复制到内核缓冲区,然后直接复制到socket缓冲区, 完全不用自己介入,就用它了!

可是转念一想,这从内核缓冲区到socket缓冲区的复制有必要吗? 那个网卡驱动不能直接从内核缓冲区读数据吗?

老大似乎看穿了小W的心思,说道:“我知道你在想啥,放心吧, 我早就做了优化了,不会把数据从内核缓冲区复制到socket缓冲区,相反,我只会把一些位置和数据长度等信息复制过去,很省事的。网卡驱动可以直接从内核缓冲区读去数据。”

小W放心了,开始使用这种sendfile的方式,果然,性能大为提升!

 

这其实就是所谓的zero copy技术, 从内核角度看,除了把文件从硬盘读出来之外,没有任何的额外copy。

zero copy技术减少了上下文的切换,避免了数据不断地在用户态和核心态搬运,不需要CPU参与数据的复制,提高了系统性能,在ngnix, apache等web 服务器中都引入了zero copy技术。

【本文为51CTO专栏作者“刘欣”的原创稿件,转载请通过作者微信公众号coderising获取授权】

 

戳这里,看该作者更多好文

责任编辑:武晓燕 来源: 51CTO专栏
相关推荐

2009-12-16 16:48:35

Linux操作系统

2009-02-10 16:11:00

IIS微软操作系统Web服务器

2009-08-30 14:57:59

UNIX服务器作系统UNIX

2010-04-08 17:43:44

Unix操作系统

2013-05-20 13:50:05

服务器操作系统

2018-03-08 15:20:33

服务器操作系统企业

2010-04-15 13:26:12

Unix操作系统

2012-02-09 15:41:52

2015-09-11 15:25:45

LinuxCon服务器操作系统

2012-07-03 10:37:44

服务器虚拟化

2009-02-27 16:58:00

Unix服务器操作系统

2011-12-02 10:05:07

2012-08-24 11:10:46

LinuxNetware服务器

2012-06-08 09:44:09

虚拟化

2010-02-23 17:14:25

Ubuntu Linu

2009-12-21 16:23:45

2011-12-07 09:38:56

2012-07-05 09:43:33

服务器虚拟化

2011-03-23 14:51:31

2010-04-08 15:13:32

点赞
收藏

51CTO技术栈公众号