基于HTTP协议实现的小型web服务器的方法

(编辑：jimmy 日期: 2025/1/29 浏览：3 次 )

我们先了解一下这个项目最终能达到的一个目标，然后以这个来进行项目的分析：
1、实现最基本的HTTP/1.0版本的web服务器，客户端能够使用GET、POST方法请求资源
2、服务器将客户请求的资源以html页面的形似呈现，并能够进行差错处理（如：客户请求的资源不存在时，服务器能够返回一个404的页面）
3、服务器能进行简单的cgi运行。比如当客户在表单中输入数据后，服务器能够将运行结果返回个客户
4、能够通过页面对数据库进行操作，如增删查改等操作

一、http服务器实现的基本框架

关于HTTP协议
即超文本传输协议，是互联网上应用最广泛的网络协议。它是应用层的协议，底层是基于TCP通信的。HTTP协议的工作过程：客户通过浏览器向服务器发送文档请求，浏览器将请求的资源回应给浏览器，然后关闭连接。即：连接->请求->响应->关闭连接。

关于URL
即统一资源定位符，每个网页都对应一个URL地址（俗称网址），具有全球唯一性。它包含的信息指出文件的位置以及浏览器应该怎么处理它。一个完整的URL包括协议类型、主机类型、路径和文件名。
http协议的URL格式： http: //host[:port][abs_path] ，http表示使用http协议来进行资源定位；host是主机域名；port是端口号，一般有默认的；abs_path代表资源的路径。
这里我主要介绍项目中涉及的URL的两种格式—URL带参数和不带参数的。

GET方法使用的是带参数的URL，即传递的参数会使用？连接在资源路径后边；POST方法使用的是不带参数的URL，它的参数是通过http请求报头中的请求消息体传递给服务器的。

关于HTTP的请求与响应格式

响应报头中的状态码和状态码描述，例如：当请求的资源不存在时，会收到“404 NotFound”的页面，404就是状态码，“NotFound”就是状态码描述，即请求的文件不存在。

二、服务器实现的基本思路

1、http协议是基于TCP通信的协议，因此，实现web服务器的第一步至少要能实现两个主机不同进程之间的TCP通信。
2、接下来的部分就是比较主要的处理逻辑了，当服务器收到请求后，首先应该分析请求方法（因为web服务器是要支持cgi的，但请求方法不同处理cgi也不同，这里我们只处理GET和POST方法）。
3、当方法确定后，应该拿到请求的URL，这一步是为了我们后边能处理GET和POST方法的cgi（GET和POST的参数位置不同，GET的参数在URL中，POST的参数在请求正文中）
4、判断资源是否存在，如果存在，判断这个资源是一个目录、普通文件还是一个可执行程序。之前几步我们已经提取到URL以及参数。GET方法：如果没有参数，就直接将请求的资源返回（即进入非cgi模式运行）；否则，进入cgi模式内部运行；只要是POST方法就需要支持cgi：直接进入cgi函数内部运行。

非cgi模式：
进入非cgi模式时一定是GET方法且没有参数，此时进入echo_www()函数内部即可，该函数会将所请求的资源以html的格式返回给浏览器。

cgi模式：

上述这张图描述了运行cgi时的过程，首先服务器要从浏览器上读取参数，然后需要fork出一个子进程进行cgi部分的处理，父进程通过环境变量的方式将参数转交给子进程，子进程运行完成后，将结果交给父进程，父进程再将数据输出给浏览器。在这个过程中可以将父进程看作一个所谓的中间量，只进行了参数的转交，因此可以将子进程的输入输出文件描述符进行重定向，即子进程直接与浏览器“联系”。

下面总结出父子进程内部各自需要干的事情：

三、错误处理

错误处理这部分的实现可以参考echo_www()函数，但需要改变响应的消息报头的格式，即改变状态码，状态码描述，以及返回的页面。例如当请求的资源不存在时，服务器需要返回给浏览器一个默认的404页面，告诉客户请求的资源不存在。效果如图：

四、项目文件

目录：
cgi：运行cgi部分的实现代码
conf：配置文件，存放需要绑定的服务器的ip和port
log：shell的日志文件以及http错误处理的日志文件
lib：mysql需要的lib库
sql_client：mysql部分的API及CGI实现
wwwroot：web服务器工作的根目录，包含各种资源页面（例如默认的index.html页面，差错处理的404页面），以及执行cgi的可执行程序

文件：
configure.sh：sheel脚本，运行该shell脚本后需要自动生成Makefile文件
http_ctl.sh：服务器控制脚本，需要实现服务器的启动、暂停以及重新启动
httpd.pid：与http_ctl.sh配合使用。如果把服务器变成守护进程在后台运行，重新启动时就需要检测服务器是否启动，该文件存放服务器启动以后的进程id
httpd.h：服务器的方法声明
httpd.c：方法实现
main.c：服务器的主逻辑

五、实现结果

请求资源存在：

运行cgi后：

六、源码：

https://github.com/lybb/Linux/tree/master/httpd

附：
这里是我遇到的一些问题，粘出来，也可能是你遇到的问题：
1、本地环回测试ok，Linux下的浏览器测试也可以，但不能接外部的浏览器访问（没有设置桥接模式）嗯~要是在外部浏览器测试的话千万别忘记关闭防火墙
2、服务器应答时，没有将html格式的页面发送，而是将底层的实现代码展示在浏览器，并且在调试时将本来要打印的调试信息会打印到网页上（在回应空行时将send期望发送的数值写的太大，本来只需要发送两个字节的内容）
解决：先检查代码，思路正确，在容易出现问题的地方加入调试信息，最后将问题定位在echo_www()函数内
3、不能显示图片（这个问题是没有将所有发送的情况考虑完全，只考虑到目录、可执行程序，但没有考虑到如果请求的是一个路径明确的普通文件）
解决：测试请求一个路径明确的test.html文件，加入调试信息，将问题定位在：如果请求的资源存在，应该如何处理。对于普通文件，找到后并回显给浏览器；如果是目录，应答的是默认页面；如果是可执行程序，执行后返回结果
4、能显示图片后，但显示的不完整（原因：echo_www中，期望读取一行信息的line值太小，不能存下一张图片）
5、运行cgi模式时，每次提交数据并进行submit后都会自动出现提醒下载的页面
原因：在响应报头中，将Content-Type中的”text”写成”test”。而浏览器对于不能识别或解析的实体，都会提醒用户下载。

上一篇：FTP无法删除的文件的分析
下一篇：我想建立一个ftp用户，直接指向整个freehost目录