目录

Web 开发指南(一)互联网协议入门

全世界几十亿台电脑,连接在一起,两两通信。上海的某一块网卡送出信号,北京的另一块网卡居然就收到了,两者实际上根本不知道对方的物理位置,你不觉得这是很神奇的事情吗?

互联网的核心是一系列协议,总称为"互联网协议"(Internet Protocol Suite)。它们对电脑如何连接和组网,做出了详尽的规定。理解了这些协议,就理解了互联网的原理。

客户端和服务器连接

通过互联网连接的计算机被称作客户端和服务器。如下图:

./web-dev-1.jpg

简单理解:

  • 客户端是典型的 Web 用户入网设备,比如手机、电脑等可联网设备。
  • 服务器是存储网页、站点和应用的计算机。

协议分层

OSI(Open System Interconnection,开放系统互连)七层协议模型:

  • 物理层(Physical Layer)
    • EIA/TIA-232, EIA/TIA-499, V.35, V.24, RJ45, Ethernet, 802.3, 802.5, FDDI, NRZI, NRZ, B8ZS
  • 数据链路层(Datalink Layer)
  • Frame Relay, HDLC, PPP, IEEE 802.3/802.2, FDDI, ATM, IEEE 802.5/802.2
  • 网络层(Network Layer)
    • IP, IPX, AppleTalk DDP, [ARP, RARP]
  • 传输层(Transport Layer)
    • TCP,UDP,SPX
  • 会话层(Session Layer)
    • RPC, SQL, NFS, NetBIOS, names, AppleTalk, ASP, DECnet, SCP
  • 表示层(Presentation Layer)
    • TIFF, GIF, JPEG, PICT, ASCII, EBCDIC, encryption, MPEG, MIDI, HTML
  • 应用层(Application Layer)
    • FTP, WWW, Telnet, NFS, SMTP, Gateway, SNMP

相对于 OSI 的七层模型,更常用的是 TCP/IP 的 5 层模型:

./web-dev-2.png

TCP/IP 协议簇

TCP/IP 协议是一个协议簇,这个协议簇中包含了很多种协议,TCP、UDP 和 HTTP 只是 TCP/IP 协议簇的成员。 TCP/IP 协议簇,大致可分为三个层次:网络层、传输层和应用层。

  • 在网络层有 IP 协议、ICMP 协议、ARP 协议、RARP 协议和 BOOTP 协议。
  • 在传输层中有 TCP 协议与 UDP 协议。
  • 在应用层有 FTP、HTTP、TELNET、SMTP、DNS 等协议。

常用协议

以太网协议(Ethernet)

以太网协议中应用最广泛的是  Ethernet II  协议,也是 scapy 支持的协议。

以太网协议数据包构成:

./web-dev-3.png

IP 协议(Internet Protocol)

IP 报文格式:

./web-dev-4.png

  • 版本:IP 协议的版本,目前的 IP 协议版本号为 4,下一代 IP 协议版本号为 6。
  • 首部长度:IP 报头的长度。固定部分的长度(20 字节)和可变部分的长度之和,共占 4 位。最大为 1111,即 10 进制的 15,代表 IP 报头的最大长度可以为 15 个 32 bits(4 字节),也就是最长可为 15*4=60 字节,除去固定部分的长度 20 字节,可变部分的长度最大为 40 字节。
  • 服务类型:Type Of Service。
  • 总长度:IP 报文的总长度。报头的长度和数据部分的长度之和。
  • 标识:唯一的标识主机发送的每一分数据报。通常每发送一个报文,它的值加一。当 IP 报文长度超过传输网络的 MTU(最大传输单元)时必须分片,这个标识字段的值被复制到所有数据分片的标识字段中,使得这些分片在达到最终目的地时可以依照标识字段的内容重新组成原先的数据。
  • 标志:共 3 位。R、DF、MF 三位。
    • 目前只有后两位有效。
    • DF 位:为 1 表示不分片,为 0 表示分片。
    • MF:为 1 表示“更多的片”,为 0 表示这是最后一片。
  • 片位移:本分片在原先数据报文中相对首位的偏移位。(需要再乘以 8 )
  • 生存时间:IP 报文所允许通过的路由器的最大数量。每经过一个路由器,TTL 减 1,当为 0 时,路由器将该数据报丢弃。TTL 字段是由发送端初始设置一个 8 bit 字段.推荐的初始值由分配数字 RFC 指定,当前值为 64。发送 ICMP 回显应答时经常把 TTL 设为最大值 255。
  • 协议:指出 IP 报文携带的数据使用的是那种协议,以便目的主机的 IP 层能知道要将数据报上交到哪个进程(不同的协议有专门不同的进程处理)。和端口号类似,此处采用协议号,TCP 的协议号为 6,UDP 的协议号为 17。ICMP 的协议号为 1,IGMP 的协议号为 2。
  • 首部校验和:计算 IP 头部的校验和,检查 IP 报头的完整性。
  • 源 IP 地址:标识 IP 数据包的源端设备。
  • 目的 IP 地址:标识 IP 数据包的目的地址。

TCP 协议(Transmission Control Protocol)

TCP 报文格式如下:

./web-dev-5.png

三次握手

  • 第一次握手:客户端发送 syn 包 (syn=x) 到服务器,并进入 SYN_SEND 状态,等待服务器确认;
  • 第二次握手:服务器收到 syn 包,必须确认客户的 SYN(ack=x+1),同时自己也发送一个 SYN 包(syn=y),即 SYN+ACK 包,此时服务器进入 SYN_RECV 状态;
  • 第三次握手:客户端收到服务器的 SYN + ACK 包,向服务器发送确认包 ACK(ack=y+1),此包发送完毕,客户端和服务器进入 ESTABLISHED 状态,完成三次握手。

握手过程中传送的包里不包含数据,三次握手完毕后,客户端与服务器才正式开始传送数据。理想状态下,TCP 连接一旦建立,在通信双方中的任何一方主动关闭连接之前,TCP 连接都将被一直保持下去。

四次挥手

  • 第一次挥手:主动关闭方发送一个 FIN,用来关闭主动方到被动关闭方的数据传送,也就是主动关闭方告诉被动关闭方:我已经不会再给你发数据了(当然,在 FIN 包之前发送出去的数据,如果没有收到对应的 ACK 确认报文,主动关闭方依然会重发这些数据),但是此时主动关闭方还可以接受数据。
  • 第二次挥手:被动关闭方收到 FIN 包后,发送一个 ACK 给对方,确认序号为收到序号+1(与 SYN 相同,一个 FIN 占用一个序号)。
  • 第三次挥手:被动关闭方发送一个 FIN,用来关闭被动关闭方到主动关闭方的数据传送,也就是告诉主动关闭方,我的数据也发送完了,不会再给你发数据了。
  • 第四次挥手:主动关闭方收到 FIN 后,发送一个 ACK 给被动关闭方,确认序号为收到序号+1,至此,完成四次挥手。

DNS 协议(Domain Name System)

DNS,全称 Domain Name System,把网站域名解析成对应的 IP 地址。 DNS 除了域名解析之外,还有以下功能:

  • 设置 CDNME 别名记录,这个别名解析功能常被 CDN 加速服务商应用
  • 设置 MX 邮件记录,这个 MX 记录功能,在购买搭建邮件服务时会被用到
  • 设置 PTR 记录,反向解析,即把 IP 地址解析为对应的域名

HTTP 协议

HTTP 协议数据包构造:

./web-dev-6.png

HTTP 部分的数据会被嵌在 TCP 数据包之中。

DHCP 协议

它是一种应用层协议,建立在 UDP 协议之上。