爬虫基础

HTTP是一个客户端（用户）和服务器端（网站）之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具，客户端可以向服务器上的指定端口（默认端口为80）发起一个HTTP请求。客户端称为客户代理（user agent），应答服务器成为源服务器（origin server)。

HTTP假定其下层协议能够提供可靠的传输，因此，任何能够提供这种保证的协议都可以使用。使用TCP/IP协议族时RCP(Remote Procedure Call，远程过程调用)作为传输层

通常由HTTP客户端发起一个请求，创建一个到服务器指定端口（默认是80端口）的TCP链接。HTTP服务器则在该端口监听客户端的请求。一旦收到请求，服务器会向客户端返回一个状态（比如“THTTP/1.1 200 OK”），以及请求的文件、错误信息等响应内容。

HTTP的请求方法

GET：像指定资源发出“显示”请求，GET方法应该只用于读取数据。GET可能会被爬虫等随意访问
HEAD：与GET方法一样，都是向服务器发去指定资源的请求，不过服务器不会传回资源的内容。好处在于不必传输内容，将获取到该资源的元数据
POST：向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。数据被包含在请求文本中
PUT：向指定资源位置上传输最新内容
DELETE：请求服务器删除Request-URL所标识的资源
TRACE：回显服务器收到的请求，主要用于测试或诊断
OPTIONS：这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用“*”来代表资源名称向Web服务器发送OPTIONS请求，可以测试服务器共能是否正常。
CONNECT：HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。通常用于SSL加密服务器的连接（经由非加密的HTTP代理服务器）。方法名称是区分大小写的。当某个请求所针对的资源不支持对应的请求方法的时候，服务器应当返回状态码405（Method Not Allowed），当服务器不认识或者不支持对应的请求方法的时候，应当返回状态码501（Not Implemented）。

网页是由 HTML 、 CSS 、JavaScript 组成的。

上次更新: 2021/08/17, 18:07:06