爬虫基础
# Python 爬虫 -01 爬虫基础
# 1 HTTP
HTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具,客户端可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。客户端称为客户代理(user agent),应答服务器成为源服务器(origin server)。
HTTP假定其下层协议能够提供可靠的传输,因此,任何能够提供这种保证的协议都可以使用。使用TCP/IP协议族时RCP(Remote Procedure Call,远程过程调用)作为传输层
通常由HTTP客户端发起一个请求,创建一个到服务器指定端口(默认是80端口)的TCP链接。HTTP服务器则在该端口监听客户端的请求。一旦收到请求,服务器会向客户端返回一个状态(比如“THTTP/1.1 200 OK”),以及请求的文件、错误信息等响应内容。
HTTP的请求方法
GET:像指定资源发出“显示”请求,GET方法应该只用于读取数据。GET可能会被爬虫等随意访问
HEAD:与GET方法一样,都是向服务器发去指定资源的请求,不过服务器不会传回资源的内容。好处在于不必传输内容,将获取到该资源的元数据
POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。数据被包含在请求文本中
PUT:向指定资源位置上传输最新内容
DELETE:请求服务器删除Request-URL所标识的资源
TRACE:回显服务器收到的请求,主要用于测试或诊断
OPTIONS:这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用“*”来代表资源名称向Web服务器发送OPTIONS请求,可以测试服务器共能是否正常。
CONNECT:HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。通常用于SSL加密服务器的连接(经由非加密的HTTP代理服务器)。方法名称是区分大小写的。当某个请求所针对的资源不支持对应的请求方法的时候,服务器应当返回状态码405(Method Not Allowed),当服务器不认识或者不支持对应的请求方法的时候,应当返回状态码501(Not Implemented)。
# 2 网页基础
# 2.1 网页组成
网页是由 HTML 、 CSS 、JavaScript 组成的。
HTML:F12开发者工具中的选项 Elements 中可以看到网页的源代码,这里展示的就是 HTML 代码。
CSS:在Style标签页中,显示的是当前选中的HTML代码标签的CSS层叠样式,
JavaScript:JavaScript 就厉害了,它在 HTML 代码中通常使用
- 02
- README 美化05-20
- 03
- 常见 Tricks 代码片段05-12