Muyun99's wiki Muyun99's wiki
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Muyun99

努力成为一个善良的人
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 代码实践-目标检测

  • 代码实践-图像分割

  • 代码实践-自监督学习

  • 竞赛笔记-视觉竞赛

  • 框架解析-mmlab系列

  • 讲座记录-有意思的文章集合

  • 体会感悟-产品沉思录观后有感

  • 体会感悟-摄影

  • 系列笔记-

  • 系列笔记-乐理和五线谱

  • 系列笔记-爬虫实践

    • 爬虫基础
      • Beautiful-soup4、Xpath、re
      • session和cookie、代理、selenium自动化
    • 系列笔记-Django学习笔记

    • 系列笔记-Git 使用笔记

    • 系列笔记-网站搭建

    • 系列笔记-图卷积网络

    • 课程笔记-MIT-NULL

    • 系列笔记-OpenCV-Python

    • 系列笔记-使用 Beancount 记账

    • 系列笔记-Python设计模式

    • 系列笔记-MLOps

    • 系列笔记-Apollo自动驾驶

    • 系列笔记-PaddlePaddle

    • 系列笔记-视频操作

    • Vue+Django前后端分离开发

    • 深度学习及机器学习理论知识学习笔记

    • PyTorch Tricks

    • 学习笔记
    • 系列笔记-爬虫实践
    Muyun99
    2021-03-09

    爬虫基础

    # Python 爬虫 -01 爬虫基础

    # 1 HTTP

    HTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具,客户端可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。客户端称为客户代理(user agent),应答服务器成为源服务器(origin server)。

    HTTP假定其下层协议能够提供可靠的传输,因此,任何能够提供这种保证的协议都可以使用。使用TCP/IP协议族时RCP(Remote Procedure Call,远程过程调用)作为传输层

    通常由HTTP客户端发起一个请求,创建一个到服务器指定端口(默认是80端口)的TCP链接。HTTP服务器则在该端口监听客户端的请求。一旦收到请求,服务器会向客户端返回一个状态(比如“THTTP/1.1 200 OK”),以及请求的文件、错误信息等响应内容。

    HTTP的请求方法

    • GET:像指定资源发出“显示”请求,GET方法应该只用于读取数据。GET可能会被爬虫等随意访问

    • HEAD:与GET方法一样,都是向服务器发去指定资源的请求,不过服务器不会传回资源的内容。好处在于不必传输内容,将获取到该资源的元数据

    • POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。数据被包含在请求文本中

    • PUT:向指定资源位置上传输最新内容

    • DELETE:请求服务器删除Request-URL所标识的资源

    • TRACE:回显服务器收到的请求,主要用于测试或诊断

    • OPTIONS:这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用“*”来代表资源名称向Web服务器发送OPTIONS请求,可以测试服务器共能是否正常。

    • CONNECT:HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。通常用于SSL加密服务器的连接(经由非加密的HTTP代理服务器)。方法名称是区分大小写的。当某个请求所针对的资源不支持对应的请求方法的时候,服务器应当返回状态码405(Method Not Allowed),当服务器不认识或者不支持对应的请求方法的时候,应当返回状态码501(Not Implemented)。

    # 2 网页基础

    # 2.1 网页组成

    网页是由 HTML 、 CSS 、JavaScript 组成的。

    • HTML:F12开发者工具中的选项 Elements 中可以看到网页的源代码,这里展示的就是 HTML 代码。

    • CSS:在Style标签页中,显示的是当前选中的HTML代码标签的CSS层叠样式,

    • JavaScript:JavaScript 就厉害了,它在 HTML 代码中通常使用

    上次更新: 2021/08/17, 18:07:06
    五线谱基础(下)
    Beautiful-soup4、Xpath、re

    ← 五线谱基础(下) Beautiful-soup4、Xpath、re→

    最近更新
    01
    Structured Knowledge Distillation for Semantic Segmentation
    06-03
    02
    README 美化
    05-20
    03
    常见 Tricks 代码片段
    05-12
    更多文章>
    Theme by Vdoing | Copyright © 2021-2023 Muyun99 | MIT License
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式
    ×