01 Python爬虫--爬虫的基本介绍

一、爬虫的基本介绍

这是我参与更文挑战的第3天，活动详情查看：更文挑战

1. 什么是爬虫？

爬虫的实质是： 模拟浏览器自动发送网络请求并接收响应的程序

爬虫的开发实例：1.百度新闻 2.拼多多 3.招聘网站 4.视频网站，音乐网站，小说网站，文库网站

2. 爬虫分类

a.通用爬虫---->针对所有网站都可以使用爬虫程序<搜索引擎>搜索引擎流程：抓取网页--->数据存储--->预处理--->提供检索服务，网站排名b.聚焦爬虫---->针对特定网站的爬虫聚集爬虫流程：url list--->响应内容--->提取数据--->入库     响应内容--->提取url--->url list

3. 爬虫的工作流程

a.先找到目标b.发送网络请求并接收响应c.处理数据入库d.分析统筹/数据展示

4. robots协议

robots告诉蜘蛛程序在服务器上什么文件是可以被查看的,什么可以被爬取的，针对爬虫程序的君子协议。<玩爬虫一定要流氓>

5. 数据的来源?

a.从第三方公司购买b.免费的网站的获取c.通过爬虫获取d.通过人力收集E.很多的第三方公司的数据往往也是通过爬虫获取到的

6. 数据用途

a.人工智能和大数据分析b.做数据统筹c.做数据展示例如：百度新闻

7. 网络基础知识

如何访问一个网站？a.打开浏览器输入网址b.浏览器会将网站网址发送到远程的DNS服务器进行解析，返回给浏览器该网站对应的主机IP地址和端口号c.浏览器将ip和端口进行组合访问指定的主机d.远程主机(服务器)识别用户的意图，返回给浏览器用户需要的数据(HTML, CSS, 脚本, 视频音频图片等等)e.浏览器接收这些数据组合渲染呈现在浏览器上

8. URL

URL全拼为(Uniform Resoure Locator)表达的意思为统一资源定位符，通俗理解：网络的资源地址(网站网址)URL的三大组成部分  协议部分：HTTP和HTTPS  互联网上的通讯协议           一个是安全(HTTPS)一个数不安全(HTTP)           HTTPS底层：HTTP +　SSL套接字  域名部分：主机的IP地址和开发的端口号           对于HTTP协议开发的端口为80           对于HTTPS协议开发的端口为443  资源路径部分：访问的数据在服务器中的具体位置  协议://域名/资源路径/?#  注意重点：/表示服务器的根目录<对于网站大部分后台的操作系统为Linux，对于Linux系统来说只有一个目录也就是根目录(/)>例如：http://127.0.0.1:8000/？a/#b/c/d?表示查询字符串：在指定路径下查找特定的文件或者数据    #表示当前网站的页内连接也称之为锚点

9. DNS

由于我们老用域名识别计算机的位置，但是网络上识别主机的唯一标志是IP地址，所以就需要记录每一域名所对应的地址DNS服务器会将域名所对应的IP地址保存起来，方便用户直接通过域名就可以访问网站，而不是IP地址ping  1.检查是否连接通信  2.通过解析域名(访问DNS)

10. 浏览器的使用

底层：想远程的主机发送网络通信请求(借助HTTP或者HTTPS完成)，接收远程主机返回的数据浏览器可以查看该网站的源码，测试脚本，查看网站资源，以及自动抓包打开浏览器的后台<开发者工具> F12 / FN+F12a.网页元素(Elements):现实当前网站源码b.控制台(Console):执行或者测试当前网站的脚本    alert();  弹窗指令    https://www.w3school.com.cn/js/index.aspc.资源(Sources):可以用来查看当前网站的所有资源(HTML,CSS,JS等)d.网络抓包工具(Network):可以捕捉到当前网站发送或者接收所有响应信息XHR：可以用来查看所有的脚本请求或者异步请求(AJAX)DOC:1.查看网站的文档内容 2.用来查看网站域名的请求

11. 网站请求的方式

增：向服务器提交数据(登录和注册)  post请求查：从服务器得到数据(大多数网站都是使用该请求)  get请求

12. 常见请求状态码

200 请求成功404 找不到系统资源/请求失败307/302：请求跳转500/503：服务器内部错误(爬虫被反爬了)

13. 页面上的数据在哪里

当前url地址对应的响应中其他的url地址对应的响应中比如ajax请求中js生成的部分数据在响应中全部通过js生成

标签：基本介绍爬虫技巧 Python

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。