01 Python爬虫--爬虫的基本介绍

01 Python爬虫--爬虫的基本介绍

一、爬虫的基本介绍

这是我参与更文挑战的第3天,活动详情查看: 更文挑战

1. 什么是爬虫?

爬虫的实质是: 模拟浏览器自动发送网络请求并接收响应的程序

爬虫的开发实例:1.百度新闻 2.拼多多 3.招聘网站 4.视频网站,音乐网站,小说网站,文库网站

2. 爬虫分类

a.通用爬虫---->针对所有网站都可以使用爬虫程序<搜索引擎>搜索引擎流程:抓取网页--->数据存储--->预处理--->提供检索服务,网站排名b.聚焦爬虫---->针对特定网站的爬虫聚集爬虫流程:url list--->响应内容--->提取数据--->入库     响应内容--->提取url--->url list

3. 爬虫的工作流程

a.先找到目标b.发送网络请求并接收响应c.处理数据入库d.分析统筹/数据展示

4. robots协议

robots告诉蜘蛛程序在服务器上什么文件是可以被查看的,什么可以被爬取的,针对爬虫程序的君子协议。<玩爬虫一定要流氓>

5. 数据的来源?

a.从第三方公司购买b.免费的网站的获取c.通过爬虫获取d.通过人力收集E.很多的第三方公司的数据往往也是通过爬虫获取到的

6. 数据用途

a.人工智能和大数据分析b.做数据统筹c.做数据展示例如:百度新闻

7. 网络基础知识

如何访问一个网站?a.打开浏览器输入网址b.浏览器会将网站网址发送到远程的DNS服务器进行解析,返回给浏览器该网站对应的主机IP地址和端口号c.浏览器将ip和端口进行组合访问指定的主机d.远程主机(服务器)识别用户的意图,返回给浏览器用户需要的数据(HTML, CSS, 脚本, 视频音频图片等等)e.浏览器接收这些数据组合渲染呈现在浏览器上

8. URL

URL全拼为(Uniform Resoure Locator)表达的意思为统一资源定位符,通俗理解:网络的资源地址(网站网址)URL的三大组成部分  协议部分:HTTP和HTTPS  互联网上的通讯协议           一个是安全(HTTPS)一个数不安全(HTTP)           HTTPS底层:HTTP + SSL套接字  域名部分:主机的IP地址和开发的端口号           对于HTTP协议开发的端口为80           对于HTTPS协议开发的端口为443  资源路径部分:访问的数据在服务器中的具体位置  协议://域名/资源路径/?#  注意重点:/表示服务器的根目录<对于网站大部分后台的操作系统为Linux,对于Linux系统来说只有一个目录也就是根目录(/)>例如:http://127.0.0.1:8000/?a/#b/c/d?表示查询字符串:在指定路径下查找特定的文件或者数据    #表示当前网站的页内连接也称之为锚点

9. DNS

由于我们老用域名识别计算机的位置,但是网络上识别主机的唯一标志是IP地址,所以就需要记录每一域名所对应的地址DNS服务器会将域名所对应的IP地址保存起来,方便用户直接通过域名就可以访问网站,而不是IP地址ping  1.检查是否连接通信  2.通过解析域名(访问DNS)

10. 浏览器的使用

底层:想远程的主机发送网络通信请求(借助HTTP或者HTTPS完成),接收远程主机返回的数据浏览器可以查看该网站的源码,测试脚本,查看网站资源,以及自动抓包打开浏览器的后台<开发者工具> F12 / FN+F12a.网页元素(Elements):现实当前网站源码b.控制台(Console):执行或者测试当前网站的脚本    alert();  弹窗指令    https://www.w3school.com.cn/js/index.aspc.资源(Sources):可以用来查看当前网站的所有资源(HTML,CSS,JS等)d.网络抓包工具(Network):可以捕捉到当前网站发送或者接收所有响应信息XHR:可以用来查看所有的脚本请求或者异步请求(AJAX)DOC:1.查看网站的文档内容 2.用来查看网站域名的请求

11. 网站请求的方式

增:向服务器提交数据(登录注册)  post请求查:从服务器得到数据(大多数网站都是使用该请求)  get请求

12. 常见请求状态码

200 请求成功404 找不到系统资源/请求失败307/302:请求跳转500/503:服务器内部错误(爬虫被反爬了)

13. 页面上的数据在哪里

当前url地址对应的响应中其他的url地址对应的响应中比如ajax请求中js生成的部分数据在响应中全部通过js生成
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
相关文章
返回顶部