1、爬虫小白入门第一课

1、爬虫小白入门第一课

Python3 开发爬虫。 Anaconda 是一种 Python 发行版,方便 Python 的管理,先复习下基本的 conda 指令。

1-Anaconda常用命令

conde --version
conda update conda

使用”conda create”命令,后边跟上你希望用来称呼它的任何名字

conda create --name ybyCrawler python=3.8

命令创建python版本为X.X、名字为your_env_name的虚拟环境。ybyCrawler文件目录可以在Anaconda安装目录envs文件下找到。

  • 查看安装了哪些包:
conda list
  • 查看创建了那些环境:
conda env list 或 conda info -e
  • 激活某个虚拟环境:
activate your_env_name
  • 在虚拟环境中安装包

安装package到your_env_name中:

conda install -n your_env_name [package]
deactivate
conda remove -n your_env_name(虚拟环境名称) --all
  • 删除虚拟环境中某个包:
conda remove --name your_env_name package_name

2-爬虫需要的相关库

爬虫可以简单的分为几步:抓取页面、分析页面和存储数据

  • 请求库:

在抓取页面的过程中,我们需要模拟浏览器向服务器发送请求,所以需要用到一些Python库来实现HTTP请求操作

- requests- Selenium- aiohttp.....
  • 解析库:

抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式多种多样,可以使用正则来提取,但是写起来相对繁琐。所以解析库就很有用

- lxml- Beautiful Soup- pyquery

还包括很多强大的解析方法,Xpath解析和CSS选择解析等。

  • 数据库:

数组存储部分

- Mysql- Redis.....
  • 存储库:

用于和python交互,比如Mysql需要安装PyMysql等

  • App爬取相关库:

除了Web网页,爬虫也可以抓取App数据。App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的。由于App没有浏览器这种可以比较直观的看到后台请求的工具,所以主要用一些抓包技术抓取数据。

- Charles- mitmproxy- mitmdump.....

自动化操作页面

- Appium
  • 爬虫框架

很多代码可复用,必然会产生一些列框架

- pyspider- Scrapy
  • 部署相关库:

将爬虫部署到主机

- Docker- Scrapy
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
相关文章
返回顶部