1、获取页面元素
584 2023-04-03 03:25:14
Python3 开发爬虫。 Anaconda 是一种 Python 发行版,方便 Python 的管理,先复习下基本的 conda 指令。
conde --version
conda update conda
使用”conda create”命令,后边跟上你希望用来称呼它的任何名字:
conda create --name ybyCrawler python=3.8
命令创建python版本为X.X、名字为your_env_name的虚拟环境。ybyCrawler文件目录可以在Anaconda安装目录envs文件下找到。
conda list
conda env list 或 conda info -e
activate your_env_name
安装package到your_env_name中:
conda install -n your_env_name [package]
deactivate
conda remove -n your_env_name(虚拟环境名称) --all
conda remove --name your_env_name package_name
爬虫可以简单的分为几步:抓取页面、分析页面和存储数据
在抓取页面的过程中,我们需要模拟浏览器向服务器发送请求,所以需要用到一些Python库来实现HTTP请求操作
- requests- Selenium- aiohttp.....
抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式多种多样,可以使用正则来提取,但是写起来相对繁琐。所以解析库就很有用
- lxml- Beautiful Soup- pyquery
还包括很多强大的解析方法,Xpath解析和CSS选择解析等。
数组存储部分
- Mysql- Redis.....
用于和python交互,比如Mysql需要安装PyMysql等
除了Web网页,爬虫也可以抓取App数据。App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的。由于App没有浏览器这种可以比较直观的看到后台请求的工具,所以主要用一些抓包技术抓取数据。
- Charles- mitmproxy- mitmdump.....
自动化操作页面
- Appium
很多代码可复用,必然会产生一些列框架
- pyspider- Scrapy
将爬虫部署到主机
- Docker- Scrapy