1、爬虫小白入门第一课

Python3 开发爬虫。 Anaconda 是一种 Python 发行版，方便 Python 的管理，先复习下基本的 conda 指令。

1-Anaconda常用命令

检查 Conde 版本：

conde --version

升级 conde 版本：

conda update conda

创建并激活一个环境

使用”conda create”命令，后边跟上你希望用来称呼它的任何名字：

conda create --name ybyCrawler python=3.8

命令创建python版本为X.X、名字为your_env_name的虚拟环境。ybyCrawler文件目录可以在Anaconda安装目录envs文件下找到。

查看安装了哪些包：

conda list

查看创建了那些环境：

conda env list 或 conda info -e

激活某个虚拟环境：

activate your_env_name

在虚拟环境中安装包

安装package到your_env_name中:

conda install -n your_env_name [package]

关闭虚拟环境：

deactivate

删除虚拟环境：

conda remove -n your_env_name(虚拟环境名称) --all

删除虚拟环境中某个包：

conda remove --name your_env_name package_name

2-爬虫需要的相关库

爬虫可以简单的分为几步：抓取页面、分析页面和存储数据

请求库：

在抓取页面的过程中，我们需要模拟浏览器向服务器发送请求，所以需要用到一些Python库来实现HTTP请求操作

- requests- Selenium- aiohttp.....

解析库：

抓取网页代码之后，下一步就是从网页中提取信息。提取信息的方式多种多样，可以使用正则来提取，但是写起来相对繁琐。所以解析库就很有用

- lxml- Beautiful Soup- pyquery

还包括很多强大的解析方法，Xpath解析和CSS选择解析等。

数据库：

数组存储部分

- Mysql- Redis.....

存储库：

用于和python交互，比如Mysql需要安装PyMysql等

App爬取相关库：

除了Web网页，爬虫也可以抓取App数据。App中的页面要加载出来，首先需要获取数据，而这些数据一般是通过请求服务器的接口来获取的。由于App没有浏览器这种可以比较直观的看到后台请求的工具，所以主要用一些抓包技术抓取数据。

- Charles- mitmproxy- mitmdump.....

自动化操作页面

- Appium

爬虫框架

很多代码可复用，必然会产生一些列框架

- pyspider- Scrapy

部署相关库：

将爬虫部署到主机

- Docker- Scrapy

标签：常用命令爬虫门第一课技巧

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。