1、爬虫小白入门第一课
发布于 2022年 01月 19日 17:46
Python3 开发爬虫。 Anaconda 是一种 Python 发行版,方便 Python 的管理,先复习下基本的 conda 指令。
1-Anaconda常用命令
- 检查 Conde 版本:
conde --version
- 升级 conde 版本:
conda update conda
- 创建并激活一个环境
使用”conda create”命令,后边跟上你希望用来称呼它的任何名字:
conda create --name ybyCrawler python=3.8
命令创建python版本为X.X、名字为your_env_name的虚拟环境。ybyCrawler文件目录可以在Anaconda安装目录envs文件下找到。
- 查看安装了哪些包:
conda list
- 查看创建了那些环境:
conda env list 或 conda info -e
- 激活某个虚拟环境:
activate your_env_name
- 在虚拟环境中安装包
安装package到your_env_name中:
conda install -n your_env_name [package]
- 关闭虚拟环境:
deactivate
- 删除虚拟环境:
conda remove -n your_env_name(虚拟环境名称) --all
- 删除虚拟环境中某个包:
conda remove --name your_env_name package_name
2-爬虫需要的相关库
爬虫可以简单的分为几步:抓取页面、分析页面和存储数据
- 请求库:
在抓取页面的过程中,我们需要模拟浏览器向服务器发送请求,所以需要用到一些Python库来实现HTTP请求操作
- requests
- Selenium
- aiohttp.....
- 解析库:
抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式多种多样,可以使用正则来提取,但是写起来相对繁琐。所以解析库就很有用
- lxml
- Beautiful Soup
- pyquery
还包括很多强大的解析方法,Xpath解析和CSS选择解析等。
- 数据库:
数组存储部分
- Mysql
- Redis.....
- 存储库:
用于和python交互,比如Mysql需要安装PyMysql等
- App爬取相关库:
除了Web网页,爬虫也可以抓取App数据。App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的。由于App没有浏览器这种可以比较直观的看到后台请求的工具,所以主要用一些抓包技术抓取数据。
- Charles
- mitmproxy
- mitmdump.....
自动化操作页面
- Appium
- 爬虫框架
很多代码可复用,必然会产生一些列框架
- pyspider
- Scrapy
- 部署相关库:
将爬虫部署到主机
- Docker
- Scrapy