1、爬虫小白入门第一课

发布于 2022年 01月 19日 17:46

Python3 开发爬虫。 Anaconda 是一种 Python 发行版,方便 Python 的管理,先复习下基本的 conda 指令。

1-Anaconda常用命令

  • 检查 Conde 版本:
conde --version
  • 升级 conde 版本:
conda update conda
  • 创建并激活一个环境

使用”conda create”命令,后边跟上你希望用来称呼它的任何名字:

conda create --name ybyCrawler python=3.8

命令创建python版本为X.X、名字为your_env_name的虚拟环境。ybyCrawler文件目录可以在Anaconda安装目录envs文件下找到。

  • 查看安装了哪些包:
conda list
  • 查看创建了那些环境:
conda env list 或 conda info -e
  • 激活某个虚拟环境:
activate your_env_name
  • 在虚拟环境中安装包

安装package到your_env_name中:

conda install -n your_env_name [package]
  • 关闭虚拟环境:
deactivate
  • 删除虚拟环境:
conda remove -n your_env_name(虚拟环境名称) --all
  • 删除虚拟环境中某个包:
conda remove --name your_env_name package_name

2-爬虫需要的相关库

爬虫可以简单的分为几步:抓取页面分析页面存储数据

  • 请求库:

在抓取页面的过程中,我们需要模拟浏览器向服务器发送请求,所以需要用到一些Python库来实现HTTP请求操作

- requests
- Selenium
- aiohttp.....
  • 解析库:

抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式多种多样,可以使用正则来提取,但是写起来相对繁琐。所以解析库就很有用

- lxml
- Beautiful Soup
- pyquery

还包括很多强大的解析方法,Xpath解析和CSS选择解析等。

  • 数据库:

数组存储部分

- Mysql
- Redis.....
  • 存储库:

用于和python交互,比如Mysql需要安装PyMysql等

  • App爬取相关库:

除了Web网页,爬虫也可以抓取App数据。App中的页面要加载出来,首先需要获取数据,而这些数据一般是通过请求服务器的接口来获取的。由于App没有浏览器这种可以比较直观的看到后台请求的工具,所以主要用一些抓包技术抓取数据。

- Charles
- mitmproxy
- mitmdump.....

自动化操作页面

- Appium
  • 爬虫框架

很多代码可复用,必然会产生一些列框架

- pyspider
- Scrapy
  • 部署相关库:

将爬虫部署到主机

- Docker
- Scrapy

推荐文章