Scrapy


7/13/2018 python🐍 scrapy 后端 异步 所有文章 爬虫🕷 进阶

Scrapy介绍

异步

engine异步调用缩短事件

事件循环

对象传递+事件循环
spider—>item—>pipline

定制化

定制的pipline集中存储
selector+xpath定位爬取

# Setting&命令

环境

Pycharm设置好环境python路径等等不用多说
从wheel找

  • pywin32
  • pillow
  • tiwsted

WARNING

不能只装pymysql需要MYSQLdb
安装MYSQLdb也就是mydqlclient和pymysql
如果失败apt-get install python-devel mysql-devel

linux下需要安装的

pip install asyncio aiohttp beautifulsoup4 bs4 demjson elasticsearch elasticsearch-dsl fake-useragent lxml mysqlclient pymongo PyMySQL pyquery redis requests Scrapy selenium six Twisted urllib3 scrapy_djangoitem scrapy-redis

如果需要和django搭配使用,那就运行下面这一条,然后再去运行django的那一条懒人命令

Last Updated: 4/4/2020, 4:11:56 PM