Scrapy介绍
异步
engine异步调用缩短事件事件循环
对象传递+事件循环spider—>item—>pipline
定制化
定制的pipline集中存储selector+xpath定位爬取
# Setting&命令
环境
Pycharm设置好环境python路径等等不用多说
从wheel找
- pywin32
- pillow
- tiwsted
WARNING
不能只装pymysql需要MYSQLdb
安装MYSQLdb也就是mydqlclient和pymysql
如果失败apt-get install python-devel mysql-devel
linux下需要安装的
pip install asyncio aiohttp beautifulsoup4 bs4 demjson elasticsearch elasticsearch-dsl fake-useragent lxml mysqlclient pymongo PyMySQL pyquery redis requests Scrapy selenium six Twisted urllib3 scrapy_djangoitem scrapy-redis
如果需要和django搭配使用,那就运行下面这一条,然后再去运行django的那一条懒人命令