TIP
这次项目做的是一个爬虫,搜索引擎的一部分,用的是scrapy框架和django,django写后台管理,利用mysql的binlog机制增量同步到es,为搜索引擎提供基础的数据检索服务。
# 数据采集
# Scrapy爬虫
爬取思否编程网站的问题和文章,使用Scrapy的Crawl全站爬取,url去重,全异步框架,效率高不阻塞.
# django后台
用的是xadmin,数据通过后台直接保存到mysql增删改查同步ES
TIP
这次项目做的是一个爬虫,搜索引擎的一部分,用的是scrapy框架和django,django写后台管理,利用mysql的binlog机制增量同步到es,为搜索引擎提供基础的数据检索服务。
爬取思否编程网站的问题和文章,使用Scrapy的Crawl全站爬取,url去重,全异步框架,效率高不阻塞.
用的是xadmin,数据通过后台直接保存到mysql增删改查同步ES