毕设


3/19/2020 所有文章 进阶 数据层 全文检索引擎 大数据 ELK 分布式 爬虫🕷 知识图谱

TIP

这次项目做的是一个爬虫,搜索引擎的一部分,用的是scrapy框架和django,django写后台管理,利用mysql的binlog机制增量同步到es,为搜索引擎提供基础的数据检索服务。

# 数据采集

# Scrapy爬虫

爬取思否编程网站的问题和文章,使用Scrapy的Crawl全站爬取,url去重,全异步框架,效率高不阻塞.

# django后台

用的是xadmin,数据通过后台直接保存到mysql增删改查同步ES

# mysql同步es

# 基础功能

# 用户中心

# 数据检索

# 知识图谱优化

# 知识抽取

# 知识整合

# 部署

# nginx部署

# 数据库部署

Last Updated: 3/20/2020, 11:10:16 AM