Scrapy介绍

异步

engine异步调用缩短事件

事件循环

对象传递+事件循环
spider—>item—>pipline

定制化

定制的pipline集中存储
selector+xpath定位爬取

# Setting&命令

环境

设置好环境python路径等等
从wheel找

pywin32
pillow
tiwsted

WARNING

不能只装pymysql需要MYSQLdb
安装MYSQLdb也就是mydqlclient和pymysql
如果失败apt-get install python-devel mysql-devel

http状态码

      code说明
      200请求被成功处理
      301/302永久性重定向/临时性重定向
      403没有权限访问
      404表示没有对应的资源
      500服务器错误
      503服务器停机或正在维护

命令行

      scrapy startproject name
      #新建一个工程,并cd 进目录中去
      scrapy genspider [-t crawl] name xxx.com
      #生成一个xxx爬虫，注意域名只需要www.xxx.com就行二级域名直接填
      不填写就是默认的 spider 填写最常用的就是crawl
      scrapy crawl spidername
      #命令行运行spidername爬虫

WARNING

你新建的爬虫名字不能与网站名字，项目名字相同，你的名字会在spider中有一个变量表示

pycharm启动

新建一个py文件写入如下内容，在pycharm中作如下设置

#import your model here
from scrapy import cmdline
#your class&function here

if __name__ == "__main__":
    cmdline.execute(["scrapy", "crawl", "爬虫名字"])

这样直接F5就可以运行整个程序了

修改setting

import os,sys
project_dir=os.path.abspath(os.path.dirname(__file__))#获取了当前文件也就是setting的目录
IMAGES_STORE = os.path.join(project_dir,"images")#设置image的存储文件夹为当前目录下的image

(oﾟvﾟ)ノ

把setting中的ROBOTSTXT_OBEY = True设置为False不然会很蠢

更多设置的作用在这里

# Spider

# 普通spider

新建了一个spider是这样的

这个类接继承了Spider

name就是爬虫名字
allow_domins就是允许爬哪个域名的范围
start_urls是一个开始爬取那些url的列表

parse1()->parse2()->...->trans() 一开始会初始的url，然后把response传给parse1，parse1进行处理在传给parse2最后给一个函数(trans)形成item传给pipline

parse函数

定义parse函数，默认接受一个response对象
response对象:

这个对象的基本的url，text，status，encoding，headers是基本属性。重点说一下meta，selector和request
request是一个Request对象，是一个完整的请求信息，解析去重模块中将要使用的就是这个request中的信息。
在*异步代码*中不要使用同步代码，会导致阻塞性能下降严重。
自动往下爬取

从这个response中提取出还有需要爬取的url我们需要继续访问，这时候我们要用Request函数

from scrapy import Request
def func(self, response):
  response.meta[k]#这样就和字典一样取出了v
  process...
  yield Request(url='localhost',meta={k:v},callback=self.func)

这时候会yield一个Request对象出去，请求一下传入的url，把本次process解析的东西作为一个字典传给meta,这样就实现了解析内容的传递

TIP

可以直接指向self,这样这个请求还会回来调用自身，形成一个隐式递归。
注意递归的边界条件即url爬取到什么时候要传入trans函数存入
否则就会一直执行下去直到所有的url都访问过了

最常见的情况即解析一个页面，拿一些内容在meta中传递给trans函数或下一个parse，然后再这个页面里的某些url(比如下一页等)继续Request调用自身
Request的参数

url是请求的地址
callback 请求完之后的回调，传入一个response
method='GET' 请求方法Get/Post
headers 请求头
body 请求body
cookies 使用哪个cookie
meta meta用来传递值
encoding='utf-8' 编码
priority=0 在scheduler中的优先级
dont_filter=False 要不要被scheduler去重

TIP

header，cookie，UA可以在这里加也可以在middleware集中加在这里加只会对这个Request发起的请求有效其他Request使用middleware的

形成Item传递给pipline

trans()
定义一个解析函数,这个函数接受一个response,它会解析response中的内容，利用Xpath或者CssSelector选择自己想要的内容最后形成一些变量，将这些变量通过item['k']或Itemloader赋值给item最后yield出去

使用item

#文件顶部引入
from engine.items import MyItem
...
item=MyItem()
item['x']=变量a
item['y']=变量b
yield item

这个item会传到pipline中去

# CrawlSpider

全站爬虫需要注意的地方有去重，url处理，Request转发
不再需要自己寻找url，scrapy会自己处理通过Rule进行筛选，符合allow_domins和rule的就会自动抓取，然后解析该页面所有包含的url ,符合条件的继续递归Rule使用正则进行定义新建一个之后是这样的(为了便于讲解我改过了)

这里rule是一个LinkExtractor定义的类

allow(正则匹配符合的就请求)
callback(请求之后传入哪个函数,一般是传入要进行解析的函数)
follow(符合本规则的页面是否继续往下爬)
unique（boolean）是否去重
attrs（list）在查找要提取的链接时应该考虑的属性或属性列表（仅适用于参数中指定的那些标签tags ）。默认为('href',)

# Xpath和Css选择器

语法看这里

从网页源代码中提取自己想要的字段就要用scrapy中的提取器(scrapy的提取器速度快，异步操作友好)selector

selector=response.css('css selector')
selector=response.xpath('xpath')

拿出来的是一selector对象或者是SelectorList(在由多个节点情况下),调用selector.extract[0],获取内容这个方法等价于selector.extract_first() 这里是再爬简书的时候，拿到这个ul的列表之后xpath得到的是下面所有的元素节点的SelectorList对象，包含子节点的seector,可以先调用属性像这样

上面的下划线开头的是meta属性最好不要进行操作，selector的attr['pros']直接获取对象的属性

selector可以继续调用css和xpath如上图

TIP

urllib.parse import urljoin
pageurl=urljoin(base="https://www.jianshu.com",url=i.attrib["href"])
urljoin可以把url和域名连接起来，保证不会出错

# 使用Itemloader

使用itemloader便于维护

from scrapy.loader import ItemLoader
同样，你需要实例化一个Item item=ItemLoader(item=JianshuItem(),response=response)
把自己导入的item和函数接受得到的response传给它接下来你可以添加属性主要用

item.add_xpath('FieldName','一个xpath')
item.add_css('FieldName','一个cssselector')
item.add_value('FieldName',随便什么变量) 最后记得return item.load_load()出去

def parse_item(self,response):
    item=ItemLoader(item=JianshuItem(),response=response)
    item.add_xpath('title','/html/body/div[1]/div[2]/div[1]/h1/text()')
    item.add_value('likes',re.findall('<script type="application/json" data-name="page-data">(.*?)</script>',response.body.decode('utf-8')))
    item.add_css('author','body > div.note > div.post > div.article > div.author > div > span > a::text')
    item.add_value('noteid',response.url)
    item.add_value('imageurl',response.meta['imageurl'])
    return item.load_item()

注意

item_loader和extract默认吧item赋值都是以list的形式

简书分析

简书这样的网站文章是html里面直接存在的，而下面的作者，评论，喜欢打赏是js加载出来的直接获取xpath和cssselector是不行的

去掉这几个js后会这样

数据是随着html中的一个<script type="application/json" data-name="page-data">来的

用正则匹配到这个字符串，在pipline中拿出我们想要的数据即可

# Item

# 定义item的Filed

Item定义在items.py里面一般这个字段是你想对应到db里面的字段,用scrapy.Field()来定义,在spider中赋值的时候就可以像给字典赋值一样直接赋值只有被定义的字段才可以被赋值。可以做一些处理处理过后才放到piplines中去

# 输入输出处理器

在Field中可以定义输入处理和输出处理器(就是生命周期钩子)，指定一个函数，当item被return的时候先调用输入再调用输出处理对字段加工然后给pipline 是在return的时候才会进行
默认的有几种processor，可以定义一个函数用MapCompose自己添加
SelectJmes，Identity，TakeFirst，Compose，MapCompose

input_processor=MapCompose(一个匿名函数),
output_processor=TakeFirst(),
这里的值没有变，用一个匿名函数初步处理一下想要直接处理清楚可以直接用pipline


def callme(value):
    print("我被调用啦")
    return value

class JianshuItem(scrapy.Item):

    title=scrapy.Field()
    likes=scrapy.Field(
        output_processor=MapCompose(callme))#把这个里面的东西出来
    author=scrapy.Field()
    imageurl=scrapy.Field(
        input_processor=MapCompose(lambda x: "http:"+x.split("?")[0])
    )
    noteid=scrapy.Field()

# django scrapy item

留坑

写简书的时候试试

# Pipline

首先在setting中开启pipline取消ITEM_PIPELINES的注释这个字典一样的结构是流经顺序,数字越小这个pipline会先流经,item就像流经管道一样一个一个流过pipline会取下或者修改item的字段,存入sql或whatever然后return出去让他流经下一个pipline像这样

ITEM_PIPELINES = {
   'aa.pipelines.likesPipeline': 1,
   'aa.pipelines.SqlPipeline': 2,
}

定义process_item

默认接受一个item和一个spider，item就是你在item中定义的,像调用字典一样调用item 按照上面说的顺序最后别忘了return出去给下一个pipeline用

class MyPipline(object):
    process_item(self, item, spider):
      ...
      return item

像取字典一样直接取然后赋值就可以了先经过了likespipeline，拿出这个字符串我们想要的部分(做处理)，然后流到了SqlPipeline被打印了出来

# 图片Pipeline

很多情况下是三种最常用的media,file,image有对应写好的pipline内置引入

#piplines文件中引入
from scrapy.pipelines.images import ImagesPipeline

setting中指明两个变量
IMAGES_URLS_FIELD = "imageurl"#哪个字段是image的url
IMAGES_STORE = os.path.join(project_dir,"image")#存在哪个路径下
添加进piplines中
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline':1,#普通的图片pipeline
                  }

WARNING

这个imageurl应该是个列表形式,不要取出来会报错

自定义存放路径的imagepipline

首先引入并继承ImagesPipeline 重写def item_completed(self, results, item, info)
自己打断点看里面的变量,改变想要的变量即可

class JobboleImagePipline(ImagesPipeline):#自定义的管道进行路径存放
    def item_completed(self, results, item, info):
        for status,p in results:
            try:
                item["imagepath"]=p["path"]
                item["imageurl"]=item["imageurl"][0]
            except TypeError:
                item["imageurl"]="None"
                item["imagepath"] = "None"
        return item

# 插入sql数据库

在这个函数里取出值然后存进去例子

class SqlPipeline(object):#构造sql语句并执行即可
    def process_item(self,item,spider):
        '''item={'author': ['城北听雪'],
        'imageurl': ['http://upload-images.jianshu.io/upload_images/14074951-f700da6a9b168924.jpg'],
        'likes': ['33'],
        'noteid': ['https://www.jianshu.com/p/3e652aafb69b'],
        'title': ['5天流浪加德满都，给你看一个不一样的真实尼泊尔']}'''
        a={ k:v[0] for k,v in item.items()}#构造字符串
        str1 = ",".join([i for i in a.keys()])
        str2 = "','".join([i for i in a.values()])
        sql="INSERT INTO jianshu ({0}) VALUES ('{1}')".format(str1,str2)#构造sql
        conn=pymysql.connect(host='127.0.0.1',port=3306,user='root',db='jobol',password='不告诉你',charset='utf8mb4')
        cur=conn.cursor()
        try:
            cur.execute(sql)
            conn.commit()
        except Exception as e:
            conn.rollback()
            print(e)
        finally:
            cur.close()
            conn.close()
        return item

打印出来的sql应该像这样

  INSERT INTO jianshu
  (author,imageurl,likes,noteid,title)
  VALUES
  ('城北听雪','http://upload-images.jianshu.io/upload_images/14074951-f700da6a9b168924.jpg','33','https://www.jianshu.com/p/3e652aafb69b','5天流浪加德满都，给你看一个不一样的真实尼泊尔')

# 异步插入sql

首先定义新的pipline，然后开始编写异步插入的pipline 需要pywin32,twisted

写法很固定，记住怎么写理解这是做什么的

import pymysql
from twisted.enterprise import adbapi
import pymysql.cursors
#先引入

class asyPipeline(object):
    def __init__(self,dbpool):#默认传入一个连接池
        self.dbpool=dbpool

    @classmethod#声明一个类方法
    def from_settings(cls,settings):
    #注意是settings有S这个类方法和实例没有关系,接受一个setting也就是我们的配置文件
    #把变量拿过来，传入adbpool里面定义一个dbpool
        dbpool=adbapi.ConnectionPool('pymysql',
                                     host=settings['MYSQL_HOST'],
                                     db=settings['DB_NAME'],
                                     user=settings['MYSQL_USER'],
                                     password=settings['MYSQL_PASSWOED'],
                                     charset=settings['CHARSET'],
                                     cursorclass=pymysql.cursors.DictCursor,
                                     use_unicode=True)
    #这里可以写死也可以用这个方法读取setting里面的配置信息(建议)
        return cls(dbpool=dbpool)

    def process_item(self,item,spider):

        query=self.dbpool.runInteraction(self.do_insert, item)
        #执行，相当于loop启动，定义一个变量来代表
        query.addErrback(self.handler)
        #制定错误处理函数

    def do_insert(self,cursor,item):
        '''执行查询的函数'''
        a = {k: v[0] for k, v in item.items()}  # 构造字符串
        str1 = ",".join([i for i in a.keys()])
        str2 = "','".join([i for i in a.values()])
        sql = "INSERT INTO jianshu ({0}) VALUES ('{1}')".format(str1, str2)  # 构造sql
        cursor.execute(sql)

        #不能用try异步没有try
    def handler(self,failure):#定义错误处理
        print(failure)#打印错误

注意

不能用try，异步里面没有try

# 插入mongo

# 保存为json


class JsonPipeline(object):
    def process_item(self,item,spider):
        a = {k: v[0] for k, v in item.items()}#格式化一下
        with open(r'jianshu.json','a',encoding='utf-8') as f:
            json.dump(a,f,ensure_ascii=False)
            f.write('\n')

# Middleware

是一个钩子系统，注入到生命周期中可扩展性好 donwloader middlewaer用得最多， spidermiddleware没怎么用每次爬的时候经过一次中间件,像pipline一样流过最后在进行请求
主要作用更换代理IP，更换Cookies，更换User-Agent，自动重试

重写process_request

(self,request,spider):

# 随机User-Agent

可以在setting里面制定UA
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36' 所有的都会用这个UA

import fake_useragent
class RandomUAMiddleware(object):
    def process_request(self,request,spider):
        ua=fake_useragent.UserAgent()
        request.headers.setdefault('User-Agent',ua.random)

网上很多用UAlist的，基本就是import一下，然后random取一下

fake_ua了解一下？

git搜所第一个就是，可以直接pip安装

基本使用

from fake_useragent import UserAgent
ua = UserAgent()
ua.random#直接随机返回一个头
ua.ie#返回ie的头

可用的头

ie,msie,opera,chrome,google,firefox,ff,safari

# IP代理

同样是操作reuest的meta信息

import random
#from settings import IPpool
class IPproxyMiddleware(object):
    def process_request(self,request):
        '''引入一个ip池或请求一次(购买的)接口,随机选择一个ip就可以'''
        request.meta["proxy"] = random.choice(["https://222.223.115.30:51618"])

# 使用cookie

class cookieMiddleware(object):
    def process_request(self,request,spider):
        request.cookies ='通过接口或什么方式拿到你的cookie'

    def process_response(self, request, response, spider):
        '''
        对此次响应进行处理
        如果请求不成功怎么处理
        如果cookie失效怎么办
        '''
        pass

TIP

最好自己搭建代理池和cookie池，用的时候直接调用接口
后续我在出这个

WARNING

请求头携带的Cookie必须是一个字典，不能直接设置成字符串

# 自动重试中间件

setting的dowloadermiddlware中
scrapy.downloadermiddlewares.retry.RetryMiddleware:6

# 集成selenium

selenium可以直接在中间件直接写

class seleniumMiddleware(object):
    def __init__(self):
        self.broswer = webdriver.Chrome(executable_path=r'D:\57635\chromedriver.exe')
        super().__init__()
    def process_request(self,request,spider):
        if spider.name=='jianshu':
            self.broswer.get(request.url)
            time.sleep(2)
            print('selenium访问{}'.format(request.url))

            return HtmlResponse(url=self.broswer.current_url,
                                body=self.broswer.page_source,
                                encoding='utf-8',
                                request=request)

但是当一个spider结束的时候浏览器也不会退出，这样导致消耗资源

在spider中是直接写

在spider中添加

from selenium import webdriver
from scrapy.xlib.pydispatch import dispatcher
from scrapy import signals

...
    def __init__(self):
        self.broswer = webdriver.Chrome(executable_path=r'D:\57635\chromedriver.exe')
        super().__init__()
        dispatcher.connect(self.spider_closed,signals.spider_closed)#信号量

    def spider_closed(self,spider):
        print("完成")
        self.broswer.quit()#退出

...

middlware:
import time
from scrapy.http import HtmlResponse
class seleniumMiddleware(object):

    def process_request(self,request,spider):
        if spider.name=='jianshu':
            spider.broswer.get(request.url)
            time.sleep(2)
            print('selenium访问{}'.format(request.url))

            return HtmlResponse(url=spider.broswer.current_url,
                                body=spider.broswer.page_source,
                                encoding='utf-8',
                                request=request)

解释一下，这里引入的是dispatch和信号signal，signal是scrapy各种对象生命周期信号，我们在这里写的是当一个爬虫结束的时候执行self.spider_closed函数，和信号绑上，这里和django里面的信号很像后面再讲这样在一个spider结束的时候就会退出浏览器

# Schduler&Other

# Schduler去重机制

Schduler是一个调度器，这里面是一些队列存放了所有待爬的已经爬了的等等，整个框架的队列都在这里面,去重和分布式开发插件开发的时候会用到利用set去重

留坑

看源码之后再写

Scrapy(old)

Scrapy介绍

异步

事件循环

定制化

# Setting&命令

环境

http状态码

命令行

pycharm启动

修改setting

# Spider

# 普通spider

parse函数

形成Item传递给pipline

使用item

# CrawlSpider

# Xpath和Css选择器

语法看这里

# 使用Itemloader

使用itemloader便于维护

简书分析

去掉这几个js后会这样

# Item

# 定义item的Filed

# 输入输出处理器

# django scrapy item

# Pipline

定义process_item

# 图片Pipeline

自定义存放路径的imagepipline

# 插入sql数据库

# 异步插入sql

写法很固定，记住怎么写理解这是做什么的

# 插入mongo

# 保存为json

# Middleware

重写process_request

# 随机User-Agent

fake_ua了解一下？

# IP代理

# 使用cookie

# 自动重试中间件

相关设置

# 集成selenium

在spider中是直接写

# Schduler&Other

# Schduler去重机制