scrapy爬虫保存图片到本地

2020 年 08 月 17 日

1034 次浏览

3 条评论

2155字数

杂记

scrapy爬虫保存图片到本地

一、需求

到指定站点爬取图片保存到本地，并支持自动翻页爬取

二、初始化项目

# 创建项目
scrapy startproject zb
# 项目初始化 
# "zb_spider"即为创建项目的名称后加上"_spider"
# "mypicture.ipojy.net"即为该项目的允许访问域名
scrapy genspider zb_spider mypicture.ipojy.net

三、配置settings.py

打开 zb/zb/settings.py 添加 USER_AGENT

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'

打开 zb/zb/settings.py 添加图片配置

#imgurl是在items.py中配置的网络爬取得图片地址
IMAGES_URLS_FIELD ="imgurl"  
#配置保存本地的地址
#获取当前爬虫项目的绝对路径
project_dir=os.path.abspath(os.path.dirname(__file__))  
#组装新的图片路径
IMAGES_STORE=os.path.join(project_dir,'images')

修改ROBOTSTXT_OBEY为False避免无法进行回调

ROBOTSTXT_OBEY = False

打开 zb/zb/settings.py 修改图片采集配置

ITEM_PIPELINES = {
  'scrapy.pipelines.images.ImagesPipeline':5,
  'zd.pipelines.ZdPipeline': 300,
}

四、构建items.py

class ZdItem(scrapy.Item):
    ids = scrapy.Field()
    imgurl = scrapy.Field()

五、构建zb_spider.py采集逻辑

import scrapy 
from zd.items import ZdItem

class ZbSpiderSpider(scrapy.Spider):
    name = 'zb_spider'
    # allowed_domains = ['mypicture.ipojy.net']
    start_urls = ['http://mypicture.ipojy.net/?id=*&sharemd5=*&tid=0&eid=0&page=1']
    def parse(self, response):
        print("#"*60)
        movie_list = response.xpath("//td[@style='border-right:1px solid #BBDDE5;']")
        for i_item in movie_list:
          print("*"*60)
          zb_item = ZdItem()
          #序号
          ids = i_item.xpath(".//font[@style='color:red']/strong/text()").extract_first()
          zb_item['ids'] = ids
          #图片地址
          zb_item['imgurl'] = [i_item.xpath(".//img/@src").extract_first()]
          yield zb_item
        # 解析下一页
        next_link = response.xpath("//span[@id='page-link']/a[3]/@href").extract_first()
        if next_link:
            print("下一页:",next_link)
            yield scrapy.Request(next_link,callback=self.parse)

六、启动项目

到含有scrapy.cfg文件的目录中，运行:

scrapy crawl zb_spider

nhtfdwnvgs
October 7th, 2025 at 06:50 pm

2025年10月新盘做第一批吃螃蟹的人coinsrore.com
新车新盘嘎嘎稳嘎嘎靠谱coinsrore.com
新车首发，新的一年，只带想赚米的人coinsrore.com
新盘上车集合留下我要发发立马进裙coinsrore.com
做了几十年的项目我总结了最好的一个盘（纯干货）coinsrore.com
新车上路，只带前10个人coinsrore.com
新盘首开新盘首开征召客户！！！coinsrore.com
新项目准备上线，寻找志同道合的合作伙伴coinsrore.com
新车即将上线真正的项目，期待你的参与coinsrore.com
新盘新项目，不再等待，现在就是最佳上车机会！coinsrore.com
新盘新盘这个月刚上新盘新车第一个吃螃蟹！coinsrore.com

回复
cljwhvvupl
October 6th, 2025 at 04:17 pm

新车上路，只带前10个人coinsrore.com

回复
ftcldbpsit
March 3rd, 2025 at 07:53 am

批判锋芒犀利，直指问题症结所在。

回复

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

scrapy爬虫保存图片到本地

scrapy爬虫保存图片到本地

一、需求

二、初始化项目

三、配置settings.py

四、构建items.py

五、构建zb_spider.py采集逻辑

六、启动项目

3 条评论

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

[JavaScript]数字1、2、3...转为一、二、三...

简易PHP-MVC框架

DBeaver 23.2.0 分析说明

基于FTP的自动更新程序

使用 Docker Api 进行在线操作

强制修改Windows分辨率

[西部数据]域名扫描脚本

[PHP]三种模式设计模式

scrapy爬虫保存图片到本地

给图片添加水印

scrapy爬虫保存图片到本地

scrapy爬虫保存图片到本地

一、需求

二、初始化项目

三、配置settings.py

四、构建items.py

五、构建zb_spider.py采集逻辑

六、启动项目

3 条评论

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

scrapy爬虫保存图片到本地

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款