Scrapy 爬虫完整案例-基础篇( 五 ) _Scrapy

checksum = md5sum(buf)
width, height = image.size
self.store.persist_file(
path, buf, info,
meta={'width': width, 'height': height},
headers={'Content-Type': 'image/jpeg'})
return checksum
def get_images(self, response, request, info):
path = self.file_path(request, response=response, info=info)
orig_image = Image.open(BytesIO(response.body))
width, height = orig_image.size
if width < self.min_width or height < self.min_height:
raise ImageException("Image too small (%dx%d < %dx%d)" %
(width, height, self.min_width, self.min_height))
image, buf = self.convert_image(orig_image)
yield path, image, buf
for thumb_id, size in six.iteritems(self.thumbs):
thumb_path = self.thumb_path(request, thumb_id, response=response, info=info)
thumb_image, thumb_buf = self.convert_image(image, size)
yield thumb_path, thumb_image, thumb_buf
def convert_image(self, image, size=None):
if image.format == 'PNG' and image.mode == 'RGBA':
background = Image.new('RGBA', image.size, (255, 255, 255))
background.paste(image, image)
image = background.convert('RGB')
elif image.mode == 'P':
image = image.convert("RGBA")
background = Image.new('RGBA', image.size, (255, 255, 255))
background.paste(image, image)
image = background.convert('RGB')
elif image.mode != 'RGB':
image = image.convert('RGB')
if size:
image = image.copy()
image.thumbnail(size, Image.ANTIALIAS)
buf = BytesIO()
image.save(buf, 'JPEG')
return image, buf
def get_media_requests(self, item, info):
return [Request(x) for x in item.get(self.images_urls_field, [])]
def item_completed(self, results, item, info):
if isinstance(item, dict) or self.images_result_field in item.fields:
item[self.images_result_field] = [x for ok, x in results if ok]
return item
def file_path(self, request, response=None, info=None):
## start of deprecation warning block (can be removed in the future)
def _warn():
from scrapy.exceptions import ScrapyDeprecationWarning
import warnings
warnings.warn('ImagesPipeline.image_key(url) and file_key(url) methods are deprecated, '
'please use file_path(request, response=None, info=None) instead',
category=ScrapyDeprecationWarning, stacklevel=1)
# check if called from image_key or file_key with url as first argument
if not isinstance(request, Request):
_warn()
url = request
else:
url = request.url
# detect if file_key() or image_key() methods have been overridden
if not hasattr(self.file_key, '_base'):
_warn()
return self.file_key(url)
elif not hasattr(self.image_key, '_base'):
_warn()
return self.image_key(url)
## end of deprecation warning block
image_guid = hashlib.sha1(to_bytes(url)).hexdigest() # change to request.url after deprecation
return 'full/%s.jpg' % (image_guid)
def thumb_path(self, request, thumb_id, response=None, info=None):
## start of deprecation warning block (can be removed in the future)
def _warn():
from scrapy.exceptions import ScrapyDeprecationWarning
import warnings
warnings.warn('ImagesPipeline.thumb_key(url) method is deprecated, please use '
'thumb_path(request, thumb_id, response=None, info=None) instead',
category=ScrapyDeprecationWarning, stacklevel=1)
# check if called from thumb_key with url as first argument
if not isinstance(request, Request):
_warn()
url = request
else:
url = request.url
# detect if thumb_key() method has been overridden
if not hasattr(self.thumb_key, '_base'):
_warn()
return self.thumb_key(url, thumb_id)
## end of deprecation warning block
thumb_guid = hashlib.sha1(to_bytes(url)).hexdigest() # change to request.url after deprecation
return 'thumbs/%s/%s.jpg' % (thumb_id, thumb_guid)
# deprecated
def file_key(self, url):
return self.image_key(url)
file_key._base = True
# deprecated
def image_key(self, url):
return self.file_path(url)
image_key._base = True
# deprecated
def thumb_key(self, url, thumb_id):
return self.thumb_path(url, thumb_id)
thumb_key._base = True
有兴趣的同学，可以完整的解读下。

文章插图

本案例中用到其中2个方法：
1. get_media_requests(self, item, info)
2. item_completed(self, results, item, info)
编写 pipelines 管道文件
#get_media_requests(self, item, info)方法用到 scrapy.Request(image_url)下载图片，所以需要导入 scrapy 库

Scrapy 爬虫完整案例-基础篇( 五 )

推荐阅读

疫苗接种|疫苗对德尔塔还有用吗?张伯礼回应对新毒株仍有保护作用

仙女棒的另一个意思是什么仙女棒的另一个意思

高晓松|说话不过脑子，高晓松终于为自己的嚣张，付出了惨痛的代价

如何扩展c盘空间(c盘增加磁盘空间)

墨染年华|妻子发毒誓等一辈子，5年后丈夫出狱，妻子已嫁与他人，丈夫入狱

小范说相|脾气暴躁，婚姻不顺，有这种面相的人

#人类已无法阻止她的沙雕发明#为脱单发明丰胸器、壁咚男友人类已无法阻止她的沙雕发明…

吃寿司会不会有寄生虫,寿司的生鱼片有寄生虫吗-

秒懂你财|股票基金怎么投？看看这些投资策略

奇葩搞笑菌▲于是就花钱雇了一个在下棋的老头冒充家长，笑话：学生害怕叫家长

古代为什么有公元前、公元后之分？公元元年是哪个朝代

徐克翻拍《射雕英雄传》，肖战饰演郭靖，黄蓉扮演者颜值是真的高

苹果|消息称苹果将推新OLED版iPad：10.86寸、三星供应屏

杭州传媒高级中学附近交通便利吗

适合安静点的宝宝小名，浅浅笑，轻轻唱，很美妙！

图书馆闭馆日为84岁老农一人开放|温暖！图书馆闭馆日为84岁老农一人开放空巢老人更需要关爱

穆雷|ATP2020网球中国赛季取消穆雷暖心发文关心中国

中国基金报|1500亿！一家新央企刚成立了

普洱茶友分级,中国普洱茶网讯

『rookie』TheShy被全场暴打，但却抢下大龙立功！Rookie赛后终于露出笑容