小谢

.....

  • 菜单
  • 标签
  • 友情链接
  • 关于我
  • 主页
  • 所有文章
github weibo zhihu mail
BloomFilter Groovy Java Kafka Maven MongoDB Motan MySQL Netty Nio Python Redis RocketMQ Scala Scrapy Spring Tomcat XXL-JOB java log 事务 分布式 博客 可视化 收藏 爬虫 缓存
虎扑篮球 伯乐在线 ImportNew
某互联网金融公司资浅工程师.

小谢

小谢

.....

  • 主页
  • 所有文章
github weibo zhihu mail
2015-12-06

分布式爬虫之BloomFilter

问题

Scrapy中对请求的去重是通过计算一个request的fingerprint,并放到一个set中来实现的。代码如下:

1
2
3
4
5
6
7
def request_seen(self, request):
fp = self.request_fingerprint(request)
if fp in self.fingerprints:
return True
self.fingerprints.add(fp)
if self.file:
self.file.write(fp + os.linesep)

Scrapy-Redis也是如此,

  • BloomFilter
  • Python
  • Scrapy
  • 博客
  • 爬虫
爬虫

more >>

© 2019 小谢
Hexo Theme Yilia by Litten