关于bloom filter算法: http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html
参考项目:
- https://github.com/jettify/aioredis_bloom 基于asyncio的异步实现
- https://github.com/seomoz/pyreBloom 基于C语言的实现
作用:海量数据的去重,时间、空间复杂度为常量:O(K)。
原理:借助redis,维护一个BitSet(位集合)。通过bloom filter算法判断一个数据是否重复。