布隆过滤器 (Bloom Filter)

Published: Sun Feb 15 2026 | Modified: Tue Jun 23 2026 , 2 minutes reading.

引言：“可能”机器

假设你想知道一个用户名是否在 10 亿个已注册用户中被占用。

布隆过滤器 是一种节省空间的概率型数据结构，专门用于測試一个元素是否属于一个集合。

想象一个长度为 $M$ 的 位数组 (Bit Array)，初始全是 0。

添加元素： 将元素通过 $K$ 个不同的哈希函数。每个哈希函数会给你一个索引。将位数组中这 $K$ 个索引位置全部设为 1。
查询元素： 同样使用这 $K$ $K$ 个哈希函数计算索引。
- 如果 任何一个 位置是 0：该元素绝对没有被添加过。
- 如果全部位置都是 1：该元素可能被添加过（也可能是其他元素的哈希值碰巧凑齐了这几个 1）。

它充当 昂贵操作 前面的 廉价过滤器。

✅ 弱密码检测： 检查用户密码是否在包含 1000 万个泄漏密码的黑名单中，而无需将黑名单全部加载到内存。
✅ 恶意网址拦截： Google Chrome 使用它快速检查 URL 是否为已知的恶意网站。
✅ 数据库性能优化： Cassandra 和 BigTable 使用它来避免在磁盘上搜索不存在的行键。
✅ CDN 缓存过滤： 只有当一个資源被请求过至少一次后才进行缓存（防止“一过性”流量浪费缓存空间）。
❌ 刪除： 标准布隆过滤器 不支持删除。如果你把某个位设回 0，可能会误删其他共享该位的元素。如果需要删除，请使用 计数布隆过滤器 (Counting Bloom Filter)。

“布隆过滤器是终极保镖。它能瞬间告诉你谁肯定‘不在名单上’，让你免于在整个夜店里寻找那些根本没来的人。”