支持删除的布隆过滤器

Tue Jul 29 2025

一般情况下布隆过滤器只能填入不能删除，有些特别的需求比如支持读写删的系统就会需要支持删除的布隆过滤器

原始布隆过滤器

我们先看看原始的布隆过滤器是个怎么回事

原始的布隆过滤器有几个很重要的点，其实是个非常简单的东西

原始的布隆过滤器使用多个位来作为其内部数据表示，我们这里使用 u8 作为的实际类型

1
0000_0000

我们使用上文的函数来对输入做如下处理

则我们同样得到了一个类型为u8 的，其内容为 0000_0001

在得到哈希结果后，我们利用这个结果来进行判断

1
I: 0000_0001
2
B: 0000_0000

我们使用的数据类型总共有 8 位，其中相等的位数为 7 位，并不完全相等，那么我们可以认为这个元素肯定不存在

我们将这个数组写入到这个我们的过滤器里，这样我们的过滤器里的内容就变成了如下内容

1
0000_0001

考虑到一种情况，我们的布隆过滤器满了

1
1111_1111

这个时候无论对什么数据进行哈希，得到的结果都会被布隆过滤器判定为存在。那么这里就产生了很重要的问题：误判

我们做如下假设

则在插入时布隆过滤器中的某一个特定的位没有被操作的概率是

在完全插入后某一位仍然为 0 的概率为

在执行了次插入后，某一位仍然为 0 的概率就为

那么很容易得出，某一位为 1 的概率是

我们假设过滤器中所有位均被设置为 1，那么认为某一个原本不应该在集合中的元素却被误判的概率则为

则我们得到的误判率计算公式为。对于该公式，我们假设趋近于无限，则我们可以进行进一步的处理：令，我们对进行极限，根据极限的定义我们可以得到如下的结果

什么？忘了指数函数的极限了？

简单回忆一下一般形式的指数函数的极限：

那么我们可以得到其误判率大概为