Luke a Pro

Luke Sun

Developer & Marketer

🇺🇦
EN||

LRU 缓存 (Least Recently Used)

| , 3 minutes reading.

LRU 缓存:实用主义者

算法背后的故事:桌上的一摞纸

想象你的桌子乱糟糟的,上面只有一摞文件。

  • 当你阅读一份文件时,你把它抽出来,放在这摞纸的最顶端
  • 当你收到一份新文件时,你也把它放在最顶端
  • 当这摞纸太高,摇摇欲坠时,你从最底端抽出一张纸,扔进垃圾桶。

这就是 LRU (最近最少使用)。底部的纸是你最长时间没有碰过的。逻辑告诉我们,如果你已经好几天没看它了,那你接下来的 5 分钟里大概率也不需要它。

LRU 是几乎所有缓存系统(从 CPU 缓存到 Redis)的默认策略,因为它完美契合了人类的行为模式:我们倾向于在一段时间内专注于几件事。

为什么需要它?

  • 浏览器: 当你点击“后退”按钮时,浏览器能瞬间显示页面,因为该页面就在 LRU 缓存中。
  • 操作系统: 哪些内存页面应该保留在 RAM 中?当然是用户正在点击的那些。
  • 简单性: 它易于理解,且对 90% 的工作负载都出奇地有效。

算法是如何“思考”的

这个算法需要快速 (O(1)O(1)) 做两件事:

  1. 找到 一个键 (Map)。
  2. 移动 那个键到“顶端” (List)。

这需要一种混合结构:哈希表 + 双向链表

  1. 访问 (Get):

    • 在 Map 中查找节点。
    • 将节点从链表当前位置断开。
    • 将其挂载到 头部 (最近使用)。
    • 返回值。
  2. 插入 (Put):

    • 如果键存在:更新值,移动到头部。
    • 如果键是新的:创建节点,添加到头部,存入 Map。
    • 驱逐 (Eviction): 如果缓存满了,看向 尾部 (最近最少使用)。从链表和 Map 中移除它。

工程决策:重活累活

虽然 LRU 很棒,但它并不完美。

  • 扫描问题 (Scan Problem): 如果一个用户一次性请求了 100 万个数据(比如“全表扫描”),他们会冲刷掉你整个有价值的缓存,把那些高频使用的热点数据全部替换成这种“只用一次”的数据。
  • 并发: 为了把项目移到“头部”,你需要锁定链表。在多线程系统中,这种“锁竞争”会拖慢一切。

实现参考 (Python)

Python 的 collections.OrderedDict 让这件事变得微不足道,但让我们构建内部逻辑,以窥探机器的灵魂。

class Node:
    def __init__(self, key, value):
        self.key = key
        self.value = value
        self.prev = None
        self.next = None

class LRUCache:
    def __init__(self, capacity: int):
        self.capacity = capacity
        self.cache = {} # Map: key -> Node
        # 哑元头尾节点,避免复杂的边界检查
        self.head = Node(0, 0)
        self.tail = Node(0, 0)
        self.head.next = self.tail
        self.tail.prev = self.head

    def _remove(self, node):
        prev_node = node.prev
        next_node = node.next
        prev_node.next = next_node
        next_node.prev = prev_node

    def _add_to_head(self, node):
        node.prev = self.head
        node.next = self.head.next
        self.head.next.prev = node
        self.head.next = node

    def get(self, key: int) -> int:
        if key in self.cache:
            node = self.cache[key]
            # 1. 从当前位置移除
            self._remove(node)
            # 2. 移到头部 (最近使用)
            self._add_to_head(node)
            return node.value
        return -1

    def put(self, key: int, value: int) -> None:
        if key in self.cache:
            self._remove(self.cache[key])
        
        node = Node(key, value)
        self._add_to_head(node)
        self.cache[key] = node

        if len(self.cache) > self.capacity:
            # 驱逐 LRU (尾部之前的那个节点)
            lru_node = self.tail.prev
            self._remove(lru_node)
            del self.cache[lru_node.key]

# 使用示例
lru = LRUCache(2)
lru.put(1, 1)
lru.put(2, 2)
print(lru.get(1)) # 返回 1, 将 1 移至头部. 缓存: [1, 2]
lru.put(3, 3)     # 驱逐 2 (LRU). 缓存: [3, 1]
print(lru.get(2)) # 返回 -1 (未找到)

小结

LRU 教会我们:时间是最好的过滤器。通过假设过去能预测未来,我们可以做出在大多数情况下都正确的简单决策。它提醒我们,在一个快节奏的世界里,“你最近为我做了什么?”并不是一种侮辱——而是一种优化。