搜索与检索：概览

Published: Sun Feb 15 2026 | Modified: Tue Jun 23 2026 , 1 minutes reading.

搜索与检索：“不去看”的艺术

想象你进入了巴别图书馆，里面藏着人类历史上所有的书籍。如果你想找一个特定的句子，你有两个选择：

在软件工程中，搜索几乎从来不是关于“观察数据”。它是关于构建结构，让你能够跳过 99.99% 的无效数据。

搜索技术经历了四个不同的“灵魂”阶段：

策略	灵魂 / 隐喻	代表算法	最佳应用场景
索引 (Indexing)	图书馆目录在搜索开始前，将关键词映射到位置。	倒排索引	全文检索 (Elasticsearch, Lucene)
前缀 (Prefixing)	预判的打字员通过共同的开头来锁定目标。	Trie / 基数树	自动补全 / 路由 (搜索框、IP 路由)
匹配 (Matching)	模式识别专家在特定的草堆里寻找特定的针。	KMP / Boyer-Moore	日志分析 / 生物信息 (Grep, DNA 测序)
语义 (Similarity)	读心者寻找“意思”相近的东西，哪怕它们长得不一样。	向量检索 / LSH	推荐系统 / AI (ChatGPT, 相似图搜)

你选择哪种算法，完全取决于你的数据规模和对错误的容忍度：

搜索的第一定律是：搜索速度是用“写入阶段”的成本换来的。 如果你想以 $O(1)$ 或 $O(\log N)$ 的速度找到东西，你就必须在数据到达时，花费 $O(N)$ 的时间和巨大的磁盘空间去构建索引。搜索是存储空间与响应延迟之间最终極的“权衡”。

在本章中，我们将从古老的字符串匹配智慧，跨越到未来感十足的向量嵌入世界。我们将明白：找到一根针，靠的不是更好的视力，而是把草堆组织得让那根针无处遁形。

让我们从现代互联网的基石开始：倒排索引。