在上次的討論中,我們介紹了「Hybrid RAG」這個突破性的解決方案,它能大幅提升 AI 知識庫的精確度與速度。但在引擎蓋下究竟發生了什麼事?為什麼這種「混合」方法比之前的方法有效得多?
本文件對 Hybrid RAG 做了詳細但容易理解的技術說明。瞭解這些機制對任何就 AI 實作進行策略性決策的領導者來說都是至關重要的。
核心問題:單一搜尋方法的限制
傳統的 Retrieval-Augmented Generation (RAG) 系統依賴單一方法來尋找資訊。這通常是兩種方法之一:
- 關鍵字搜尋(或詞彙搜尋):這是經典的搜尋方法。它擅長尋找包含您查詢的 精確字詞或短語的文件。它精確但 「愚蠢」--它不瞭解上下文、同義詞或字詞的潛在含義。它就像一個細心但非常文字化的圖書館助理。
- 矢量搜尋(或語義搜尋):這是現代的「智慧型」方法。它使用人工智能模型將您的查詢和文件轉換為稱為 嵌入(或稱為「密集向量」)的數字表示。然後,它會找出語義上相似的文件,這表示它們在概念上是相關的,即使它們沒有共用完全相同的關鍵字。它就像是一個閱讀良好但有時不精確的圖書館助理,能夠理解各種概念。
當特定、罕見的關鍵字(如產品名稱、錯誤代碼或人名)至關重要時,矢量搜尋可能無法擷取結果。相反,當使用者的查詢使用不同的字詞來描述相同的概念時,關鍵字搜尋就會完全失敗。
解決方案:混合 RAG - 結合兩者的優點
Hybrid RAG(在 RAG 上下文中通常稱為「混合搜尋」)是一種先進的架構,可透過同時執行 關鍵字搜尋和向量搜尋,然後聰明地融合結果來解決這個問題。
它結合了關鍵字搜尋的字面精確度與向量搜尋的概念理解,創造了一個比單獨使用其中一種方法更精確、更有彈性的系統。
技術架構:兩個引擎,一個結果
混合 RAG 系統建構在兩個平行的擷取引擎上,這些引擎會輸入到最後的融合與產生階段。
引擎 1:Sparse Vector Retriever (關鍵字搜尋)
此引擎負責詞彙匹配。它不使用 AI 嵌入。相反,它將文件表示為 「稀疏向量」。
- What is a Sparse Vector?单个文档的稀疏向量是一个列表,其中记录了这些单词中的哪些单词出现在文档中。由於任何給定的文件只包含所有可能單字的極小部分,因此此清單大多數是「稀疏」或空的,只有少數有效的項目。
- 演算法 (BM25):為這些關鍵字匹配進行評分的黃金標準是一種稱為 Okapi BM25 的演算法。這是 TF-IDF(Term Frequency-Inverse Document Frequency)的複雜版本。簡單來說,BM25 在下列情況下會給予文件高分:
- 查詢的關鍵字在該文件中出現的頻率。
- 這些相同的關鍵字在整個文件集中相對罕見。
- 結果:稀疏向量擷取器會產生一個排序的文件清單,這些文件與使用者的查詢有很強的 lexical 匹配度。
引擎 2:密集向量檢索器 (語意搜尋)
此引擎負責概念匹配。它使用強大的 AI 模型(例如 BERT 或 OpenAI 的嵌入模型)來建立 「密集向量」。
- 什麼是密集向量?密集向量是一段文字意義的精簡數值表示。與稀疏向量不同的是,這個列表中的每個數字都有一個值,而且它的位置可以捕捉到文字語義的細微方面。
- 過程:您的查詢會轉換成密集向量,系統會搜尋專門的向量資料庫(例如 Weaviate、Pinecone 或 Milvus),以找出向量在這個高維空間中 「最接近 」的文件塊。這種「最接近」是使用類似余弦相似度的距離指標來測量的。
- 結果:密集向量擷取器會產生一個排序的文件清單,這些文件與使用者的查詢在語意或概念上有強烈的匹配。
融合階段:建立單一、統一的排名
現在系統有兩個不同的結果排序清單,一個以關鍵字為基礎,另一個則以意義為基礎。Hybrid RAG 的神奇之處在於它如何智能地將它們合併。最先進、最有效的方法是 互惠排名融合 (RRF)。
- RRF 如何運作: RRF 是一種優雅的演算法,它透過著重於文件的 rank 而非原始分數,來合併清單。每個文件都會根據其在每個清單中出現的名次的倒數獲得新的分數。公式通常為Score = 1 / (k + rank),其中 k 是一個常數(通常為 60),用來緩和排名最高的項目的影響力。
- 優勢:此方法非常有效,因為它會自然而然地給在 兩個列表中排名較高的文件較高的權重。關鍵字匹配度高(在 BM25 清單中排名高)且語義匹配度高(在向量搜尋清單中排名高)的文件將獲得非常高的融合分數。這也避免了試著將 BM25 和向量搜尋完全不同的評分系統規範化的複雜且經常不可靠的過程。
最後一步生成
一旦 RRF 演算法產生單一、智慧型的最相關文件區塊重新排序清單,這些文件區塊就會連同原始使用者查詢,傳送至大型語言模型 (例如 GPT-4、Claude)。LLM 現在有了豐富、高度相關且精確選擇的上下文集,可以綜合成最終的準確答案。
結論:混合方法的策略價值
透過實施混合 RAG 架構,您可以建立一個克服任何單一檢索方法固有弱點的系統。當確切關鍵字是關鍵時,它可確保您能大海撈針;當使用者的查詢較為抽象時,它也能瞭解更廣泛的上下文和意義。
這種雙引擎方法可大幅減少錯誤。它為 LLM 提供了更豐富、更可靠的資訊集,大幅提升最終產生答案的品質,讓您的組織在這個以資料為主的世界中擁有強大的競爭優勢。