談談我們最熟悉的陌生人:變形人 (The Transformer) (The "T" in GPT)

我敢打賭,對許多人而言,LLM 就像是一個神秘的黑洞,您聽過但卻無法掌握。今天,我會用簡單的詞彙來解釋 LLM(大型語言模型)這個關鍵概念。讓我們深入瞭解!

Transformer 是 Vaswani 等人在 2017 年推出的革命性深度學習模型,其關鍵在於自我注意機制 (Self-Attention Mechanism),專門用來處理序列資料,完全改變自然語言處理 (NLP) 的遊戲規則。

將它想像成一個「語言翻譯器」,不只是翻譯文字,還能產生文章、回答問題,甚至進行對話。這就是 Transformer 在現代 NLP 任務中佔有主導地位的原因。

要了解它,讓我們從一位超級圖書館員的故事開始。

很久很久以前,有一個神奇的圖書館。這個圖書館有一位超級圖書館員,他就是我們今天的主角 - 變形金剛。這位圖書館員擁有非凡的能力,能夠快速理解和處理各種語言的文字,回答問題,甚至創造新的內容。讓我們跟隨這位圖書館員,探索變形金剛是如何運作的。

圖書館與圖書館員

圖書管理員的旅程(訓練過程)

1.1 學徒:大量閱讀(訓練前)

我們的圖書管理員並不是天生就懂得所有語言。他們是透過不斷閱讀大量的書籍來學習的。每次他們嘗試翻譯或回答問題時,機器輔導員(訓練演算法)和人工輔導員(監督微調)都會告訴他們哪些地方做得對,哪些地方需要改進。透過這樣不斷的練習和回饋,圖書管理員逐漸提高了他們的技能。

1.2 專業發展:專門訓練(微調)

圖書館員首先透過閱讀大量的一般書籍(前期訓練)來獲得廣泛的知識。之後,如果他們需要處理特定領域的文獻,他們會集中閱讀該領域的書籍,以調整自己的知識結構(微調)。

1.3 圖書管理員的超能力(TRANSFORMER的優點)

一旦圖書館員完成訓練,他們就會獲得以下超能力:

  • 平行處理(自我專注):圖書管理員可以同時閱讀一本书的所有頁面,使他們的閱讀速度快得驚人。
  • 多頭注意:圖書管理員可以從不同角度捕捉資訊。就像同時使用放大鏡、顯微鏡和望遠鏡觀察一朵花,看到花的紋理、細胞和周圍環境。
  • 遠距離關係:他們可以輕鬆地將一本書的開頭和結尾的資訊連結起來。
  • 彈性應用:無論是翻譯、摘要或 Q&A,他們都能應付自如。
1.4 圖書管理員的麻煩 (TRANSFORMER的限制)
  • 記憶體限制(內容長度):儘管圖書館員有能力,但他們一次只能處理有限的文字。如果讀者一次給他們超過 10 本厚書 (像是 1024 個字的限制),圖書管理員可能會漏掉後面的內容-這就是為什麼 ChatGPT 在長時間的對話中會「忘記」之前的話題。
  • 運算資源:此讀取方式需要大量能源(GPU 運算資源)。
  • 可詮釋性:有時候圖書管理員無法解釋他們為何得出特定的結論(AI 黑箱)。
  • 幻覺:有時候,即使他們還沒學會的知識,他們也會自信地胡言亂語(幻覺)。
1.5 圖庫的結構 (變換器的整體架構)

我們的超級圖書館分為兩大部分:

閱讀室(編碼器):這是圖書管理員閱讀和理解輸入文字的地方。

工作流程:

  1. 將輸入文字拆分成字卡 (Tokenize) → 將「我愛機器學習」拆分成四張提示卡。
  2. 用螢光筆標示關係(自我注意)→找出 「學習」 和 「機器」 之間的強烈關係。
  3. 加入時間標籤 (位置編碼) → 確保是「我 → 愛 → 機器 → 學習」,而不是相反,確保順序正確。

真實範例:當您輸入 「IFC 有多高?」

編碼器就像一個偵探:

  1. 圈選「IFC」(主題)。
  2. 將「有多高」與數字單位連結(動物-客體結構)。
  3. 將此標記為「問題」,而非陳述。

撰寫室 (解碼器):這是圖書館員根據他們的理解創造新內容的地方。

工作流程:

  1. 請參閱圖書館員報告(編碼器輸出)。
  2. 漸漸拼出合理的字塊(自動累積生成)→先放 "IFC「,然後選擇 」412 公尺「,而不是 」50 樓"。
  3. 隨時檢查流暢程度(遮罩注意)→避免產生矛盾的組合,如 「412 公斤」。

真實範例:

  1. 鎖定 "IFC "以獲得數字答案(查看編碼器報告)。
  2. 選擇「身高」而非「體重」作為量詞。
  3. 將單位 「公尺」 與數值 "412" 對齊。

最後產生:產生答案 「IFC 高 412 公尺」。

這兩個房間緊密相連,圖書管理員可以隨時在兩者之間移動,就像變壓器的編碼器和解碼器部分互相配合一樣。

這種跨室協作是 Transformer 能流暢對話的秘訣!

1.6 與其他圖書館的比較 (與其他機型的比較)
  • 傳統圖書館 (RNN):圖書館員必須依序從頭讀到尾,不能跳讀。
  • 改良傳統圖書館 (LSTM):圖書館管理員可以記住較長的內容,但仍需要依序閱讀。
  • 超級圖書館 (Transformer):圖書館管理員可以同時看到所有內容,並可自由地將焦點集中在任何部分。

好了,現在大家應該都了解這個圖書館的結構和圖書館員的能力了!但圖書管理員實際上是如何工作的呢?我會在下一篇文章中詳細解釋圖書館管理員的工作,我們會一起探討真正的 Transformer 架構是如何運作的。

談談我們最熟悉的陌生人:變形人 (The Transformer) (The "T" in GPT)
James Huang 2025年2月8日
分享這個貼文
瞭解川普主義及其對全球秩序的影響