我敢打賭,對許多人而言,LLM 就像是一個神秘的黑洞,您聽過但卻無法掌握。今天,我會用簡單的詞彙來解釋 LLM(大型語言模型)這個關鍵概念。讓我們深入瞭解!
Transformer 是 Vaswani 等人在 2017 年推出的革命性深度學習模型,其關鍵在於自我注意機制 (Self-Attention Mechanism),專門用來處理序列資料,完全改變自然語言處理 (NLP) 的遊戲規則。
將它想像成一個「語言翻譯器」,不只是翻譯文字,還能產生文章、回答問題,甚至進行對話。這就是 Transformer 在現代 NLP 任務中佔有主導地位的原因。
要了解它,讓我們從一位超級圖書館員的故事開始。
很久很久以前,有一個神奇的圖書館。這個圖書館有一位超級圖書館員,他就是我們今天的主角 - 變形金剛。這位圖書館員擁有非凡的能力,能夠快速理解和處理各種語言的文字,回答問題,甚至創造新的內容。讓我們跟隨這位圖書館員,探索變形金剛是如何運作的。
圖書館與圖書館員
圖書管理員的旅程(訓練過程)
1.1 學徒:大量閱讀(訓練前)
我們的圖書管理員並不是天生就懂得所有語言。他們是透過不斷閱讀大量的書籍來學習的。每次他們嘗試翻譯或回答問題時,機器輔導員(訓練演算法)和人工輔導員(監督微調)都會告訴他們哪些地方做得對,哪些地方需要改進。透過這樣不斷的練習和回饋,圖書管理員逐漸提高了他們的技能。
1.2 專業發展:專門訓練(微調)
圖書館員首先透過閱讀大量的一般書籍(前期訓練)來獲得廣泛的知識。之後,如果他們需要處理特定領域的文獻,他們會集中閱讀該領域的書籍,以調整自己的知識結構(微調)。
1.3 圖書管理員的超能力(TRANSFORMER的優點)
一旦圖書館員完成訓練,他們就會獲得以下超能力:
- 平行處理(自我專注):圖書管理員可以同時閱讀一本书的所有頁面,使他們的閱讀速度快得驚人。
- 多頭注意:圖書管理員可以從不同角度捕捉資訊。就像同時使用放大鏡、顯微鏡和望遠鏡觀察一朵花,看到花的紋理、細胞和周圍環境。
- 遠距離關係:他們可以輕鬆地將一本書的開頭和結尾的資訊連結起來。
- 彈性應用:無論是翻譯、摘要或 Q&A,他們都能應付自如。
1.4 圖書管理員的麻煩 (TRANSFORMER的限制)。
- 記憶體限制(內容長度):儘管圖書館員有能力,但他們一次只能處理有限的文字。如果讀者一次給他們超過 10 本厚書 (像是 1024 個字的限制),圖書管理員可能會漏掉後面的內容-這就是為什麼 ChatGPT 在長時間的對話中會「忘記」之前的話題。
- 運算資源:此讀取方式需要大量能源(GPU 運算資源)。
- 可詮釋性:有時候圖書管理員無法解釋他們為何得出特定的結論(AI 黑箱)。
- 幻覺:有時候,即使他們還沒學會的知識,他們也會自信地胡言亂語(幻覺)。
1.5 圖庫的結構 (變換器的整體架構)。
我們的超級圖書館分為兩大部分:
閱讀室(編碼器):這是圖書管理員閱讀和理解輸入文字的地方。
工作流程:
- 將輸入文字拆分成字卡 (Tokenize) → 將「我愛機器學習」拆分成四張提示卡。
- 用螢光筆標示關係(自我注意)→找出 「學習」 和 「機器」 之間的強烈關係。
- 加入時間標籤 (位置編碼) → 確保是「我 → 愛 → 機器 → 學習」,而不是相反,確保順序正確。
真實範例:當您輸入 「IFC 有多高?」
編碼器就像一個偵探:
- 圈選「IFC」(主題)。
- 將「有多高」與數字單位連結(動物-客體結構)。
- 將此標記為「問題」,而非陳述。
撰寫室 (解碼器):這是圖書館員根據他們的理解創造新內容的地方。
工作流程:
- 請參閱圖書館員報告(編碼器輸出)。
- 漸漸拼出合理的字塊(自動累積生成)→先放 "IFC「,然後選擇 」412 公尺「,而不是 」50 樓"。
- 隨時檢查流暢程度(遮罩注意)→避免產生矛盾的組合,如 「412 公斤」。
真實範例:
- 鎖定 "IFC "以獲得數字答案(查看編碼器報告)。
- 選擇「身高」而非「體重」作為量詞。
- 將單位 「公尺」 與數值 "412" 對齊。
最後產生:產生答案 「IFC 高 412 公尺」。
這兩個房間緊密相連,圖書管理員可以隨時在兩者之間移動,就像變壓器的編碼器和解碼器部分互相配合一樣。
這種跨室協作是 Transformer 能流暢對話的秘訣!
1.6 與其他圖書館的比較 (與其他機型的比較)
- 傳統圖書館 (RNN):圖書館員必須依序從頭讀到尾,不能跳讀。
- 改良傳統圖書館 (LSTM):圖書館管理員可以記住較長的內容,但仍需要依序閱讀。
- 超級圖書館 (Transformer):圖書館管理員可以同時看到所有內容,並可自由地將焦點集中在任何部分。
好了,現在大家應該都了解這個圖書館的結構和圖書館員的能力了!但圖書管理員實際上是如何工作的呢?我會在下一篇文章中詳細解釋圖書館管理員的工作,我們會一起探討真正的 Transformer 架構是如何運作的。