หน้านี้ได้รับการแปลโดย Cloud Translation API

LLM: โมเดลภาษาขนาดใหญ่คืออะไร

เทคโนโลยีใหม่กว่าอย่าง โมเดลภาษาขนาดใหญ่ (LLM) คาดการณ์โทเค็นหรือลำดับโทเค็น ซึ่งบางครั้งอาจเป็นโทเค็นที่คาดการณ์ไว้หลายย่อหน้า โปรดทราบว่าโทเค็นอาจเป็นคำ คำย่อย (ชุดย่อยของคำ) หรือแม้แต่อักขระเดียว LLM คาดการณ์ได้ดีกว่าโมเดลภาษา N-gram หรือเครือข่ายประสาทแบบเกิดซ้ำมากเนื่องจาก

LLM มีพารามิเตอร์มากกว่าโมเดลแบบเกิดซ้ำมาก
LLM รวบรวมบริบทได้มากกว่า

ส่วนนี้จะแนะนำสถาปัตยกรรมที่ประสบความสำเร็จและใช้กันอย่างแพร่หลายมากที่สุด ในการสร้าง LLM นั่นคือ Transformer

หม้อแปลงคืออะไร

Transformer เป็นสถาปัตยกรรมที่ล้ำสมัยสำหรับแอปพลิเคชันโมเดลภาษาที่หลากหลาย เช่น การแปล

รูปที่ 1 โดยป้อนว่า ฉันเป็นหมาดี โปรแกรมแปลที่ใช้ Transformer
จะแปลงอินพุตเป็นเอาต์พุต: Je suis un bon
chien ซึ่งเป็นประโยคเดียวกันที่แปลเป็นภาษาฝรั่งเศส — **รูปที่ 1** แอปพลิเคชันที่ใช้ Transformer ซึ่งแปลจากภาษาอังกฤษเป็นภาษาฝรั่งเศส

Transformer แบบเต็มประกอบด้วย Encoder และ Decoder ดังนี้

Encoder จะแปลง ข้อความอินพุตเป็นการแสดงข้อมูลระดับกลาง Encoder คือโครงข่ายระบบประสาทเทียมขนาดใหญ่
ดีโคดเดอร์จะแปลง การแทนค่ากลางนั้นเป็นข้อความที่มีประโยชน์ ดีโคดเดอร์ยังเป็น โครงข่ายประสาทขนาดใหญ่ด้วย

เช่น ในโปรแกรมแปลภาษา

ตัวเข้ารหัสจะประมวลผลข้อความอินพุต (เช่น ประโยคภาษาอังกฤษ) เป็น การแทนค่ากลางบางอย่าง
ตัวถอดรหัสจะแปลงการแทนค่ากลางนั้นเป็นข้อความเอาต์พุต (เช่น ประโยคภาษาฝรั่งเศสที่เทียบเท่า)

รูปที่ 2 โปรแกรมแปลที่ใช้ Transformer จะเริ่มต้นด้วยตัวเข้ารหัส
ซึ่งสร้างการแสดงประโยคภาษาอังกฤษ
ในรูปแบบกลาง ตัวถอดรหัสจะแปลงการแทนค่ากลางนั้นเป็น
ประโยคเอาต์พุตภาษาฝรั่งเศส — **รูปที่ 2** Transformer แบบสมบูรณ์ประกอบด้วยทั้งตัวเข้ารหัสและตัวถอดรหัส

คลิกไอคอนเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับ Transformer บางส่วน

โมดูลนี้มุ่งเน้นที่ Transformer แบบเต็ม ซึ่งมีทั้งตัวเข้ารหัส และตัวถอดรหัส อย่างไรก็ตาม สถาปัตยกรรมแบบตัวเข้ารหัสเท่านั้นและตัวถอดรหัสเท่านั้นก็มีอยู่เช่นกัน

สถาปัตยกรรมแบบตัวเข้ารหัสเท่านั้นจะแมปข้อความอินพุตเป็นการแสดงผลระดับกลาง (มักจะเป็นเลเยอร์การฝัง) กรณีการใช้งานสำหรับสถาปัตยกรรมแบบตัวเข้ารหัสเท่านั้นมีดังนี้
- คาดการณ์โทเค็นใดก็ได้ในลำดับอินพุต (ซึ่งเป็นบทบาททั่วไปของโมเดลภาษา)
- การสร้างการฝังที่ซับซ้อน ซึ่งอาจใช้เป็นอินพุตสำหรับ ระบบอื่น เช่น ตัวแยกประเภท
สถาปัตยกรรมแบบดีโคดเดอร์เท่านั้นจะสร้างโทเค็นใหม่จากข้อความที่สร้างขึ้นแล้ว โดยปกติแล้ว โมเดลแบบดีโคดเดอร์เท่านั้นจะสร้างลำดับได้ดีเยี่ยม โมเดลแบบดีโคดเดอร์เท่านั้นรุ่นใหม่สามารถใช้ความสามารถในการสร้างเพื่อสร้าง ประวัติการสนทนาและพรอมต์อื่นๆ ต่อไปได้

Self-Attention คืออะไร

Transformer อาศัยแนวคิดที่เรียกว่าการใส่ใจตนเองอย่างมากเพื่อเพิ่มบริบท กล่าวคือ ในนามของโทเค็นอินพุตแต่ละรายการ Self-Attention จะถามคำถามต่อไปนี้

"โทเค็นอินพุตแต่ละรายการส่งผลต่อการตีความโทเค็นนี้มากน้อยเพียงใด"

คำว่า "self" ใน "self-attention" หมายถึงลำดับอินพุต กลไกการใส่ใจบางอย่างจะให้น้ำหนักความสัมพันธ์ของโทเค็นอินพุตกับโทเค็นในลำดับเอาต์พุต เช่น การแปล หรือกับโทเค็นในลำดับอื่นๆ แต่การทำSelf-Attention จะพิจารณาเฉพาะความสำคัญของความสัมพันธ์ระหว่างโทเค็นในลำดับอินพุต

เพื่อให้อธิบายได้ง่ายขึ้น ให้ถือว่าโทเค็นแต่ละรายการเป็นคำ และบริบทที่สมบูรณ์เป็นเพียงประโยคเดียว ลองพิจารณาประโยคต่อไปนี้

The animal didn't cross the street because it was too tired.

ประโยคก่อนหน้ามี 11 คำ คำทั้ง 11 คำจะ สนใจคำอื่นๆ อีก 10 คำ และสงสัยว่าคำทั้ง 10 คำนั้น มีความสำคัญต่อตัวมันเองมากน้อยเพียงใด เช่น สังเกตว่าประโยคมีคำสรรพนาม มัน คำสรรพนามมักมีความกำกวม โดยปกติแล้ว คำสรรพนาม it จะอ้างถึง คำนามหรือกลุ่มคำนามล่าสุด แต่ในประโยคตัวอย่าง คำนามล่าสุดที่ it อ้างถึงคือคำใด สัตว์หรือถนน

กลไกการใส่ใจตนเองจะกำหนดความเกี่ยวข้องของคำที่อยู่ใกล้เคียงแต่ละคำกับ คำสรรพนาม it รูปที่ 3 แสดงผลลัพธ์ โดยเส้นยิ่งเป็นสีน้ำเงินมากเท่าใด คำนั้นก็จะยิ่งมีความสำคัญต่อคำสรรพนาม it มากขึ้นเท่านั้น กล่าวคือ animal มีความสำคัญมากกว่า street สำหรับคำสรรพนาม it

รูปที่ 3 ความเกี่ยวข้องของคำทั้ง 11 คำในประโยค
"สัตว์ตัวนั้นไม่ข้ามถนนเพราะเหนื่อยเกินไป"
กับคำสรรพนาม "มัน" คำว่า "สัตว์" เกี่ยวข้องกับ
คำสรรพนาม "มัน" มากที่สุด — **รูปที่ 3** Self-attention สำหรับคำสรรพนาม it จาก Transformer: A Novel Neural Network Architecture for Language Understanding

ในทางกลับกัน สมมติว่าคำสุดท้ายในประโยคมีการเปลี่ยนแปลงดังนี้

The animal didn't cross the street because it was too wide.

ในประโยคที่แก้ไขนี้ หวังว่าการทำความเข้าใจตนเองจะให้คะแนนถนนว่ามีความเกี่ยวข้องกับคำสรรพนาม it มากกว่าสัตว์

กลไกการทำงานแบบ Self-Attention บางอย่างเป็นแบบสองทิศทาง ซึ่งหมายความว่ากลไกดังกล่าวจะ คำนวณคะแนนความเกี่ยวข้องของโทเค็นที่อยู่ก่อนหน้าและอยู่หลังคำที่ กำลังพิจารณา ตัวอย่างเช่น ในรูปที่ 3 คุณจะเห็นว่ามีการตรวจสอบคำทั้ง 2 ด้านของ มัน ดังนั้น กลไกการทำงานแบบ Self-Attention แบบ 2 ทิศทางจึงรวบรวมบริบทจากคำที่อยู่ทั้ง 2 ด้านของคำที่กำลังพิจารณาได้ ในทางตรงกันข้าม กลไกการทำงานแบบ Self-Attention ทิศทางเดียวจะรวบรวมบริบทจากคำที่อยู่ด้านใดด้านหนึ่งของคำที่กำลังพิจารณาเท่านั้น การทำ Self-Attention แบบสองทิศทางมีประโยชน์อย่างยิ่งในการสร้างการแสดงลำดับทั้งหมด ในขณะที่แอปพลิเคชันที่สร้างลำดับทีละโทเค็นต้องใช้ Self-Attention แบบทิศทางเดียว ด้วยเหตุนี้ ตัวเข้ารหัสจึงใช้การทำงานแบบ Self-Attention แบบสองทิศทาง ขณะที่ตัวถอดรหัสใช้แบบทิศทางเดียว

Multi-Head Multi-Layer Self-Attention คืออะไร

โดยปกติแล้วเลเยอร์ Self-Attention แต่ละเลเยอร์จะประกอบด้วยหัว Self-Attentionหลายหัว เอาต์พุตของเลเยอร์คือการดำเนินการทางคณิตศาสตร์ (เช่น ค่าเฉลี่ยถ่วงน้ำหนักหรือผลคูณจุด) ของเอาต์พุตของหัวต่างๆ

เนื่องจากพารามิเตอร์ของแต่ละหัวได้รับการเริ่มต้นเป็นค่าแบบสุ่ม หัวที่แตกต่างกันจึงสามารถเรียนรู้ความสัมพันธ์ที่แตกต่างกันระหว่างแต่ละคำที่สนใจกับคำที่อยู่ใกล้เคียง ตัวอย่างเช่น หัวแบบ Self-Attention ที่อธิบายไว้ในส่วนก่อนหน้า มุ่งเน้นที่การพิจารณาว่าคำสรรพนาม it อ้างถึงคำนามใด อย่างไรก็ตาม หัวการใส่ใจตนเองอื่นๆ ภายในเลเยอร์เดียวกันอาจเรียนรู้ความเกี่ยวข้องทางไวยากรณ์ของแต่ละคำกับคำอื่นๆ หรือเรียนรู้การโต้ตอบอื่นๆ

โมเดล Transformer ที่สมบูรณ์จะซ้อนเลเยอร์การใส่ใจตนเองหลายเลเยอร์ไว้ด้านบนของกันและกัน เอาต์พุตจากเลเยอร์ก่อนหน้าจะกลายเป็นอินพุตสำหรับเลเยอร์ถัดไป การซ้อนกันนี้ช่วยให้โมเดลสร้างความเข้าใจข้อความที่ซับซ้อนและเป็นนามธรรมมากขึ้นเรื่อยๆ ในขณะที่เลเยอร์ก่อนหน้าอาจมุ่งเน้นไปที่ไวยากรณ์พื้นฐาน เลเยอร์ที่ลึกลงไปจะผสานรวมข้อมูลดังกล่าวเพื่อทำความเข้าใจแนวคิดที่ซับซ้อนยิ่งขึ้น เช่น ความรู้สึก บริบท และลิงก์ตามธีมในอินพุตทั้งหมด

คลิกไอคอนเพื่อดูข้อมูลเกี่ยวกับ Big O สำหรับ LLM

การใส่ใจตนเองบังคับให้ทุกคำในบริบท เรียนรู้ความเกี่ยวข้องของคำอื่นๆ ทั้งหมดในบริบท ดังนั้นจึงเป็นเรื่องน่าดึงดูดใจ ที่จะประกาศว่าปัญหานี้เป็นปัญหา O(N²) โดยที่

N คือจำนวนโทเค็นในบริบท

หาก Big O ก่อนหน้านี้ยังไม่น่ากังวลพอ Transformers มีเลเยอร์การทำงานแบบ Self-Attention หลายเลเยอร์และหัวการทำงานแบบ Self-Attention หลายหัวต่อ เลเยอร์การทำงานแบบ Self-Attention 1 เลเยอร์ ดังนั้น Big O จึงเป็นดังนี้

O(N² · S · D)

ที่ไหน

S คือจำนวนเลเยอร์การทำงานแบบ Self-Attention
D คือจำนวนหัวต่อเลเยอร์

คลิกไอคอนเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีฝึก LLM

คุณอาจไม่เคยฝึก LLM ตั้งแต่ต้น การฝึก LLM ระดับอุตสาหกรรมต้องใช้ความเชี่ยวชาญด้าน ML ทรัพยากรการประมวลผล และเวลาเป็นจำนวนมาก ไม่ว่าในกรณีใด คุณได้คลิกไอคอนเพื่อ ดูข้อมูลเพิ่มเติมแล้ว เราจึงต้องอธิบายให้คุณทราบ

ส่วนประกอบหลักในการสร้าง LLM คือข้อมูลการฝึก (ข้อความ) จำนวนมหาศาล ซึ่งมักจะผ่านการกรองมาบ้าง โดยปกติแล้ว เฟสแรก ของการฝึกมักจะเป็นรูปแบบหนึ่งของ การเรียนรู้แบบไม่มีการกำกับดูแลในข้อมูลการฝึกนั้น โดยเฉพาะอย่างยิ่ง โมเดลจะฝึกกับการคาดการณ์ที่มาสก์ ซึ่งหมายความว่าระบบจะซ่อนโทเค็นบางรายการในข้อมูลการฝึกโดยเจตนา โมเดลจะฝึก โดยพยายามคาดการณ์โทเค็นที่ขาดหายไปเหล่านั้น ตัวอย่างเช่น สมมติว่าประโยคต่อไปนี้เป็นส่วนหนึ่งของข้อมูลการฝึก

The residents of the sleepy town weren't prepared for what came next.

ระบบจะนำโทเค็นแบบสุ่มออก เช่น

The ___ of the sleepy town weren't prepared for ___ came next.

LLM เป็นเพียงโครงข่ายประสาทเทียม ดังนั้น Loss (จำนวนโทเค็นที่มาสก์ซึ่งโมเดลพิจารณาอย่างถูกต้อง) จะเป็นตัวกำหนดระดับที่ Backpropagation อัปเดตค่าพารามิเตอร์

โมเดลที่ใช้ Transformer ซึ่งได้รับการฝึกให้คาดการณ์ข้อมูลที่ขาดหายไปทีละน้อย จะเรียนรู้ที่จะตรวจหาแพทเทิร์นและโครงสร้างลำดับที่สูงกว่าในข้อมูลเพื่อหาเบาะแส เกี่ยวกับโทเค็นที่ขาดหายไป ลองดูตัวอย่างอินสแตนซ์ที่มาสก์ต่อไปนี้

Oranges are traditionally ___ by hand. Once clipped from a tree, __ don't ripen.

การฝึกอย่างเข้มข้นกับตัวอย่างที่มาสก์ไว้จำนวนมหาศาลช่วยให้ LLM เรียนรู้ว่า "เก็บเกี่ยว" หรือ "เด็ด" เป็นคำที่มีความน่าจะเป็นสูงที่จะตรงกับโทเค็นแรก และ "ส้ม" หรือ "มัน" เป็นตัวเลือกที่ดีสำหรับโทเค็นที่ 2

ขั้นตอนการฝึกเพิ่มเติมที่ไม่บังคับซึ่งเรียกว่าการปรับแต่ง คำสั่งจะช่วยปรับปรุงความสามารถของ LLM ในการทำตามคำสั่งได้

ทำไม Transformers ถึงมีขนาดใหญ่มาก

Transformer มีพารามิเตอร์หลายแสนล้านหรือหลายล้านล้าน โดยทั่วไปแล้ว หลักสูตรนี้แนะนำให้สร้างโมเดลที่มีพารามิเตอร์จำนวนน้อยกว่าโมเดลที่มีพารามิเตอร์จำนวนมาก เนื่องจากโมเดลที่มีพารามิเตอร์จำนวนน้อยกว่าจะใช้ทรัพยากรน้อยกว่า ในการคาดการณ์เมื่อเทียบกับโมเดลที่มีพารามิเตอร์จำนวนมากกว่า อย่างไรก็ตาม งานวิจัยแสดงให้เห็นว่า Transformer ที่มีพารามิเตอร์มากกว่า มีประสิทธิภาพเหนือกว่า Transformer ที่มีพารามิเตอร์น้อยกว่าอย่างสม่ำเสมอ

แต่ LLM สร้างข้อความได้อย่างไร

คุณคงเคยเห็นวิธีที่นักวิจัยฝึก LLM ให้คาดเดาคำที่หายไป 1-2 คำ และอาจไม่ประทับใจนัก เพราะการคาดเดาคำ 1-2 คำก็คือฟีเจอร์ ป้อนข้อความอัตโนมัติที่ฝังอยู่ในซอฟต์แวร์ต่างๆ สำหรับข้อความ อีเมล และการเขียน คุณอาจสงสัยว่า LLM สร้างประโยค ย่อหน้า หรือ ไฮกุเกี่ยวกับการเก็งกำไรได้อย่างไร

ในความเป็นจริงแล้ว LLM เป็นกลไกการเติมข้อความอัตโนมัติที่สามารถคาดคะเน (เติม) โทเค็นหลายพันรายการได้โดยอัตโนมัติ เช่น ลองพิจารณาประโยค ตามด้วยประโยคที่มาสก์

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM สามารถสร้างความน่าจะเป็นสำหรับประโยคที่มาสก์ได้ ซึ่งรวมถึง

Probability	คำ
3.1%	เช่น นั่ง หมอบ และ กลิ้ง
2.9%	เช่น เขารู้จักคำสั่งนั่ง หมอบ และ กลิ้ง

LLM ที่มีขนาดใหญ่เพียงพอจะสร้างความน่าจะเป็นสำหรับย่อหน้าและเรียงความทั้ง หมดได้ คุณอาจมองว่าคำถามของผู้ใช้ที่ส่งไปยัง LLM เป็นประโยค "ที่กำหนด" ตามด้วยมาสก์สมมติ เช่น

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM จะสร้างความน่าจะเป็นสำหรับคำตอบที่เป็นไปได้ต่างๆ

อีกตัวอย่างหนึ่งคือ LLM ที่ได้รับการฝึกฝนจาก "โจทย์" คณิตศาสตร์จำนวนมหาศาลอาจดูเหมือนว่าใช้การให้เหตุผลทางคณิตศาสตร์ที่ซับซ้อน แต่ LLM เหล่านั้นก็แค่เติมข้อความพรอมต์โจทย์ปัญหาให้สมบูรณ์

ประโยชน์ของ LLM

LLM สามารถสร้างข้อความที่ชัดเจนและเข้าใจง่ายสำหรับกลุ่มเป้าหมายที่หลากหลาย LLM สามารถคาดการณ์งานที่ได้รับการฝึกมาโดยเฉพาะได้ นักวิจัยบางคนอ้างว่า LLM ยังสามารถคาดการณ์อินพุตที่ไม่ได้รับการฝึกอย่างชัดแจ้งได้ด้วย แต่นักวิจัยคนอื่นๆ ได้หักล้างคำกล่าวอ้างนี้

ปัญหาเกี่ยวกับ LLM

การฝึก LLM มีปัญหาหลายอย่าง เช่น

รวบรวมชุดการฝึกขนาดใหญ่
การใช้ทรัพยากรในการประมวลผลและไฟฟ้าจำนวนมากเป็นเวลาหลายเดือน
การแก้ปัญหาความท้าทายด้านการประมวลผลแบบคู่ขนาน

การใช้ LLM เพื่ออนุมานการคาดการณ์ทำให้เกิดปัญหาต่อไปนี้

LLM หลอน ซึ่งหมายความว่าการคาดการณ์ของ LLM มักมีข้อผิดพลาด
LLM ใช้ทรัพยากรในการประมวลผลและไฟฟ้าจำนวนมหาศาล โดยปกติแล้ว การฝึก LLM ในชุดข้อมูลที่ใหญ่ขึ้นจะช่วยลด ปริมาณทรัพยากรที่จำเป็นสำหรับการอนุมาน แม้ว่าชุดการฝึกที่ใหญ่ขึ้น จะทำให้ต้องใช้ทรัพยากรการฝึกมากขึ้นก็ตาม
LLM มีอคติได้ทุกรูปแบบเช่นเดียวกับโมเดล ML ทั้งหมด

แบบฝึกหัด: ทดสอบความเข้าใจ

สมมติว่ามีการฝึก Transformer กับเอกสาร 1 พันล้านฉบับ ซึ่งรวมถึง เอกสารหลายพันฉบับที่มีคำว่าช้างอย่างน้อย 1 ครั้ง ข้อความใดต่อไปนี้ที่น่าจะเป็นจริง

ต้นกระถินซึ่งเป็นส่วนสำคัญในอาหารของช้างจะ ค่อยๆ ได้คะแนนการสนใจตนเองสูงขึ้นเมื่อมีคำว่า ช้าง

ได้ และจะช่วยให้ Transformer ตอบคำถามเกี่ยวกับ อาหารของช้างได้

Transformer จะเชื่อมโยงคำว่าช้างกับสำนวนต่างๆ ที่มีคำว่าช้าง

ใช่ ระบบจะเริ่มกำหนดคะแนนการสนใจตนเองสูง ระหว่างคำว่าช้างกับคำอื่นๆ ใน สำนวนเกี่ยวกับช้าง

Transformer จะค่อยๆ เรียนรู้ที่จะไม่สนใจการใช้คำว่าช้างในข้อมูลการฝึกที่ประชดประชันหรือ เสียดสี

Transformer ที่มีขนาดใหญ่เพียงพอซึ่งได้รับการฝึกในชุดการฝึกที่กว้างเพียงพอ จะมีความเชี่ยวชาญในการจดจำการประชด ขำขัน และเสียดสี ดังนั้น Transformer จึงเรียนรู้จากมุกตลกแทนที่จะเพิกเฉยต่อมุกตลก

ข้อมูลเบื้องต้น: โมเดลภาษาคืออะไร (10 นาที)

การปรับแต่ง การปรับให้เหมาะสม และการวิศวกรรมพรอมต์ (10 นาที)