OpenAI Devday นอกจาก GPT-4 Turbo แล้วยังมีอะไรอีกบ้าง?

เจาะลึก OpenAI DevDay: นอกจาก GPT-4 Turbo มีอะไรใหม่?

By Sean Chen, 10 พฤศจิกายน 2023

ในงาน OpenAI DevDay ที่จัดขึ้นเมื่อวันที่ 6 พฤศจิกายน 2023, Sam Altman ซีอีโอของ OpenAI ได้ก้าวข้ามขีดจำกัดอีกครั้ง ทำให้ผู้พัฒนา AI มีความเป็นไปได้ใหม่ๆ ผ่านบทความนี้ เรามาทำความเข้าใจเสน่ห์ของ GPT-4 Turbo สำหรับนักพัฒนาซอฟต์แวร์กันเถอะ

OpenAI ได้จัดงาน OpenAI DevDay เมื่อวันที่ 6 พฤศจิกายน 2023 ในขณะที่บริษัทเทคโนโลยีขนาดใหญ่อื่นๆ ยังคงพยายามไล่ตามประสิทธิภาพของ GPT-4, Sam Altman ซีอีโอของ OpenAI ได้ก้าวข้ามขีดจำกัดอีกครั้ง ทำให้ผู้พัฒนา AI มีความเป็นไปได้ใหม่ๆ แสดงให้เห็นถึงตำแหน่งที่ OpenAI นำหน้าในด้านปัญญาประดิษฐ์

GPT-4 Turbo ที่เหนือกว่า: เร็วขึ้น รองรับข้อความมากขึ้น และราคาถูกลง

บริบท (Context) หมายถึงปริมาณข้อความทั้งหมดที่ป้อนให้กับโมเดลภาษาขนาดใหญ่ในรูปแบบของคำแนะนำและการสนทนา ในอดีตปริมาณข้อความทั้งหมดรองรับได้สูงสุด 32,000 โทเค็น (และใช้ได้เฉพาะนักพัฒนาบางส่วน) แต่ GPT-4 Turbo รองรับได้สูงถึง 128,000 โทเค็น ซึ่งเทียบเท่ากับการป้อนหนังสือ 300 หน้าให้กับ GPT-4 Turbo เพื่อให้โมเดลสร้างผลลัพธ์ได้ ในด้านความเร็ว ข้อเสียที่โดดเด่นที่สุดของ GPT-4 ในอดีตคือความช้าในกระบวนการสร้างผลลัพธ์ ทำให้บริษัทต่างๆ ยังคงใช้ GPT-3.5 ในการแก้ปัญหาส่วนใหญ่ในทางปฏิบัติ ดังนั้น GPT-4 Turbo จึงแก้ไขปัญหานี้ ทำให้ความเร็วในการสร้างผลลัพธ์ใกล้เคียงกับ GPT-3.5 และเพิ่มความหลากหลายของสถานการณ์ที่สามารถรวม GPT-4 Turbo ได้ ในด้านค่าใช้จ่าย เมื่อเทียบกับเวอร์ชันก่อนหน้า GPT-4 ค่าบริการสำหรับคำแนะนำถูกลง 3 เท่า และค่าบริการสำหรับข้อความที่สร้างขึ้นถูกลง 2 เท่า

ฟังก์ชันการเรียกใช้ที่เป็นมิตรกับนักพัฒนามากขึ้น

ฟังก์ชันการเรียกใช้คืออะไร?

OpenAI ได้เปิดตัวฟังก์ชันการเรียกใช้เมื่อต้นปีนี้ ซึ่งช่วยให้นักพัฒนาสามารถเรียกใช้ฟังก์ชันโค้ดที่กำหนดเองได้เมื่อใช้ GPT กล่าวอีกนัยหนึ่งคือสามารถเชื่อมต่อ AI อัจฉริยะกับ API ต่างๆ ได้อย่างมากมาย เพิ่มขอบเขตการใช้งานของ OpenAI ได้อย่างมาก โมเดลนี้มีประสิทธิภาพสูงเพียงแค่ให้นักพัฒนาจัดเตรียมอินเทอร์เฟซคำสั่งหลายตัว GPT ก็สามารถตัดสินใจเรียกใช้คำสั่งใดและใช้พารามิเตอร์ที่เหมาะสมได้

ตัวอย่าง: นักพัฒนาหลอดไฟอัจฉริยะให้คำสั่งสองคำสั่ง: "ตั้งค่าสี" และ "ตั้งค่าช่วงเวลาการตรวจจับ" คำสั่งตั้งค่าสีมีพารามิเตอร์สามแบบ: แสงขาว, แสงธรรมชาติ และแสงกลางคืน เมื่อป้อนคำแนะนำให้ GPT ว่า "โปรดตั้งค่าหลอดไฟที่เหมาะสมสำหรับกลางคืน" GPT จะตัดสินใจใช้คำสั่ง "ตั้งค่าสี" และใช้พารามิเตอร์เป็น "แสงกลางคืน" กระบวนการตัดสินใจนี้ไม่ต้องการการมีส่วนร่วมของมนุษย์ ในอดีตจำเป็นต้องใช้เทคโนโลยี NLP เพื่อเขียนตรรกะที่กำหนดเองเพื่อให้บรรลุฟังก์ชันนี้ แต่ตอนนี้สามารถทำได้เพียงแค่เรียกใช้โปรแกรม GPT

มีการปรับปรุงอะไรบ้าง?

การอัปเดตครั้งนี้ทำให้ GPT สามารถตัดสินใจได้แม่นยำขึ้นว่าจะใช้คำสั่งและพารามิเตอร์ใด และยังปรับปรุงให้ GPT สามารถเรียกใช้คำสั่งหลายคำสั่งพร้อมกันได้ ในอดีตเมื่อสถานการณ์ซับซ้อน นักพัฒนาจำเป็นต้องเขียนโปรแกรมเพิ่มเติมเพื่อให้ฟังก์ชันเรียกใช้หลายครั้ง การอัปเดตครั้งนี้ทำให้ GPT สามารถดำเนินการคำสั่งหลายคำสั่งพร้อมกันได้ และผลลัพธ์ที่ได้จากแต่ละคำสั่งสามารถส่งต่อกันได้ ตัวอย่าง: ใช้คำแนะนำว่า "ฉันมักตื่นขึ้นมากลางดึกเพื่อดื่มน้ำ โปรดตั้งค่าหลอดไฟที่เหมาะสม" ในขณะนี้ GPT สามารถตัดสินใจเรียกใช้คำสั่ง "ตั้งค่าสี" และ "ตั้งค่าช่วงเวลาการตรวจจับ" และกำหนดพารามิเตอร์ "ช่วงเวลาการตรวจจับ" เป็น "เวลา 01:00 ถึง 06:30" พร้อมทั้งใช้ "ตั้งค่าสี" และพารามิเตอร์เป็น "แสงกลางคืน"

นอกจากนี้ โมเดลภาษาที่ผ่านมาเคยตอบกลับด้วย "ข้อความที่ไม่มีรูปแบบเฉพาะ" หากต้องการให้ตอบกลับในรูปแบบเฉพาะ จำเป็นต้องระบุในคำแนะนำว่า "โปรดตอบกลับในรูปแบบ xml" อย่างไรก็ตาม นักพัฒนามักพบปัญหาว่ารูปแบบการตอบกลับไม่ใช่ xml เสมอไป บางครั้งมีการผสมผสานข้อความธรรมดา ทำให้เกิดข้อผิดพลาดในการแปลงรูปแบบ การอัปเดตครั้งนี้ GPT-4 Turbo อนุญาตให้นักพัฒนาตั้งค่าพารามิเตอร์ response_format สามารถตั้งค่าเป็น xml หรือ json ซึ่งเป็นรูปแบบการตอบกลับ API ที่พบได้บ่อย ทำให้โปรแกรมมีความเสถียรมากขึ้น

สุดท้าย OpenAI ยังอนุญาตให้ผู้ใช้ตั้งค่าพารามิเตอร์ Seed ซึ่งกำหนดความสุ่มของเนื้อหาที่ GPT ตอบกลับ การตั้งค่าพารามิเตอร์นี้ช่วยให้นักพัฒนามั่นใจว่าโมเดลภาษาจะตอบกลับอย่างสม่ำเสมอ ทำให้นักพัฒนาสามารถเขียนกรณีทดสอบได้อย่างมั่นใจ (หลีกเลี่ยงการที่โมเดลภาษาสร้างคำตอบที่แตกต่างกันอย่างกะทันหัน) เพิ่มความสามารถในการทดสอบและคุณภาพของโปรแกรม

API ผู้ช่วย (Assistants API)

ในอดีตหากต้องการใช้โมเดลภาษาขนาดใหญ่ในการพัฒนาแอปพลิเคชัน AI ที่สร้างขึ้น ต้องใช้ชุดซอฟต์แวร์ของบุคคลที่สาม เช่น LangChain เพื่อให้โมเดลภาษาขนาดใหญ่มีความสามารถขั้นสูง เช่น การใช้โมเดลภาษาหลายภาษา ความสามารถในการปรับแต่งข้อมูล ความจำ และตัวแทน (Agent ที่ช่วยให้ AI สามารถดำเนินงานต่อเนื่องและตัดสินใจต่อเนื่องได้) เพื่อให้สามารถใช้งาน AI ในสถานการณ์ที่ซับซ้อนมากขึ้น

API ผู้ช่วยที่ประกาศใน DevDay ได้รวมความสามารถหลายอย่างที่กล่าวถึงข้างต้นเข้าไปใน API อย่างเป็นทางการ ช่วยลดปัญหาที่นักพัฒนาพบในการรวมชุดซอฟต์แวร์ของบุคคลที่สาม นี่เป็นครั้งแรกที่ทางการก้าวออกจากการปรับปรุงประสิทธิภาพของโมเดลภาษาขนาดใหญ่เพียงอย่างเดียว และเริ่มสำรวจการใช้งาน "ตัวแทน" เอกสารทางการระบุว่า "ผู้ช่วยคือ AI ที่มุ่งเน้นเป้าหมาย ซึ่ง AI นี้อนุญาตให้ใช้คำสั่งเฉพาะ ใช้ข้อมูลภายนอก หรือใช้โมเดลภาษาต่างๆ และเครื่องมือในการดำเนินงาน"

API ผู้ช่วยใหม่ยังมีเครื่องมือหลายอย่างในตัว นอกจาก "ฟังก์ชันการเรียกใช้" ที่กล่าวถึงข้างต้น ยังมี "ตัวแปลโค้ด" และ "การดึงข้อมูล"

ตัวแปลโค้ด (Code Interpreter)

ตัวแปลโค้ดของ GPT-4 อนุญาตให้โค้ดที่เขียนเองสามารถดำเนินการในสภาพแวดล้อมแซนด์บ็อกซ์ (ปัจจุบันรองรับเฉพาะ Python) ในอดีตวิศวกรที่ได้รับความช่วยเหลือจาก GPT-4 ในการเขียนโค้ด จำเป็นต้องคัดลอกและวางในสภาพแวดล้อมการพัฒนาของตนเองเพื่อทดสอบ แต่สภาพแวดล้อมแซนด์บ็อกซ์ที่ OpenAI จัดให้เพียงพอที่จะให้ GPT-4 ตรวจสอบโค้ดของตนเองว่าถูกต้องหรือไม่ และสามารถปรับปรุงโค้ดของตนเองตามผลลัพธ์ที่ได้จนกว่าจะบรรลุเป้าหมาย

อย่างไรก็ตาม ตัวแปลโค้ดมีบทบาทมากกว่า "ให้ GPT-4 ตรวจสอบความถูกต้องของโค้ดที่เขียนเอง" ความหมายที่ใหญ่กว่าคือ "ให้โมเดลภาษาขนาดใหญ่มีคอมพิวเตอร์ของตนเอง" คอมพิวเตอร์สามารถดำเนินการงานส่วนใหญ่ได้ ปัจจุบันโมเดลภาษาขนาดใหญ่สามารถโต้ตอบในรูปแบบคำสั่งโปรแกรมได้ แม้ว่าจะดำเนินการในสภาพแวดล้อมแซนด์บ็อกซ์ที่จำกัดทำให้ตัวแปลโค้ดสามารถใช้ชุดซอฟต์แวร์ของบุคคลที่สามได้เฉพาะบางชุด แต่ก็เพียงพอที่จะดำเนินการ "งานส่วนใหญ่ที่ภาษาโปรแกรม Python ถนัด" เช่น การประมวลผลข้อมูลและการเรียก API และสามารถอ่านไฟล์โค้ดที่ผู้ใช้จัดเตรียมให้ได้ สภาพแวดล้อมแซนด์บ็อกซ์ในแง่ของความปลอดภัยสามารถป้องกันไม่ให้ความสามารถที่แข็งแกร่งของโมเดลภาษาขนาดใหญ่ถูกนำไปใช้ในทางที่ผิด จึงมีการรับประกันในด้านความปลอดภัย

การดึงข้อมูล (Retrieval)

"การดึงข้อมูล" ช่วยให้ผู้ใช้สามารถอัปโหลดข้อมูลของตนเอง (เช่น ข้อมูลในอุตสาหกรรมเฉพาะ ข้อมูลผลิตภัณฑ์ หรือเอกสารภายใน) และทำให้โมเดลภาษาขนาดใหญ่สามารถตอบคำถามเกี่ยวกับข้อมูลเหล่านี้ได้ นำไปใช้ในอุตสาหกรรมหรือสาขาของตนเอง ฟังก์ชันนี้เป็นจุดสนใจที่มีการแข่งขันสูงตั้งแต่ GPT-3 เปิดตัว การดึงข้อมูลที่ประกาศใน DevDay เป็นครั้งแรกที่ทางการให้บริการโซลูชันดั้งเดิมสำหรับฟังก์ชันนี้ เช่น การสร้างหุ่นยนต์ความรู้ภายในองค์กร เช่น ผู้จัดการโครงการ AI นักวิเคราะห์ระบบ AI; หุ่นยนต์บริการลูกค้าในด้านการแพทย์ การเงิน ฯลฯ ในอดีตจำเป็นต้องใช้เทคนิคการประมวลผลภาษาที่ซับซ้อนเพื่อให้บรรลุผล แต่ตอนนี้มีโมเดลภาษาที่แข็งแกร่งของ GPT-4 และฟังก์ชันการดึงข้อมูลที่ OpenAI จัดให้ ทำให้นักพัฒนาสามารถมุ่งเน้นไปที่ตรรกะทางธุรกิจ ความถูกต้องของข้อมูล และการปรับแต่งรายละเอียด นอกจากนี้ การใช้ชุดซอฟต์แวร์ของบุคคลที่สามในอดีตที่ต้องการฐานข้อมูลเวกเตอร์ การประมวลผลข้อมูลเป็นส่วนๆ หรืออัลกอริทึมการค้นหาเฉพาะที่ OpenAI สนับสนุนอย่างเป็นทางการ ไม่จำเป็นต้องดำเนินการเพิ่มเติมเกี่ยวกับกระบวนการพัฒนาและค่าใช้จ่ายที่เกี่ยวข้อง OpenAI ยังเน้นย้ำว่า การสนทนาและไฟล์ที่ใช้ใน API ผู้ช่วยจะไม่ถูกนำไปใช้ในการฝึกอบรมโมเดลรุ่นต่อไปของ OpenAI

สรุป

โดยรวมแล้ว OpenAI นอกจากจะปรับปรุงประสิทธิภาพของโมเดลอย่างต่อเนื่อง ยังขยายการใช้งานโมเดลภาษาขนาดใหญ่อย่างต่อเนื่อง Sam Altman เคยกล่าวว่า GPT-5 จะไม่เปิดตัวในระยะเวลาอันใกล้ ด้วยความแม่นยำของ GPT-4 ในปัจจุบัน การใช้ต้นทุนมหาศาลในการฝึกอบรมโมเดลภาษาที่มีพารามิเตอร์ใหญ่ขึ้นดูเหมือนจะไม่จำเป็น การปรับปรุงประสิทธิภาพ ความง่ายในการใช้งาน และความสามารถในการขยายของ GPT-4 เป็นจุดที่ OpenAI มุ่งเน้นในขณะนี้ สำหรับนักพัฒนา บริษัท และผู้บริโภคปลายทาง การนำ AI ที่แข็งแกร่งและสามารถใช้งานได้ในหลายสถานการณ์เข้ามาใช้กลายเป็นจุดสำคัญของการเปลี่ยนแปลงดิจิทัลในยุคถัดไป GPT ที่ OpenAI สร้างขึ้นเปรียบเสมือนสมองในโลกเทคโนโลยีอนาคต และเราเชื่อว่าการสร้างสรรค์และความก้าวหน้าต่อไปจะทำให้ปัญญาประดิษฐ์มีความสามารถในการใช้เครื่องมือได้ดีขึ้น สามารถ "มองเห็น" "ฟัง" และ "พูด" และ "วาด" ได้อย่างคล่องแคล่ว