Thứ Sáu, 19 Tháng Tư, 2024

Kiến trúc xương sống của ChatGPT

-

Chữ T trong ChatGPT được xem là kiến trúc xử lý ngôn ngữ xương sống của AI này, vốn do Google phát triển vào năm 2017.

Tên đầy đủ của ChatGPT là Chat Generative Pre-trained Transformer. “Về cơ bản nhiệm vụ của các mô hình ngôn ngữ như ChatGPT là đoán từ tiếp theo dựa trên các từ đằng trước. Khi người dùng đưa vào một câu hỏi, nó dựa vào câu đó để phát sinh thành văn bản, và lại dựa vào văn bản nó đã phát sinh để phát sinh tiếp”, ông Nguyễn Tử Quảng cho biết.

Theo từ điển Oxford, tiếng Anh có khoảng 170.000 nghìn từ đang được sử dụng. Nếu phát sinh văn bản chỉ dựa vào một từ ngay trước, thì với mỗi từ tạo ra mô hình cần khoảng 170.000 tham số – giá trị trong mạng được điều chỉnh trong quá trình vận hành.

“Càng dựa trên nhiều từ đằng trước để có ngữ cảnh, thì dự đoán càng chính xác, nhưng số tham số cần thiết sẽ tăng lên theo cấp số mũ. Dùng 2 từ thì sẽ cần 170.000^2 tham số”, chuyên gia giải thích. Nếu với mỗi từ phát sinh ra, mô hình dựa trên ngữ cảnh lớn hơn nữa để dự đoán, ví dụ như đoạn 20 từ ngay trước, thì gần như không máy tính nào có thể tính toán được lượng tham số lớn như vậy.

Vì thế các mô hình ngôn ngữ lớn như ChatGPT không sử dụng toàn bộ văn bản đằng trước làm ngữ cảnh, mà dùng một kỹ thuật để chọn ra một vài từ quan trọng nhất định và dự đoán dựa trên những từ đó.

“Nhưng vấn đề là từ nào quan trọng, từ tiếp theo sẽ bị ràng buộc bởi những từ nào trong cả đoạn trước đó? Kiến trúc để làm được điều này cho mô hình ngôn ngữ là Transformer”, ông Quảng cho biết. “Kiến trúc đột phá trong học máy này được đưa ra bởi Google năm 2017”.

Cùng với kiến trúc này, OpenAI sử dụng kỹ thuật học máy self-supervised hay tự giám sát. Khi được cho một câu dài, ví dụ như “Tôi đến trò chuyện với phóng viên ở tòa soạn”, máy sẽ tự cắt một phần của câu và học cách dự đoán dựa trên phần còn lại, chuyên gia giải thích. Chẳng hạn, mô hình có thể chọn ra các từ “phóng viên” và “đến” ở đoạn trước để dự đoán từ “tòa soạn” hay “ở” ở đoạn sau.

Quy mô của GPT-3, được OpenAI ra mắt năm 2020, là 175 tỷ tham số, gấp hơn 15 lần thế hệ mô hình ngôn ngữ lớn trước của công ty là GPT-2. Để huấn luyện được mô hình với lượng tham số lớn như vậy cần một lượng dữ liệu khổng lồ, và cơ chế học này giúp OpenAI xử lý dữ liệu và huấn luyện được mô hình GPT-3, nền tảng của ChatGPT.

“Có thể tóm tắt như vậy về các kỹ thuật cơ bản đằng sau GPT-3 và ChatGPT, nhưng trên thực tế OpenAI đã mất nhiều năm nghiên cứu và còn rất nhiều kỹ thuật và bí mật công nghệ đằng sau để có thể xây dựng được mô hình ngôn ngữ lớn như vậy”, ông Quảng cho biết.

Đội ngũ quản trị luôn nỗ lực hết mình để đem đến những nội dung chất lượng nhất cho độc giả là các game thủ. Mọi ý kiến đóng góp xin gửi về [email protected]. Xin trân trọng cảm ơn!

GameN

Ban biên tập

BÀI MỚI

Rộ tin sắp có Mafia 4

Người dùng Kurakasis trên Twitter vừa cho biết Take-Two Interactive đang chuẩn bị một công bố lớn cho dòng game Mafia – có thể là Mafia 4.

Triển vọng tươi sáng của PC tích hợp AI

Intel đã ra mắt chip trí tuệ nhân tạo (AI) Gaudi 3 thế hệ mới vào tuần trước mở ra chủ đề mới về cuộc chiến sức mạnh điện toán của chip dành cho PC AI.

Tim Cook cân nhắc đầu tư nhà máy ở Indonesia

Apple muốn đa dạng chuỗi cung ứng bên ngoài Trung Quốc và địa điểm tiếp theo có thể là Indonesia.

Đấu Trường Chân Lý: Bài đấu Darius kết hợp Qiyana siêu ngon lại ít người biết

Theo các cao thủ Đấu Trường Chân Lý mùa 11 thì tướng 1 tiền mạnh nhất là Darius, chính vì thế có một bài đấu đã được xây dựng xung quanh nó để đánh cặp cùng Qiyana.

Follow us

5,655Thành viênThích
1,204Người theo dõiTheo dõi
2,189Người theo dõiĐăng Ký
Dành cho quảng cáo

ĐỌC NHIỀU