Thứ Sáu, 6 Tháng 6, 2025

DeepSeek bị tố sử dụng dữ liệu từ Gemini để huấn luyện mô hình AI mới nhất

-

Các nhà nghiên cứu AI nghi ngờ công ty Trung Quốc đã “mượn” dữ liệu từ mô hình AI của Google để phát triển phiên bản R1 cải tiến.

Tuần trước, phòng thí nghiệm Trung Quốc DeepSeek đã phát hành phiên bản cập nhật của mô hình AI lý luận R1 với hiệu suất ấn tượng trên nhiều bài kiểm tra toán học và lập trình. Tuy nhiên, công ty không tiết lộ nguồn dữ liệu được sử dụng để huấn luyện mô hình này. Điều đáng chú ý là một số nhà nghiên cứu AI đang nghi ngờ rằng ít nhất một phần dữ liệu đến từ dòng mô hình Gemini của Google.

Sam Paech, một lập trình viên có trụ sở tại Melbourne chuyên tạo ra các bài đánh giá “trí tuệ cảm xúc” cho AI, đã công bố những gì ông cho là bằng chứng về việc mô hình mới nhất của DeepSeek được huấn luyện dựa trên dữ liệu đầu ra từ Gemini. Theo Paech trong một bài đăng trên X, mô hình R1-0528 của DeepSeek có xu hướng ưa chuộng các từ ngữ và cách diễn đạt tương tự như Gemini 2.5 Pro của Google.

Mặc dù điều này chưa phải là bằng chứng quyết định, nhưng một lập trình viên khác với biệt danh tạo ra “bài đánh giá tự do ngôn luận” cho AI có tên SpeechMap đã chỉ ra rằng các “suy nghĩ” mà mô hình DeepSeek tạo ra trong quá trình đưa ra kết luận có vẻ “giống như những gì Gemini tạo ra”.

Đây không phải lần đầu tiên DeepSeek bị cáo buộc huấn luyện dựa trên dữ liệu từ các mô hình AI đối thủ. Vào tháng 12 năm ngoái, các lập trình viên đã phát hiện ra rằng mô hình V3 của DeepSeek thường xuyên tự nhận mình là ChatGPT – nền tảng chatbot được hỗ trợ bởi AI của OpenAI. Điều này cho thấy khả năng mô hình đã được huấn luyện trên các cuộc trò chuyện từ ChatGPT.

Đầu năm nay, OpenAI đã thông báo với Financial Times rằng họ tìm thấy bằng chứng liên kết DeepSeek với việc sử dụng kỹ thuật “chưng cất” – một phương pháp huấn luyện mô hình AI bằng cách trích xuất dữ liệu từ những mô hình lớn hơn và mạnh hơn. Theo Bloomberg, Microsoft – đối tác thân thiết và nhà đầu tư của OpenAI – đã phát hiện ra rằng một lượng lớn dữ liệu đang bị rút trích thông qua các tài khoản developer của OpenAI vào cuối năm 2024. OpenAI tin rằng những tài khoản này có liên quan đến DeepSeek.

Kỹ thuật chưng cất không phải là thực hành hiếm gặp trong ngành, nhưng điều khoản dịch vụ của OpenAI cấm khách hàng sử dụng dữ liệu đầu ra từ mô hình của công ty để xây dựng AI cạnh tranh.

Cần làm rõ rằng nhiều mô hình thường nhận dạng sai bản thân và có xu hướng sử dụng những từ ngữ, cách diễn đạt giống nhau. Nguyên nhân là do web mở – nơi các công ty AI lấy phần lớn dữ liệu huấn luyện – đang ngày càng tràn ngập “rác AI”. Các trang web tạo nội dung đang sử dụng AI để tạo ra clickbait, và các bot đang làm ngập Reddit cùng X.

Sự “ô nhiễm” này đã khiến việc lọc sạch các dữ liệu đầu ra từ AI khỏi bộ dữ liệu huấn luyện trở nên cực kỳ khó khăn.

Tuy nhiên, các chuyên gia AI như Nathan Lambert – nhà nghiên cứu tại viện nghiên cứu AI phi lợi nhuận AI2 – không cho rằng việc DeepSeek huấn luyện dựa trên dữ liệu từ Gemini của Google là điều không thể. Lambert viết trong một bài đăng trên X: “Nếu tôi là DeepSeek, tôi chắc chắn sẽ tạo ra một lượng lớn dữ liệu tổng hợp từ mô hình API tốt nhất hiện có. Họ thiếu GPU nhưng lại có nhiều tiền mặt. Về cơ bản đây là cách hiệu quả hơn để có thêm sức mạnh tính toán”.

Một phần để ngăn chặn kỹ thuật chưng cất, các công ty AI đang tăng cường các biện pháp bảo mật. Vào tháng 4, OpenAI bắt đầu yêu cầu các tổ chức hoàn thành quy trình xác minh danh tính để truy cập một số mô hình tiên tiến nhất định. Quy trình này đòi hỏi giấy tờ tùy thân do chính phủ cấp từ một trong những quốc gia được hỗ trợ bởi API của OpenAI, trong đó không bao gồm Trung Quốc.

Ở mặt trận khác, Google gần đây đã bắt đầu “tóm tắt” các dấu vết được tạo ra bởi các mô hình có sẵn thông qua nền tảng AI Studio dành cho lập trình viên. Bước này khiến việc huấn luyện các mô hình đối thủ có hiệu suất cao dựa trên dấu vết Gemini trở nên khó khăn hơn. Anthropic cũng tuyên bố vào tháng 5 rằng họ sẽ bắt đầu tóm tắt dấu vết của mô hình riêng, với lý do cần bảo vệ “lợi thế cạnh tranh”.

Cuộc chiến bảo vệ dữ liệu giữa các ông lớn công nghệ đang ngày càng gay gắt. Trong bối cảnh AI phát triển mạnh mẽ, việc kiểm soát và bảo vệ dữ liệu huấn luyện đã trở thành yếu tố then chốt quyết định vị thế của các công ty trong cuộc đua AI toàn cầu.

Đội ngũ admin quản trị luôn nỗ lực hết mình để đem đến những nội dung chất lượng nhất cho các thành viên tham gia. Mọi ý kiến đóng góp xin gửi về [email protected]. Xin trân trọng cảm ơn!

GameN - MXH dành cho game thủ Việt

Ban quản trị

BÀI MỚI

Nhận ngay coin miễn phí cho Solitaire Grand Harvest tháng 6-2025

Bạn đang tìm kiếm cơ hội nhận coin miễn phí để chinh phục các màn chơi trong Solitaire Grand Harvest?

Nintendo thoát hiểm, Switch 2 ra mắt thành công

Dù tưởng chừng sẽ phải đối mặt với đợt tăng giá đột biến vì chính sách thuế nhập khẩu của Tổng thống Donald Trump, Nintendo đã khéo léo "lách" qua khe cửa hẹp.

Summoners War Rush tung code miễn phí tháng 6-2025

Hai Summoners War Rush code mới vừa được phát hành, mang đến cho game thủ hàng trăm vé triệu hồi cùng loạt phần thưởng giá trị khác.

Apple Arcade công bố loạt game ra mắt mùa hè này

Dịch vụ Apple Arcade tiếp tục khẳng định vị thế với loạt 9 tựa game chất lượng cao sắp ra mắt trong mùa hè này, đem đến trải nghiệm giải trí đa dạng cho người dùng iOS.

Follow us

5,655Thành viênThích
1,204Người theo dõiTheo dõi
2,189Người theo dõiĐăng Ký
Dành cho quảng cáo

ĐỌC NHIỀU