Các nhà nghiên cứu AI nghi ngờ công ty Trung Quốc đã “mượn” dữ liệu từ mô hình AI của Google để phát triển phiên bản R1 cải tiến.
Tuần trước, phòng thí nghiệm Trung Quốc DeepSeek đã phát hành phiên bản cập nhật của mô hình AI lý luận R1 với hiệu suất ấn tượng trên nhiều bài kiểm tra toán học và lập trình. Tuy nhiên, công ty không tiết lộ nguồn dữ liệu được sử dụng để huấn luyện mô hình này. Điều đáng chú ý là một số nhà nghiên cứu AI đang nghi ngờ rằng ít nhất một phần dữ liệu đến từ dòng mô hình Gemini của Google.
Sam Paech, một lập trình viên có trụ sở tại Melbourne chuyên tạo ra các bài đánh giá “trí tuệ cảm xúc” cho AI, đã công bố những gì ông cho là bằng chứng về việc mô hình mới nhất của DeepSeek được huấn luyện dựa trên dữ liệu đầu ra từ Gemini. Theo Paech trong một bài đăng trên X, mô hình R1-0528 của DeepSeek có xu hướng ưa chuộng các từ ngữ và cách diễn đạt tương tự như Gemini 2.5 Pro của Google.
If I was DeepSeek I would definitely create a ton of synthetic data from the best API model out there. Theyre short on GPUs and flush with cash. It’s literally effectively more compute for them. yes on the Gemini distill question.
— Nathan Lambert (@natolambert) June 3, 2025
Mặc dù điều này chưa phải là bằng chứng quyết định, nhưng một lập trình viên khác với biệt danh tạo ra “bài đánh giá tự do ngôn luận” cho AI có tên SpeechMap đã chỉ ra rằng các “suy nghĩ” mà mô hình DeepSeek tạo ra trong quá trình đưa ra kết luận có vẻ “giống như những gì Gemini tạo ra”.
Đây không phải lần đầu tiên DeepSeek bị cáo buộc huấn luyện dựa trên dữ liệu từ các mô hình AI đối thủ. Vào tháng 12 năm ngoái, các lập trình viên đã phát hiện ra rằng mô hình V3 của DeepSeek thường xuyên tự nhận mình là ChatGPT – nền tảng chatbot được hỗ trợ bởi AI của OpenAI. Điều này cho thấy khả năng mô hình đã được huấn luyện trên các cuộc trò chuyện từ ChatGPT.
Đầu năm nay, OpenAI đã thông báo với Financial Times rằng họ tìm thấy bằng chứng liên kết DeepSeek với việc sử dụng kỹ thuật “chưng cất” – một phương pháp huấn luyện mô hình AI bằng cách trích xuất dữ liệu từ những mô hình lớn hơn và mạnh hơn. Theo Bloomberg, Microsoft – đối tác thân thiết và nhà đầu tư của OpenAI – đã phát hiện ra rằng một lượng lớn dữ liệu đang bị rút trích thông qua các tài khoản developer của OpenAI vào cuối năm 2024. OpenAI tin rằng những tài khoản này có liên quan đến DeepSeek.
Kỹ thuật chưng cất không phải là thực hành hiếm gặp trong ngành, nhưng điều khoản dịch vụ của OpenAI cấm khách hàng sử dụng dữ liệu đầu ra từ mô hình của công ty để xây dựng AI cạnh tranh.
Cần làm rõ rằng nhiều mô hình thường nhận dạng sai bản thân và có xu hướng sử dụng những từ ngữ, cách diễn đạt giống nhau. Nguyên nhân là do web mở – nơi các công ty AI lấy phần lớn dữ liệu huấn luyện – đang ngày càng tràn ngập “rác AI”. Các trang web tạo nội dung đang sử dụng AI để tạo ra clickbait, và các bot đang làm ngập Reddit cùng X.
Sự “ô nhiễm” này đã khiến việc lọc sạch các dữ liệu đầu ra từ AI khỏi bộ dữ liệu huấn luyện trở nên cực kỳ khó khăn.
If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025
Tuy nhiên, các chuyên gia AI như Nathan Lambert – nhà nghiên cứu tại viện nghiên cứu AI phi lợi nhuận AI2 – không cho rằng việc DeepSeek huấn luyện dựa trên dữ liệu từ Gemini của Google là điều không thể. Lambert viết trong một bài đăng trên X: “Nếu tôi là DeepSeek, tôi chắc chắn sẽ tạo ra một lượng lớn dữ liệu tổng hợp từ mô hình API tốt nhất hiện có. Họ thiếu GPU nhưng lại có nhiều tiền mặt. Về cơ bản đây là cách hiệu quả hơn để có thêm sức mạnh tính toán”.
Một phần để ngăn chặn kỹ thuật chưng cất, các công ty AI đang tăng cường các biện pháp bảo mật. Vào tháng 4, OpenAI bắt đầu yêu cầu các tổ chức hoàn thành quy trình xác minh danh tính để truy cập một số mô hình tiên tiến nhất định. Quy trình này đòi hỏi giấy tờ tùy thân do chính phủ cấp từ một trong những quốc gia được hỗ trợ bởi API của OpenAI, trong đó không bao gồm Trung Quốc.
Ở mặt trận khác, Google gần đây đã bắt đầu “tóm tắt” các dấu vết được tạo ra bởi các mô hình có sẵn thông qua nền tảng AI Studio dành cho lập trình viên. Bước này khiến việc huấn luyện các mô hình đối thủ có hiệu suất cao dựa trên dấu vết Gemini trở nên khó khăn hơn. Anthropic cũng tuyên bố vào tháng 5 rằng họ sẽ bắt đầu tóm tắt dấu vết của mô hình riêng, với lý do cần bảo vệ “lợi thế cạnh tranh”.
Cuộc chiến bảo vệ dữ liệu giữa các ông lớn công nghệ đang ngày càng gay gắt. Trong bối cảnh AI phát triển mạnh mẽ, việc kiểm soát và bảo vệ dữ liệu huấn luyện đã trở thành yếu tố then chốt quyết định vị thế của các công ty trong cuộc đua AI toàn cầu.