Wiz Research Phát Hiện Cơ Sở Dữ Liệu DeepSeek Lộ Thông Tin Nhạy Cảm, Bao Gồm Lịch Sử Trò Chuyện

Một cơ sở dữ liệu công khai của DeepSeek cho phép kiểm soát toàn bộ hoạt động, bao gồm truy cập dữ liệu nội bộ. Sự cố này tiết lộ hơn một triệu dòng nhật ký chứa thông tin cực kỳ nhạy cảm.

Tóm tắt

Wiz Research vừa xác định một cơ sở dữ liệu ClickHouse của DeepSeek - startup AI Trung Quốc - có thể truy cập công khai mà không cần xác thực. Cơ sở dữ liệu này chứa hơn một triệu dòng nhật ký bao gồm lịch sử trò chuyện, khóa API bí mật, chi tiết hệ thống backend và nhiều thông tin nhạy cảm khác. Đáng chú ý, kẻ tấn công có thể thực hiện các thao tác SQL tùy ý để leo thang đặc quyền hoặc chiếm quyền kiểm soát cơ sở dữ liệu. Sau khi Wiz Research thông báo, DeepSeek đã nhanh chóng khắc phục sự cố.

Bài viết này phân tích chi tiết quá trình phát hiện và đúc kết bài học về an ninh mạng trong kỷ nguyên AI.

Bối cảnh: DeepSeek - "Kỳ lân" AI đình đám

DeepSeek gần đây gây chú ý với mô hình AI DeepSeek-R1, được đánh giá ngang hàng với các hệ thống hàng đầu như OpenAI o1 nhưng tiết kiệm chi phí và tài nguyên hơn. Tuy nhiên, khi tập trung phát triển công nghệ, các lỗ hổng bảo mật cơ bản lại bị bỏ ngỏ.

Chi tiết sự cố: Từ phát hiện đến khai thác

1. Quét mạng & Phát hiện điểm yếu

Nhóm Wiz Research bắt đầu bằng cách quét các miền công khai của DeepSeek. Sau khi xác định khoảng 30 subdomain, họ phát hiện hai cổng dịch vụ lạ (8123 và 9000) tại:

http://oauth2callback.deepseek.com:8123  
http://dev.deepseek.com:8123  
http://oauth2callback.deepseek.com:9000  
http://dev.deepseek.com:9000

Đây chính là giao diện web của ClickHouse - hệ quản trị cơ sở dữ liệu phân tích thời gian thực. Quan trọng hơn, dịch vụ không yêu cầu xác thực, cho phép bất kỳ ai truy cập trực tiếp.

2. Khám phá dữ liệu nhạy cảm

Bằng cách chạy lệnh SQL đơn giản SHOW TABLES;, nhóm nghiên cứu phát hiện bảng log_stream chứa:

Lịch sử trò chuyện người dùng
Khóa API, cấu hình backend
Metadata hoạt động hệ thống
Cấu trúc thư mục máy chủ

Đặc biệt, kẻ tấn công có thể dùng hàm file() của ClickHouse để đọc file hệ thống (ví dụ: SELECT * FROM file('etc/passwd')), mở đường chiếm quyền điều khiển server.

Rủi ro & Bài học an ninh

1. AI ≠ An toàn mặc định

Vội vàng triển khai AI mà quên kiểm soát cơ sở hạ tầng là "bẫy" chết người. Trường hợp của DeepSeek cho thấy:

Lỗi cấu hình đơn giản (mở port không xác thực) có thể gây rò rỉ dữ liệu quy mô lớn.
Dữ liệu đào tạo AI và log người dùng cần được mã hóa & phân quyền chặt.

2. Đừng mải theo đuổi "mối đe dọa tương lai"

Thay vì chỉ tập trung vào các rủi ro AI trừu tượng (như hallucination), doanh nghiệp cần ưu tiên:

Quét định kỳ các dịch vụ lộ thiên
Áp dụng Zero-Trust cho hệ thống AI
Giám sát truy cập cơ sở dữ liệu thời gian thực

3. Góc nhìn cá nhân: "Ngon - Rẻ - Không Bổ" - Bài học từ một người trong cuộc

Là kẻ từng "đâm đầu" vào thử nghiệm các nền tảng AI non trẻ, tôi hiểu sức hút của những lời quảng cáo kiểu "Xử lý 1 tỉ token chỉ bằng 1 cốc trà sữa".

Cái giá của sự "ngon - rẻ" này là mặt trái bảo mật mà chính người dùng phải gánh. Bạn muốn dùng thử LLM của một startup chưa được kiểm chứng? Hãy nhớ:

Đừng "cảm tử" đưa dữ liệu nhạy cảm vào hệ thống của họ. Lỗi là chuyện thường tình ở sản phẩm non trẻ, nhưng bạn không phải vật thí nghiệm.
Kiểm tra kỹ "hàng xóm": Các nền tảng từ "anh bạn hàng xóm" (ý bạn biết là ai rồi đấy) thường ưu tiên tốc độ phát triển hơn an toàn. Đừng để bị dụ bởi giá rẻ mà quên mất câu "If you’re not paying for the product, you are the product".
Chọn provider có tiêu chuẩn rõ ràng: Nếu không muốn một ngày đẹp trời, code dự án của bạn biến thành "tài nguyên mã nguồn mở" ngoài ý muốn.

Kết luận: AI cần khung bảo mật "level đám mây"

Tốc độ phát triển AI đang vượt xa năng lực bảo mật của nhiều startup. Để tránh thảm họa, ngành công nghiệp cần:

Xem dữ liệu AI như tài sản cấp độ Critical Infrastructure
Áp dụng tiêu chuẩn bảo mật tương đương AWS/Azure cho hệ sinh thái AI
Tích hợp DevSecOps vào quy trình phát triển mô hình

Sự cố DeepSeek là hồi chuông cảnh tỉnh: Trong cuộc đua AI, bảo mật phải là "trọng tài" chứ không phải khán giả.

Lời cuối từ người viết:
Cách đây 2 năm, chính OpenAI cũng bị một lỗi gây hiển thị chéo lịch sử chat cho những người dùng khác nhau. Các bạn trẻ đam mê công nghệ, hãy tỉnh táo: Đằng sau những con số triệu đô và demo hào nhoáng, an ninh mạng mới là thứ giữ cho sự nghiệp của bạn không "về hưu non".

Bài viết gốc:
- https://www.wiz.io/blog/wiz-research-uncovers-exposed-deepseek-database-leak