Wiz Research Phát Hiện Cơ Sở Dữ Liệu DeepSeek Lộ Thông Tin Nhạy Cảm, Bao Gồm Lịch Sử Trò Chuyện
Một cơ sở dữ liệu công khai của DeepSeek cho phép kiểm soát toàn bộ hoạt động, bao gồm truy cập dữ liệu nội bộ. Sự cố này tiết lộ hơn một triệu dòng nhật ký chứa thông tin cực kỳ nhạy cảm.

Tóm tắt
Wiz Research vừa xác định một cơ sở dữ liệu ClickHouse của DeepSeek - startup AI Trung Quốc - có thể truy cập công khai mà không cần xác thực. Cơ sở dữ liệu này chứa hơn một triệu dòng nhật ký bao gồm lịch sử trò chuyện, khóa API bí mật, chi tiết hệ thống backend và nhiều thông tin nhạy cảm khác. Đáng chú ý, kẻ tấn công có thể thực hiện các thao tác SQL tùy ý để leo thang đặc quyền hoặc chiếm quyền kiểm soát cơ sở dữ liệu. Sau khi Wiz Research thông báo, DeepSeek đã nhanh chóng khắc phục sự cố.
Bài viết này phân tích chi tiết quá trình phát hiện và đúc kết bài học về an ninh mạng trong kỷ nguyên AI.


Bối cảnh: DeepSeek - "Kỳ lân" AI đình đám
DeepSeek gần đây gây chú ý với mô hình AI DeepSeek-R1, được đánh giá ngang hàng với các hệ thống hàng đầu như OpenAI o1 nhưng tiết kiệm chi phí và tài nguyên hơn. Tuy nhiên, khi tập trung phát triển công nghệ, các lỗ hổng bảo mật cơ bản lại bị bỏ ngỏ.
Chi tiết sự cố: Từ phát hiện đến khai thác
1. Quét mạng & Phát hiện điểm yếu
Nhóm Wiz Research bắt đầu bằng cách quét các miền công khai của DeepSeek. Sau khi xác định khoảng 30 subdomain, họ phát hiện hai cổng dịch vụ lạ (8123 và 9000) tại:
http://oauth2callback.deepseek.com:8123
http://dev.deepseek.com:8123
http://oauth2callback.deepseek.com:9000
http://dev.deepseek.com:9000

Đây chính là giao diện web của ClickHouse - hệ quản trị cơ sở dữ liệu phân tích thời gian thực. Quan trọng hơn, dịch vụ không yêu cầu xác thực, cho phép bất kỳ ai truy cập trực tiếp.
2. Khám phá dữ liệu nhạy cảm

Bằng cách chạy lệnh SQL đơn giản SHOW TABLES;
, nhóm nghiên cứu phát hiện bảng log_stream
chứa:

- Lịch sử trò chuyện người dùng
- Khóa API, cấu hình backend
- Metadata hoạt động hệ thống
- Cấu trúc thư mục máy chủ
Đặc biệt, kẻ tấn công có thể dùng hàm file()
của ClickHouse để đọc file hệ thống (ví dụ: SELECT * FROM file('etc/passwd')
), mở đường chiếm quyền điều khiển server.
Rủi ro & Bài học an ninh
1. AI ≠ An toàn mặc định
Vội vàng triển khai AI mà quên kiểm soát cơ sở hạ tầng là "bẫy" chết người. Trường hợp của DeepSeek cho thấy:
- Lỗi cấu hình đơn giản (mở port không xác thực) có thể gây rò rỉ dữ liệu quy mô lớn.
- Dữ liệu đào tạo AI và log người dùng cần được mã hóa & phân quyền chặt.
2. Đừng mải theo đuổi "mối đe dọa tương lai"
Thay vì chỉ tập trung vào các rủi ro AI trừu tượng (như hallucination), doanh nghiệp cần ưu tiên:
- Quét định kỳ các dịch vụ lộ thiên
- Áp dụng Zero-Trust cho hệ thống AI
- Giám sát truy cập cơ sở dữ liệu thời gian thực
3. Góc nhìn cá nhân: "Ngon - Rẻ - Không Bổ" - Bài học từ một người trong cuộc
Là kẻ từng "đâm đầu" vào thử nghiệm các nền tảng AI non trẻ, tôi hiểu sức hút của những lời quảng cáo kiểu "Xử lý 1 tỉ token chỉ bằng 1 cốc trà sữa".
Cái giá của sự "ngon - rẻ" này là mặt trái bảo mật mà chính người dùng phải gánh. Bạn muốn dùng thử LLM của một startup chưa được kiểm chứng? Hãy nhớ:
- Đừng "cảm tử" đưa dữ liệu nhạy cảm vào hệ thống của họ. Lỗi là chuyện thường tình ở sản phẩm non trẻ, nhưng bạn không phải vật thí nghiệm.
- Kiểm tra kỹ "hàng xóm": Các nền tảng từ "anh bạn hàng xóm" (ý bạn biết là ai rồi đấy) thường ưu tiên tốc độ phát triển hơn an toàn. Đừng để bị dụ bởi giá rẻ mà quên mất câu "If you’re not paying for the product, you are the product".
- Chọn provider có tiêu chuẩn rõ ràng: Nếu không muốn một ngày đẹp trời, code dự án của bạn biến thành "tài nguyên mã nguồn mở" ngoài ý muốn.
Kết luận: AI cần khung bảo mật "level đám mây"
Tốc độ phát triển AI đang vượt xa năng lực bảo mật của nhiều startup. Để tránh thảm họa, ngành công nghiệp cần:
- Xem dữ liệu AI như tài sản cấp độ Critical Infrastructure
- Áp dụng tiêu chuẩn bảo mật tương đương AWS/Azure cho hệ sinh thái AI
- Tích hợp DevSecOps vào quy trình phát triển mô hình
Sự cố DeepSeek là hồi chuông cảnh tỉnh: Trong cuộc đua AI, bảo mật phải là "trọng tài" chứ không phải khán giả.
Lời cuối từ người viết:
Cách đây 2 năm, chính OpenAI cũng bị một lỗi gây hiển thị chéo lịch sử chat cho những người dùng khác nhau. Các bạn trẻ đam mê công nghệ, hãy tỉnh táo: Đằng sau những con số triệu đô và demo hào nhoáng, an ninh mạng mới là thứ giữ cho sự nghiệp của bạn không "về hưu non".
Bài viết gốc:
- https://www.wiz.io/blog/wiz-research-uncovers-exposed-deepseek-database-leak