Chuyển chat Claude Code thành dataset để share
TL;DR
DataClaw là tool cho phép mình xuất toàn bộ lịch sử chat từ Claude Code và Codex ra file có cấu trúc, sau đó upload lên Hugging Face chỉ bằng vài câu lệnh. Tool tự động xóa secrets, API keys, và thông tin cá nhân trước khi publish.
Nói đơn giản: Tool này giúp mình đóng gói toàn bộ code mình đã viết cùng AI thành dataset công khai, để người khác có thể dùng cho việc nghiên cứu hoặc train model.
Bài này dành cho ai?
1. Người muốn contribute vào AI community
Vấn đề: Muốn share dữ liệu thực tế từ quá trình code với AI, nhưng sợ lộ secrets hoặc thông tin nhạy cảm
Khi nào cần: Khi muốn đóng góp dataset cho cộng đồng, hoặc muốn lưu trữ conversation history một cách có tổ chức
Được gì: Dataset sạch, đã được redact tự động, sẵn sàng publish lên Hugging Face
2. Người muốn nghiên cứu về human-AI collaboration
Vấn đề: Cần dữ liệu thực tế về cách dev làm việc với AI coding agents
Khi nào cần: Khi nghiên cứu về AI coding, xây dựng dataset cho training, hoặc phân tích workflow
Được gì: Truy cập dataset thực tế từ nhiều developer trên Hugging Face
3. Developer muốn backup lịch sử làm việc
Vấn đề: Conversation history chiếm dung lượng, muốn lưu trữ có cấu trúc ở nơi khác
Khi nào cần: Khi cần clean up máy nhưng vẫn muốn giữ lại dữ liệu để tham khảo sau
Được gì: File JSONL có cấu trúc, dễ search và truy xuất
Các điểm chính
1. DataClaw là performance art, không chỉ là tool Anthropic dùng dữ liệu miễn phí từ internet để train model, rồi sau đó chặn người khác làm điều tương tự. DataClaw ra đời để “kéo thang xuống lại” - cho phép mọi người share lại dữ liệu human-AI collaboration của mình.
→ Làm gì: Cân nhắc xem việc contribute dataset có phù hợp với mục tiêu cá nhân hoặc công ty không trước khi chạy.
2. Xuất dữ liệu Claude Code hoặc Codex Tool hỗ trợ cả hai: Claude Code (ứng dụng desktop) và Codex (API). Mình chọn được scope trước khi export - có thể là một trong hai hoặc cả hai.
→ Làm gì: Chạy dataclaw config --source "claude|codex|both" để chọn nguồn trước.
3. Tự động redact secrets và PII DataClaw có nhiều lớp bảo vệ: xóa đường dẫn file, hash username, phát hiện API keys (JWT, AWS keys, GitHub tokens…), xóa email, và phân tích entropy để tìm strings có thể là secrets. Nhưng devs vẫn cần review thủ công trước khi publish.
→ Làm gì: Luôn export với --no-push trước, review kỹ rồi mới publish.
4. Data schema chuẩn cho ML Mỗi session được lưu thành một dòng trong JSONL, gồm: session_id, project name, model đang dùng, timestamps, messages (cả user và assistant), extended thinking, tool calls, và token usage stats.
→ Làm gì: Dùng thư viện datasets của Hugging Face để load dữ liệu dễ dàng.
5. Dataset được tag “dataclaw” trên Hugging Face Tất cả dataset từ DataClaw đều được tag, có thể browse toàn bộ tại huggingface.co/datasets?other=dataclaw. Ai cũng có thể combine nhiều datasets lại để tạo tập dữ liệu lớn hơn.
→ Làm gì: Clone thử vài dataset về để xem cấu trúc thực tế.
Quick Start
1. Cài đặt trong 30 giây
pip install dataclaw
dataclaw update-skill claude # Cài skill cho Claude Code
2. Setup và export lần đầu
dataclaw prep
dataclaw config --source both # Chọn claude, codex, hoặc cả hai
dataclaw list --source both # Xem danh sách project, chọn folder để exclude
dataclaw config --confirm-projects
# Export local trước, KHÔNG push
dataclaw export --no-push --output /tmp/my_export.jsonl
# Review xong thì confirm
dataclaw confirm --full-name "Tên đầy đủ" \
--attest-full-name "Đã scan với tên đầy đủ" \
--attest-sensitive "Không có tên công ty/client" \
--attest-manual-scan "Đã scan 20 sessions"
# Push lên Hugging Face
dataclaw export --publish-attestation "User explicitly approved"
Đang tải nội dung...