Tìm model AI nào vừa RAM máy bạn trong 1 lệnh
TL;DR
Tool terminal giúp tìm model AI nào chạy được trên máy bạn. Tự detect GPU/RAM, thử từng quantization level, sort theo quality score. Tích hợp Ollama để tải model ngay.
Nói đơn giản: Gõ 1 lệnh là biết model nào vừa với máy mình, không cần đoán mò rồi Out of Memory.
Bài này dành cho ai?
1. Dev muốn chạy LLM local mà không biết chọn model nào
Vấn đề: Tải model về chạy không nổi, Out of Memory liên tục Khi nào cần: Có GPU RTX 3080/4090 hay MacBook M1/M2/M3 mà không biết model bao nhiêu params Được gì: Biết ngay model + quantization nào fit với VRAM, chạy được luôn
2. Người build AI product cần chọn model phù hợp infra
Vấn đề: Khách hàng có hardware khác nhau, không biết recommend model nào Khi nào cần: Deploy AI assistant, cần support nhiều cấu hình máy Được gì: Config tự động cho từng user qua OpenClaw integration
3. AI enthusiast muốn thử nhiều model
Vấn đề: Lượm được list 206 models mà không biết cái nào chạy được Khi nào cần: Tìm model coding, reasoning, chat ngon nhất cho laptop Được gì: Filter theo use case, sort theo score, tải luôn qua Ollama
Các điểm chính
1. Hardware detection tự động
Đọc RAM, CPU cores, detect GPU (NVIDIA qua nvidia-smi, AMD qua rocm-smi, Apple Silicon qua system_profiler). Multi-GPU cũng được. Nếu detect sai dùng --memory=24G ghi đè thủ công.
→ Làm gì: Chạy llmfit là thấy system specs hiện ngay ở trên cùng.
2. Dynamic quantization — không cần đoán Thay vì cố định quantization, llmfit thử từ Q8_0 (chất lượng cao nhất) xuống Q2_K (nén nhất), chọn cái highest quality mà vừa RAM. Nếu full context không fit, thử lại với half context. → Làm gì: Không cần research quantization nữa, cứ dùng recommended là được.
3. Scoring 4 chiều — Quality, Speed, Fit, Context
Mỗi model được chấm điểm 0-100 theo 4 tiêu chí. Weight khác nhau theo use case: Coding ưu tiên Speed (0.35), Reasoning ưu tiên Quality (0.55). Model không chạy được (Too Tight) luôn ở dưới cùng.
→ Làm gì: Gõ / search theo tên, provider, params, hoặc use case.
4. MoE (Mixture-of-Experts) support Mixtral 8x7B có 46.7B params nhưng chỉ activate ~12.9B mỗi token. llmfit tính đúng VRAM cần thiết (~6.6 GB thay vì 24 GB), không như tools khác đếm full params. → Làm gì: Chạy được Mixtral, DeepSeek-V2/V3 trên GPU yếu hơn.
5. Ollama integration — tải model trực tiếp
Tích hợp Ollama để detect model đã cài (hiện ✓ xanh), bấm d để pull model mới. Tự map tên HuggingFace sang tên Ollama.
→ Làm gì: Không cần mở terminal riêng, tải ngay trong TUI.
Quick Start
- Cài đặt trong 30 giây:
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
- Chạy và xem model nào chạy được trên máy:
llmfit
Bấm f lọc theo fit level, / search, d tải model qua Ollama.
Đang tải nội dung...
Xây phần mềm không cần UI
Agent-first development: 3 buổi từ CLI commerce engine → MCP server → website trên Cloudflare.
Xem chi tiết & đăng ký →
Công ty một người: Present, Bán & Vận hành
3-pack cohort cho công ty một người: Skill làm slide, bán & vận hành workshop tự động, vault giữ tri thức compound.
Xem chi tiết & đăng ký →