Liên kết

Tìm model AI nào vừa RAM máy bạn trong 1 lệnh

25 tháng 2, 2026 · github

TL;DR

Tool terminal giúp tìm model AI nào chạy được trên máy bạn. Tự detect GPU/RAM, thử từng quantization level, sort theo quality score. Tích hợp Ollama để tải model ngay.

Nói đơn giản: Gõ 1 lệnh là biết model nào vừa với máy mình, không cần đoán mò rồi Out of Memory.

Bài này dành cho ai?

1. Dev muốn chạy LLM local mà không biết chọn model nào

Vấn đề: Tải model về chạy không nổi, Out of Memory liên tục Khi nào cần: Có GPU RTX 3080/4090 hay MacBook M1/M2/M3 mà không biết model bao nhiêu params Được gì: Biết ngay model + quantization nào fit với VRAM, chạy được luôn

2. Người build AI product cần chọn model phù hợp infra

Vấn đề: Khách hàng có hardware khác nhau, không biết recommend model nào Khi nào cần: Deploy AI assistant, cần support nhiều cấu hình máy Được gì: Config tự động cho từng user qua OpenClaw integration

3. AI enthusiast muốn thử nhiều model

Vấn đề: Lượm được list 206 models mà không biết cái nào chạy được Khi nào cần: Tìm model coding, reasoning, chat ngon nhất cho laptop Được gì: Filter theo use case, sort theo score, tải luôn qua Ollama

Các điểm chính

1. Hardware detection tự động Đọc RAM, CPU cores, detect GPU (NVIDIA qua nvidia-smi, AMD qua rocm-smi, Apple Silicon qua system_profiler). Multi-GPU cũng được. Nếu detect sai dùng --memory=24G ghi đè thủ công. → Làm gì: Chạy llmfit là thấy system specs hiện ngay ở trên cùng.

2. Dynamic quantization — không cần đoán Thay vì cố định quantization, llmfit thử từ Q8_0 (chất lượng cao nhất) xuống Q2_K (nén nhất), chọn cái highest quality mà vừa RAM. Nếu full context không fit, thử lại với half context. → Làm gì: Không cần research quantization nữa, cứ dùng recommended là được.

3. Scoring 4 chiều — Quality, Speed, Fit, Context Mỗi model được chấm điểm 0-100 theo 4 tiêu chí. Weight khác nhau theo use case: Coding ưu tiên Speed (0.35), Reasoning ưu tiên Quality (0.55). Model không chạy được (Too Tight) luôn ở dưới cùng. → Làm gì: Gõ / search theo tên, provider, params, hoặc use case.

4. MoE (Mixture-of-Experts) support Mixtral 8x7B có 46.7B params nhưng chỉ activate ~12.9B mỗi token. llmfit tính đúng VRAM cần thiết (~6.6 GB thay vì 24 GB), không như tools khác đếm full params. → Làm gì: Chạy được Mixtral, DeepSeek-V2/V3 trên GPU yếu hơn.

5. Ollama integration — tải model trực tiếp Tích hợp Ollama để detect model đã cài (hiện ✓ xanh), bấm d để pull model mới. Tự map tên HuggingFace sang tên Ollama. → Làm gì: Không cần mở terminal riêng, tải ngay trong TUI.

Quick Start

Cài đặt trong 30 giây:

curl -fsSL https://llmfit.axjns.dev/install.sh | sh

Chạy và xem model nào chạy được trên máy:

llmfit

Bấm f lọc theo fit level, / search, d tải model qua Ollama.

Truy cập

#llm #local-ai #terminal-tool #hardware #optimization

Workshop Series 14, 16, 21/04 · 20h

Xây phần mềm không cần UI

Agent-first development: 3 buổi từ CLI commerce engine → MCP server → website trên Cloudflare.

Xem chi tiết & đăng ký →

Workshop Series 29/05, 02/06, 05/06 · 20h

Công ty một người: Present, Bán & Vận hành

3-pack cohort cho công ty một người: Skill làm slide, bán & vận hành workshop tự động, vault giữ tri thức compound.