Trợ lý ghi cuộc họp AI
TL;DR
Bài này dành cho ai?
1. Người muốn AI làm việc thay mình
Vấn đề: Mình hay phải nhớ thông tin từ tài liệu, email để nói trong cuộc họp, nhưng không thể nào nhớ hết. Phải vừa nghe vừa lục notes lộn xộn.
Khi nào cần: Khi hay có cuộc gọi quan trọng — meeting với khách, pitch, interview, call với đối tác.
Được gì: App tự gợi ý những thứ liên quan từ notes của mình, mình chỉ việc đọc lên nghe như đã chuẩn bị kỹ.
2. Người muốn build sản phẩm tương tự
Vấn đề: Muốn làm app ghi chú cuộc họp tích hợp AI, nhưng không biết bắt đầu từ đâu.
Khi nào cần: Đang nghiên cứu tech stack — SwiftUI, Apple Speech framework, embedding, RAG.
Được gì: Thấy cách một dev xây dụng app hoàn chỉnh — từ speech recognition đến suggestion pipeline.
Các điểm chính
1. Ghi transcript realtime 2 bên App ghi cả mình và người kia, hiển thị lên màn hình ngay khi nói. Không cần chờ edit sau. → Làm gì: Cài đặt, mở app trước cuộc gọi, click Live là xong.
2. Gợi ý từ notes của mình Khi người kia hỏi hoặc nói điều gì quan trọng, app tìm trong thư mục notes mình đã point vào, rồi hiện gợi ý trên cùng màn hình. → Làm gì: Chuẩn bị thư mục .md/.txt chứa tài liệu liên quan — meeting prep, research, pitch deck.
3. Chạy 100% local với Ollama Speech recognition trên Mac, LLM và embedding chạy local — không gửi audio ra ngoài, không cần internet. → Làm gì: Cài Ollama, chọn local mode trong Settings.
4. Window ẩn khi share màn hình Cửa sổ app mặc định bị ẩn khỏi screen share — người kia không biết mình đang dùng app ghi chú. → Làm gì: Không cần làm gì, đã tự ẩn rồi.
5. Transcript tự lưu
Mỗi cuộc gọi lưu thành file text và structured log, không cần export thủ công.
→ Làm gì: Vào ~/Documents/OpenOats/ lấy file sau mỗi cuộc gọi.
Quick Start
- Cài đặt:
brew tap yazinsai/openoats https://github.com/yazinsai/OpenOats
brew install --cask yazinsai/openoats/openoats
-
Cấu hình:
- Cloud: thêm OpenRouter + Voyage AI API keys
- Local: chọn Ollama, đảm bảo Ollama đang chạy
-
Point vào thư mục notes — .md hoặc .txt files
-
Click Idle → Live để bắt đầu
Lần đầu chạy sẽ tải speech model (~600 MB).
Đang tải nội dung...