Tổng quan
AI Document Assistant là hệ thống trợ lý AI xử lý tài liệu doanh nghiệp được xây dựng cho một công ty tư vấn pháp lý lớn tại TP. Hồ Chí Minh. Hệ thống cho phép luật sư và chuyên viên pháp lý đặt câu hỏi bằng ngôn ngữ tự nhiên về nội dung của hàng nghìn tài liệu hợp đồng, án lệ, và văn bản pháp luật được lưu trữ trong hệ thống.
Thay vì đọc thủ công từng tài liệu để tìm điều khoản cụ thể, người dùng chỉ cần hỏi: "Tìm tất cả hợp đồng có điều khoản bồi thường vi phạm vượt quá 500 triệu đồng" và nhận được kết quả chính xác trong vài giây.
Kiến trúc RAG (Retrieval-Augmented Generation) đảm bảo câu trả lời luôn dựa trên tài liệu thực tế trong hệ thống, không phải kiến thức tổng quát của LLM — quan trọng trong lĩnh vực pháp lý nơi độ chính xác là tối thượng.
Thách thức
Tài liệu pháp lý có đặc thù riêng: ngôn ngữ chuyên ngành, cấu trúc văn bản phức tạp với nhiều mục lồng nhau, và bảng biểu. Nhiều tài liệu cũ ở định dạng scan PDF không có text layer, cần OCR trước khi xử lý. Văn bản tiếng Việt với dấu thanh đặt thêm thách thức cho các mô hình NLP được huấn luyện chủ yếu trên tiếng Anh.
Ngoài ra, yêu cầu bảo mật nghiêm ngặt: tài liệu hợp đồng là thông tin tuyệt mật, không thể gửi lên cloud API để xử lý. Toàn bộ hệ thống phải chạy on-premise trên server của khách hàng.
Giải pháp
Ventra Rocket triển khai kiến trúc RAG on-premise với Ollama chạy mô hình Llama 3.1 70B locally, kết hợp ChromaDB làm vector store để lưu trữ và tìm kiếm semantic embeddings. Pipeline xử lý tài liệu sử dụng Tesseract OCR cho PDF scan và python-docx/openpyxl cho Word/Excel.
Chunking strategy được tùy chỉnh cho văn bản pháp lý: chia theo điều, khoản thay vì theo số ký tự cố định, đảm bảo mỗi chunk là một đơn vị ngữ nghĩa hoàn chỉnh. Hybrid search kết hợp vector similarity với BM25 keyword search cải thiện đáng kể chất lượng retrieval cho thuật ngữ pháp lý chuyên biệt.
Tính năng nổi bật
- Multi-format Ingestion: Tự động xử lý PDF (bao gồm scan), Word, Excel, PowerPoint — extract text, tables, và metadata vào knowledge base thống nhất.
- Semantic Q&A: Đặt câu hỏi bằng tiếng Việt tự nhiên về nội dung tài liệu — hệ thống trả lời với trích dẫn nguồn cụ thể (tên file, trang, đoạn văn).
- Document Summarization: Tóm tắt tự động tài liệu dài theo cấu trúc: điểm chính, nghĩa vụ các bên, điều khoản quan trọng, rủi ro tiềm ẩn.
- Contract Comparison: So sánh hai phiên bản hợp đồng, highlight các điều khoản thay đổi và phân tích tác động pháp lý của sự khác biệt.
- Batch Processing: Xử lý hàng loạt — upload 100 tài liệu cùng lúc, hệ thống index nền và thông báo khi sẵn sàng truy vấn.
Kết quả
Trong giai đoạn pilot với team 15 luật sư, thời gian tìm kiếm thông tin trong tài liệu giảm trung bình 60%. Một tác vụ trước đây mất 2 giờ đọc qua 50 hợp đồng để tìm điều khoản liên quan, nay hoàn thành trong 5 phút với độ chính xác cao hơn.
Luật sư phản hồi tích cực đặc biệt về tính năng trích dẫn nguồn — họ có thể verify ngay câu trả lời của AI bằng cách click vào reference để xem đoạn văn gốc, đảm bảo độ tin cậy trong công việc pháp lý.
Công nghệ sử dụng
LangChain cung cấp abstraction layer cho RAG pipeline — dễ swap giữa các LLM và vector store khác nhau khi cần. FastAPI xây dựng API backend hiệu năng cao với async processing cho các tác vụ nặng như document ingestion. ChromaDB làm vector store on-premise với hiệu năng tốt cho dataset dưới 1 triệu documents. Tesseract OCR với language pack tiếng Việt xử lý PDF scan với độ chính xác 94% cho văn bản in rõ ràng.