Quay lại dự án
AI/MLĐang phát triển

AI Document Assistant

Trợ lý AI xử lý tài liệu — tóm tắt, trích xuất, trả lời câu hỏi từ PDF/Word/Excel bằng RAG.

60%giảm thời gian xử lý
PythonLangChainOpenAIFastAPI

Tổng quan

AI Document Assistant là hệ thống trợ lý AI xử lý tài liệu doanh nghiệp được xây dựng cho một công ty tư vấn pháp lý lớn tại TP. Hồ Chí Minh. Hệ thống cho phép luật sư và chuyên viên pháp lý đặt câu hỏi bằng ngôn ngữ tự nhiên về nội dung của hàng nghìn tài liệu hợp đồng, án lệ, và văn bản pháp luật được lưu trữ trong hệ thống.

Thay vì đọc thủ công từng tài liệu để tìm điều khoản cụ thể, người dùng chỉ cần hỏi: "Tìm tất cả hợp đồng có điều khoản bồi thường vi phạm vượt quá 500 triệu đồng" và nhận được kết quả chính xác trong vài giây.

Kiến trúc RAG (Retrieval-Augmented Generation) đảm bảo câu trả lời luôn dựa trên tài liệu thực tế trong hệ thống, không phải kiến thức tổng quát của LLM — quan trọng trong lĩnh vực pháp lý nơi độ chính xác là tối thượng.

Thách thức

Tài liệu pháp lý có đặc thù riêng: ngôn ngữ chuyên ngành, cấu trúc văn bản phức tạp với nhiều mục lồng nhau, và bảng biểu. Nhiều tài liệu cũ ở định dạng scan PDF không có text layer, cần OCR trước khi xử lý. Văn bản tiếng Việt với dấu thanh đặt thêm thách thức cho các mô hình NLP được huấn luyện chủ yếu trên tiếng Anh.

Ngoài ra, yêu cầu bảo mật nghiêm ngặt: tài liệu hợp đồng là thông tin tuyệt mật, không thể gửi lên cloud API để xử lý. Toàn bộ hệ thống phải chạy on-premise trên server của khách hàng.

Giải pháp

Ventra Rocket triển khai kiến trúc RAG on-premise với Ollama chạy mô hình Llama 3.1 70B locally, kết hợp ChromaDB làm vector store để lưu trữ và tìm kiếm semantic embeddings. Pipeline xử lý tài liệu sử dụng Tesseract OCR cho PDF scan và python-docx/openpyxl cho Word/Excel.

Chunking strategy được tùy chỉnh cho văn bản pháp lý: chia theo điều, khoản thay vì theo số ký tự cố định, đảm bảo mỗi chunk là một đơn vị ngữ nghĩa hoàn chỉnh. Hybrid search kết hợp vector similarity với BM25 keyword search cải thiện đáng kể chất lượng retrieval cho thuật ngữ pháp lý chuyên biệt.

Tính năng nổi bật

Kết quả

Trong giai đoạn pilot với team 15 luật sư, thời gian tìm kiếm thông tin trong tài liệu giảm trung bình 60%. Một tác vụ trước đây mất 2 giờ đọc qua 50 hợp đồng để tìm điều khoản liên quan, nay hoàn thành trong 5 phút với độ chính xác cao hơn.

Luật sư phản hồi tích cực đặc biệt về tính năng trích dẫn nguồn — họ có thể verify ngay câu trả lời của AI bằng cách click vào reference để xem đoạn văn gốc, đảm bảo độ tin cậy trong công việc pháp lý.

Công nghệ sử dụng

LangChain cung cấp abstraction layer cho RAG pipeline — dễ swap giữa các LLM và vector store khác nhau khi cần. FastAPI xây dựng API backend hiệu năng cao với async processing cho các tác vụ nặng như document ingestion. ChromaDB làm vector store on-premise với hiệu năng tốt cho dataset dưới 1 triệu documents. Tesseract OCR với language pack tiếng Việt xử lý PDF scan với độ chính xác 94% cho văn bản in rõ ràng.

Dự án liên quan

AI/ML

CapyPrep

Nền tảng luyện thi thông minh cho học sinh — luyện English, GMAT, SAT với AI chấm điểm tự động và trợ lý AI đồng hành học tập.

50%tăng hiệu quả học tập
AI Document Assistant — Trợ lý AI xử lý tài liệu | Ventra Rocket