Doc Sage

A document Q&A assistant that uses RAG (Retrieval-Augmented Generation) to answer questions about PDF documents with page-level citations.

Features

# Install dependencies
uv sync

# Or with pip
pip install lmstudio scikit-learn pymupdf

from main import RAG

rag = RAG("document.pdf")
rag.chat("What are the main findings?")  # Streams response to console

Extract - Splits PDF into page-based chunks with metadata
Embed - Creates embeddings for query and document pages
Retrieve - Finds top 7 most similar chunks (cosine similarity ≥ 0.3)
Generate - Uses LM Studio to create contextual responses with page citations

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
main.py		main.py
pyproject.toml		pyproject.toml
uv.lock		uv.lock