- Backend: Python 3.11 + FastAPI + ChromaDB + SQLite
- Frontend: Jinja2 + Alpine.js + Bulma CSS
- Embedding: paraphrase-multilingual-MiniLM-L12-v2 (CPU)
- LLM: Qwen3.5 via Ollama Cloud
- Busca: BM25Okapi + ChromaDB Vector + RRF (k=60)
Sobre o Sistema
RAG avançado com conformidade UVA AAIP para acervos arquivĂsticos
Este Ă© um Proof of Concept (PoC) de um sistema RAG (Retrieval-Augmented Generation) avançado, aplicado ao acervo de Recortes de Jornais da Reitoria da UFBA â um conjunto de 29.222 artigos de jornais das dĂ©cadas de 1980-1990, digitalizados por OCR.
O sistema demonstra tĂ©cnicas avançadas de RAG e conformidade com o UVA AAIP v1.1 (Universal Virtual Archives â AI Access & Ingestion Protocol), um protocolo para uso Ă©tico de IA em acervos arquivĂsticos.
Combinação de BM25 (busca lexical) com ChromaDB vector search (busca semùntica), fusionados por Reciprocal Rank Fusion (RRF).
Modelo paraphrase-multilingual-MiniLM-L12-v2 â otimizado para
portuguĂȘs brasileiro, substituindo o modelo inglĂȘs inadequado do RAG ingĂȘnuo.
Cada resposta de IA Ă© acompanhada de citação obrigatĂłria com 5 campos do UVA AAIP ApĂȘndice B: Coleção, Item, ReferĂȘncia, CustĂłdia e Link.
Filtro AI_ACCESS_LEVEL por documento: "retrieval", "training" ou "none". Documentos restritos nunca sĂŁo recuperados por IA.
AIUsageLog â registro automĂĄtico de cada consulta: query, documentos recuperados, citaçÔes mostradas, modelo e IP do usuĂĄrio.
AI_PROVENANCE_CHECK â verificação automĂĄtica de que todos os documentos possuem os metadados obrigatĂłrios do ApĂȘndice B.
| Aspecto | RAG IngĂȘnuo (Gradio) | RAG Avançado (Este PoC) |
|---|---|---|
| Busca | Vetor apenas | BM25 + Vetor + RRF |
| Embedding | all-MiniLM-L6-v2 (inglĂȘs) | paraphrase-multilingual (PT-BR) |
| Citação | Nenhuma | 5 campos UVA ApĂȘndice B |
| Controle de acesso | Nenhum | ai_access_level por documento |
| Registro de uso | Nenhum | AIUsageLog completo |
| ProveniĂȘncia | NĂŁo verificada | Verificação automĂĄtica |
| Interface | Gradio (limitado) | FastAPI + Alpine.js (extensĂvel) |
Recortes RAG PoC â UVA AAIP v1.1 (DOI: 10.18130/5dqf-9w86, CC BY 4.0)