Construire un pipeline RAG avec l'API Anthropic

Qu'est-ce que le RAG ?

Le Retrieval-Augmented Generation est une technique qui améliore les LLMs en leur donnant accès à une base de connaissances externe au moment de la génération. Au lieu de se fier uniquement à leur mémoire d'entraînement, ils peuvent récupérer des documents pertinents et les inclure dans leur contexte.

Les 4 étapes du pipeline

1. Ingestion — Chunking + Embedding

` s
// Découper le document en chunks
const chunks = splitIntoChunks(document, { size: 512, overlap: 50 });

// Générer les embeddings via OpenAI
const embeddings = await openai.embeddings.create({
model: 'text-embedding-3-small',
input: chunks.map(c => c.text),
});
`

2. Stockage vectoriel

Les embeddings sont stockés dans une base vectorielle (Supabase pgvector, Pinecone, etc.) avec leurs métadonnées.

3. Retrieval — Recherche sémantique

` s
// Embedder la question utilisateur
const queryEmbedding = await embedQuery(userQuestion);

// Rechercher les chunks les plus proches
const results = await supabase.rpc('match_documents', {
query_embedding: queryEmbedding,
match_count: 5,
});
`

4. Génération avec Claude

s const response = await anthropic.messages.create({ model: 'claude-sonnet-4-6', max_tokens: 1024, system: persona.system_prompt, messages: [{ role: 'user', content: Contexte:\n\n\nQuestion: , }], });

Intégration dans ce boilerplate

L'endpoint /api/search de ce boilerplate implémente ce pipeline complet. La persona Directus configure le system_prompt, les suggestions guident l'utilisateur, et les logs trackent chaque interaction.