Le moteur RAG de Vertex AI est un service d’orchestration géré conçu pour faciliter la connexion des grands modèles linguistiques (LLM) à des sources de données externes, rendant ainsi les réponses plus pertinentes et en réduisant les phénomènes d’hallucination.
Selon Google, ce nouveau moteur RAG représente le juste équilibre pour les développeurs utilisant Vertex AI pour mettre en œuvre un LLM basé sur RAG, offrant une interface conviviale comme celle de Vertex AI Search, tout en bénéficiant de la puissance d’un pipeline RAG personnalisé construit à l’aide d’APIs Vertex AI plus avancées comme l’API Text Embedding et l’API Ranking.
Le flux de travail global pris en charge par Vertex AI RAG Engine se décompose en plusieurs étapes distinctes : ingestion de données provenant de différentes sources ; transformation des données, incluant la division des données en morceaux avant l’indexation ; embedding, qui permet de créer une représentation numérique du texte pour en capturer la sémantique et le contexte ; indexation des données pour créer un corpus optimisé pour la recherche ; récupération d’informations pertinentes en réponse à la demande de l’utilisateur ; et enfin, une étape de génération où la requête initiale est enrichie des informations récupérées.
Avec le moteur RAG de Vertex AI, il est aisé d’intégrer toutes ces étapes dans votre solution. La manière la plus simple de commencer avec le moteur RAG de Vertex AI est d’utiliser ses liaisons Python, disponibles dans le package google-cloud-aiplatform
. Après avoir configuré un projet Google Cloud et initialisé le moteur Vertex AI, il est possible de créer facilement un corpus à partir de vos fichiers locaux ou de documents stockés sur Google Cloud Storage ou Google Drive en utilisant les méthodes upload_file
ou import_file
.
# Actuellement, prend en charge les modèles d'embedding de première partie de Google
EMBEDDING_MODEL = "publishers/google/models/text-embedding-004" # @param {type:"string", isTemplate: true}
embedding_model_config = rag.EmbeddingModelConfig(publisher_model=EMBEDDING_MODEL)
rag_corpus = rag.create_corpus(
display_name="my-rag-corpus", embedding_model_config=embedding_model_config
)
rag_file = rag.upload_file(
corpus_name=rag_corpus.name,
path="test.txt",
display_name="test.txt",
description="my test file",
)
Une fois que vous avez un corpus, vous pouvez créer un outil de récupération qui sera ensuite connecté au LLM, vous permettant d’exposer un nouvel endpoint à interroger avec le modèle enrichi :
# Créer un outil pour le corpus RAG
rag_retrieval_tool = Tool.from_retrieval(
retrieval=rag.Retrieval(
source=rag.VertexRagStore(
rag_corpora=[rag_corpus.name],
similarity_top_k=10,
vector_distance_threshold=0.5,
),
)
)
# Charger l'outil dans le modèle Gemini
rag_gemini_model = GenerativeModel(
"gemini-1.5-flash-001", # votre endpoint auto-déployé
tools=[rag_retrieval_tool],
)
response = rag_gemini_model.generate_content("Qu'est-ce que RAG ?")
Google met en avant que le moteur RAG de Vertex AI est particulièrement utile pour des cas d’utilisation tels que les conseils d’investissement personnalisés et l’évaluation des risques, la découverte accélérée de médicaments et l’élaboration de plans de traitement personnalisés, ainsi qu’une due diligence et une révision de contrat améliorées.
La génération augmentée de récupération (RAG) est une technique couramment utilisée pour “ancrer” un grand modèle linguistique, en l’adaptant à un cas d’utilisation ou à un environnement d’entreprise spécifique. RAG consiste à extraire des informations pertinentes à une tâche particulière à partir d’une source inaccessible au modèle lors de l’entraînement, puis à les transmettre au modèle avec une requête initiale. À l’inverse, un modèle peut également être “ancré” par un processus de fine-tuning, où des données externes sont utilisées pour réentraîner le modèle afin qu’il soit disponible pour chaque requête, même sans être spécifiées au niveau de la demande.
Ancrer un modèle améliore sa compréhension du contexte d’une requête et lui fournit des informations additionnelles spécifiques à la tâche, contribuant ainsi à générer une réponse de meilleure qualité. Dans le cas des données d’entreprise, l’ancrage vise à contourner une limitation des LLM généraux en offrant un accès sûr aux données privées derrière des pare-feu.
Points à retenir
- Le moteur RAG permet une connexion simplifiée entre les LLM et des sources de données externes.
- Différentes étapes de traitement des données sont prises en charge, allant de l’ingestion à la génération.
- Les cas d’utilisation incluent des conseils personnalisés, la découverte de médicaments et des évaluations de risque.
- La technique RAG aide à ancrer les modèles à des cas d’utilisation spécifiques, améliorant ainsi la qualité des réponses.
- Elle offre une solution pour accéder de manière sécurisée aux données privées des entreprises.
Dans un monde où la donnée est omniprésente, la manière dont les modèles de langage interagissent avec les sources d’information extérieures est primordiale. La capacité d’enrichir un modèle par des informations contextuelles fait naître des opportunités pour innover dans le traitement et l’analyse des données. Quelles seraient les prochaines avancées dans ce domaine, et comment pourraient-elles transformer nos approches face aux défis de l’intelligence artificielle dans les entreprises ?
Nos rédacteurs utilisent l'IA pour les aider à proposer des articles frais de sources fiables à nos utilisateurs. Si vous trouvez une image ou un contenu inapproprié, veuillez nous contacter via le formulaire DMCA et nous le retirerons rapidement. / Our editors use AI to help them offer our readers fresh articles from reliable sources. If you find an image or content inappropriate, please contact us via the DMCA form and we'll remove it promptly.