Was ist RAG?
Einführung in RAG und AI
Retrieval Augmented Generation (RAG) ist eine leistungsstarke Technik, die große Sprachmodelle (LLMs) durch die Kombination ihrer generativen Fähigkeiten mit externen Wissensquellen leistungsfähiger macht. Im Wesentlichen schließt RAG die Lücke zwischen der enormen generativen Kapazität von LLMs und der Fähigkeit, genauere, aktuellere und kontextbezogene Informationen bereitzustellen – vorausgesetzt, die externen Quellen sind zuverlässig.

Herkömmliche LLMs sind zwar in der Lage, qualitativ hochwertigen Text zu erstellen, sind jedoch durch das angeeignete Wissen aus der ersten Trainingsphase eingeschränkt.
Ihre Antworten können veraltet sein oder bestimmte Details vermissen lassen, insbesondere in sich schnell entwickelnden Bereichen. Diese Einschränkung wird dadurch behoben, dass das Modell auf Daten aus einer Vielzahl externer Quellen zugreifen und diese verarbeiten kann, z. B.:
- Datenbanken: Strukturierte Informations-Repositorys, die Fakten, Zahlen und Beziehungen enthalten.
- Dokumente: Textressourcen wie Artikel, Berichte und Websites.
- Code-Repositorys: Sammlungen von Code und Dokumentation.
- Wissensdiagramme: Netzwerke miteinander verbundener Einheiten und Konzepte.
Durch die Integration der externen Ressourcen ermöglichen diese Systeme einem LLM die Generierung von relevanteren Antworten, da sie auf faktischen Daten aus zuverlässigen Quellen basieren.
Außerdem ermöglicht RAG aktuellere Antworten, die die neuesten Entwicklungen und Änderungen berücksichtigen.
RAG ist ein Paradebeispiel dafür, wie KI-Systeme durch die Integration von externem Wissen robuster und zuverlässiger werden können. Dieser Ansatz eröffnet spannende Möglichkeiten für verschiedene Anwendungen, vom Kundenservice über den Bildungsbereich bis hin zu Forschung und Entwicklung.
Wir erwarten, dass sich im Zuge der Weiterentwicklung der RAG-Technologie innovativere und wirkungsvollere Anwendungsfälle herausbilden werden.
Die Bedeutung von RAG
Diese Methode gewinnt in der KI zunehmend an Bedeutung, da sie einige der größten Einschränkungen von großen Sprachmodellen (LLMs) umgehen kann. Deshalb ist dieser Weg so wichtig:
- Höhere Genauigkeit und Zuverlässigkeit: LLMs werden auf der Grundlage umfangreicher Datensätze trainiert. Diese können jedoch veraltet sein oder bestimmte Bereiche oder Nischenthemen außer Acht lassen. Mit RAG kann das Modell auf Echtzeitinformationen und bereichsspezifisches Wissen aus externen Quellen zugreifen und diese einbeziehen, was zu genaueren und zuverlässigeren Antworten führt. Dies ist besonders in Bereichen wichtig, in denen Präzision und sachliche Korrektheit unerlässlich sind – beispielsweise im Kundendienst, im Gesundheitswesen und im Finanzwesen.
Im Kundendienst kann RAG beispielsweise sicherstellen, dass genaue Produktinformationen oder Schritte zur Fehlerbehebung bereitgestellt werden, und im Gesundheitswesen Zugriff auf die neuesten medizinischen Forschungsergebnisse und Patientenakten bieten.
- Verbesserte kontextbezogene Relevanz: RAG erhöht die kontextbezogene Relevanz der Antworten, indem relevante Informationen aus externen Ressourcen abgerufen und an der Abfrage ausgerichtet werden. Dies führt zu aussagekräftigeren und maßgeschneiderten Antworten, die die Nutzererfahrung und -zufriedenheit steigern.
Dies ist hilfreich für personalisierte Empfehlungen, bei denen RAG basierend auf Nutzerpräferenzen und Kaufhistorie Produkte oder Dienstleistungen vorschlagen kann. Im Bildungsbereich können auf die Bedürfnisse der Lernenden abgestimmte Lernmaterialien und Übungen bereitgestellt werden.
- Verhinderung von Halluzinationen und Verzerrung: LLMs können manchmal falsche oder verzerrte Informationen erzeugen, die oft als „Halluzination“ bezeichnet werden. Das Problem wird gemindert, indem das LLM auf faktische Daten aus zuverlässigen Quellen gestützt wird.
- Anpassungsfähigkeit und kontinuierliches Lernen: Mit RAG können sich LLMs an neue Informationen und sich entwickelnde Bereiche anpassen, indem ihre Wissensdatenbank ständig aktualisiert wird. Dadurch entfällt die Notwendigkeit, das LLM immer wieder neu zu trainieren, wodurch seine Verwendung effizienter und kostengünstiger wird.
Die Kombination der Stärken eines LLM mit externen Wissensquellen eröffnet neue Möglichkeiten für KI-Anwendungen und Machine Learning.
So kann ein LLM komplexe Aufgaben bewältigen, die Kreativität und sachliche Genauigkeit erfordern – beispielweise das Beantworten von Fragen, das Zusammenfassen von Text und das Generieren von Code.
So kann RAG beispielsweise umfassendere und differenziertere Antworten auf komplexe Fragen ermöglichen, kurze und informative Zusammenfassungen umfangreicher Texte erstellen und bei der Erstellung von Code Snippets auf der Grundlage von Beschreibungen in natürlicher Sprache helfen.
Branchenübergreifende Anwendungen
RAG ist eine vielseitige Technologie, die das Potenzial hat, den Umgang mit Informationen und die Automatisierung von Aufgaben in verschiedenen Branchen zu revolutionieren. Hier sind einige wichtige Anwendungen.
Kundendienst und Support
RAG kann intelligentere und effizientere Kundendienstsysteme unterstützen. RAG-fähige Chatbots greifen auf Produktdokumentationen, Infodatenbanken und den Verlauf von Kundeninteraktionen zu und können so Kundenanfragen präzise beantworten, Probleme schneller lösen und individuellen Support bieten. Dies führt zu höherer Kundenzufriedenheit und niedrigeren Support-Kosten.
E-Commerce
Mit dieser Methode können Produkterkennungs- und Empfehlungssysteme verbessert werden. Durch die Analyse von Produktbeschreibungen, Kundenbewertungen und Kaufhistorie kann RAG passendere Produktvorschläge liefern, Fragen zu Artikeln beantworten und sogar individuelle Kaufleitfäden erstellen. Dies kann zu einem höheren Umsatz und zu einer stärkeren Kundenbindung führen.
Gesundheitswesen
RAG kann medizinisches Fachpersonal bei der Diagnose, Behandlungsplanung und Patientenversorgung unterstützen. Der Zugriff auf medizinische Literatur, Patientenakten und Daten aus klinischen Studien kann für einige Fälle relevante Informationen liefern, potenzielle Diagnosen vorschlagen und Forschungsergebnisse zusammenfassen. Dies kann dazu beitragen, die Genauigkeit und Effizienz der medizinischen Entscheidungsfindung zu verbessern.
Finanzen
RAG kann auf Finanzanalysen, Risikomanagement und Anlagestrategien angewendet werden. Durch Zugriff auf Marktdaten, Finanznachrichten und Unternehmensberichte kann RAG Zusammenfassungen der wirtschaftlichen Leistung erstellen, potenzielle Risiken identifizieren und Erkenntnisse für Investitionsentscheidungen liefern. Dies kann Finanzinstituten helfen, fundiertere und datengestützte Entscheidungen zu treffen.
Bildungsbereich
RAG kann die Lernerfahrungen personalisieren und den Lernenden effektivere Bildungsressourcen bereitstellen. Durch den Zugriff auf Lehrbücher, Forschungsarbeiten und akademische Datenbanken kann RAG die Fragen der Lernenden beantworten, Quizfragen und Aufgaben generieren und maßgeschneiderte Lernmaterialien bereitstellen. Dies kann zu verbesserten Lernergebnissen und zu einer höheren Motivation der Lernenden führen.
Rechtswesen
RAG kann Jurist:innen bei Recherchen, Dokumentenprüfungen und Vertragsanalysen unterstützen. Durch den Zugriff auf juristische Datenbanken, Rechtsprechung und Texte kann RAG relevante Informationen für spezifische Fälle bereitstellen, rechtliche Argumente zusammenfassen und potenzielle juristische Probleme identifizieren. Dies kann Anwält:innen dabei helfen, Zeit zu sparen und die Genauigkeit ihrer Arbeit zu verbessern.
Software-Entwicklung
Diese Methode kann Entwickler:innen bei der Codegenerierung, der Fehlersuche und der Dokumentation unterstützen. RAG kann basierend auf Beschreibungen in natürlicher Sprache Code Snippets generieren, potenzielle Fehler identifizieren und Codefunktionen durch Zugriff auf Code-Repositorys, Dokumentation und Onlineforen erklären. Dies kann Entwickler:innen dabei unterstützen, schneller und effektiver zu programmieren.
RAG-Modelle verstehen
Obwohl das Konzept recht einfach erscheint, beinhalten die zugrunde liegenden Modelle ein ausgeklügeltes Zusammenspiel von verschiedenen Komponenten. Schauen wir uns die wichtigsten Elemente an:
Retriever
Diese Komponente fungiert als Suchmaschine. Sie durchsucht die große externe Basis und identifiziert die wichtigsten Informationen für eine bestimmte Abfrage. Es können verschiedene Abrufverfahren eingesetzt werden. Dense Retrieval nutzt Einbettungen und numerische Darstellungen von Text, die semantische Bedeutung erfassen.
Der Retriever vergleicht die Einbettung der Nutzerabfrage mit der Einbettung von Dokumenten in der Basis, um die engsten Übereinstimmungen zu finden. Sparse Retrieval basiert auf herkömmlichen Suchmethoden wie TF-IDF (Term Frequency-Inverse Document Frequency), um Dokumente zu finden, die die Abfragebegriffe enthalten.
Hybrid Retrieval kombiniert Dense und Sparse Retrieval, um die Stärken beider Methoden zu nutzen und die Genauigkeit zu verbessern.
Ranker
Sobald der Retriever potenziell relevante Dokumente identifiziert hat, schreitet der Ranker ein, um die Auswahl zu verfeinern. Die abgerufenen Dokumente werden bewertet und nach ihrer Relevanz für die Abfrage geordnet.
Dadurch wird sichergestellt, dass die relevantesten Informationen an den Generator weitergegeben werden. Zu den Ranking-Methoden gehören Ähnlichkeitsbewertungen, die die Ähnlichkeit zwischen der Abfrage und abgerufenen Dokumenten basierend auf deren Einbettungen oder Überschneidungen von Schlüsselwörtern messen; kontextbezogene Relevanz, die bewertet, wie gut die abgerufenen Informationen die Nuancen und Absichten der Abfrage berücksichtigen; und die Quellenqualität, die Informationen aus zuverlässigen und glaubwürdigen Quellen priorisiert.
Generator
Der Generator ist die Kernkomponente, die für die Erstellung der endgültigen Antwort verantwortlich ist. Normalerweise verwertet ein großes Sprachmodell (Large Language Model, LLM) die bewerteten Dokumente als Eingabe und formuliert eine kohärente und informative Antwort. Dazu sind jedoch auch andere generative KI-Modelle in der Lage.
Der Generator nutzt sein Sprachverständnis und seine Generierungsfunktionen, um die abgerufenen Informationen auf natürliche und ansprechende Weise zu synthetisieren und darzustellen.
Wissensdatenbank
Die Basis ist die externe Informationsquelle, auf die sich das RAG-Modell stützt. Dabei kann es sich um eine vielfältige Datensammlung handeln, die Textdokumente wie Artikel, Bücher, Websites und Code-Repositorys, strukturierte Datenbanken wie Tabellen, relationale Datenbanken und Grafiken und sogar Multimedia wie Bilder, Videos und Audiodateien umfasst.
Die Wahl der Basis hängt von der Anwendung und der Art der erforderlichen Informationen ab.
Verschiedene RAG-Architekturen
Es gibt verschiedene Möglichkeiten, ein System mit dieser Methode zu strukturieren. Bei der Architektur auf Dokumentebene wählt der Retriever alle für die Abfrage relevanten Dokumente aus, wobei der Generator diese Dokumente als Ganzes verarbeitet.
Bei RAG auf Passage-Ebene hingegen zerlegt der Retriever Dokumente in kleinere Passagen und wählt die relevantesten aus.
Dies ermöglicht einen fokussierteren und präziseren Abruf. RAG zum Beantworten von Fragen ist schließlich explizit für Aufgaben zum Beantworten von Fragen konzipiert, wobei sich der Retriever darauf konzentriert, Passagen zu finden, die die Frage der Nutzer:innen direkt beantworten.
Herausforderungen von RAG
Diese Lösung bietet erhebliche Vorteile, birgt aber auch spezifische Herausforderungen, die es für eine erfolgreiche Implementierung zu bewältigen gilt. Ein Hauptanliegen ist die Aufrechterhaltung einer qualitativ hochwertigen Wissensbasis. Ihre Effektivität hängt von der Genauigkeit, Relevanz und Vollständigkeit der Informationen ab, die sie abruft.
Dies erfordert eine sorgfältige Pflege und Wartung der Basis – einschließlich regelmäßiger Updates, genauer Indizierung und effektiver Filterung irrelevanter oder veralteter Informationen. Weitere Herausforderungen ergeben sich aus der Gewährleistung der Datenkonsistenz, der Verwaltung unterschiedlicher Datenformate und des Umgangs mit möglichen Verzerrungen innerhalb der Daten.
Ohne eine robuste und gut gewartete Basis können diese Systeme ungenaue, irrelevante oder irreführende Antworten liefern und damit ihren beabsichtigten Zweck untergraben.
Darüber hinaus erfordert die Erzielung einer optimalen Leistung in RAG-Systemen eine sorgfältige Abwägung von Abrufeffizienz und -genauigkeit. Das Abrufen relevanter Informationen aus umfangreichen Datenbanken kann rechenintensiv und zeitaufwendig sein.
Entwickler:innen müssen effiziente Methoden finden, um schnell die wichtigsten Informationen zu finden, ohne dabei auf Genauigkeit zu verzichten. Dies erfordert oft Kompromisse zwischen verschiedenen Abruftechniken, beispielsweise Dense und Sparse Retrieval, und erfordert eine sorgfältige Feinabstimmung der Parameter, um diese für bestimmte Aufgaben und Domänen zu optimieren.
Darüber hinaus kann es komplex sein, die korrekte Einstufung und Integration in den LLM-Generierungsprozess der abgerufenen Informationen sicherzustellen. Daher erfordert dieser Prozess anspruchsvolle Ranking-Algorithmen und effektive Integrationsstrategien. Die Bewältigung dieser Herausforderungen ist entscheidend für den Aufbau von RAG-Systemen, die relevante und zeitgerechte Renditen in realen Anwendungen liefern.
Best Practices für das Training von RAG-Modellen
Die Entwicklung effektiver KI geht über die bloße Kombination von Retriever, Ranker und Generator hinaus. Training und Optimierung müssen sorgfältig durchgeführt werden, um eine optimale Leistung zu gewährleisten. Hier sind einige bewährte Methoden, die Sie beachten sollten:
- Eine hochwertige Wissensdatenbank kuratieren: Eine gut gepflegte und relevante Informationsbasis ist die Grundlage für jedes erfolgreiche System. Dazu gehört, dass die Daten korrekt und aktuell sind und keine Fehler oder Inkonsistenzen aufweisen.
- Den Retriever optimieren: Der Retriever ist für die Identifizierung wichtiger Informationen von entscheidender Bedeutung. Zu den wichtigsten Überlegungen gehört die Wahl der geeigneten Methode (Dense, Sparse oder Hybrid Retrieval), die auf den Eigenschaften der Daten und der Aufgabe basiert.
- Den Ranker optimieren: Der Ranker priorisiert die wichtigsten Informationen. Zu den Best Practices gehören die Auswahl geeigneter Bewertungskennzahlen, die mit dem gewünschten Ergebnis übereinstimmen, die Einbindung von Nutzerfeedback zur Verbesserung der Ranking-Genauigkeit und die Förderung von Vielfalt in den bewerteten Ergebnissen, um ein breiteres Spektrum an Perspektiven zu bieten.
- Den Generator für kontextuelles Verständnis trainieren: Der Generator sollte in der effektiven Verwendung der abgerufenen Informationen geschult werden. Dazu muss er lernen, den Kontext der abgerufenen Daten und der Nutzerabfrage zu verstehen und er muss darauf trainiert werden, Informationen aus mehreren Ressourcen zu synthetisieren.
Zudem sollten Sie die Leistung des Modells kontinuierlich bewerten und seine Komponenten überarbeiten, um die Effektivität des Modells zu verbessern.
Dazu gehören die Definition klarer Bewertungsmetriken, die die Genauigkeit, Relevanz und Flüssigkeit der generierten Antworten messen, die Durchführung gründlicher Tests mit verschiedenen Inputs und Szenarien sowie die Überwachung der Leistung des Modells in realen Umgebungen, um Bereiche mit Verbesserungsbedarf zu identifizieren.
OVHcloud und RAG
Beschleunigen Sie Ihre KI-Projekte mit dem umfangreichen Serviceangebot von OVHcloud. Wir bieten eine leistungsstarke Infrastruktur, flexible Tools und professionellen Support, um Ihre Modelle für Machine Learning effizient zu trainieren, zu deployen und zu verwalten.
Lesen Sie diesen Artikel, der eine Referenzarchitektur für eine einfache Lösung zur erweiterten Generierung von Retrieval-Daten vorstellt, die auf einer Vektor-Datenbank basiert und OVHcloud Managed Services nutzt. In diesem Anwendungsfall wird eine große Anzahl von PDF/Markdown-Dokumenten als einzelner Batch aufgenommen, um eine Wissensdatenbank und eine einfache Chat-Oberfläche für den Text zu erstellen, in der die Nutzer:innen Fragen stellen können.

Stärken Sie Ihre Anwendungen mit AI Endpoints
Unsere Plattform wurde im Hinblick auf Einfachheit entwickelt und ermöglicht es Entwickler:innen aller Kompetenzstufen, ihre Anwendungen mit modernsten KI-APIs zu verbessern. KI-Fachwissen ist nicht erforderlich.
Lesen Sie unseren Artikel über den RAG Chatbot mit AI Endpoints und LangChain

AI Deploy
Einfache Bereitstellung von Machine-Learning-Modellen und -Anwendungen in der Produktion, einfache Erstellung von API-Zugriffspunkten und Erstellung effektiver Prognosen.
Wie kann ich LLMs mit vLLM und OVHcloud AI Deploy Server betreiben?
In diesem Tutorial führen wir Sie Schritt für Schritt durch die Verwendung von Large Language Models (LLMs).

Beschleunigen Sie Ihre Workloads mit GPUs für KI- und Grafikaufgaben
Nutzen Sie die Vorteile von NVIDIA GPUs, um Ihre Projekte für künstliche Intelligenz (KI), Deep Learning (DL) und Grafikverarbeitung zu erweitern. Unabhängig davon, ob Sie große Sprachmodelle (LLM) oder visuelle Computing-Aufgaben einsetzen, bieten unsere GPU-basierten Lösungen optimale Geschwindigkeit und Effizienz.