---
title: 'Retrieval Augmented Generation (RAG): Was wirklich wichtig ist | INSIDE AI #21'
source: 'https://youtube.com/watch?v=jZoyg74ZyqM'
video_id: 'jZoyg74ZyqM'
date: 2026-06-15
duration_sec: 0
---

# Retrieval Augmented Generation (RAG): Was wirklich wichtig ist | INSIDE AI #21

> Source: [Retrieval Augmented Generation (RAG): Was wirklich wichtig ist | INSIDE AI #21](https://youtube.com/watch?v=jZoyg74ZyqM)

## Summary

Retrieval Augmented Generation (RAG) remains relevant in 2025 despite long context windows and agent systems. The core challenge is effective information retrieval to feed relevant data into an LLM's context window, as quality degrades with too many tokens. RAG combines retrieval mechanisms with generative AI to improve accuracy and access to current or proprietary information.

### Key Points

- **RAG still relevant** [00:00] — Despite hype around agents and long context windows, RAG is still important because retrieval of relevant information is key to quality LLM outputs.
- **Context window limitations** [01:01] — LLMs have a fixed context window (max tokens). Even models with 1M tokens (e.g., Gemini 2.5 Pro) perform better with fewer tokens, so selective input is crucial.
- **RAG definition** [03:20] — RAG means extracting information from external sources and injecting it into the LLM's context window. For small texts, copy-paste or file upload works; for large enterprise data, a retrieval mechanism is needed.
- **Embeddings for semantic search** [05:05] — Embeddings are a mathematical representation of text that enables semantic similarity search. They are not synonymous with RAG but one retrieval method. They require compute to generate and update.
- **Combination of retrieval methods** [07:50] — Best practice is combining keyword search, semantic search (embeddings), and structured queries (e.g., SQL). RAG is not just embeddings.
- **RAG key for enterprise** [08:58] — RAG is critical for enterprise AI because without relevant information, the model cannot give good answers. Data format matters: plain text is better than PDFs.
- **Knowledge graphs and future** [10:55] — Knowledge graphs (like Google's) can enhance retrieval by capturing relationships between data. Frameworks like Agno AGI (Python) help start with RAG easily.

### Conclusion

RAG is not outdated; it is essential for grounding LLMs in relevant, up-to-date information, especially in enterprise settings. The key is choosing the right retrieval strategy (embeddings, keyword, structured queries) and preparing data in accessible formats.

## Transcript

Hallo und herzlich willkommen zu Inside
AI. Heute zum Thema Retrieval Augmented
Generation oder Kurz Rag.
Ja, das Thema RCK ist jetzt auch nicht
mehr ganz so neu. Ihr werdet
wahrscheinlich auch sagen, Tommy, es ist
doch jetzt schon im Jahr 2025, da kommst
du mir jetzt mit Re. Das war doch der
Hype von vom letzten Jahr. Ist doch ein
alter Hut. Wir haben jetzt
Agentensysteme
Search und Co. Und lange Kontextfenster
von einer Million und teil teilweise
darüber hinaus, da spielt R doch gar
keine Rolle mehr. Jain, also ganz so
einfach ist es natürlich nicht und
deshalb lohnt es sich dennoch auch
heutzutage noch darüber nachzudenken,
wie man das Thema Retrieval, das ist
nämlich tatsächlich eigentlich der
Kernpunkt, um den es hierbei geht,
nämlich das Zusammensuchen von
relevanten Informationen in Kombination
mit generativer KI im Einsatz bringen
kann. Und um das zu verstehen, schauen
wir uns einfach noch mal ganz kurz an,
wie denn der Mechanismus bei einem LM
funktioniert und zwar das sogenannte
Kontextfenster. Das heißt, ein LM, das
hat ich ja in den vorherigen Folgen auch
schon in einigen Teilen erklärt. Jedes
LM hat ein festdeiniertes
Kontextfenster, also eine Maximalanzahl
von sozusagen Tokens oder Wörtern, die
es verarbeiten kann. Und wenn man etwas
mit längeren mit mehr Tokens verarbeiten
will, dann muss man halt einfach
irgendwo vorne hinten in der Mitte was
abschneiden. Und es gibt mittlerweile
Modelle, die bis zu einer Millionen
Tokens verarbeiten können. Z.B. Gemini
2.5 Pro von Google. Das Problem dabei
ist aber immer noch, dass nur weil ein
Modell ein Kontextinster z.B. von einer
Million Tokens hat. Das nicht bedeutet,
dass es auch genauso gut mit diesen
vielen Tokens umgehen kann wie mit
weniger Tokens. Es bleibt also dabei, je
weniger Tokens ich den Modell mitgebe,
umso besser kann die Qualität sein. Und
das heißt, es ist entscheidend, was ich
dem Modell an Input mitgebe. Wenn wir in
Richtung Prompt Engineering denken, das
ist dann quasi der Userprompt, der dem
Modell mitgegeben wird. Das ist ein
essentieller Bestandteil in der in der
Arbeit mit diesen generativen Modellen,
die auf LMS basieren. Wir haben auch
immer einen Systemprompt, der jetzt im
Fall von ChatGPT oder Enhropic von den
KI Laboren vorgegeben wird. Im Fall von
Cloud 4 beispielsweise ist der
Systemprompt, glaube ich, 60.000 1000
Zeichen lang, also ein sehr sehr langer
Systemprompt und man muss also daher
nichtsdestotrotz immer noch ein bisschen
mit diesem Kontextfenster haushalten.
Und jetzt stellt sich die Frage, was
habe ich denn für Möglichkeiten, um mein
System zu verbessern, wenn ich
beispielsweise aktuelle Informationen
haben möchte. Ein Modell wird immer mit
einem Datensatz trainiert und wenn ich
jetzt nur dieses blanke Modell betreiben
würde, dann kann mir das Modell keine
Ereignisse wiedergeben, die noch nicht
im Trainingsdatenet enthalten waren,
weil das Modell diese einfach
schlichtwicht nicht kennt, noch nie
gesehen hat. Das heißt, wir müssen eine
Schnittstelle schaffen, mit der sich das
System sozusagen diese Informationen
herausziehen kann. Und da kommt nämlich
dann das Thema Retrieval Augmented
Generation ins Spiel, denn vereinfacht
gesagt heißt es nichts anderes als dass
wir Information aus einer beliebigen
Quelle entnehmen und in das
Kontextfenster unseres LMs überführen.
Und zwar können wir jetzt einmal das
ganze Thema hier als externe Information
bezeichnen und im einfachsten Fall
packen wir das Ganze dann mit in unser
Kontextfenster, im Prinzip mit in
unseren eigentlichen Userprompt und
natürlich für kleinere Textquellen, wenn
wir jetzt z.B. ein PDF haben, was nicht
allzu lang ist, wo hauptsächlich
Textinhalt drin ist, reicht es schon mit
Copypaste, können wir da reinpacken oder
wie bei ChatGPT einfach das PDF
hochladen und das Modell kann einfach
den gesamten Text mit verarbeiten. Wenn
wir uns das aber anschauen in der
Realität, z.B. auch in Unternehmen, da
haben wir ja unmengen von Daten,
unmengen von textuellen Daten und
anderen Daten, Unmengen von
Informationen. Und wenn ich jetzt eine
Antwort auf eine sehr spezifische Frage
bekommen möchte im Unternehmenskontext
beispielsweise, dann kann ich ja nicht
einfach alle Daten, die wir haben,
nehmen und in das Kontextfenster
reinladen.
funktioniert einfach nicht, weil es
schlichtwicht zu viele Daten sind und es
würde selbst, wenn es passen würde, die
Qualität nicht unbedingt
notwendigerweise verbessern, weil sehr
viele Informationen, die ich dem Modell
mitgebe, gar nicht relevant ist für die
Anfrage, die ich stelle. Das heißt, man
muss einen Mechanismus haben, mit dem
man relevante Informationen
identifizieren kann und dann nach Bedarf
in das Kontextfenster hereinladen kann.
Und ein Mechanismus, der sich
tatsächlich gerade auch, sag ich mal, in
den letzten beiden Jahren, der sehr sehr
stark auch gehyped wurde, ist das Thema
der sogenannten Embeddings. Und zwar ist
häufig wird RCK mit Embeddings
gleichgesetzt. Das ist aber schlichtweg
falsch, denn es ist nur eine Art von
Informationsidentifikationsmechanismus.
Und bei den Embeddings ist es so, dass
es tatsächlich eine Technologie, die
schon lange eingesetzt wird, immer dann,
wenn es um die sogenannte semantische
Suche ging. Bei der semantischen Suche
anders als bei der Stichwortsuche, wo
ich nach einzelnen Worten gesucht habe
und immer dann, wenn dieses Wort in
einem Quelltext auftaucht, dann wird mir
der entsprechende Quelltext gezeigt. Bei
einer semantischen Suche ist es so, dass
man mit Ähnlichkeiten arbeiten kann. Das
heißt, ich kann eine Suchanfrage
eingeben und mir werden ähnliche
Ergebnisse angezeigt. das im Prinzip
auch nichts anderes als bei einer Google
Suche. Hinter der Google Suche steckt
der Knowledge Graph von Google und
dieser Knowledge Graph arbeitet unter
anderem auch mit diesen Mbeddings. Und
im Prinzip vereinfacht gesagt ist es
einfach eine mathematische
Repräsentation von Inhalten. Man
encodiert quasi Textabschnitte in Zahlen
und kann dann Ähnlichkeiten berechnen.
Man kann also sagen, wie ähnlich zwei
Sätze z.B. zueinander sind. Das ist dann
im Prinzip eine mathematische
Berechnung, die durchgeführt wird und
diese Ähnlichkeit wird dann auch in Form
einer Zahl mir ausgegeben. Und wenn ich
jetzt Informationen in meinem ganzen
Wissensschatz im Unternehmen
beispielsweise identifizieren möchte,
dann bietet es sich unter Umständen an
tatsächlich mit diesen Embeddings zu
arbeiten. Das hat den Vorteil, ich
brauche nicht mehr nur über Stichworte
zu suchen, sondern kann diese
semantischen Suchen auch durchführen.
Das heißt, ich brauche nicht genau zu
wissen, welche Terminologie jetzt da
verwendet wurde in dem Dokument oder
Abschnitt, den ich da gerade suche,
sondern es reicht, wenn ich etwas
formuliere, was einfach eine hohe
Ähnlichkeit mit diesem Text hat.
Der Nachteil bei Verwendung dieses
Systems ist, diese Embedings müssen
berechnet werden. Das heißt, das ist
eine rechenintensive Aufgabe. Der
gesamte Text, den man da hinterlegen
möchte in dieser Embeddingsdatenbank,
der muss erstmal überführt werden. Und
jedes Mal, wenn ich neue Informationen
in was auch immer für einer Textform
ablege, muss ich quasi weitere
Embeddings berechnen. Das heißt, es ist
kontinuierlicher zusätzlicher
Rechenaufwand, der dazu kommt.
Das ist auch der Grund, warum die
semantische Suche alleine nicht immer
der Schlüssel zum Ziel ist oder der
richtige Weg ist. Es gibt auch Ansätze,
wo man mit der einfachen Stichwortsuche
teilweise sogar bessere Ergebnisse
erzielen kann, als rein mit Embeddings.
In der Praxis ist es im Prinzip immer
eine Kombination aus vielen
verschiedenen Ansätzen. Und
letztendlich, wenn wir z.B. zb ChatGPT
benutzen und Chat GPT im Hintergrund
eine Websuche durchführt, ist es
letztendlich auch nichts anderes als
eine Art ein Mechanismus der
Informationsextraktion,
im Prinzip ein Retrieval Mechanismus.
Und was ich jetzt in letzter Zeit immer
weiter abzeichnet, sind, dass diese
Modelle sehr gut darin sind, Tools
einzusetzen. Tools, die von den KI
Laboren fest definiert sind, wie z.B.
wie die Websuche, aber auch Tools, die
wir beispielsweise mittels MCP Protokoll
dann an die LMS anbinden. Dazu hatte ich
ja auch schon ein Video gemacht. Schaut
euch das gerne noch mal an, wenn ihr
mehr dazu erfahren möchtet. Und das ist
auch der Grund, warum Retrieval
Augmented Generation weiterhin wichtig
ist. Vielleicht ist der Begriff ein
wenig abgenutzt. Nichtsdestotrotz
brauchen wir weiterhin das Information
Retrieval und das ist häufig tatsächlich
auch eher der Schlüssel, um diese
Technologien im Unternehmenskontext
gut einsatzbar und nutzbar zu machen.
Denn wenn mir das Modell nicht die
relevanten Informationen identifizieren
kann, die ich jetzt für meine Anfrage
brauche, wird es mir auch keine gute
Antwort geben können. Und deshalb wird
sehr stark daran gearbeitet. Wir haben
in verschiedenen Projekten auch schon
mehrfach verschiedene Lösungen
aufgesetzt im Kontext des Retrieval
Manage Generation und wie ich schon
gesagt habe, ist es meistens die
Kombination aus vielen verschiedenen
Datenquellen, die angeknüpft werden. Das
können z.B. auch SQL Datenbanken sein,
wo dann Suche über die strukturierten
Daten ausgeführt werden. Und hier ist es
wichtig, sich frühzeitig Gedanken über
die bestmöglichen Formate zu machen, die
man hinterlegen möchte. PDFs
beispielsweise finden sich natürlich in
vielen Unternehmen. Allerdings ist das
nicht unbedingt das beste Format, weil
es wenig standardisiert ist. Tatsächlich
es ist sehr mühselig aus einem PDF z.B.
nur den Text und die Bilder separat und
dann die Bilder zu beschreiben zu
extrahieren. Das ist da gibt es
natürlich verschiedene Anbieter und
Mechanismen, die das tun. Das ist
allerdings äh ich sag mal unnötig
aufwendig, wenn wir der die
Informationen auch in reiner Textform
bereitstellen könnten. Das heißt, es
wird jetzt immer spannender für
Unternehmen, die generative KI nutzen
möchten, die Frage zu beantworten, wie
wir denn für die Zukunft unsere
Information und unser Wissen bestmöglich
ablegen, bestmöglich strukturieren,
damit sowohl Menschen als auch KI
Systeme ideal damit arbeiten können und
die sichten auf diese Informationen, ob
es jetzt ein PDFDument ist, ob es jetzt
eine PowerPoint Präsentation ist oder
ein Word Dokument, das lässt sich
letztendlich
relativ einfach aus den Daten, die wir
dann sinnvoll abgelegt haben, erzeugen.
Das heißt, wir kommen hier in einen
Modus, wo wir gar nicht mehr die Dateien
notwendigerweise ablegen müssen, die wir
hinterher verwenden wollen, sondern die
Dateien werden dann onemand vielleicht
erzeugt. Wichtig ist, dass die
Informationen zugänglich abgelegt sind
und eine Technologie, die hier
sicherlich auch zunehmend spannend wird,
ist das ganze Thema der der
Wissensgrafen. Also ähnlich wie Google
es mit dem Wissensgraf verwendet, gibt
es natürlich auch im Unternehmenskontext
Grafdatenbanken, die dann verschiedene
Ansätze kombinieren und vor allem sehr
gut Zusammenhänge zwischen
unterschiedlichen Datenquellen
darstellen können und über die dann halt
dieser Retrieval Mechanismus vielleicht
sogar noch mal mächtiger wird, weil ich
eben neben der semantischen Suche oder
der Stichwortsuche oder der
strukturierten Suche plötzlich auch
dieses Relationswissen
über die einzelnen Daten habe. und so
vielleicht deutlich schneller, einfacher
und besser das relevante Wissen
identifizieren kann. Viele Frameworks
bieten auch bereits Mechanismen an, um
mit RC zu starten. Wenn man jetzt
beispielsweise mit Python arbeitet, kann
ich das Agno AGI Framework tatsächlich
ans Herz legen. ist ein agentisches
Framework, mit dem man Agentensysteme
bauen kann, das auch sehr viele
verschiedene Mechanismen des Retrieval
Augmented Generation ermöglicht und wo
man sehr klein anfangen kann, sehr
einfache entweder Textdateien,
PDF-Dateien oder was auch immer
Wissensquellen hinterlegen kann. Bei
PDF, wie gesagt, muss man immer darüber
nachdenken. Das Ganze muss dann immer on
the Fly umgewandelt werden und kann dazu
führen, dass die Ergebnisse nicht ganz
so gut sind, aber nichtsdestotrotz ist
das ein sehr, sehr guter Starkpunkt, um
damit anzufangen, wenn man es noch nicht
getan hat. Und das Thema ist auf jeden
Fall weiterhin, wie gesagt, brandheiß,
auch wenn vielleicht einige andere
Hypthemen aktuell eher wog sind, aber
schaut euch doch mal an, wie ihr das
Thema bei euch in euren Organisationen
angeht. Habt ihr damit schon gute
Erfahrung gemacht? Habt ihr damit
schlechte Erfahrungen gemacht? Hat es
vielleicht noch nicht funktioniert, als
ihr es ausprobiert habt? Lasst uns gerne
Kommentare zu dem Thema da und ich freue
mich, wenn es das nächste Mal auch
wieder heißt Inside AI. Aber bevor ich
euch entlasse, möchte ich euch noch den
Tipp geben, doch auch noch mal in
unseren Podcast Out Time reinzuhören, wo
Roman Dumitrescu und ich technologische
Zukunftsvisionen diskutieren, in jeder
Folge ein neues Gedankenexperiment uns
anhören, wie denn bestimmte Technologien
unsere Zukunft verändern könnten. Hört
gerne auch da mal rein und wir sehen uns
beim nächsten Mal, wenn es heißt Inside
AI.
Ah.
