TubeSum ← Transcribe a video

Retrieval Augmented Generation (RAG): Was wirklich wichtig ist | INSIDE AI #21

Transcribed Jun 15, 2026 Watch on YouTube ↗
Intermediate 5 min read For: Professionals and developers interested in AI, LLMs, and enterprise information retrieval.
14.0K
Views
444
Likes
6
Comments
7
Dislikes
3.2%
📈 Moderate

AI Summary

Retrieval Augmented Generation (RAG) remains relevant in 2025 despite long context windows and agent systems. The core challenge is effective information retrieval to feed relevant data into an LLM's context window, as quality degrades with too many tokens. RAG combines retrieval mechanisms with generative AI to improve accuracy and access to current or proprietary information.

[00:00]
RAG still relevant

Despite hype around agents and long context windows, RAG is still important because retrieval of relevant information is key to quality LLM outputs.

[01:01]
Context window limitations

LLMs have a fixed context window (max tokens). Even models with 1M tokens (e.g., Gemini 2.5 Pro) perform better with fewer tokens, so selective input is crucial.

[03:20]
RAG definition

RAG means extracting information from external sources and injecting it into the LLM's context window. For small texts, copy-paste or file upload works; for large enterprise data, a retrieval mechanism is needed.

[05:05]
Embeddings for semantic search

Embeddings are a mathematical representation of text that enables semantic similarity search. They are not synonymous with RAG but one retrieval method. They require compute to generate and update.

[07:50]
Combination of retrieval methods

Best practice is combining keyword search, semantic search (embeddings), and structured queries (e.g., SQL). RAG is not just embeddings.

[08:58]
RAG key for enterprise

RAG is critical for enterprise AI because without relevant information, the model cannot give good answers. Data format matters: plain text is better than PDFs.

[10:55]
Knowledge graphs and future

Knowledge graphs (like Google's) can enhance retrieval by capturing relationships between data. Frameworks like Agno AGI (Python) help start with RAG easily.

RAG is not outdated; it is essential for grounding LLMs in relevant, up-to-date information, especially in enterprise settings. The key is choosing the right retrieval strategy (embeddings, keyword, structured queries) and preparing data in accessible formats.

Clickbait Check

85% Legit

"Title accurately reflects content: explains why RAG is still important and what really matters (retrieval, not hype)."

Mentioned in this Video

Study Flashcards (9)

What does RAG stand for?

easy Click to reveal answer

Retrieval Augmented Generation

00:05

Why is RAG still relevant despite long context windows?

medium Click to reveal answer

Because models perform better with fewer tokens, and retrieval ensures only relevant information is fed in.

01:58

What is the core idea of RAG?

easy Click to reveal answer

Extracting information from external sources and injecting it into the LLM's context window.

03:20

What are embeddings?

medium Click to reveal answer

Mathematical representations of text that enable semantic similarity search.

06:09

What is the disadvantage of using embeddings?

medium Click to reveal answer

They require compute to generate and update continuously.

07:06

What is the best practice for retrieval in RAG?

hard Click to reveal answer

Combining keyword search, semantic search (embeddings), and structured queries (e.g., SQL).

07:50

Why is plain text better than PDFs for RAG?

medium Click to reveal answer

PDFs are less standardized and require extra effort to extract text and images.

09:40

What technology can enhance retrieval by capturing relationships between data?

medium Click to reveal answer

Knowledge graphs.

10:55

Name a Python framework mentioned for starting with RAG.

easy Click to reveal answer

Agno AGI Framework.

11:46

💡 Key Takeaways

💡

Quality vs. quantity of tokens

Key insight: more tokens do not guarantee better quality; selective input is crucial.

01:58
📊

Embeddings are not RAG

Clarifies a common misconception: embeddings are one retrieval method, not synonymous with RAG.

05:05
🔧

Combine retrieval methods

Practical advice: best results come from combining keyword, semantic, and structured search.

07:50
💡

Knowledge graphs for relationships

Highlights an emerging trend: using graph databases to capture data relationships for better retrieval.

10:55

✂️ Creator Tools: Viral Hooks

AI-generated clip ideas for Shorts based on the transcript

RAG ist tot? Nicht ganz!

45s

Stellt die provokative Frage, ob RAG 2025 noch relevant ist, und weckt Neugier auf die Antwort.

▶ Play Clip

Warum lange Kontextfenster nicht alles sind

59s

Entlarvt den Mythos, dass Millionen-Token-Kontexte das Retrieval überflüssig machen – ein kontroverses Thema.

▶ Play Clip

Embeddings sind nicht gleich RAG

59s

Räumt mit dem häufigen Missverständnis auf, dass RAG nur Embeddings bedeutet – überraschend für viele.

▶ Play Clip

Stichwortsuche vs. semantische Suche

59s

Zeigt, dass einfache Stichwortsuche manchmal besser ist als KI-Embeddings – kontraintuitiv und lehrreich.

▶ Play Clip

Zukunft: Wissensgraphen statt PDFs

59s

Gibt einen praktischen Ausblick, wie Unternehmen Daten für KI strukturieren sollten – hochaktuell und umsetzbar.

▶ Play Clip

[00:00] Hallo und herzlich willkommen zu Inside

[00:02] AI. Heute zum Thema Retrieval Augmented

[00:05] Generation oder Kurz Rag.

[00:14] Ja, das Thema RCK ist jetzt auch nicht

[00:16] mehr ganz so neu. Ihr werdet

[00:17] wahrscheinlich auch sagen, Tommy, es ist

[00:18] doch jetzt schon im Jahr 2025, da kommst

[00:21] du mir jetzt mit Re. Das war doch der

[00:23] Hype von vom letzten Jahr. Ist doch ein

[00:25] alter Hut. Wir haben jetzt

[00:26] Agentensysteme

[00:28] Search und Co. Und lange Kontextfenster

[00:31] von einer Million und teil teilweise

[00:33] darüber hinaus, da spielt R doch gar

[00:35] keine Rolle mehr. Jain, also ganz so

[00:38] einfach ist es natürlich nicht und

[00:39] deshalb lohnt es sich dennoch auch

[00:41] heutzutage noch darüber nachzudenken,

[00:43] wie man das Thema Retrieval, das ist

[00:46] nämlich tatsächlich eigentlich der

[00:47] Kernpunkt, um den es hierbei geht,

[00:49] nämlich das Zusammensuchen von

[00:52] relevanten Informationen in Kombination

[00:55] mit generativer KI im Einsatz bringen

[00:58] kann. Und um das zu verstehen, schauen

[01:01] wir uns einfach noch mal ganz kurz an,

[01:03] wie denn der Mechanismus bei einem LM

[01:06] funktioniert und zwar das sogenannte

[01:08] Kontextfenster. Das heißt, ein LM, das

[01:11] hat ich ja in den vorherigen Folgen auch

[01:12] schon in einigen Teilen erklärt. Jedes

[01:15] LM hat ein festdeiniertes

[01:18] Kontextfenster, also eine Maximalanzahl

[01:21] von sozusagen Tokens oder Wörtern, die

[01:24] es verarbeiten kann. Und wenn man etwas

[01:27] mit längeren mit mehr Tokens verarbeiten

[01:30] will, dann muss man halt einfach

[01:31] irgendwo vorne hinten in der Mitte was

[01:33] abschneiden. Und es gibt mittlerweile

[01:36] Modelle, die bis zu einer Millionen

[01:38] Tokens verarbeiten können. Z.B. Gemini

[01:41] 2.5 Pro von Google. Das Problem dabei

[01:44] ist aber immer noch, dass nur weil ein

[01:46] Modell ein Kontextinster z.B. von einer

[01:49] Million Tokens hat. Das nicht bedeutet,

[01:51] dass es auch genauso gut mit diesen

[01:53] vielen Tokens umgehen kann wie mit

[01:55] weniger Tokens. Es bleibt also dabei, je

[01:58] weniger Tokens ich den Modell mitgebe,

[02:01] umso besser kann die Qualität sein. Und

[02:03] das heißt, es ist entscheidend, was ich

[02:06] dem Modell an Input mitgebe. Wenn wir in

[02:09] Richtung Prompt Engineering denken, das

[02:11] ist dann quasi der Userprompt, der dem

[02:13] Modell mitgegeben wird. Das ist ein

[02:16] essentieller Bestandteil in der in der

[02:17] Arbeit mit diesen generativen Modellen,

[02:20] die auf LMS basieren. Wir haben auch

[02:22] immer einen Systemprompt, der jetzt im

[02:25] Fall von ChatGPT oder Enhropic von den

[02:27] KI Laboren vorgegeben wird. Im Fall von

[02:29] Cloud 4 beispielsweise ist der

[02:32] Systemprompt, glaube ich, 60.000 1000

[02:35] Zeichen lang, also ein sehr sehr langer

[02:38] Systemprompt und man muss also daher

[02:41] nichtsdestotrotz immer noch ein bisschen

[02:43] mit diesem Kontextfenster haushalten.

[02:46] Und jetzt stellt sich die Frage, was

[02:49] habe ich denn für Möglichkeiten, um mein

[02:52] System zu verbessern, wenn ich

[02:54] beispielsweise aktuelle Informationen

[02:55] haben möchte. Ein Modell wird immer mit

[02:58] einem Datensatz trainiert und wenn ich

[03:00] jetzt nur dieses blanke Modell betreiben

[03:02] würde, dann kann mir das Modell keine

[03:04] Ereignisse wiedergeben, die noch nicht

[03:06] im Trainingsdatenet enthalten waren,

[03:08] weil das Modell diese einfach

[03:09] schlichtwicht nicht kennt, noch nie

[03:11] gesehen hat. Das heißt, wir müssen eine

[03:13] Schnittstelle schaffen, mit der sich das

[03:15] System sozusagen diese Informationen

[03:19] herausziehen kann. Und da kommt nämlich

[03:20] dann das Thema Retrieval Augmented

[03:22] Generation ins Spiel, denn vereinfacht

[03:25] gesagt heißt es nichts anderes als dass

[03:29] wir Information aus einer beliebigen

[03:32] Quelle entnehmen und in das

[03:34] Kontextfenster unseres LMs überführen.

[03:38] Und zwar können wir jetzt einmal das

[03:40] ganze Thema hier als externe Information

[03:42] bezeichnen und im einfachsten Fall

[03:47] packen wir das Ganze dann mit in unser

[03:49] Kontextfenster, im Prinzip mit in

[03:51] unseren eigentlichen Userprompt und

[03:54] natürlich für kleinere Textquellen, wenn

[03:56] wir jetzt z.B. ein PDF haben, was nicht

[03:59] allzu lang ist, wo hauptsächlich

[04:01] Textinhalt drin ist, reicht es schon mit

[04:04] Copypaste, können wir da reinpacken oder

[04:06] wie bei ChatGPT einfach das PDF

[04:08] hochladen und das Modell kann einfach

[04:10] den gesamten Text mit verarbeiten. Wenn

[04:13] wir uns das aber anschauen in der

[04:14] Realität, z.B. auch in Unternehmen, da

[04:17] haben wir ja unmengen von Daten,

[04:19] unmengen von textuellen Daten und

[04:21] anderen Daten, Unmengen von

[04:23] Informationen. Und wenn ich jetzt eine

[04:25] Antwort auf eine sehr spezifische Frage

[04:27] bekommen möchte im Unternehmenskontext

[04:29] beispielsweise, dann kann ich ja nicht

[04:31] einfach alle Daten, die wir haben,

[04:32] nehmen und in das Kontextfenster

[04:34] reinladen.

[04:36] funktioniert einfach nicht, weil es

[04:37] schlichtwicht zu viele Daten sind und es

[04:41] würde selbst, wenn es passen würde, die

[04:43] Qualität nicht unbedingt

[04:45] notwendigerweise verbessern, weil sehr

[04:46] viele Informationen, die ich dem Modell

[04:48] mitgebe, gar nicht relevant ist für die

[04:51] Anfrage, die ich stelle. Das heißt, man

[04:54] muss einen Mechanismus haben, mit dem

[04:56] man relevante Informationen

[04:59] identifizieren kann und dann nach Bedarf

[05:02] in das Kontextfenster hereinladen kann.

[05:05] Und ein Mechanismus, der sich

[05:06] tatsächlich gerade auch, sag ich mal, in

[05:08] den letzten beiden Jahren, der sehr sehr

[05:10] stark auch gehyped wurde, ist das Thema

[05:12] der sogenannten Embeddings. Und zwar ist

[05:16] häufig wird RCK mit Embeddings

[05:18] gleichgesetzt. Das ist aber schlichtweg

[05:21] falsch, denn es ist nur eine Art von

[05:24] Informationsidentifikationsmechanismus.

[05:26] Und bei den Embeddings ist es so, dass

[05:28] es tatsächlich eine Technologie, die

[05:30] schon lange eingesetzt wird, immer dann,

[05:32] wenn es um die sogenannte semantische

[05:34] Suche ging. Bei der semantischen Suche

[05:37] anders als bei der Stichwortsuche, wo

[05:38] ich nach einzelnen Worten gesucht habe

[05:40] und immer dann, wenn dieses Wort in

[05:42] einem Quelltext auftaucht, dann wird mir

[05:44] der entsprechende Quelltext gezeigt. Bei

[05:46] einer semantischen Suche ist es so, dass

[05:49] man mit Ähnlichkeiten arbeiten kann. Das

[05:51] heißt, ich kann eine Suchanfrage

[05:52] eingeben und mir werden ähnliche

[05:55] Ergebnisse angezeigt. das im Prinzip

[05:57] auch nichts anderes als bei einer Google

[05:59] Suche. Hinter der Google Suche steckt

[06:01] der Knowledge Graph von Google und

[06:03] dieser Knowledge Graph arbeitet unter

[06:06] anderem auch mit diesen Mbeddings. Und

[06:09] im Prinzip vereinfacht gesagt ist es

[06:11] einfach eine mathematische

[06:13] Repräsentation von Inhalten. Man

[06:15] encodiert quasi Textabschnitte in Zahlen

[06:20] und kann dann Ähnlichkeiten berechnen.

[06:22] Man kann also sagen, wie ähnlich zwei

[06:25] Sätze z.B. zueinander sind. Das ist dann

[06:27] im Prinzip eine mathematische

[06:28] Berechnung, die durchgeführt wird und

[06:30] diese Ähnlichkeit wird dann auch in Form

[06:32] einer Zahl mir ausgegeben. Und wenn ich

[06:35] jetzt Informationen in meinem ganzen

[06:37] Wissensschatz im Unternehmen

[06:38] beispielsweise identifizieren möchte,

[06:41] dann bietet es sich unter Umständen an

[06:43] tatsächlich mit diesen Embeddings zu

[06:44] arbeiten. Das hat den Vorteil, ich

[06:46] brauche nicht mehr nur über Stichworte

[06:48] zu suchen, sondern kann diese

[06:50] semantischen Suchen auch durchführen.

[06:52] Das heißt, ich brauche nicht genau zu

[06:54] wissen, welche Terminologie jetzt da

[06:56] verwendet wurde in dem Dokument oder

[06:58] Abschnitt, den ich da gerade suche,

[07:00] sondern es reicht, wenn ich etwas

[07:02] formuliere, was einfach eine hohe

[07:03] Ähnlichkeit mit diesem Text hat.

[07:06] Der Nachteil bei Verwendung dieses

[07:08] Systems ist, diese Embedings müssen

[07:11] berechnet werden. Das heißt, das ist

[07:12] eine rechenintensive Aufgabe. Der

[07:15] gesamte Text, den man da hinterlegen

[07:17] möchte in dieser Embeddingsdatenbank,

[07:19] der muss erstmal überführt werden. Und

[07:22] jedes Mal, wenn ich neue Informationen

[07:24] in was auch immer für einer Textform

[07:26] ablege, muss ich quasi weitere

[07:28] Embeddings berechnen. Das heißt, es ist

[07:30] kontinuierlicher zusätzlicher

[07:32] Rechenaufwand, der dazu kommt.

[07:35] Das ist auch der Grund, warum die

[07:37] semantische Suche alleine nicht immer

[07:39] der Schlüssel zum Ziel ist oder der

[07:41] richtige Weg ist. Es gibt auch Ansätze,

[07:44] wo man mit der einfachen Stichwortsuche

[07:45] teilweise sogar bessere Ergebnisse

[07:47] erzielen kann, als rein mit Embeddings.

[07:50] In der Praxis ist es im Prinzip immer

[07:52] eine Kombination aus vielen

[07:54] verschiedenen Ansätzen. Und

[07:57] letztendlich, wenn wir z.B. zb ChatGPT

[07:59] benutzen und Chat GPT im Hintergrund

[08:01] eine Websuche durchführt, ist es

[08:03] letztendlich auch nichts anderes als

[08:05] eine Art ein Mechanismus der

[08:07] Informationsextraktion,

[08:10] im Prinzip ein Retrieval Mechanismus.

[08:13] Und was ich jetzt in letzter Zeit immer

[08:15] weiter abzeichnet, sind, dass diese

[08:18] Modelle sehr gut darin sind, Tools

[08:21] einzusetzen. Tools, die von den KI

[08:23] Laboren fest definiert sind, wie z.B.

[08:25] wie die Websuche, aber auch Tools, die

[08:27] wir beispielsweise mittels MCP Protokoll

[08:30] dann an die LMS anbinden. Dazu hatte ich

[08:33] ja auch schon ein Video gemacht. Schaut

[08:34] euch das gerne noch mal an, wenn ihr

[08:36] mehr dazu erfahren möchtet. Und das ist

[08:39] auch der Grund, warum Retrieval

[08:40] Augmented Generation weiterhin wichtig

[08:43] ist. Vielleicht ist der Begriff ein

[08:45] wenig abgenutzt. Nichtsdestotrotz

[08:48] brauchen wir weiterhin das Information

[08:50] Retrieval und das ist häufig tatsächlich

[08:52] auch eher der Schlüssel, um diese

[08:53] Technologien im Unternehmenskontext

[08:56] gut einsatzbar und nutzbar zu machen.

[08:58] Denn wenn mir das Modell nicht die

[09:01] relevanten Informationen identifizieren

[09:03] kann, die ich jetzt für meine Anfrage

[09:04] brauche, wird es mir auch keine gute

[09:06] Antwort geben können. Und deshalb wird

[09:09] sehr stark daran gearbeitet. Wir haben

[09:11] in verschiedenen Projekten auch schon

[09:13] mehrfach verschiedene Lösungen

[09:14] aufgesetzt im Kontext des Retrieval

[09:17] Manage Generation und wie ich schon

[09:19] gesagt habe, ist es meistens die

[09:21] Kombination aus vielen verschiedenen

[09:23] Datenquellen, die angeknüpft werden. Das

[09:25] können z.B. auch SQL Datenbanken sein,

[09:28] wo dann Suche über die strukturierten

[09:30] Daten ausgeführt werden. Und hier ist es

[09:33] wichtig, sich frühzeitig Gedanken über

[09:36] die bestmöglichen Formate zu machen, die

[09:38] man hinterlegen möchte. PDFs

[09:40] beispielsweise finden sich natürlich in

[09:41] vielen Unternehmen. Allerdings ist das

[09:43] nicht unbedingt das beste Format, weil

[09:45] es wenig standardisiert ist. Tatsächlich

[09:48] es ist sehr mühselig aus einem PDF z.B.

[09:51] nur den Text und die Bilder separat und

[09:53] dann die Bilder zu beschreiben zu

[09:55] extrahieren. Das ist da gibt es

[09:57] natürlich verschiedene Anbieter und

[09:59] Mechanismen, die das tun. Das ist

[10:00] allerdings äh ich sag mal unnötig

[10:02] aufwendig, wenn wir der die

[10:04] Informationen auch in reiner Textform

[10:06] bereitstellen könnten. Das heißt, es

[10:09] wird jetzt immer spannender für

[10:11] Unternehmen, die generative KI nutzen

[10:13] möchten, die Frage zu beantworten, wie

[10:15] wir denn für die Zukunft unsere

[10:17] Information und unser Wissen bestmöglich

[10:20] ablegen, bestmöglich strukturieren,

[10:22] damit sowohl Menschen als auch KI

[10:25] Systeme ideal damit arbeiten können und

[10:28] die sichten auf diese Informationen, ob

[10:31] es jetzt ein PDFDument ist, ob es jetzt

[10:33] eine PowerPoint Präsentation ist oder

[10:34] ein Word Dokument, das lässt sich

[10:36] letztendlich

[10:37] relativ einfach aus den Daten, die wir

[10:41] dann sinnvoll abgelegt haben, erzeugen.

[10:43] Das heißt, wir kommen hier in einen

[10:45] Modus, wo wir gar nicht mehr die Dateien

[10:47] notwendigerweise ablegen müssen, die wir

[10:49] hinterher verwenden wollen, sondern die

[10:51] Dateien werden dann onemand vielleicht

[10:53] erzeugt. Wichtig ist, dass die

[10:55] Informationen zugänglich abgelegt sind

[10:57] und eine Technologie, die hier

[10:58] sicherlich auch zunehmend spannend wird,

[11:00] ist das ganze Thema der der

[11:02] Wissensgrafen. Also ähnlich wie Google

[11:04] es mit dem Wissensgraf verwendet, gibt

[11:06] es natürlich auch im Unternehmenskontext

[11:09] Grafdatenbanken, die dann verschiedene

[11:11] Ansätze kombinieren und vor allem sehr

[11:13] gut Zusammenhänge zwischen

[11:14] unterschiedlichen Datenquellen

[11:16] darstellen können und über die dann halt

[11:19] dieser Retrieval Mechanismus vielleicht

[11:21] sogar noch mal mächtiger wird, weil ich

[11:23] eben neben der semantischen Suche oder

[11:25] der Stichwortsuche oder der

[11:26] strukturierten Suche plötzlich auch

[11:28] dieses Relationswissen

[11:30] über die einzelnen Daten habe. und so

[11:33] vielleicht deutlich schneller, einfacher

[11:35] und besser das relevante Wissen

[11:37] identifizieren kann. Viele Frameworks

[11:40] bieten auch bereits Mechanismen an, um

[11:44] mit RC zu starten. Wenn man jetzt

[11:46] beispielsweise mit Python arbeitet, kann

[11:48] ich das Agno AGI Framework tatsächlich

[11:51] ans Herz legen. ist ein agentisches

[11:53] Framework, mit dem man Agentensysteme

[11:55] bauen kann, das auch sehr viele

[11:58] verschiedene Mechanismen des Retrieval

[12:00] Augmented Generation ermöglicht und wo

[12:03] man sehr klein anfangen kann, sehr

[12:06] einfache entweder Textdateien,

[12:07] PDF-Dateien oder was auch immer

[12:09] Wissensquellen hinterlegen kann. Bei

[12:11] PDF, wie gesagt, muss man immer darüber

[12:13] nachdenken. Das Ganze muss dann immer on

[12:15] the Fly umgewandelt werden und kann dazu

[12:17] führen, dass die Ergebnisse nicht ganz

[12:19] so gut sind, aber nichtsdestotrotz ist

[12:21] das ein sehr, sehr guter Starkpunkt, um

[12:24] damit anzufangen, wenn man es noch nicht

[12:26] getan hat. Und das Thema ist auf jeden

[12:29] Fall weiterhin, wie gesagt, brandheiß,

[12:32] auch wenn vielleicht einige andere

[12:33] Hypthemen aktuell eher wog sind, aber

[12:36] schaut euch doch mal an, wie ihr das

[12:38] Thema bei euch in euren Organisationen

[12:40] angeht. Habt ihr damit schon gute

[12:43] Erfahrung gemacht? Habt ihr damit

[12:44] schlechte Erfahrungen gemacht? Hat es

[12:46] vielleicht noch nicht funktioniert, als

[12:47] ihr es ausprobiert habt? Lasst uns gerne

[12:50] Kommentare zu dem Thema da und ich freue

[12:52] mich, wenn es das nächste Mal auch

[12:54] wieder heißt Inside AI. Aber bevor ich

[12:56] euch entlasse, möchte ich euch noch den

[12:58] Tipp geben, doch auch noch mal in

[12:59] unseren Podcast Out Time reinzuhören, wo

[13:02] Roman Dumitrescu und ich technologische

[13:04] Zukunftsvisionen diskutieren, in jeder

[13:07] Folge ein neues Gedankenexperiment uns

[13:09] anhören, wie denn bestimmte Technologien

[13:12] unsere Zukunft verändern könnten. Hört

[13:14] gerne auch da mal rein und wir sehen uns

[13:17] beim nächsten Mal, wenn es heißt Inside

[13:18] AI.

[13:22] Ah.

⚡ Saved you time reading this? Transcribe any YouTube video for free — no signup needed.