đź’ˇAccess your complimentary report on The 2026 State of Knowledge Management & AI

Get the Report

Die Evolution von Suchmaschinen: Vergangenheit, Gegenwart & Zukunft

Erfahren Sie, wie sich die Suchtechnologie von Bag of Words und TF-IDF ĂĽber probabilistische Suche, neuronale Netzwerk-Frameworks, Embeddings, Transformers und mehr entwickelt hat.

Search Engine Mockup.

Inhaltsverzeichnis


Hinweis: Dieser Blogartikel wurde aus seiner Originalversion ĂĽbersetzt und kann geringfĂĽgige Abweichungen enthalten. Einige der Links in diesem Artikel fĂĽhren zu Inhalten, die nur auf Englisch verfĂĽgbar sind.

„Understanding Semantic Search“ ist eine fortlaufende Serie. Dies ist der zweite Beitrag dieser Serie. Verpassen Sie nicht unseren vorherigen Artikel „Semantische Suche verstehen: Was sie ist und wie man sie nutzt„.

Es steht auĂźer Frage, dass die semantische Suche ein wertvolles Werkzeug ist, aber wie sind wir hierher gekommen? Werfen wir einen Blick auf die jĂĽngere Geschichte der Suchtechnologie und mehrere wichtige Meilensteine, die uns dorthin gebracht haben, wo die Suchtechnologie heute steht. 

Glossar relevanter Begriffe

  • Embeddings: Dies sind mathematische Darstellungen, die versuchen, Bedeutung in Form eines Vektors (einer Liste) numerischer Werte zu vermitteln. Embeddings werden auch als semantische Vektoren bezeichnet.
  • Generative KI (GenAI): Dies ist eine Kategorie von KI, die Inhalte produziert — Text, Bilder, Audio, Code — um zu versuchen, menschliche Kreativität zu kopieren. Sie verwendet Datensätze, um Muster zu studieren und auf Basis dieser Daten Inhalte als Antwort auf Prompts (Anweisungen) zu erzeugen.
  • Natural Language Processing (NLP): Dies bezeichnet den Vorgang, wenn ein Computerprogramm verschiedene Algorithmen oder Modelle verwendet, um natĂĽrliche Sprache im Gegensatz zu Computersprache zu verarbeiten. Dies ermöglicht es Menschen, erfolgreich mit Computern unter Verwendung natĂĽrlicher Sätze zu interagieren.
  • Recurrent Neural Networks (RNNs): RNNs sind eine spezifische Kategorie kĂĽnstlicher neuronaler Netzwerke, die sequenzielle Dateneingaben oder Zeitreihendaten verwenden. Diese Deep-Learning-Modelle werden häufig fĂĽr SprachĂĽbersetzung, NLP, Spracherkennung und Bildbeschriftung eingesetzt.
  • Tokenisierung: Dies ist der Algorithmus, der einen geschriebenen Text in kleine Buchstabensequenzen aufteilt. Bei der SchlĂĽsselwortsuche ist ein Token ein Wort. Aber bei der Ă„hnlichkeitssuche und der Erstellung von Embeddings ist ein Token nur eine Buchstabensequenz, die Teil eines Wortes sein oder sich ĂĽber zwei Wörter erstrecken kann.

Eine Zeitleiste der Fortschritte in der Suchtechnologie

Mit der Zeit und der Weiterentwicklung der Technologie haben sich Suchmaschinen weiterentwickelt, um die Relevanz der Ergebnisse zu verbessern und Veränderungen in den Suchmethoden der Nutzer widerzuspiegeln. Jede neue Evolution in der Suchtechnologie brachte wertvolle neue Funktionen. Lesen Sie weiter, um die Besonderheiten jedes Fortschritts zu entdecken.

Von Bag of Words zu TF-IDF

Zunächst war der Standardweg zur Lösung von Natural Language Processing (NLP)-Herausforderungen die „Bag of Words“-Suche. Dieses Information-Retrieval-Modell entfernt die Wortreihenfolge und zählt einfach, wie oft ein Wort in einem Dokument vorkommt. Je höher die Zahl, desto wichtiger das Wort. Dieses SchlĂĽsselwort-Suchmodell war besonders nĂĽtzlich fĂĽr die Dokumentenklassifizierung.

In den 60er Jahren erdacht und in den 80er Jahren in großem Maßstab implementiert, war der nächste Schritt die Termfrequenz-inverse Dokumentfrequenz (TF-IDF) — eine optimierte Version von Bag of Words. TF-IDF betrachtet die Wortdichte eines Textes: die inverse Beziehung zwischen Worthäufigkeit und Bedeutung, sodass häufig verwendete Wörter mit geringer Bedeutung — the, of, or, it… — die Ergebnisse nicht verzerren. Im Grunde zielt diese Methode darauf ab, Ergebnisse auf Stichprobenverzerrungen zu korrigieren.

Der Aufstieg der Sprachmodelle

Schließlich begann TF-IDF seine Grenzen hinsichtlich Relevanz zu zeigen, und Forscher entwickelten in den 90er Jahren einen neuen Ansatz mit der Einführung probabilistischer Evaluation: die probabilistische Verteilung von Wörtern im Inhalt und die Wahrscheinlichkeit, dass die Dokumente die Abfrage in einer bestimmten Sprache generieren können (d.h. das aus den Dokumenten abgeleitete Sprachmodell kann die Abfrage generieren). Das bekannteste probabilistische Modell ist Okapi-BM25, das eine echte Verbesserung der Relevanz im Vergleich zu TF-IDF darstellte. Es war jedoch immer noch begrenzt und konnte nicht einfach mit den neuen Personalisierungsherausforderungen umgehen, da es aufgrund seines gemeinsamen Wahrscheinlichkeitsansatzes nicht die Möglichkeit bot, zusätzliche nicht-lexikalische Parameter in das Ranking aufzunehmen.

In den 2000er Jahren wurde ein Durchbruch mit Bayesschen Modellen eingeführt: generative Sprachmodelle, die auf bedingter Wahrscheinlichkeit beruhen und es Anwendungen ermöglichen, elegant jeden Parameter zur Abfragezeit in die Suchgleichung einzubeziehen, um die Suche spezifischer und personalisierter zu gestalten. Die Taruqa-Suchmaschine von Fluid Topics nutzt diese probabilistische generative Schlüsselwort-Suchtechnologie.

Wie nutzt Taruqa probabilistische Suche?

Taruqa bietet eine konsistente Abfragesprache, um auszudrücken, wie der Score jedes Dokuments berechnet wird. Taruqa transformiert die Benutzerabfrage — ausgedrückt in einer übergeordneten und verständlichen Abfragesprache — dynamisch in eine Suchgleichung. Unternehmen können diese Suchgleichung definieren, indem sie das Suchverhalten konfigurieren, das Standardeinstellungen (z.B. neueste Produktversion, Referenzhandbücher zuerst usw.) und Benutzerpräferenzen basierend auf ihren früheren Suchen, Profilen usw. integriert.

Embeddings und das Aufkommen neuronaler Netzwerke

Danach gewann die Sprachmodell-Technologie an Zugkraft, und wir bewegten uns zur semantischen Modellierung durch Vektoren, schließlich mit Embeddings, als Unternehmen begannen, Bibliotheken für dichte Wortdarstellungen zu etablieren. Dies wurde ergänzt durch das Aufkommen neuronaler Netzwerk-Frameworks wie Keras, Tensorflow und PyTorch, die die Berechnung größerer Modelle ermöglichten. Diese erlaubten es Programmen, Daten ähnlicher wie Menschen zu verarbeiten, sich kontinuierlich zu verbessern und komplexe Probleme zu lösen. Im Kontext der Suche boten Embeddings die Möglichkeit, die Bedeutung einer Wortfolge zu verstehen, anstatt nur ein Wort nach dem anderen.

Der Aufstieg der Transformers

SchlieĂźlich, um 2018 herum (als das berĂĽhmte Paper „Attention is all you need“ veröffentlicht wurde), begannen wir, Transformers zu verwenden. Mit Embeddings konnten wir die erste Schicht neuronaler Netzwerke berechnen und sie verwenden, um andere Datenschichten zu trainieren. Transformers verfeinerten diesen Prozess jedoch, indem sie das gesamte Datenmodell berechneten, ohne dass die Daten jedes Mal neu erlernt werden mussten, wenn sie eine neue Aufgabe abschlieĂźen mussten.

Darüber hinaus erzeugen Transformers bessere Embeddings aufgrund von Self-Attention-Mechanismen, die Modellen helfen, sich auf die Bedeutung von Input-Tokens zu konzentrieren und diese zu gewichten, wenn sie Outputs erzeugen. In der Praxis verbessert dies das Leseverständnis und ist wesentlich für Aufgaben, bei denen das Modell den Kontext verstehen muss. Im Vergleich zu den früheren Modellen, die Recurrent Neural Networks verwendeten, sind diese Attention-basierten Modelle viel effektiver beim Erfassen von Langstrecken-Abhängigkeiten. Konkret ist dies für die Sprachmodellierung unerlässlich, wenn ein Modell einen Satz verstehen muss, der stark von den Wörtern und dem Kontext abhängt, die viel früher im Text erschienen.

Seit 2022 gibt es eine massive Beschleunigung bei der Einführung neuer Large Language Models. Die Zeitleiste der KI beschleunigt sich schneller als je zuvor, und mit neuen Fähigkeiten wird sich auch die Suchtechnologie weiterentwickeln.

Fazit

Die Welt hat in den letzten Jahrzehnten große Fortschritte bei Sprachmodellen, Relevanz und Wahrscheinlichkeit gemacht, was zu enormen Ergebnissen für den Fortschritt der Suchmaschinen-Technologie geführt hat. Verpassen Sie nicht den nächsten Artikel, in Kürze, in dem wir von der Theorie zu den wesentlichen Business-Anwendungsfällen übergehen, bei denen semantische Suche die Mitarbeiterproduktivität verbessert und das Benutzererlebnis optimiert.

Vereinbaren Sie eine kostenlose Fluid-Topics-Demo mit einem Produktexperten.