Semantische Suche verstehen: Was sie ist und wie man sie nutzt
Mit den Fortschritten in KI und Large Language Models hat sich die Abfrageverarbeitung rasant verändert – effizienter und präziser als je zuvor. Heute dreht sich in der Informationssuche alles um die semantische Suche. Entdecken Sie die Grundlagen der semantischen Suche, der Ähnlichkeitssuche und der Keyword-Suche – einschließlich der Frage, wann Sie welche einsetzen sollten.
Inhaltsverzeichnis
- Definition der semantischen Suche
- Glossar verwandter Begriffe
- Wie funktioniert die Ähnlichkeitssuche?
- Nicht Wörter, sondern Zahlen
- Konzeptionelles Mapping und Kontext
- KI-gestützte Ähnlichkeitssuche
- Was ist Lexikalische oder Keyword-Suche?
- Was ist TF-IDF?
- Die Effizienz der Keyword-Suche
- Der Mehrwert der Ähnlichkeitssuche
- Ähnlichkeitssuche und Keyword-Suche kombiniert
- Personalisierung und Training der Suchmaschine
- Fazit
Hinweis: Dieser Blogartikel wurde aus seiner Originalversion übersetzt und kann geringfügige Abweichungen enthalten. Auch die im Text enthaltenen Zitate wurden übersetzt.
Willkommen zur Artikelserie „Semantische Suche verstehen“. Dies ist der erste Beitrag dieser Serie. Halten Sie Ausschau nach unseren kommenden Artikeln über die Entwicklung der Suchtechnologie, wichtige Anwendungsfälle für die semantische Suche und unsere Empfehlungen für Ihre nächste Unternehmenssuchmaschine.
Mit den Fortschritten in der KI und bei Large Language Models (LLMs) hat sich die Abfrageverarbeitung rasant verändert. Jede neue Generation von Suchmaschinen wurde effizienter und präziser – und gleichzeitig vielseitiger, um neuen Anforderungen gerecht zu werden. Heute richtet sich die Welt der Informationssuche zunehmend auf die semantische Suche aus.
In diesem Artikel erklären wir, was semantische Suche ist und wie sich die Ähnlichkeitssuche – eine Art semantischer Suche – von der Keyword-Suche unterscheidet. Um die Technologie hinter diesen Suchmaschinen besser zu verstehen, beleuchten wir außerdem, warum beide Suchtypen in unterschiedlichen Situationen nach wie vor ihren Wert haben.
Definition der semantischen Suche
Semantische Suche ist eine Technik zur Informationssuche, die darauf abzielt, die kontextuelle Bedeutung einer Suchanfrage sowie die Absicht der suchenden Person zu ermitteln.
Der Weg zur semantischen Suche begann vor Jahrzehnten, indem die Keyword-Suche durch Synonyme und Taxonomien erweitert wurde. Eine Keyword-Suchmaschine erfasst Wörter anhand ihrer Position und erstellt einen Index dieser Informationen. Wenn ein Nutzer eine Suche startet, werden die Wörter der Anfrage mit den Wörtern im Index verglichen, um Dokumente abzurufen und als Suchergebnisse zu sortieren. Durch die Einbindung von Synonymen wurde die Keyword-Suche relevanter und flexibler bei der Interpretation von Anfragen. Beispielsweise werden durch die Festlegung, dass „ein Cabrio eine Art Auto ist“, bei der Suche nach „Auto“ auch Dokumente über Cabrios angezeigt.
Mit dem Aufkommen von Sprachmodellen entstand jedoch die Ähnlichkeitssuche. Was viele Menschen als semantische Suche verstehen, ist häufig die Ähnlichkeitssuche – eine Untergruppe der semantischen Suche. Bei der Indizierung von Dokumenten betrachtet eine Ähnlichkeitssuchmaschine keine einzelnen Wörter, sondern Textfragmente. Diese Abschnitte werden in Vektoren umgewandelt, die die Bedeutung des Fragments vermitteln. Indem auch die Bedeutung jeder Anfrage interpretiert und mit der Bedeutung der Fragmente verglichen wird, liefert eine Ähnlichkeitssuchmaschine Ergebnisse, die mit der Absicht des Nutzers verknüpft sind – nicht mit den verwendeten Wörtern.
Beide Suchtypen ordnen die Ergebnisse nach Relevanz, wobei idealerweise Geschäftsregeln und Nutzerpräferenzen hinzugezogen werden, um die Ergebnisse zu kontextualisieren und zu personalisieren.
Glossar verwandter Begriffe
- Embeddings: Dies sind mathematische Darstellungen, die versuchen, Bedeutung in Form eines Vektors (einer Liste) aus numerischen Werten auszudrücken. Embeddings werden auch als semantische Vektoren bezeichnet.
- Generative KI (GenAI): Dies ist eine Kategorie der KI, die Inhalte – Text, Bilder, Audio, Code – erzeugt, um menschliche Kreativität nachzuahmen. Sie nutzt Datensätze, um Muster zu analysieren und auf Basis dieser Daten Inhalte als Reaktion auf Eingabeaufforderungen (Prompts) zu erstellen.
- Tokenisierung: Dies ist der Algorithmus, der einen geschriebenen Text in kleine Buchstabensequenzen aufteilt. Bei der Keyword-Suche entspricht ein Token einem Wort. Bei der Ähnlichkeitssuche und der Erstellung von Embeddings hingegen ist ein Token lediglich eine Buchstabensequenz, die ein Teil eines Wortes sein oder sich über zwei Wörter erstrecken kann.
Wie funktioniert die Ähnlichkeitssuche?
Die Ähnlichkeitssuche liefert Ergebnisse basierend darauf, wie relevant der Kontext und die Bedeutung der Inhalte für die Suchanfrage sind.
Nicht Wörter, sondern Zahlen
Die Ähnlichkeitssuche verwendet Embeddings (d. h. hochdimensionale oder dichte Vektoren bzw. numerische Koordinaten), um sowohl die Bedeutung des Textes beim Indizieren als auch die Absicht der Anfrage zur Laufzeit zu erfassen.
Embeddings werden durch die Transformer-Architektur erzeugt – dieselbe Technologie, die zum Training von LLMs eingesetzt wird. Transformer verarbeiten Textströme in kurze, handhabbare Abschnitte, die weiter in Tokens – also Buchstabensequenzen – unterteilt werden. Sie können beliebige unstrukturierte Daten verarbeiten – Bilder, Musikakkorde, Radiofrequenzen – nicht nur Text. Hier konzentrieren wir uns jedoch auf die textbasierte Ähnlichkeitssuche. Der Transformer entschlüsselt die Bedeutung und den Kontext der Daten in diesen Tokens und weist ihnen ein einzigartiges numerisches Embedding zu.
Es ist jedoch wichtig zu beachten, dass die Verwendung von Transformern für Embeddings nicht immer die beste Architektur war und sich in Zukunft möglicherweise erneut ändern wird. Der Schlüssel zur Ähnlichkeitssuche liegt in der Erstellung von Embeddings – nicht im Einsatz von Transformern.
Konzeptionelles Mapping und Kontext
Zunächst benötigen Sie ein zentrales Repository mit Unternehmens- und Produktinformationen. Sobald Ihre Wissensdatenbank aufgebaut ist, muss sie in eine Datenbank umgewandelt werden, in der alle Informationen in Embeddings zerlegt sind. Erst dann kann Ihre Ähnlichkeitssuchmaschine diese Datenbank nutzen, um relevante, ähnliche Informationen zu finden, indem sie Algorithmen für die approximative Nächste-Nachbarn-Suche auf das Embedding Ihrer Anfrage anwendet.
Die Suchmaschine vergleicht die Koordinaten der Anfrage mit denen der Informationen in Ihrer Wissensdatenbank. Ziel ist es, Embeddings mit ähnlichen Koordinaten zu finden, die darauf hinweisen, dass der Inhalt eng mit der Suchanfrage zusammenhängt. Schließlich liefert die Suchmaschine die Dokumentation hinter diesen nahen Embeddings als Suchergebnisse.
KI-gestützte Ähnlichkeitssuche
Parallel zum Aufstieg der Ähnlichkeitssuche wächst auch die Bedeutung von GenAI-basierten Tools wie Chatbots. Die Kombination von Ähnlichkeitssuche und LLMs ermöglicht es Nutzern, Fragen in natürlicher Sprache zu stellen, um ihr Suchziel zu beschreiben, und erlaubt der Suchmaschine, ebenfalls auf konversationelle Weise zu antworten. Wie ein auf Ihr Unternehmen zugeschnittenes ChatGPT liefern KI-gestützte Suchmaschinen den Nutzern direkt umsetzbare Antworten. Wenn die Suchmaschine einen Teil der Anfrage missversteht, können die Nutzer einfach nachfassen und ihr Anliegen präzisieren – genau wie in einem Gespräch mit einem Support-Mitarbeiter.

Was ist Lexikalische oder Keyword-Suche?
Das Ziel der Lexikalischen Suche ist es, die Schlüsselwörter einer Suchanfrage mit Dokumenten oder Themen abzugleichen, die dieselben Begriffe enthalten. Es ist ein direkter Ansatz, der effizient und schnell ist. Unscharfe Treffer (durch die Einbeziehung von Stemming und Synonymen) für Schlüsselwörter zu finden, ist am einfachsten bei kurzen, einfachen Suchen, bei denen Nutzer wissen, welche Begriffe zu verwenden sind oder welche Dokumentation sie suchen.
Was ist TF-IDF?
Term Frequency–Inverse Document Frequency (TF-IDF) ist eine Art Keyword-Suchalgorithmus zur Bewertung von Ergebnissen. TF-IDF misst die Wichtigkeit von Wörtern im Verhältnis zum gesamten Dokument: wie häufig ein Wort in einem Dokument im Vergleich zu anderen Dokumenten vorkommt. Das bekannteste Modell für dieses Konzept ist BM25.
TF-IDF hat den früher weit verbreiteten „Bag of Words“-Ansatz verfeinert, indem es die Wichtigkeitsmessung durch die inverse Dokumenthäufigkeit angepasst hat. Dabei wird betrachtet, wie häufig oder selten ein Wort im Vergleich zum gesamten Korpus vorkommt.
Die Effizienz der Keyword-Suche
Mit dem Aufstieg von Google lernten die Menschen, mit Schlüsselwörtern statt mit vollständigen Sätzen zu suchen und ihre Suchabsicht in repräsentative Begriffe zu übersetzen. Heute ist es oft effizienter, prägnante Schlüsselwörter einzugeben: Wenn Nutzer genau wissen, welche Dokumentation sie suchen, ist dieser Ansatz benutzerfreundlicher und weniger zeit- und ressourcenaufwändig als das Eintippen langer Sätze. Außerdem ist die Ähnlichkeitssuche bei ein- oder zweisilbigen Anfragen nicht sinnvoll. Es fehlt der Kontext, um die Bedeutung oder Absicht der Suche zu bestimmen und ein valides Embedding der Anfrage zu berechnen, was das Modell ungenauer macht.
Durch das Hinzufügen von Synonymen und Taxonomien (allgemeinen und unternehmensspezifischen) bietet die Keyword-Suche ebenfalls semantische Fähigkeiten und mehr Flexibilität bei der Suche.
Der Mehrwert der Ähnlichkeitssuche
Die Ähnlichkeitssuche ist hingegen ein wertvolles Werkzeug, wenn der Nutzer nicht genau weiß, nach welchen Inhalten er sucht oder ob die Dokumentation überhaupt existiert. Manchmal müssen Nutzer das Konzept dessen beschreiben, was sie suchen – zum Beispiel: „Wie heißt die Funktion, mit der man KI-Module per Drag-and-Drop auf die Seite ziehen kann?“ In einem solchen Fall wäre die Keyword-Suche mit zu vielen Wörtern überfordert und könnte nicht ermitteln, welche davon am wichtigsten sind. Die Suchergebnisse wären daher inkonsistent und enthielten viele irrelevante Treffer.
Darüber hinaus eignet sich die Ähnlichkeitssuche ideal für konversationelle Suchkontexte, etwa bei der Nutzung eines Chatbots. Dies liegt daran, dass die Keyword-Suche nicht für die Verarbeitung des Suchverlaufs (vergangener Suchanfragen) konzipiert ist, die Ähnlichkeitssuche jedoch schon – und Nutzern so ermöglicht, ihre Anfragen zu verfeinern.
Schließlich versteht die Ähnlichkeitssuche Tippfehler, Nuancen und Synonyme in Anfragen besser.
Ähnlichkeitssuche und Keyword-Suche kombiniert
Semantische Suche und Keyword-Suche sind unterschiedliche, aber sich ergänzende Suchmaschinenmodelle. Beide bieten einzigartigen Mehrwert und erfüllen spezifische Aufgaben beim Abrufen von Informationen. Auch mit dem Aufstieg der Ähnlichkeitssuche sollten Sie also nicht auf Ihre Keyword-Suchmaschine verzichten!
Der Weg der Zukunft besteht darin, beide Technologien zusammenarbeiten zu lassen – manchmal sogar gleichzeitig – und die beiden vorgeschlagenen Ergebnismengen zusammenzuführen. Dieser als Hybrid-Suche bezeichnete Ansatz steigert die Relevanz und erweist sich als robuster gegenüber den unterschiedlichen Suchgewohnheiten der Nutzer, sei es durch natürlichsprachliche Ausdrücke oder durch wenige Schlüsselwörter.
Von nun an verwenden wir den Begriff Semantische Suche, um entweder die mit Synonymen angereicherte Keyword-Suche, die Ähnlichkeitssuche für die Verarbeitung natürlichsprachlicher Anfragen oder die optimale Kombination beider mit Hybrid-Suche-Technologie zu bezeichnen. Stellen Sie sicher, dass Sie die richtige Technologie zur Hand haben.
Personalisierung und Training der Suchmaschine
Sowohl die Keyword-Suche als auch die Ähnlichkeitssuche – und damit die semantische Suche – stehen vor Herausforderungen bei der Steigerung der Nutzerpersonalisierung. Tatsächlich ist die Personalisierung eine separate, zusätzliche Ebene, die beiden Suchtypen hinzugefügt werden muss. Obwohl sie nicht inhärent Bestandteil der semantischen Suche ist, spielt sie eine wichtige Rolle, da 70 % der Nutzer erwarten, dass Unternehmen personalisierte Kundenserviceantworten bereitstellen.
Semantische Suchmaschinen passen sich nicht selbst an, um sich mit der Zeit zu verbessern. Es ist jedoch möglich, Geschäftsregeln und Einstellungen zur Anfragekategorisierung zu aktualisieren. Unternehmen können ihre Suchmaschinen beispielsweise so einstellen, dass in Suchergebnissen für geografische Regionen, in denen Version 11 noch nicht verfügbar ist, die Dokumentation zu Version 10 priorisiert wird.
Um die Nutzererfahrung kontinuierlich zu verbessern, müssen Unternehmen zudem auf das Training und die Messung von Relevanzänderungen setzen. Fluid Topics beispielsweise führt regelmäßige Relevanztests durch, um Veränderungen in unseren Suchmodellen zu verfolgen und Anpassungen vorzunehmen, damit die Ergebnisse kontinuierlich besser werden.
In einem Gespräch mit Eric Noulard, R&D-Ingenieur bei Fluid Topics, erläuterte er unseren Ansatz bei diesen Tests zur Optimierung unserer Produktwissenssuchergebnisse: „Wir gehen das Non-Regression-Training sehr wissenschaftlich an. Dazu bleiben wir stets auf dem neuesten Stand der Forschung, denn die Messung von Relevanz ist eine äußerst anspruchsvolle und sich stetig weiterentwickelnde Disziplin. Trotz der sich ständig verändernden Herausforderungen bin ich stolz darauf, dass wir ehrgeizig an die Sache herangehen. Fluid Topics implementiert modernste Praktiken, um sicherzustellen, dass die Sucherlebnisse unserer Nutzer nicht mit der Zeit schlechter werden.„
Fazit
Neue Entwicklungen in der Informationssuche rücken die semantische Suche in den Mittelpunkt. Diese Suchmaschinen erweitern die Möglichkeiten der Abfrageverarbeitung, um komplexe und detaillierte Suchanforderungen besser zu verstehen. In der Folge ist die Informationssuche in Situationen, in denen Nutzer sich bisher verloren und überfordert fühlten, deutlich effizienter geworden. Seien Sie gespannt auf den zweiten Artikel der Reihe, in dem wir wichtige Meilensteine der Suchinnovationen beleuchten, die uns zu den heutigen semantischen Suchfunktionen geführt haben.
Vereinbaren Sie eine kostenlose Fluid-Topics-Demo mit einem Produktexperten.
Semantische Suche FAQ
Semantische Suche und Vektorsuche werden häufig synonym verwendet, doch unterscheiden sie sich darin, wie sie Nutzeranfragen interpretieren und mit Suchergebnissen abgleichen. Die semantische Suche nutzt die Verarbeitung natürlicher Sprache, um die Bedeutung und Absicht hinter einer Anfrage zu verstehen – nicht nur die Schlüsselwörter selbst. Sie berücksichtigt Synonyme, verwandte Konzepte und kontextuelle Zusammenhänge, um relevante Ergebnisse zu liefern, auch wenn die Suchbegriffe nicht exakt mit dem Quelltext übereinstimmen.
Die Vektorsuche – auch Ähnlichkeitssuche genannt – ist eine Unterart der semantischen Suche. Sie wandelt Text in Zahlen (sogenannte Vektoren oder Embeddings) um, die Bedeutung erfassen. Anfragen werden mit nahegelegenen Koordinaten abgeglichen. Die Ergebnisse werden also danach ausgewählt, wie bedeutungsnah sie sind – nicht danach, ob sie identische Wörter enthalten.
Wie Sie die Dokumentationsveröffentlichung für Software-Produktreleases vereinfachen