Copilot-Einsatz vorbereiten: Mit Metadaten die KI füttern, oder alternativ den semantischen Index verwenden

Datenqualität ist ein Schlüsselkriterium für gut funktionierende KI-Lösungen. Falls Sie beim Dokumentenmanagement konsequent mit Metadaten gearbeitet haben, sind Sie für Copilot bestens vorbereitet. In der Praxis mangelt es jedoch meist am Metadatenmanagement, so dass alternative Lösungen gefragt sind. Erfahren Sie hier, wie Copilot mit Metadaten zusammenarbeitet, und wie Sie alternativ auch den semantischen Index verwenden können.

Metadaten erleichtern den Einsatz von KI-Anwendungen

Metadaten waren in SharePoint seit je her ein zentrales Ordnungsinstrument beim Dokumentenmanagement und der Suche. Mittlerweile gibt es Weiterentwicklungen wie Microsoft Topics, den semantischen Suchindex in Microsoft 365 sowie die Azure AI-Suche.

Aktuell gestaltet sich die Situation bei den Metadaten in Microsoft 365 allerdings unübersichtlich. Es existieren viele unterschiedliche Anwendungsbereiche mit teils inkonsistenten Umsetzungen:

  • Office Dokumente: Die Microsoft-eigenen Office-Dateitypen bekommen immer automatisch bestimmte Metadaten verpasst, welche sich aus den Dateieigenschaften ableiten (mehr Details beschreibt der Artikel Eigenschaften für eine Office-Datei).
  • SharePoint: Wenn Office-Dateien dann noch in SharePoint gespeichert werden, kommen weitere Metadaten dazu, die „Dokumentbibliothekseigenschaften“.
  • Metadatenverwaltung: SharePoint verfügt über umfangreiche Funktionen zur Metadatenverwaltung. Wichtige Begriffe sind hier Verwaltete Metadaten/Terminologiespeicher (Managed Metadata / Term Store) und Unternehmensstichwörter (Enterprise Keywords).

Darüber hinaus gibt es noch weitere Arten von Metadaten, was die Situation schnell unübersichtlich macht. Vertiefende Informationen über die unterschiedlichen Arten von SharePoint-Metadaten finden sich im Microsoft-Artikel Verwaltete Metadaten in SharePoint

Copilot mit Metadaten aus SharePoint füttern

Metadaten lassen sich über das SharePoint Admin-Center verwalten. Dort finden sich im Terminologiespeicher die Einstellungen für die Kategorien Ausdrucksatz (Term Sets), Hashtags, und Keywords geht. Auch für Viva Topics, oder zukünftig Microsoft Topics, können hier die entsprechenden Ausdrücke angelegt werden:

Dabei ist anzumerken, dass Viva Topics zugunsten von Copilot im Februar 2025 eingestellt wird.

Inkonsistenzen bei Microsoft 365 Copilot und Copilot in Word

Welchen Nutzen Metadaten beim Copilot-Einsatz bringen, zeigt das folgende Beispiel mit Microsoft 365 Copilot und Copilot in Word. Als Inhaltsquelle für die KI kommt das Dokument Porsche 911.docx zum Einsatz, das in einer SharePoint-Bibliothek liegt. Das Dokument wurde mit dem Ausdruck „Sportscar“ als Metadatum kategorisiert.

Microsoft 365 Copilot zeichnet sich dadurch aus, dass er bei der Informationserfassung „von außen“ auf Dokumente schaut. Also zuerst auf Metadaten, die er zuerst interpretiert und dann in einen Zusammenhang mit den Inhalten des Dokuments stellt.

Welche Auswirkung das in der Praxis hat, zeigt der folgende Prompt:

What can you tell me about Sportscar?

Wie man an der Antwort im Screenhot sieht, findet der Copilot die Datei mit dem Metadatum Sportscar, analysiert diese daraufhin und gibt eine Interpretation des Dateiinhalts aus:

Copilot mit Metadaten
Wenn ein Dokument das Metadatum Sportscar hat, und am Prompt danach gefragt wird, gibt Copilot diese Antwort aus. Er erkennt schon von außen das Schlüsselthema.

Copilot in Word sieht keine Metadaten

Copilot in Word legt ein völlig anderes Verhalten an den Tag. Da unser Testobjekt ein Word-Dokument ist, würde man erwarten, dass der Copilot in Word auf die selbe Weise vorgeht. Doch überraschenderweise ignoriert er die externe Dateikategorie Sportscar und auch den Inhalt der parallel geöffneten Datei.

Es macht dabei übrigens keinen Unterschied, ob man den Word-Copilot in der rechten Word-Sidebar verwendet, oder die Inline-Funktion inline im Dokument.

Geben wir also analog folgenden Prompt ein

„What can you tell me about Sportscar?“

dann ignoriert Copilot den Inhalt des geöffneten Dokuments und greift stattdessen auf die Daten aus seinem Sprachmodell zurück. Bemerkenswerterweise wird der Nutzer darauf in der Sidebar hingewiesen: „Die Antwort basiert nicht auf dem Dokument“ („This response isn’t based on the document.“).

Somit erklärt sich, warum sich die Ergebnisse aus Microsoft 365 Copilot und Copilot in Word signifikant unterscheiden.

Copilot in Word ignoriert die Metadaten des geöffneten Dokuments, und holt sich die Antwort aus dem LLM: „Die Antwort basiert nicht auf dem Dokument“ („This response isn’t based on the document.“).

Lösung für Copilot in Word mit Prompt-Erweiterung

Welche Möglichkeit gibt es nun, dem Copilot in Word das selbe Verhalten beim Microsoft 365 Copilot beizubringen? Im Grunde muss man lediglich den Prompt erweitern. Wenn das Dokument Porsche 911.docx in Word geöffnet, muss er so lauten

What can you tell me about Sportscar? Use the document Porsche 911.docx

Die explizite Bezugnahme auf das Dokument Porsche 911.docx führt dazu, dass der Copilot in Word dasselbe Ergebnis produziert wie der Microsoft 365 Copilot.

Metadaten nachrüsten? Besser gleich zum semantischen Index

Wie wir gesehen haben, sind Metadaten ein idealer Helfer für die KI-Anwendung. Doch die Realität sieht meist anders aus, denn in vielen Umgebungen wurde in der Vergangenheit das Thema Metadatenverwaltung und Datenqualität vernachlässigt.

Um nun KI-Anwendungen wie Copilot effizient einsetzen zu können, bedarf es alternativer Ansätze, um eine akzeptable Datenqualität zu erhalten. Manch einer dürften sich nun fragen, ob man seine Datenbestände nicht noch nachträglich um Metadaten ergänzen sollte. Aus der Erfahrung heraus lässt sich sagen, dass ein solche Unterfangen praktisch aussichtslos ist. Der enorme Aufwand steht in keinem Verhältnis zum Nutzen.

Semantischer Index analysiert Wörter und Bedeutungsvektoren

Wenn keine Metadaten zur Verfügung stehen, um Kontextinformationen zu erhalten, dann bietet sich der semantische Index als alternatives Konzept an. Es handelt sich dabei um eine Technik, die Wörter auf ihre sprachlichen Bedeutungen hin analysiert, aus Wortnachbarschaften Zusammenhänge erkennt und diese als Vektoren darstellt. Wörter werden dabei wahlweise numerisch dargestellt, oder auch als Bild- oder Datenpunkt.

Ein Vektor ist so angeordnet oder abgebildet, dass nahe beieinanderliegende Zahlen die Ähnlichkeit darstellen. Im Gegensatz zu einem Standard-Schlüsselwortindex werden Vektoren in mehrdimensionalen Räumen gespeichert, in denen semantisch ähnliche Datenpunkte im Vektorraum gruppiert werden.

Der semantische Index bildet also Wortbedeutungen in Zahlen und Vektoren ab. Auf diese Weise können kann etwa eine Ähnlichkeitssuche anhand des Vektorabstands vorgenommen werden.

Der semantische Index unterscheidet sich von herkömmlichen Abfragemethoden, die auf exakten Übereinstimmungen oder vordefinierten Kriterien basieren. Er findet die ähnlichsten oder relevantesten Daten auf der Grundlage der semantischen oder kontextuellen Bedeutung.

Der semantische Index wurde bereits für die Microsoft 365-Suche als Erweiterung eingeführt. Er basiert auf dem Microsoft Graph, welcher die persönlichen und organisatorischen Daten der Benutzer in Microsoft 365 verarbeitet. Mit Hilfe diesen Index soll zukünftig sowohl die Suche wie auch die Copilot-KI verbessert werden.

Der Microsoft Graph interpretiert im Kontext des semantischen Index die Benutzeranfragen, um relevante Antworten zu erzeugen. (Semantischer Index für Copilot)

Auch Azure AI-Suche nutzt semantischen Index

Auch die Azure AI-Suche kann einen semantischen Index erstellen. So können Datenquellen, die in eigenen Lösungen mit Azure OpenAI Studio genutzt werden sollen, ebenfalls von dieser Technik profitieren. Dabei hat man in Azure deutlich weitreichendere Optionen und kann selbst definieren auf Basis welchen Inhaltes die Vektoren erstellt werden sollen:

Erstellung des semantischen Index in Azure AI.

(Quelle und weitere Details: Hinzufügen einer semantischen Konfiguration)

Semantischer Index liefert bessere Antworten als Volltextindex

Um die Funktionsweise des semantischen Index vorzuführen, nehmen wir für ein Index-Beispiel wieder das Dokument Porsche 911.docx. Dabei wird das Dokument zunächst mittels der Azure AI Suche volltextindiziert. Anschließend wird das Dokument in einem weiteren Index semantisch erfasst.

Wenn wir nun wieder den selben Prompt wie oben nehmen

„Was kannst du mir über Autos sagen?“

dann erhalten wir folgende unterschiedliche Ergebnisse:

Der semantische Index fokussiert auf Wortbedeutungen und kann so konkretere Antworten liefern als der klassische Volltextindex.

Der semantische Index erkennt, dass im Text „Auto“ und „Porsche“ häufig nahe beieinanderstehen und bildet diesen Zusammenhang mittels Vektoren ab. Auf diese Weise kann der semantische Index konkretere Antworten liefern als der Volltextindex.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert