Copilot-Einsatz vorbereiten: Mit Metadaten die KI fรผttern, oder alternativ den semantischen Index verwenden
Datenqualitรคt ist ein Schlรผsselkriterium fรผr gut funktionierende KI-Lรถsungen. Falls Sie beim Dokumentenmanagement konsequent mit Metadaten gearbeitet haben, sind Sie fรผr Copilot bestens vorbereitet. In der Praxis mangelt es jedoch meist am Metadatenmanagement, so dass alternative Lรถsungen gefragt sind. Erfahren Sie hier, wie Copilot mit Metadaten zusammenarbeitet, und wie Sie alternativ auch den semantischen Index verwenden kรถnnen.
Metadaten erleichtern den Einsatz von KI-Anwendungen
Metadaten waren in SharePoint seit je her ein zentrales Ordnungsinstrument beim Dokumentenmanagement und der Suche. Mittlerweile gibt es Weiterentwicklungen wie Microsoft Topics, den semantischen Suchindex in Microsoft 365 sowie die Azure AI-Suche.
Aktuell gestaltet sich die Situation bei den Metadaten in Microsoft 365 allerdings unรผbersichtlich. Es existieren viele unterschiedliche Anwendungsbereiche mit teils inkonsistenten Umsetzungen:
- Office Dokumente: Die Microsoft-eigenen Office-Dateitypen bekommen immer automatisch bestimmte Metadaten verpasst, welche sich aus den Dateieigenschaften ableiten (mehr Details beschreibt der Artikel Eigenschaften fรผr eine Office-Datei).
- SharePoint: Wenn Office-Dateien dann noch in SharePoint gespeichert werden, kommen weitere Metadaten dazu, die โDokumentbibliothekseigenschaftenโ.
- Metadatenverwaltung: SharePoint verfรผgt รผber umfangreiche Funktionen zur Metadatenverwaltung. Wichtige Begriffe sind hier Verwaltete Metadaten/Terminologiespeicher (Managed Metadata / Term Store) und Unternehmensstichwรถrter (Enterprise Keywords).
Darรผber hinaus gibt es noch weitere Arten von Metadaten, was die Situation schnell unรผbersichtlich macht. Vertiefende Informationen รผber die unterschiedlichen Arten von SharePoint-Metadaten finden sich im Microsoft-Artikel Verwaltete Metadaten in SharePoint
Copilot mit Metadaten aus SharePoint fรผttern
Metadaten lassen sich รผber das SharePoint Admin-Center verwalten. Dort finden sich im Terminologiespeicher die Einstellungen fรผr die Kategorien Ausdrucksatz (Term Sets), Hashtags, und Keywords geht. Auch fรผr Viva Topics, oder zukรผnftig Microsoft Topics, kรถnnen hier die entsprechenden Ausdrรผcke angelegt werden:
Dabei ist anzumerken, dass Viva Topics zugunsten von Copilot im Februar 2025 eingestellt wird.
Inkonsistenzen bei Microsoft 365 Copilot und Copilot in Word
Welchen Nutzen Metadaten beim Copilot-Einsatz bringen, zeigt das folgende Beispiel mit Microsoft 365 Copilot und Copilot in Word. Als Inhaltsquelle fรผr die KI kommt das Dokument Porsche 911.docx zum Einsatz, das in einer SharePoint-Bibliothek liegt. Das Dokument wurde mit dem Ausdruck โSportscarโ als Metadatum kategorisiert.
Microsoft 365 Copilot zeichnet sich dadurch aus, dass er bei der Informationserfassung โvon auรenโ auf Dokumente schaut. Also zuerst auf Metadaten, die er zuerst interpretiert und dann in einen Zusammenhang mit den Inhalten des Dokuments stellt.
Welche Auswirkung das in der Praxis hat, zeigt der folgende Prompt:
What can you tell me about Sportscar?
Wie man an der Antwort im Screenhot sieht, findet der Copilot die Datei mit dem Metadatum Sportscar, analysiert diese daraufhin und gibt eine Interpretation des Dateiinhalts aus:
Copilot in Word sieht keine Metadaten
Copilot in Word legt ein vรถllig anderes Verhalten an den Tag. Da unser Testobjekt ein Word-Dokument ist, wรผrde man erwarten, dass der Copilot in Word auf die selbe Weise vorgeht. Doch รผberraschenderweise ignoriert er die externe Dateikategorie Sportscar und auch den Inhalt der parallel geรถffneten Datei.
Es macht dabei รผbrigens keinen Unterschied, ob man den Word-Copilot in der rechten Word-Sidebar verwendet, oder die Inline-Funktion inline im Dokument.
Geben wir also analog folgenden Prompt ein
โWhat can you tell me about Sportscar?โ
dann ignoriert Copilot den Inhalt des geรถffneten Dokuments und greift stattdessen auf die Daten aus seinem Sprachmodell zurรผck. Bemerkenswerterweise wird der Nutzer darauf in der Sidebar hingewiesen: โDie Antwort basiert nicht auf dem Dokumentโ (โThis response isnโt based on the document.โ).
Somit erklรคrt sich, warum sich die Ergebnisse aus Microsoft 365 Copilot und Copilot in Word signifikant unterscheiden.
Lรถsung fรผr Copilot in Word mit Prompt-Erweiterung
Welche Mรถglichkeit gibt es nun, dem Copilot in Word das selbe Verhalten beim Microsoft 365 Copilot beizubringen? Im Grunde muss man lediglich den Prompt erweitern. Wenn das Dokument Porsche 911.docx in Word geรถffnet, muss er so lauten
โWhat can you tell me about Sportscar? Use the document Porsche 911.docxโ
Die explizite Bezugnahme auf das Dokument Porsche 911.docx fรผhrt dazu, dass der Copilot in Word dasselbe Ergebnis produziert wie der Microsoft 365 Copilot.
Metadaten nachrรผsten? Besser gleich zum semantischen Index
Wie wir gesehen haben, sind Metadaten ein idealer Helfer fรผr die KI-Anwendung. Doch die Realitรคt sieht meist anders aus, denn in vielen Umgebungen wurde in der Vergangenheit das Thema Metadatenverwaltung und Datenqualitรคt vernachlรคssigt.
Um nun KI-Anwendungen wie Copilot effizient einsetzen zu kรถnnen, bedarf es alternativer Ansรคtze, um eine akzeptable Datenqualitรคt zu erhalten. Manch einer dรผrften sich nun fragen, ob man seine Datenbestรคnde nicht noch nachtrรคglich um Metadaten ergรคnzen sollte. Aus der Erfahrung heraus lรคsst sich sagen, dass ein solche Unterfangen praktisch aussichtslos ist. Der enorme Aufwand steht in keinem Verhรคltnis zum Nutzen.
Semantischer Index analysiert Wรถrter und Bedeutungsvektoren
Wenn keine Metadaten zur Verfรผgung stehen, um Kontextinformationen zu erhalten, dann bietet sich der semantische Index als alternatives Konzept an. Es handelt sich dabei um eine Technik, die Wรถrter auf ihre sprachlichen Bedeutungen hin analysiert, aus Wortnachbarschaften Zusammenhรคnge erkennt und diese als Vektoren darstellt. Wรถrter werden dabei wahlweise numerisch dargestellt, oder auch als Bild- oder Datenpunkt.
Ein Vektor ist so angeordnet oder abgebildet, dass nahe beieinanderliegende Zahlen die รhnlichkeit darstellen. Im Gegensatz zu einem Standard-Schlรผsselwortindex werden Vektoren in mehrdimensionalen Rรคumen gespeichert, in denen semantisch รคhnliche Datenpunkte im Vektorraum gruppiert werden.
Der semantische Index bildet also Wortbedeutungen in Zahlen und Vektoren ab. Auf diese Weise kรถnnen kann etwa eine รhnlichkeitssuche anhand des Vektorabstands vorgenommen werden.
Der semantische Index unterscheidet sich von herkรถmmlichen Abfragemethoden, die auf exakten รbereinstimmungen oder vordefinierten Kriterien basieren. Er findet die รคhnlichsten oder relevantesten Daten auf der Grundlage der semantischen oder kontextuellen Bedeutung.
Der semantische Index wurde bereits fรผr die Microsoft 365-Suche als Erweiterung eingefรผhrt. Er basiert auf dem Microsoft Graph, welcher die persรถnlichen und organisatorischen Daten der Benutzer in Microsoft 365 verarbeitet. Mit Hilfe diesen Index soll zukรผnftig sowohl die Suche wie auch die Copilot-KI verbessert werden.
Der Microsoft Graph interpretiert im Kontext des semantischen Index die Benutzeranfragen, um relevante Antworten zu erzeugen. (Semantischer Index fรผr Copilot)
Auch Azure AI-Suche nutzt semantischen Index
Auch die Azure AI-Suche kann einen semantischen Index erstellen. So kรถnnen Datenquellen, die in eigenen Lรถsungen mit Azure OpenAI Studio genutzt werden sollen, ebenfalls von dieser Technik profitieren. Dabei hat man in Azure deutlich weitreichendere Optionen und kann selbst definieren auf Basis welchen Inhaltes die Vektoren erstellt werden sollen:
(Quelle und weitere Details: Hinzufรผgen einer semantischen Konfiguration)
Semantischer Index liefert bessere Antworten als Volltextindex
Um die Funktionsweise des semantischen Index vorzufรผhren, nehmen wir fรผr ein Index-Beispiel wieder das Dokument Porsche 911.docx. Dabei wird das Dokument zunรคchst mittels der Azure AI Suche volltextindiziert. Anschlieรend wird das Dokument in einem weiteren Index semantisch erfasst.
Wenn wir nun wieder den selben Prompt wie oben nehmen
โWas kannst du mir รผber Autos sagen?โ
dann erhalten wir folgende unterschiedliche Ergebnisse:
Der semantische Index erkennt, dass im Text โAutoโ und โPorscheโ hรคufig nahe beieinanderstehen und bildet diesen Zusammenhang mittels Vektoren ab. Auf diese Weise kann der semantische Index konkretere Antworten liefern als der Volltextindex.
- Nach zwei Jahren Copilot: Was haben wir erreicht, und wo werden die Erwartungen enttรคuscht? - 14. Mรคrz 2025
- KI-generierte Texte entlarven โ was leisten KI-Detektor-Tools? - 12. Dezember 2024
- Copilot-Einsatz vorbereiten: Mit Metadaten die KI fรผttern, oder alternativ den semantischen Index verwenden - 16. Oktober 2024