"Internes ChatGPT" mit den eigene Daten bauen – mit Microsoft Azure OpenAl

ChatGPT liefert Erkenntnisse in erstaunlich kreativer Textform, die Inhalte dafür stammen meist aus Internet-Quellen. Warum also nicht so einen intelligenten Sprachautomaten für die Erschließung eigener Dokumente und Datenbestände nutzen? Tatsächlich liefert Microsoft mit Azure alle technischen Voraussetzungen, um Azure OpenAI-Dienste auf der Basis eigener Daten einzusetzen.

Um eine eigene, interne KI-Sprach-Engine einzurichten, die mit Daten aus der eigenen Organisation arbeitet, stellt Microsoft die beiden folgende Dienste zur Verfügung:

• Azure OpenAI
• Azure Cognitiv Search Index

Zum Aktuellen Zeitpunkt (Juli 2023) befindet sich Azure OpenAI noch in der Vorschauversion. Um es nutzen zu können, muss mach sich für die Preview anmelden. Azure Cognitiv Search ist bereits offiziell verfügbar.

Als Grundlage für eine solche KI-Lösung werden typische Suchmaschinen-Dienste mit Index und Abfragefunktionen benötigt. Deshalb beginnt die Einrichtung bei Azure Cognitiv Search, wo Sie eine Instanz anlegen müssen. Eine Anleitung dafür finden Sie hier bei Microsoft: Create an Azure Cognitive Search service in the portal (de-de).

Im nächsten Schritt geben Sie an, wo die Daten liegen, die indiziert werden sollen. Dazu gibt es unterschiedliche Optionen, die alle zu einem Index in der neu angelegt Azure Cognitiv Search-Instanz führen. Auf der Überblicksseite finden Sie dazu den Punkt Connect your data -> Learn more, wie hier zu sehen ist:

Azure Cognitiv Search konfigurieren, mit Verbindung zu den zu durchsuchenden Daten.

Um das Ganze zu testen, können Sie auch Demodaten verwenden, die Microsoft dafür bereitstellt. Über den Schaltfläche Import gelangen Sie zu den aktuell verfügbaren Optionen des Datenimports, in unserem Fall mit der Auswahl Samples:

Daten in Cognitive Search importieren, hier die Demodaten „Samples“.

Sofern Sie zu den Anwendern gehören, deren Daten in Microsoft 365, SharePoint Online und Teams liegen, ist die Option SharePoint Online interessant. Aktuell befindet sich diese Option noch in der Vorschauphase und kann nicht über die Konfigurationsoberfläche ausgewählt werden.

Falls Sie dennoch Azure Cognitiv Search verwenden wollen, um Daten in SharePoint Online zu indizieren, finden Sie hier die Beschreibung: Index data from SharePoint document libraries (de-de).

In meinem Beispiel verwende ich die Demodaten hotels-sample, die Microsoft zur Verfügung stellt:

In unserem Beispiel verwenden wir die Demodaten hotels-samle, mit denen sich Hotel-bezogene Beispiele darstellen lassen.

Der Index von hotels-samples enthält folgende Felder:

Die Felder von hotels-sample, die für die Verwendung in Azure Open AI gewählt werden können

Die ausgewählten Felder markieren die Daten, die nun in Azure OpenAI genutzt werden können.

2. Konfigurieren der KI-Komponente Azure OpenAI

Zum Start mit Azure OpenAI legen Sie eine Instanz an. Damit steht Ihnen das Azure OpenAI Studio zur Verfügung, inklusive der Option ChatGPT-Playground:

Nach Anlegen einer Azure Open AI-Instanz steht Ihnen das Open AI Studio zur Verfügung.

Im ChatGPT-Playground können Sie nun auswählen, mit welchen Daten die KI arbeiten soll. Das können die sein, die das allgemeinen Language Model GPT kennt, oder aber Sie wählen dafür die eigenen Daten aus:

Im ChatGPT-Playground können Sie das bekannte Language Model auswählen, oder eben wie in unserem Fall die eigenen Daten.

Sofern Sie die eigenen Daten verwenden wollen, die oben im Abschnitt Azure Cognitiv Search gewählt wurde, müssen Sie die entsprechenden Details auswählen:

Hier geben Sie die Details zur Datenquelle an.

Das „Index data field mapping“ im nächsten Schritt ist nicht zwingend erforderlich. Allerdings empfiehlt sich die Auswahl, weil damit die Qualität der Antworten deutlich steigt. Im Beispiel mit den „hotels-sample“-Demo Daten sieht die Einrichtung dann so aus:

Mit dem optionalen Index Data Field Mapping steigt die Datenqualität.

Sobald Sie das eingerichtet haben, können Sie Texte auf Basis des Large Language Modells GPT und den hinterlegten Daten generieren. Das sieht dann im Beispiel so aus:

Texte generieren im ChatGPT-Stil, mit eigenen Daten – so sieht das aus.

Werden beim Einsatz von Azure OpenAI noch Metadaten benötigt?

Die Frage liegt nahe, ist aber falsch gestellt. Denn entscheidend ist, ob die KI Zugriff wirklich alle relevanten Informationen hat. Dazu gehören auch Metadaten.

Werden überhaupt noch Metadaten benötigt? Ja, da sie ebenfalls zu den relevanten Informationen gehören.

Das Beispiel im Bild veranschaulicht das Problem. Azure OpenAI kennt die Informationen nicht, obwohl sie in Form von Metadaten vorhanden wären.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert