Copilot-Limit bei langen Texten: Mehr als 20 Seiten kann die KI laut Microsoft nicht lesen (Update)

Microsoft beschreibt KI-Limits bei Dokumenten und E-Mails

Microsoft weiß um die Problematik und beschreibt die Situation auch in einen Artikel (de). Die Kernaussage lautet, dass Copilot für Microsoft 365 an Grenzen stößt, wenn er mit großen Dokumenten oder mit sehr langen Emails arbeiten muss.

Diese Beschränkung rührt von technischen Eigenheiten des Microsoft Graph und der Microsoft 365-Suche her. Der Graph dient dabei als Datendrehscheibe in Microsoft 365, die alle Dokumente, Emails und anderen Inhalte bereitstellt. Die SharePoint-Suchmaschine indiziert dann diese Inhalte und stellt sie dem Copilot bereit.

UPDATE: Microsoft hat inzwischen folgende Abmilderung dieses Problems bekanntgegeben:

In der bisherigen Fassung dieses Artikels wird beschrieben, dass Copilot aktuell bei Dokumenten, die länger als 20 Seiten/15.000 Wörtern sind, an seine Grenzen stößt.

Unter der Roadmap ID 399413 kündigt Microsoft nun an, dass dieses Limit deutlich steigen soll: „Copilot in Word wird in der Lage sein, Dokumente vollständig zusammenzufassen, die er vorher nur teilweise zusammenfassen konnte. Die Obergrenze steigt auf etwa viermal mehr Wörter.“ Dieser Artikel beschreibt die Problematik, darin wird nun ein neues Limit von 80.000 Wörtern genannt. Die

Empfehlung: Dokumente müssen unter 20 Seiten umfassen

Und genau diese Suche ist Limitierungen unterworfen, die Microsoft auch dokumentiert. Zwar sind die exakten Grenzwerte bei der Verarbeitung durch den Copilot für Microsoft 365 unklar, allerdings gibt der Artikel folgende Empfehlungen ab:

  • Dokumente müssen kürzer als 20 Seiten sein
  • Maximal können die ersten 15.000 Wörter erfasst werden

Welche Konsequenzen das in der Praxis hat, zeigt folgendes Beispiel. Dabei soll der Copilot Textpassagen aus einem Word-Dokument verarbeiten, die erst oberhalb der 20-Seiten-Grenze vorkommen. Insgesamt hat das Dokument 27.208 Wörter, die gesuchten Informationen zum Stichwort „Snabales Total liabilities“ kommen erst auf Seite 49 vor.

Copilot-Limit bei langen Texten
Die gesuchten Informationen über ‚Snabales IT-Sevices‘ kommen erst auf Seite 49 vor. Deshalb werden sie von der Suche nicht erfasst und können so auch nicht vom Copilot verarbeitet werden.

Testfrage mit dem Copilot in Word: „Kein Inhalt gefunden“

Wenn man nun im Copilot die Frage stellt „What can you tell me about Snabales Total liabilities?“, dann lautet die Antwort, dass keine Informationen zu „Snabales Total liabilities“ vorliegen, wie auch im Screenshot zu sehen ist:

Die Antwort vom Copilot lautet, dass keine Informationen über Snabales gefunden wurden. Und das, obwohl auf Seite 49 dazu etwas steht.

Etwas anders formuliert, aber inhaltlich identisch fällt die Antwort aus, wenn man im Copilot in Word die selbe Frage stellt: „Diese Antwort basiert nicht auf dem Dokument: Tut mir leid, aber das Dokument enthält keinerlei Informationen über Snabales Total liabilities.“

Copilot in Word kommt zu dem selben negativen Ergebnis, mit etwas anders lautender Antwort.

Die Lösung: Individuelles KI-Tool mit Azure OpenAI erstellen

Bei kleineren Datenbeständen wäre es denkbar, dass man große Dokumente manuell in entsprechend kleinere Teile zu stückeln, um sie für den Copilot konsumierbar zu machen.

Müssen hingegen größere Datenmengen von der KI verarbeitet werden, bietet sich die Option einer individuellen Lösung auf Basis von Azure AI-Search und Azure OpenAI an. Insbesondere Azure AI-Search kommt hier eine zentrale Rolle zu, da es mittels der Vector-Suche die Möglichkeit bietet, große Dokumente in kleinere Teile zu zerlegen, in sogenannte Chunks. Details dazu finden sich in einem Microsoft-Artikel.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert