Test: Welche KI ist besser – Microsoft Copilot oder Google Gemini?
Microsoft Copilot zählt als Ableger des KI-Marktführers OpenAI zu den führenden Plattformen. Unter den vielen Wettbewerbern sticht vor allem Google mit seinem Tool Google Gemini heraus. Was genau unterscheidet die beiden, und wie schlagen sie sich in einem direkten Vergleich? Hier eine detaillierte Gegenüberstellung der beiden Technologien inklusive eines Tests mit verschiedenen Prompts.
OpenAI hat mit der Veröffentlichung von ChatGPT Ende 2022 die Karten auf dem KI-Markt neu gemischt. Microsoft hat als größter OpenAI-Investor eine Pole-Position eingenommen und platziert diese Technologie in seinen diversen Copilot Produkten. Auch Google steckt großen Aufwand in die KI-Entwicklung und brachte über das Tochterunternehmen Google DeepMind Technologies das Tool Google Bard hervor. Als Basis dienen hier die Large Language Models (LLMs) LaMDA und PaLM 2, daraus ist nun Google Gemini entstanden.
Microsoft Copilot vs Google Gemini – was wir vergleichen:
Im diesem Test werden beide Plattformen direkt verglichen, und zwar in folgenden Ausprägungen:
Microsoft Copilot | Google Gemini |
Copilot in Edge https://www.bing.com/chat | Google Gemini https://gemini.google.com/app |
Copilot in Microsoft 365 / Microsoft Word https://www.office.com/chat | Gemini for Google Workspace add-on https://workspace.google.com/solutions/ai/ |
Übersicht Google Gemini

Google Gemini basiert nicht auf einem einzelnen Sprachmodell, sondern auf einer Reihe von verschiedenen LLMs. Jedes dieser LLMs ist anders dimensioniert und nutzt einen anderen Mix aus Effizienz und der Fähigkeit Lösungen zu finden.
Eine Beschreibung über die Möglichkeiten von unabhängiger Seite findet sich im Artikel ‚Google Gemini: Fact or Fiction?‘. Eine detaillierte Übersicht von Google selbst ist auf der Seite Google Gemini zu finden.
Funktionen und Verfügbarkeit:
- Gemini ist als Teil des Google Early-Access-Testprogramms verfügbar.
- Die Lösung ist auch über ein Gemini for Google Workspace Add-On und für Nutzer mit privaten Konten über Google One AI Premium verfügbar.
Für diesen Vergleichstest wurde das Gemini for Google Workspace Add-On genutzt.
Übersicht Microsoft Copilot
Microsoft Copilot baut auf einer etwas anderen Architektur auf. Copilot in Edge, vormals Bing Chat Enterprise, lässt sich gut mit Google Gemini vergleichen. Hingegen ist Copilot in Microsoft 365 in die Cloud-Lösung Microsoft 365 integriert und damit immer Teil eines Microsoft 365-Abonnements.
Copilot in Microsoft 365 hat über die Graph-Schnittstelle Zugriff auf die Daten im jeweiligen Mandanten. Hinsichtlich des Datenzugriffs ist festzustellen, dass das Berechtigungskonzept, also wem welche Daten innerhalb von Microsoft 365 zur Verfügung stehen, immer respektiert wird.

Bei Copilot in Microsoft 365 kommt noch die Orchestrierung ins Spiel. Copilot weiß dabei, aus welcher App der Prompt geschickt wurde, und das hat Einfluss auf den Output. So hat Copilot in Word zum Beispiel den Fokus eine Schreibhilfe zu sein, während Copilot in Excel beim Erstellen von Formeln und Diagrammen seine Stärken hat.
Eine solch tiefe Integration in Google Workspace gibt es bei Gemini, aktuell zumindest, noch nicht.
Testreihe: Wie Copilot und Gemini mit Prompts umgehen
1. Copilot in Edge (ex Bing Chat Enterprise) und Google Gemini App
Einer der großen Kritikpunkte an generativen KI-Lösungen ist, dass keine volle Transparenz über die Daten besteht, mit denen die Modelle trainiert wurden.
Für GPT3 macht OpenAI folgende Angaben zum Hintergrund der Trainingsdaten:
- Common Crawl: 60%
- WebText2: 22%
- Books1: 8%
- Books2: 8%
- Wikipedia: 3%
Selbst diese Angaben sind nur sehr vage, und für viele andere Modelle beziehungsweise Versionen gibt es nicht mal das.
Auch bei Gemini ist unklar, woher die Inhalte für das Training kommen. Dazu lässt sich folgendes Statement finden: „Gemäß den Nutzungsbedingungen und Datenschutzrichtlinien von Google umfassen die Quellen der Trainingsdaten für Googles Gemini AI öffentlich zugängliche Quellen und Informationen aus Gemini Apps. Diese werden zur Verbesserung und Entwicklung von Googles Produkten, Dienstleistungen und Technologien für maschinelles Lernen verwendet.“
Auf Basis welcher Quellen, die LLMs trainiert wurden, ist damit also nur sehr bedingt nachvollziehbar. Das kann durchaus negative Folgen haben, wie man an immer wieder auftretenden kuriosen oder sogar falschen Ergebnissen erkennt. Zu sehen ist das beispielsweise an diesem ersten Test:
Testlauf 1: ‚Die meisten Fußballtore‘
Der Prompt lautet: „Wer schoss die meisten Tore in einem Fußballspiel?“
Zunächst fällt auf, dass beiden Apps unterschiedliche Antworten liefern, beide fokussieren auf Männer-Fußball. Daran ist sicherlich der einfache Prompt mit schuld.

Fragt man im Dialog mit dem Prompt: „Welche Frau schoss die meisten Tore?“ nach, liefern die Apps folgende Antworten:

Ergebnis:
Copilot und Gemini zeigen ein ähnliches Verhalten. Erst auf Nachfrage gehen die KIs auf Frauen-Fußball ein.
Testlauf 2: ‚Wie bei Azure authentifizieren?‘
Der Prompt lautet: „Kann man sich an ChatGPT über eine Azure-Authentifizierung anmelden?“

Ergebnis:

Die Antworten beider Apps sind nicht wirklich gut, beziehungsweise missverständlich. Die Antwort von Gemini ist zudem auch falsch.
Richtig wäre nämlich, dass man sich mit einem Azure Account/Entra ID an OpenAI und damit auch an ChatGPT anmelden.
Wirklich gut ist dieser Prompt allerdings nicht formuliert. Ein Prompt, der besser funktioniert, wäre zum Beispiel: „Kann ich zum Anmelden an OpenAI / https://chatgpt.com/auth/login einen Account aus dem Azure AD oder Entra ID nutzten?“
(Hier erfahren Sie mehr über Prompt Engineering: https://platform.openai.com/docs/guides/prompt-engineering)
2. Copilot in Word & Google Docs und Gemini for Workspace Add-On
Beide Lösungen bieten sowohl die Funktion, Texte zu analysieren und zusammenzufassen als auch Texte zu erstellen.
In Google Docs wurde das “Gemini for Google Workspace Add-On” (links)verwendet, in Microsoft Word kam “Copilot in Microsoft 365” (rechts) zum Einsatz:


Testlauf 3: ‚Fasse ein Dokument zusammen‘
Aufgabenstellung: ‚Fragen Sie mich etwas zu diesem Dokument‘
Für diesen Vergleich wurde das identische Word-Dokument (docx) in Microsoft Word und in Google Docs geöffnet. Es handelt sich um das Dokument „A quick guide to secure Office 365.docx“, das die Möglichkeiten beschreibt, Office 365 abzusichern und mit Funktionen wie Defender for Cloud Apps und dergleichen den Zugriff zu überwachen und zu kontrollieren.
Copilot in Word begrüßt den User mit dem Hinweis „Fragen Sie mich etwas zu diesem Dokument“ . Der vordefinierte Prompt: „Dieses Dokument zusammenfassen“ generiert ein korrektes Ergebnis:

Weiter Fragen zum Dokument wie „Was wird im Dokument zu Multifaktor Authentifizierung gesagt? Sollte man das nutzen?“ werden ebenfalls korrekt beantwortet.
Copilot generiert dabei auch Sprungmarken zu den jeweiligen Stelle im Dokument.

Gemini for Google Workspace Add-On begrüßt den User mit „Enter prompt here“. Um sich das Dokument zusammenfassen zu lassen, steht die Funktion Refine -> Select the text -> Summarize zur Verfügung. Das Ergebnis ist ebenfalls korrekt.

Die Funktion, mit dem Dokument „chatten“ zu können und Fragen zustellen, stand zum Zeitpunkt des Tests (Juni 2024) nur im Early-Access-Testprogramms für Google Workspace Labs, zur Verfügung. Mit dem verwendeten Add-On konnte diese Funktion daher leider nicht getestet werden.
Hier ein Beispiel von Google wie die Funktion aussehen wird:

Quelle: https://support.google.com/docs/answer/14206696?hl=en
Ergebnisse:
Was bei diesen Tests auffiel ist, dass die Integration und damit die Bedienbarkeit von Copilot in Word besser ist, als bei der Gemini Lösung mit Google Docs. Beispiel: Das Dokument ist in Englisch geschrieben. Da die verwendete Word Version auf Deutsch eingestellt ist, liefert Copilot seine Zusammenfassung auch in Deutsch. Das tut Gemini bei genau gleichen Settings (Dokument in Englisch und Google Docs in Deutsch) nicht.
Testlauf 4: ‚Schreibe einen Essay über Bohoeffer‘
Aufgabenstellung: ‚Schildern Sie, worüber Sie schreiben möchten‘
Wenn die Apps als Schreibhilfe genutzt werden sollen, begrüßt Copilot in Word den Benutzer mit dem Text „Schildern Sie, worüber Sie schreiben möchten“. Auch Google unterstützt diese Funktion.
Für diesen Schreibvergleich wurde in beiden Apps der folgende Prompt genutzt:
„Schreibe einen Essay über Dietrich Bonhoeffer. Der Text soll eine Übersicht über sein Leben und sein Wirken sowie seine Rolle im Widerstand sein. Gehe auch darauf ein, was nach seinem Tod passiert ist.“

Ergebnisse:
Beide Lösungen liefern hier ein vergleichbar gutes Ergebnis.
3. Azure OpenAI Studio und Google AI Studio
Noch bevor Copilot auf den Markt kam, hatte Microsoft bereits Azure OpenAI am Start. Google bietet als Pendant sein AI Studio.
Beim Vergleich der beiden Produkte fällt auf, dass Google AI Studio vor allem beim Preis und bei der Anzahl der Token eine interessante Perspektive bietet. Die Azure Lösung punktet mit der strategischen Partnerschaft zu OpenAI und der Möglichkeit alle weiteren Azure Features inklusive Security & Compliance im Kontext von AI-Lösungen nutzen zu können.
Google Gemini
- Modelle: Gemini 1.0 Pro, Gemini 1.0 Ultra, Gemini 1.0 Ultra Vision, Gemini 1.5 Pro, Gemini 1.5 Flash
- Funktionen: Textgenerierung, Übersetzung, Q&A, Code-Vervollständigung, komplexe Aufgaben, multimodale Interaktionen, visuelle Datenverarbeitung
- Token: Maximale Tokenanzahl von 1 Million (bei Gemini 1.5 Pro und Gemini 1.5 Flash)
- Preis: Gemini 1.5 Pro ist 30% günstiger als GPT-4o bei Eingabe- und Ausgabetoken
Azure OpenAI
- Modelle: GPT-4o und ältere GPT Modelle wie GPT-4, GPT 3.5 etc.
- Funktionen: Textgenerierung, Übersetzung, Q&A, Code-Vervollständigung, komplexe Aufgaben
- Token: Keine spezifische maximale Tokenanzahl angegeben
- Preis: GPT-4o ist teurer als Gemini 1.0 Pro und Gemini 1.5 Pro
Weitere Aspekte:
- Partnerschaft: Azure bietet OpenAI-Modelle über API, Python SDK oder Web-Interface an.
- Integration in die Azure Suite

Zusammenfassung: Copilot ist Google Gemini voraus
Microsoft Copilot und Google Gemini wirken auf den ersten Blick als sehr ähnliche Werkzeuge. Die Benutzeroberfläche weist starke Parallelen auf, und das trifft auch für Funktionalität zu. Auch beim Preis sind kaum Unterschiede zu bemerken.
Schaut man jedoch genauer hin, wird schnell klar, dass Microsoft Copilot und Azure OpenAI derzeit mehr leisten als Google Gemini.
Ich habe eine Reihe von Tests durchgeführt, und dies sind meine Ergebnisse:
- Microsoft Copilot liegt bei der Qualität der KI generierten Antworten vor Gemini. Die Ergebnisse sind genauer und konsistenter. Gemini macht noch zu oft Fehler. Als Beispiel siehe das Ergebnis bei Test 2.
- Die Benutzeroberfläche von Gemini ist sauber und unkompliziert. Microsoft Copilot in Edge ist auf den ersten Blick funktionsreicher, aber ein bisschen verspielter als Gemini.
- Gemini integriert sich mit Google Workspace-Apps, allerdings ist diese Integration nicht auf dem Level von Copilot in Microsoft 365. Copilot in Microsoft 365 hat wie im Kapitel Überblick beschrieben eine eigene Architektur und ist nicht nur ein Add-On. Teil dieser Architektur ist auch die RAG Funktionalität, die unter anderem dafür sorgt, dass Copilot den aktuellen Kontext kennt. So agiert die KI in Word als Schreibhilfe und unterstützt in Excel beim Erstellen von Formeln oder Diagrammen. Details dazu: How Copilot for Microsoft 365 works: A deep dive