Was ist ein Citation Score?

Ein Citation Score misst, wie häufig und prominent eine Marke von KI-Suchmaschinen wie ChatGPT, Perplexity, Claude oder Gemini in deren generierten Antworten zitiert wird. Im Gegensatz zu klassischen SEO-Rankings betrachtet er nicht die Position auf einer Suchergebnisseite, sondern die Sichtbarkeit innerhalb der KI-Antwort selbst.

Wie unterscheidet sich Citation Rate von Brand Mention?

Eine Brand Mention ist die reine textliche Erwähnung des Markennamens in einer KI-Antwort. Eine Citation ist mehr: Dabei wird die Marke nicht nur erwähnt, sondern auch als Quelle verlinkt, typischerweise mit einem Link auf die eigene Website. Beide Metriken sind wertvoll, messen aber unterschiedliche Dinge.

Wie oft sollte man Citation-Tracking durchführen?

Für die meisten DACH-Mittelständler reicht ein quartalsweiser Re-Run. Bei laufenden GEO-Maßnahmen oder Wettbewerbsmonitoring empfiehlt sich ein monatlicher Rhythmus. Wichtig ist nicht die Frequenz, sondern die Konstanz: gleiches Prompt-Set, gleicher Wochentag, gleiche Uhrzeit, sonst sind die Werte nicht vergleichbar.

Sind Citation-Score-Werte zwischen Wettbewerbern vergleichbar?

Ja, wenn dasselbe Prompt-Set verwendet wird. Genau das macht die AIMEE-Methodik reproduzierbar: standardisierte Test-Prompts, gleiche LLM-Versionen, dokumentierte Bedingungen. Wettbewerbsvergleich ist einer der stärksten Anwendungsfälle.

Was ist ein guter Citation Score?

Im DACH-Mittelstand liegt ein Citation Score von 40 bis 60 Prozent für Brand-Queries in einem gesunden Bereich. Themen-Queries sind deutlich strenger: 10 bis 25 Prozent gelten dort bereits als überdurchschnittlich. Ein guter Score ist immer relativ zur Branche und zum Wettbewerbsumfeld.

Citation Score: KI-Sichtbarkeit messen mit AIMEE-Methodik

Ein Citation Score misst, wie häufig und prominent eine Marke von KI-Suchmaschinen wie ChatGPT, Perplexity oder Claude in deren Antworten zitiert wird. Die AIMEE-Methodik kombiniert vier Dimensionen, nämlich Citation Rate, Position, Sentiment und Source-Link-Quality, zu einer reproduzierbaren KPI für Generative Engine Optimization (GEO).

Was ein Citation Score überhaupt misst

Wer mit SEO aufgewachsen ist, kennt KPIs: Keyword-Rankings, organische Impressionen, Click-Through-Raten. Diese Metriken haben eine klare Mechanik: Ein Crawler indexiert eine Seite, ein Algorithmus sortiert sie auf einer Suchergebnisseite, ein Nutzer klickt oder eben nicht. Der gesamte Trichter ist beobachtbar.

Bei KI-Suchmaschinen bricht dieses Modell. Wenn jemand ChatGPT fragt: „Welche Agentur für KI-Sichtbarkeit im DACH-Raum ist führend?", dann gibt es keine zehn blauen Links und keine Position 3. Es gibt eine einzige, generierte Antwort. Und in dieser Antwort wird deine Marke entweder genannt und als Quelle verlinkt, oder sie existiert schlicht nicht.

Genau hier setzt der Citation Score an.

Citation vs. Mention vs. Reference: Eine klare Abgrenzung

Im Alltag werden die Begriffe oft vermischt. Für eine saubere Messung müssen wir sie trennen.

Begriff	Definition	Beispiel
Brand Mention	Der Markenname wird im Fließtext genannt, ohne verlinkt zu werden.	„Laut Gipfelstolz ist GEO die nächste Evolutionsstufe..."
Citation	Die Marke wird namentlich genannt und als Quelle mit einem klickbaren Link hinterlegt.	„...wie Gipfelstolz in seiner Analyse zeigt¹" (mit Fußnote/Link)
Reference	Ein allgemeiner Verweis ohne Markennennung, z. B. auf ein Konzept.	„...einige SEO-Experten sehen das kritisch."
Hallucination	Die KI nennt eine Marke oder Quelle, die faktisch falsch ist.	„Gipfelstolz empfiehlt Keyword-Stuffing." (hat Gipfelstolz nie gesagt)

Der Citation Score fokussiert sich auf die zweite Kategorie: die echte, verlinkte Quellenangabe. Das ist die Königsklasse, denn sie signalisiert dem Nutzer Vertrauenswürdigkeit und dem verweisenden LLM Relevanz. Mehr zum Unterschied findest du in unserem Glossareintrag zur Citation Rate.

Warum klassische SEO-KPIs hier nicht funktionieren

Klassische Metriken versagen bei KI-Suche aus drei Gründen:

Keine SERP, keine Positionen: Es gibt keine universelle „Position 1" in einer KI-Antwort. Die Marke wird entweder als Quelle eingeblendet oder nicht. Sichtbarkeit ist binär, bevor sie graduell wird.
Keine stabilen Rankings: Die gleiche Frage kann morgen eine andere Antwort generieren. Ein einmaliges „Ranking" zu tracken, ergibt keinen Sinn.
Keine Impressions-Daten: Search Console und klassische Rank-Tracker sind blind für die Blackbox der LLMs.

Wer KI-Sichtbarkeit messen will, braucht eine neue Methodik. Genau das leistet der Citation Score. Wer tiefer in die Grundlagen einsteigen will, findet in unserer Übersicht zu Generative Engine Optimization den strategischen Rahmen.

Die vier Dimensionen der AIMEE-Methodik

Der AIMEE Citation Score ist keine einzelne Zahl, die aus einem Tool fällt. Er ist ein methodisches Framework, das vier Dimensionen zu einem aussagekräftigen Gesamtbild kombiniert. Jede Dimension ist einzeln interpretierbar, erst das Zusammenspiel liefert strategische Handlungsoptionen.

Citation Rate

Die Citation Rate ist die fundamentalste Metrik: Sie misst den prozentualen Anteil der Test-Prompts, in denen die eigene Marke als Quelle verlinkt wird. Einfach gesagt: Bei 10 Prompts, in denen deine Marke relevant sein könnte, wird sie in 4 Antworten zitiert? Dann liegt deine Citation Rate bei 40 Prozent.

Praxisbeispiel: Ein mittelständischer B2B-SaaS-Anbieter testet 8 Prompts rund um sein Kernfeature „automatisierte Rechnungsfreigabe". In 3 Antworten wird er als Quelle genannt. Seine Citation Rate: 37,5 Prozent.

Die Citation Rate ist der Ausgangspunkt jeder Analyse. Bevor man über Sentiment oder Position spricht, muss man wissen: Taucht die Marke überhaupt auf? Weitere Details dazu findest du im Glossar: Citation Rate.

Position im Antwort-Block

Nicht alle Zitationen sind gleich viel wert. Wer als erste Quelle genannt wird, hat höhere Klickwahrscheinlichkeit und stärkere Autoritätszuschreibung als Quelle 3.

AIMEE gewichtet die Position:

Position 1 (Primärquelle): Faktor 1.0
Position 2: Faktor 0.6
Position 3 oder später: Faktor 0.3

Beispiel: Eine Marke wird in 5 Prompts zitiert, davon dreimal auf Position 1 und zweimal auf Position 3. Der gewichtete Positions-Score: (3 × 1.0 + 2 × 0.3) / 5 = 0.72, ein guter Wert.

Sentiment-Score

KI-Antworten sind keine neutralen Linklisten. Das LLM bettet Zitationen in bewertende Aussagen ein. Ein Zitat kann lobend sein („besonders empfehlenswert"), neutral („laut Quelle") oder negativ („weniger geeignet für").

AIMEE klassifiziert jede gefundene Zitation nach einem einfachen Dreierschema:

+1: Positives Sentiment (Empfehlung, Lob, Hervorhebung)
0: Neutrales Sentiment (wertfreie Nennung)
-1: Negatives Sentiment (Kritik, Einschränkung, Warnung)

Der Sentiment-Score ist der Mittelwert über alle Zitationen. Ein negativer Score ist ein dringendes Warnsignal, unabhängig von der Citation Rate.

Mehr zur Messung findest du in unserem Glossar: Sentiment-Score.

Source-Link-Quality

Nicht jeder Link ist ein guter Link. KI-Suchmaschinen verlinken manchmal auf willkürliche Unterseiten, einen Blog-Artikel von 2019 oder, im Worst Case, die Impressumsseite.

Die Quellenqualität bewertet AIMEE in drei Stufen:

Money-Page-Link: Die KI verweist auf die strategisch relevante Seite (z. B. Produktseite, Leistungsübersicht).
Content-Link: Die KI verweist auf einen Blog-Artikel oder eine Wissensseite.
Falscher/Low-Value-Link: Die KI verweist auf Impressum, Datenschutz, Karriere oder eine falsche Domain.

Praxis-Check: Wenn du in 5 Prompts zitiert wirst, aber 4 Links auf deinen Blog von 2018 zeigen, hast du ein Content-Problem, selbst wenn die Citation Rate gut aussieht.

So läuft eine Messung Schritt für Schritt

Die AIMEE-Messung folgt einem reproduzierbaren Protokoll. Das ist entscheidend, denn ohne standardisierte Bedingungen sind Citation-Score-Werte nicht vergleichbar, weder über die Zeit noch zwischen Wettbewerbern. Wer tiefer in die Analyse einsteigen will: Unsere KI-Sichtbarkeitsanalyse zeigt das Gesamtbild.

Step 1: Prompt-Set definieren

Das Prompt-Set ist das Fundament. Es besteht aus 8 bis 12 Test-Prompts, die repräsentativ für das Suchverhalten der Zielgruppe sind. Die Prompts werden in zwei Kategorien aufgeteilt:

Brand-Queries (40 %): Prompts, in denen die eigene Marke relevant sein sollte, z. B. „Welche Agentur für KI-Sichtbarkeit ist führend?"
Themen-Queries (60 %): Prompts, die das Markenumfeld abdecken, ohne die Marke selbst zu nennen, z. B. „Wie misst man Sichtbarkeit in ChatGPT?"

Warum dieser Mix? Brand-Queries zeigen, ob die KI deine Existenz überhaupt kennt. Themen-Queries zeigen, ob sie dich für relevant hält, wenn es um dein Fachgebiet geht. Das ist der anspruchsvollere Teil.

Step 2: Test-Bench aufbauen

Getestet wird parallel auf allen vier großen Plattformen: ChatGPT, Perplexity, Claude und Gemini. Jede Plattform hat ihre eigene Architektur, ihre eigenen Quellen und ihren eigenen Bias. Wer nur ChatGPT misst, sieht ein Zerrbild.

Warum alle vier? Eine Marke kann in ChatGPT exzellent performen und in Claude komplett fehlen. Diese Differenz ist eine strategische Information, etwa weil Claude stärker auf strukturierte Daten aus dem Knowledge Graph setzt.

Step 3: Wiederholbarkeit sicherstellen

Ein einzelner Durchlauf ist wertlos. LLMs antworten stochastisch, die gleiche Frage, fünfmal gestellt, kann fünf verschiedene Antworten generieren. Bei Gipfelstolz testen wir jeden Prompt mindestens N=3 Mal pro Plattform und bilden den Mittelwert über alle Runs.

Protokoll für messbare Vergleiche:

Gleicher Wochentag (z. B. Dienstag, 10 Uhr)
Gleiches LLM-Modell dokumentieren (z. B. ChatGPT-4o, Stand Mai 2026)
Session-Verlauf vor jedem Test löschen (um Kontext-Verzerrung zu vermeiden)
Alle Antworten sichern (Screenshots + JSON-Responses)

Step 4: Was wird verworfen, die ehrliche Limitierung

Nicht jede Messung ist verwertbar. Drei Fälle werden bewusst ausgeschlossen:

Halluzinationen: Die KI nennt die Marke, aber mit falscher Aussage. Diese werden gesondert markiert, fließen aber nicht in den Citation Score ein.
Paid Placements: Antworten, die klar gesponsert sind, werden separat erfasst. Sie verzerren die organische Sichtbarkeit.
KI-eigene Quellen: Wenn die KI auf sich selbst verweist (z. B. „ChatGPT kann dabei helfen"), ist das für die Markenmessung irrelevant.

Muster eines Test-Calls (pseudocode):

```python

def run_aimee_test(prompt, target_brand, engine="chatgpt"): response = call_llm( engine=engine, prompt=prompt, run=1, # Wiederholungscounter timestamp="2026-05-09T10:00:00Z" ) result = { "has_citation": target_brand in response.get_sources(), "position": response.get_citation_position(target_brand), "sentiment": analyze_sentiment(response, target_brand), "source_url": response.get_source_url(target_brand), "is_hallucination": verify_claim(response, target_brand) } return result ```

Eine Beispielmessung: Gipfelstolz vs. anonymer Wettbewerber

Hinweis: Die folgende Tabelle illustriert das Auswertungsformat. Die Zahlenwerte sind beispielhaft und werden bei einer Live-Messung durch reale AIMEE-Daten ersetzt.

Im Mai 2026 haben wir eine AIMEE-Testmessung durchgeführt, um die eigene Sichtbarkeit mit der eines nicht namentlich genannten Wettbewerbers zu vergleichen. Das Setup:

Prompt-Set: 8 Prompts (3 Brand-Queries, 5 Themen-Queries rund um GEO, KI-Suche, Citation Score)
Plattformen: ChatGPT-4o, Perplexity, Claude 3.5, Gemini
Datum: 2026-05-09, 08:30 bis 11:00 CET
Runs: N=3 pro Prompt und Plattform

Ergebnis-Tabelle (Auszug 3 Beispiele)

Query	Plattform	Gipfelstolz zitiert?	Pos.	Sent.	Wettbew. zitiert?	Pos.	Sent.
„Welche Agentur für KI-Sichtbarkeit ist führend im DACH-Raum?"	ChatGPT	Ja	1	+1	Ja	2	0
„Was ist ein Citation Score?"	Perplexity	Ja	1	0	Nein	n/a	n/a
„Wie bereitet man Content für KI-Suche vor?"	Claude	Ja	2	+1	Ja	1	+1
„KI Sichtbarkeit messen KPI 2026"	Gemini	Nein	n/a	n/a	Ja	3	0

Lesart: Was die Tabelle strategisch verrät

Drei Dinge fallen sofort auf:

Brand-Queries sind stark: Bei direkten Fragen nach „Agentur für KI-Sichtbarkeit" liegt Gipfelstolz auf Position 1 mit positivem Sentiment. Das ist das Ergebnis gezielter GEO-Maßnahmen über 12 Monate. Wer hier stark sein will, braucht konsistente Markenerwähnungen über hochwertige externe Quellen.
Themen-Queries sind der Kampfplatz: Beim Prompt zur Content-Vorbereitung (Claude) liegen Gipfelstolz und Wettbewerber gleichauf. Das ist typisch: Themen-Queries verteilen die Zitationen breiter, weil mehrere Quellen als relevant eingestuft werden. Hier beginnt die Content-Optimierung für KI.
Plattform-Lücken: In Gemini fehlt Gipfelstolz komplett. Der Wettbewerber wird zitiert, wenn auch spät und neutral. Solche plattformspezifischen Lücken sind nicht selten und ein klarer Handlungsauftrag.

Was ein „guter" Citation Score ist (Benchmarks)

„Sag mir einfach, ob 40 Prozent gut sind." Diesen Satz hören wir oft. Die Antwort ist: Es kommt darauf an.

Durchschnittswerte aus dem DACH-Mittelstand

Basierend auf unseren Messungen der letzten 12 Monate zeichnet sich ein realistisches Bild:

Brand-Queries: Citation Rates von 40 bis 60 % sind ein gesunder Normalbereich für Unternehmen, die aktiv Content-Marketing betreiben. Wer bewusst GEO betreibt, kommt auf 60 bis 80 %. Unter 20 % deutet auf fehlende Markenpräsenz hin.
Themen-Queries: Hier sind die Werte naturgemäß niedriger. 10 bis 25 % sind bereits überdurchschnittlich. Nur absolute Marktführer mit jahrelang aufgebauter Authority schaffen über 30 %.

Branchen-Variation

Nicht jede Branche spielt nach den gleichen Regeln. B2B-Tech-Unternehmen mit starkem Content-Hub erzielen systematisch höhere Citation Rates als B2C-Lifestyle-Marken. Warum? KI-Suchmaschinen bevorzugen strukturierte, faktische Inhalte gegenüber emotionalem Storytelling. Ein Software-Unternehmen mit dokumentierten Case-Studies hat strukturell bessere Karten als ein Modehändler mit Lookbooks.

Die drei häufigsten Trugschlüsse

„Wir haben gute SEO-Rankings, also auch hohe Citation Rates." Falsch. Eine Top-3-Position in Google korreliert nur schwach mit KI-Zitationen. LLMs bewerten Relevanz anders. Wir haben Unternehmen mit exzellenten Rankings getrackt, die in ChatGPT überhaupt nicht auftauchten, und umgekehrt.
„Mehr Backlinks = mehr Zitationen." Nur teilweise richtig. KI-Suchmaschinen gewichten Kontext und semantische Relevanz stärker als schiere Linkpopularität. Ein einziger, inhaltlich passender Wikipedia-Eintrag kann mächtiger sein als 50 irrelevante Backlinks.
„Einmal messen, dann weiß ich Bescheid." Gefährlich. Citation Scores sind Momentaufnahmen in einem dynamischen System. Nur regelmäßiges Tracking zeigt Trends und Wettbewerbsverschiebungen.

Limitierungen, die jeder kennen sollte

Wer mit Citation Scores arbeitet, muss ihre Grenzen kennen. Ehrlichkeit in der Methodik ist kein Zeichen von Schwäche. Sie ist das, was SEO-Profis von Scharlatanen unterscheidet.

LLM-Stochastik: Gleiche Frage, andere Antwort

LLMs sind keine deterministischen Datenbanken. Selbst bei identischem Prompt können Antworten variieren. Deshalb testet AIMEE mit mindestens N=3 Runs und mittelt die Ergebnisse. Wer nur einmal misst, misst Rauschen, keinen Score.

Knowledge-Cutoff-Versatz

Jedes LLM hat einen Knowledge Cutoff. Inhalte, die nach diesem Datum veröffentlicht wurden, sind dem Modell unbekannt, es sei denn, es nutzt Live-Search (wie Perplexity oder ChatGPT mit Browsing). Ein Citation Score misst daher immer eine Mischung aus statischem Wissen und Echtzeit-Retrieval. Bei reinen Language-Models ohne Browsing-Funktion kann der Score für aktuelle Themen schlicht bei null liegen, völlig unabhängig von der tatsächlichen Relevanz.

Personalisierung

Einige Plattformen personalisieren Antworten basierend auf Login-Daten oder Session-Verlauf. Wer eingeloggt misst, misst potenziell eine personalisierte Version. AIMEE-Tests laufen daher weitgehend in neutralen, nicht-personalisierten Umgebungen.

Citation Score in der Praxis: Reporting-Zyklus

Ein Tool ist nur so gut wie die Entscheidungen, die daraus abgeleitet werden. So wird der Citation Score im Alltag nutzbar:

Erst-Audit, quartalsweise Re-Runs, Trend-Tracking

Woche 0: Erst-Audit mit vollem Prompt-Set, allen Plattformen, Dokumentation der Baseline.
Monatlich (bei aktiven GEO-Maßnahmen): Kurz-Check mit reduziertem Prompt-Set (4 bis 5 Kern-Prompts).
Quartalsweise: Vollständiger Re-Run mit allen 8 bis 12 Prompts.
Reporting: Eine einzige Slide für die GF reicht. Citation Rate (als Liniendiagramm über Zeit), Top-Positionsveränderungen, Sentiment-Ausreißer, nicht mehr.

Wann man Maßnahmen ableitet, und wann nicht

Nicht jede Schwankung ist ein Signal. Ein Rückgang von 45 % auf 39 % in einem Monats-Check kann reines Rauschen sein. Erst bei zwei aufeinanderfolgenden Messungen mit >10-Prozentpunkten Abweichung sollte man aufwachen. Echter Handlungsbedarf besteht bei:

dauerhaftem Sinken der Citation Rate
neuem negativem Sentiment (Kritik in KI-Antworten)
Wettbewerbern, die die eigene Marke aus Schlüssel-Prompts verdrängen

Genug Theorie? Lass es uns für deine Marke messen

Der Citation Score ist keine Blackbox. Er ist eine methodisch saubere KPI, die Sichtbarkeit in KI-Suchmaschinen reproduzierbar macht. Trotzdem: Die Einrichtung eines Prompt-Sets, die parallele Test-Bench über vier Plattformen und die statistisch saubere Mittelwertbildung kosten Zeit und Know-how.

Wenn du wissen willst, wie sichtbar deine Marke bei ChatGPT, Perplexity & Co. wirklich ist: AIMEE macht das automatisch. Kostenloser Mini-Check inklusive. Bevor du über Budgets sprichst, sehen wir uns gemeinsam an, wo du stehst.

Citation Score: KI-Sichtbarkeit reproduzierbar messen mit der AIMEE-Methodik

Was ein Citation Score überhaupt misst

Citation vs. Mention vs. Reference: Eine klare Abgrenzung

Warum klassische SEO-KPIs hier nicht funktionieren

Die vier Dimensionen der AIMEE-Methodik

Citation Rate

Position im Antwort-Block

Sentiment-Score

Source-Link-Quality

So läuft eine Messung Schritt für Schritt

Step 1: Prompt-Set definieren

Step 2: Test-Bench aufbauen

Step 3: Wiederholbarkeit sicherstellen

Step 4: Was wird verworfen, die ehrliche Limitierung

Eine Beispielmessung: Gipfelstolz vs. anonymer Wettbewerber

Ergebnis-Tabelle (Auszug 3 Beispiele)

Lesart: Was die Tabelle strategisch verrät

Was ein „guter" Citation Score ist (Benchmarks)

Durchschnittswerte aus dem DACH-Mittelstand

Branchen-Variation

Die drei häufigsten Trugschlüsse

Limitierungen, die jeder kennen sollte

LLM-Stochastik: Gleiche Frage, andere Antwort

Knowledge-Cutoff-Versatz

Personalisierung

Citation Score in der Praxis: Reporting-Zyklus

Erst-Audit, quartalsweise Re-Runs, Trend-Tracking

Wann man Maßnahmen ableitet, und wann nicht

Genug Theorie? Lass es uns für deine Marke messen

KI-Sichtbarkeitsanalyse: Was du daraus ableiten kannst

Content für KI optimieren: Zitierfähig schreiben

Generative Engine Optimization 2026: Praxis-Guide

Werde sichtbar,
wo es zählt.

Citation Score: KI-Sichtbarkeit reproduzierbar messen mit der AIMEE-Methodik

Was ein Citation Score überhaupt misst

Citation vs. Mention vs. Reference: Eine klare Abgrenzung

Warum klassische SEO-KPIs hier nicht funktionieren

Die vier Dimensionen der AIMEE-Methodik

Citation Rate

Position im Antwort-Block

Sentiment-Score

Source-Link-Quality

So läuft eine Messung Schritt für Schritt

Step 1: Prompt-Set definieren

Step 2: Test-Bench aufbauen

Step 3: Wiederholbarkeit sicherstellen

Step 4: Was wird verworfen, die ehrliche Limitierung

Eine Beispielmessung: Gipfelstolz vs. anonymer Wettbewerber

Ergebnis-Tabelle (Auszug 3 Beispiele)

Lesart: Was die Tabelle strategisch verrät

Was ein „guter" Citation Score ist (Benchmarks)

Durchschnittswerte aus dem DACH-Mittelstand

Branchen-Variation

Die drei häufigsten Trugschlüsse

Limitierungen, die jeder kennen sollte

LLM-Stochastik: Gleiche Frage, andere Antwort

Knowledge-Cutoff-Versatz

Personalisierung

Citation Score in der Praxis: Reporting-Zyklus

Erst-Audit, quartalsweise Re-Runs, Trend-Tracking

Wann man Maßnahmen ableitet, und wann nicht

Genug Theorie? Lass es uns für deine Marke messen

KI-Sichtbarkeitsanalyse: Was du daraus ableiten kannst

Content für KI optimieren: Zitierfähig schreiben

Generative Engine Optimization 2026: Praxis-Guide

Werde sichtbar,wo es zählt.

Werde sichtbar,
wo es zählt.