Skip to content
Übersicht
 

WDF * IDF Analyse? Textoptimierung mit WDF*IDF einfach erklärt

Autor

Picture of Michael Möller
Michael Möller

Update durch Rebecca Rothe 24.02.2023
Erstveröffentlichung, 28. August 2015

Was ist WDF*IDF? Wer im Online Marketing nicht direkt operativ mit der Suchmaschinenoptimierung beschäftigt ist, kommt mit dieser Formel dennoch irgendwann in Berührung. Wir zeigen Dir, was genau es mit diesem Analyseverfahren auf sich hat, wer es nutzt und wo es Anwendung findet.

Was ist eine WDF*IDF Analyse?

Mit WDF*IDF wird ein Verfahren zur Termgewichtungsanalyse beschrieben, mit dem sich berechnen lässt, welche Schlagwörter, Terme und Begriffe in einem Dokument als relevant erachtet werden. In der Suchmaschinenoptimierung wird die WDF*IDF Analyse bei der Erstellung von Online-Texten genutzt, um so die Relevanz einer Webseite zu erhöhen. Die Relevanz ist neben vielen weiteren Faktoren wie Ladezeiten, Meta-Angaben oder Backlinks einer der wichtigsten Rankingfaktoren.

Was bedeutet WDF?

WDF steht für „Word Frequency“ oder „Wort-Häufigkeit“. Diese bezieht sich auf die Häufigkeit, mit der ein bestimmtes Wort in einem Dokument vorkommt. WDF ist ein wichtiger Faktor in der WDF*IDF-Methode, da es die relative Häufigkeit eines Wortes innerhalb eines Dokuments bestimmt. Je häufiger ein Wort in einem Dokument vorkommt, desto höher ist sein WDF-Wert.

Was bedeutet IDF?

IDF steht für „Inverse Document Frequency“ oder „inverse Dokumentenhäufigkeit“. Diese bezieht sich auf die Seltenheit eines bestimmten Wortes in einer Sammlung von Dokumenten. Je seltener ein Wort in einer Sammlung von Dokumenten vorkommt, desto höher ist sein IDF-Wert und desto wichtiger wird dieses für die Bedeutung des Wortes in Bezug auf die gesamte Sammlung angesehen.

Die IDF wird berechnet durch die logarithmische Funktion von Dokumentenanzahl, geteilt durch die Anzahl der Dokumente, in denen das Wort vorkommt.

Ein Wort mit einem hohen WDF-Wert (hohe Häufigkeit innerhalb eines Dokumentes) und einem niedrigen IDF-Wert (hohe Häufigkeit in einer Sammlung von Dokumenten) wird als weniger wichtig angesehen als ein Wort mit einem niedrigen WDF-Wert und einem hohen IDF-Wert.

Zur WDF*IDF Formel: Nutzen für die Suchmaschinenoptimierung

Multipliziert man den WDF- und den IDF-Wert ergibt sich dann letztlich die relative Termgewichtung eines Dokuments im Verhältnis zu allen möglichen Dokumenten, die das gleiche Keyword enthalten → der WDF*IDF-Wert. Die Ergebnisse werden präziser, je größer die Datenbasis ist, die zur Berechnung von WDF*IDF herangezogen wurde.

wdf-idf_analyse_wdf-idf-formel

Die WDF*IDF-Formel wird in der Suchmaschinenoptimierung vor allem bei der Optimierung der Inhalte verwendet. Generell soll versucht werden, die Texte einer Website möglichst einzigartig zu gestalten, so dass die Suchmaschine die jeweilige Seite aufgrund der Einzigartigkeit und Relevanz der Inhalte möglichst weit vorn in der Ergebnisliste (SERP) platziert.

Was ist ein guter WDF*IDF-Wert?

Dabei gibt es keinen „guten“ WDF*IDF-Wert, da dieser je nach Anwendungsfall variiert. Ein WDF*IDF-Wert, der als hoch betrachtet wird, ist abhängig von der Anwendung und dem Kontext, indem er evaluiert wird.

Im Allgemeinen gilt, dass ein höherer WDF*IDF-Wert für ein bestimmtes Wort als Indikator dafür gilt, dass das Wort wichtiger für das Dokument und/oder für die Sammlung von Dokumenten ist. Ein hoher WDF*IDF-Wert bedeutet, dass ein Wort sowohl häufig innerhalb der SEO-Texte, als auch selten in der gesamten Sammlung von Texten vorkommt.

Bei der Verwendung von WDF*IDF in der Suchmaschinenoptimierung (SEO) kann ein höherer WDF*IDF-Wert für bestimmte Schlüsselwörter und Phrasen dazu beitragen, die Relevanz einer Webseite für bestimmte Suchanfragen zu erhöhen und somit die Platzierung in den Suchergebnissen zu verbessern.

Es ist jedoch wichtig zu beachten, dass ein hoher WDF*IDF-Wert nicht unbedingt ein Garant für eine hohe Platzierung in den Suchergebnissen ist. Suchmaschinen berücksichtigen auch andere Faktoren wie die Nutzerfreundlichkeit, die Verknüpfung und die Nutzereinbindung, um die Relevanz einer Webseite zu bestimmen.

Digital Arrow

Melde Dich jetzt zu unserem Newsletter „Digital Arrow“ an, mit dem Du die brandheißen digitalen News zuerst erhältst!

WDF*IDF in der Praxis – für wen sind WDF*IDF Analysen interessant?

WDF*IDF Analysen sind in der Praxis für viele Personen und Unternehmen interessant, die sich mit Suchmaschinenoptimierung (SEO) beschäftigen und ihre Online-Präsenz verbessern möchten. Insbesondere für:

  • Suchmaschinenoptimierer:innen: Sie verwenden WDF*IDF Analysen, um die Relevanz von Webseiten für bestimmte Suchanfragen zu bestimmen und die Platzierung in den Suchergebnissen zu verbessern, indem sie die Schlüsselwörter und Phrasen optimieren, die einen hohen WDF*IDF-Wert haben.
  • Content-Ersteller:innen: WDF*IDF Analysen können helfen, die Wichtigkeit von Schlüsselwörtern und Phrasen innerhalb eines Dokuments zu bestimmen und sicherzustellen, dass sie für die Zielgruppe relevant und nützlich sind.
  • Marketing-Verantwortliche: WDF*IDF Analysen können dazu beitragen, die Wirksamkeit von SEO- und Content-Marketing-Strategien zu messen und zu verbessern, indem sie die Relevanz von Webseiten und Inhalten für bestimmte Suchanfragen bewerten.
  • E-Commerce-Betreiber:innen: WDF*IDF Analysen können dazu beitragen, die Relevanz von Produktbeschreibungen und Kategorien für bestimmte Suchanfragen zu verbessern und somit die Sichtbarkeit der Produkte zu erhöhen und die Conversionrate zu steigern.

Was sind Nachteile der Textoptimierung mit WDF*IDF?

Neben den Vorteilen, die die WDF*IDF Analyse für die Texterstellung mit sich bringt, besitzt sie aber auch einige Limitierungen:

  • Die Anzahl der Dokumente, die einen bestimmten Begriff beinhalten, muss bekannt sein oder sehr genau geschätzt werden können, was nicht immer der Fall ist.
  • In der redaktionellen Arbeit, beispielsweise in der Online Redaktion eines Verlages, ist die WDF*IDF Analyse nur schwer zu systematisieren, da gerade im Bereich von Newsinhalten schnelle Reaktionszeiten und eine hohe Aktualität extrem wichtig sind. Die spätere Optimierung eines Artikels nach erfolgter Veröffentlichung mit WDF*IDF kann aber dennoch sinnvoll sein.
  • WDF*IDF wird erst bei viel Textinhalt wirklich interessant. Shopbetreiber brauchen für eine 50 – 100 Wörter lange Produktbeschreibung keine WDF*IDF Analyse durchführen. Gleichzeitig heißt das natürlich auch nicht, dass viel Text auch immer gut für SEO ist. Die Content Menge muss je nach Suchanfrage und Themenkomplex individuell entschieden werden.
  • Die Relevanz, welche mit der WDF*IDF Methodik erhöht werden soll, ist nur einer von sehr vielen Rankingfaktoren. Das bedeutet, dass die Textoptimierung für ein gutes Ranking bei weitem nicht ausreichend ist, sondern auch verschiedenste weitere Faktoren optimiert werden müssen.

SEO Agentur mso digital

Hast Du weitere Fragen oder benötigst Du Unterstützung bei der SEO-Optimierung Deiner Website? Dann melde Dich gerne bei uns!

Tools zur WDF*IDF-Optimierung

Wie bereits angedeutet existieren diverse Tools am Markt, die die WDF*IDF Analyse anbieten. Als kostenloses Tool bietet sich OnPage.org an, die seit einiger Zeit für kleinere Websites (bis zu 100 Unterseiten) kostenlose Accounts bereitstellen. Neben der WDF*IDF Analyse findet man hier auch diverse weitere Analyse Möglichkeiten der OnPage-Optimierung, die definitiv einen Blick wert sind.

Tool Anbieter mit WDF*IDF Analysemöglichkeiten:

Was bedeutet Relevanz im SEO-Kontext?

Im SEO-Kontext bezieht sich „Relevanz“ auf die Übereinstimmung einer Webseite oder eines Dokuments mit einer Suchanfrage. Eine relevante Website oder ein relevantes Dokument enthält Inhalte, die die Anfrage der Nutzer:innen direkt beantworten oder ihm dabei helfen, die gesuchten Informationen zu finden. Relevanz ist ein wichtiger Faktor für Suchmaschinen, da diese darauf abzielt, den Nutzer:innen die bestmöglichen Suchergebnisse zu präsentieren.

Suchmaschinen verwenden verschiedene Methoden, um die Relevanz von Webseiten und Dokumenten zu bestimmen. Dazu gehören unter anderem:

  • Analyse des Inhalts
  • Berücksichtigung von Schlüsselwörtern und Phrasen
  • Verknüpfung von Webseiten
  • Nutzer:inneneinbindung

Eine Website oder ein Dokument mit hoher Relevanz wird von Suchmaschinen höher bewertet und hat daher eine höhere Chance, in den Suchergebnissen weiter oben angezeigt zu werden.

Suchmaschinenoptimierung (SEO) zielt darauf ab, die Relevanz einer Website oder eines Dokuments für bestimmte Suchanfragen zu erhöhen, um so eine höhere Platzierung in den Suchergebnissen zu erreichen.

Warum Keyword Density kein geeignetes Maß zur Bestimmung der Relevanz eines Dokuments ist

Keyword Density, oder Schlüsselwortdichte, gibt die Häufigkeit an, mit der bestimmte Schlüsselwörter oder Phrasen in einem Dokument vorkommen. Diese Einheit wird oft verwendet, um die Relevanz eines Dokuments für eine bestimmte Anfrage zu bestimmen.

wdf-idf_analyse_kfd-formel

Man nimmt die Nennung des Terms innerhalb des Textes, teilt diese durch die Anzahl der anderen Terme/Wörter, multipliziert dies mit 100 und man erhält einen Prozentwert. Diese Formel soll anhand eines kleinen Beispiels näher erläutert werden:

wdf-idf_analyse_keyword_density_Paid

Bei insgesamt 50 Wörtern (49 mal „Paid“ und 1 mal „SEO“) hätte das Wort SEO in diesem Text eine Keyword-Density von 2 %. Ein weiteres Beispiel:

wdf-idf_analyse_keyword_density_SEO

In diesem Text hätte das Wort „SEO“ eine Keyword-Density von 98%. Der Text wäre also 49-mal relevanter aus SEO-Perspektive als der erste Text. Man sieht hier bereits, dass diese Formel irgendwann nicht mehr greift. Bei einer Keyword-Density von 98 % ist der Text natürlich nicht mehr lesbar und voll mit immer gleichen Termen. Diese Formel ist letztlich viel zu einfach um die Berechnung von Relevanz innerhalb von Suchmaschinenalgorithmen abzubilden. Die Keyword Density ist also kein geeignetes Maß für die Bestimmung der Relevanz eines Dokuments zu einer bestimmten Suchanfrage.

Es zeigen sich in der Folge einige Nachteile, die dazu führen, dass die Schlüsselwortdichte kein geeignetes Maß für die Bestimmung der Relevanz eines Dokuments ist.

  1. Die Schlüsselwortdichte allein berücksichtigt nicht die Bedeutung von Wörtern im Kontext des Dokuments. Ein Dokument kann eine hohe Schlüsselwortdichte aufweisen, aber trotzdem irrelevant für eine bestimmte Anfrage sein, wenn die Schlüsselwörter nicht in den richtigen Zusammenhängen verwendet werden.
  2. Die Schlüsselwortdichte kann, wie im Beispiel gezeigt, leicht manipuliert werden, indem einfach unnötige Wiederholungen von Schlüsselwörtern hinzugefügt werden, ohne dass diese den Inhalt oder die Bedeutung des Dokuments beeinflussen. Dies führt dazu, dass die Schlüsselwortdichte kein zuverlässiger Indikator für die Relevanz eines Dokuments ist.
  3. Die Schlüsselwortdichte ist nicht in der Lage, die Bedeutung von Synonymen oder ähnlichen Wörtern zu berücksichtigen. Ein Dokument, das eine bestimmte Anfrage beantwortet, kann trotzdem als irrelevant eingestuft werden, wenn es nicht die genauen Schlüsselwörter enthält, die in der Anfrage verwendet wurden.

Daher ist die Schlüsselwortdichte kein geeignetes Maß für die Bestimmung der Relevanz eines Dokuments. Andere Methoden wie eben die WDF*IDF-Analyse, die sowohl die Häufigkeit von Wörtern innerhalb eines Dokuments als auch ihre Seltenheit in einer Sammlung von Dokumenten berücksichtigen, sind aufschlussreicher und zuverlässiger.

Digital Arrow

Melde Dich jetzt zu unserem Newsletter „Digital Arrow“ an, mit dem Du die brandheißen digitalen News zuerst erhältst!

Von der Keyword Density zur Within Document Frequency (WDF)

Anschließend entstand der Gedanke, wie man die Relevanz besser berechnen kann, so dass Keyword Spam nicht honoriert wird. Dabei ist man auf die Within-Document-Frequency gestoßen, die bereits in den 1990er Jahren im Bereich der Informationswissenschaft von Donna Harman entwickelt wurde. Sie beschreibt, wie häufig ein Term in einem Dokument im Vergleich zu allen anderen Termen auftritt.

Die WDF Formel sieht wie folgt aus:

wdf-idf_analyse_wdf-formel

Die Formel WDF (i) = log2(Freq(i,J)+1/log2Lj benutzt dabei einen Logarithmus, der den Kurvenverlauf der Keyword Density abstumpft, damit eine möglichst häufige Nutzung eines Begriffs diesen Wert nicht positiv beeinflusst.

Die Formel ist ebenfalls relativ simpel: Man berechnet den Logarithmus der Termfrequenz (wie oft wird ein Begriff genutzt (a) plus 1 im Zähler und teilt diesen Wert durch den Logarithmus der Gesamtwortanzahl (b). Im Prinzip sehr ähnlich zur Keyword-Density – nur dass Zähler und Nenner logarithmiert sind.

  • Angewandt auf die vorherigen Beispiele hätte der Text mit den vielen „Paid“ für den Term „SEO“ einen WDF-Wert von 0,18.
  • SEO hat somit einen WDF-Wert von log_2(1+1)/log_2(50) = 0,18
  • Im Gegensatz dazu würde man in dem „spammigen“ Text mit dem Begriff „SEO“ in hoher Frequenz einen Wert von 1 für den Term „SEO“ ermitteln.
  • SEO hat einen WDF-Wert von log_2(49+1)/log_2(50) = 1
  • Der Text wäre damit also 5,5-mal relevanter als der erste Text. Beim Vergleich der Keyword-Density hatte man noch eine 49-mal höhere Relevanz ermittelt.

Die Keyword Density, oder Schlüsselwortdichte, hat lange Zeit als Maß für die Relevanz eines Dokuments gegolten.

Die WDF-Methode adressiert die Schwächen der Keyword Density. Hierbei wird erstmals die Bedeutung von Wörtern im Kontext des Dokuments berücksichtigt. Das macht WDF zu einem besseren Indikator für die Relevanz eines Dokuments als die reine Schlüsselwortdichte.

WDF*IDF ist eine viel aufschlussreichere und zuverlässigere Methode als die Schlüsselwortdichte, um die Relevanz eines Dokuments zu bestimmen. Sie berücksichtigen sowohl die Häufigkeit als auch den Kontext von Wörtern und bieten daher ein besseres Verständnis darüber, wie relevant ein Dokument für eine bestimmte Anfrage ist.

Der IDF-Wert – die inverse Dokumentenhäufigkeit (Inverse-Document-Frequency)

Der zweite Teil der WDF*IDF Formel beinhaltet mit dem IDF-Wert die inverse Dokumentenhäufigkeit oder in Englisch „Inverse-Document-Frequency“. Die entsprechende Formel sieht wie folgt aus:

wdf-idf_analyse_idf-formel

Der IDF-Wert wird berechnet, indem die logarithmische Funktion von der Anzahl der Dokumente in der Sammlung, geteilt durch die Anzahl der Dokumente, in denen das Wort vorkommt, angewendet wird. Je seltener ein Wort in einer Sammlung von Dokumenten vorkommt, desto höher ist sein IDF-Wert und desto wichtiger wird es für die Bedeutung des Wortes in Bezug auf die gesamte Sammlung angesehen. Diese wird mit der oben gezeigten IDF-Formel, also IDFi = log2(1+ND7fi) berechnet.

Ein Wort mit einem hohen IDF-Wert wird als besonders relevant betrachtet, da es in nur wenigen Dokumenten vorkommt und daher eine hohe Wertigkeit besitzt, um eine bestimmte Anfrage zu beantworten.

Ein Beispiel: Wenn das Wort „SEO“ nur in 10 Dokumenten aus einer Sammlung von 100.000 Dokumenten vorkommt, dann hat es einen höheren IDF-Wert als ein Wort wie „Paid“, das in 50.000 Dokumenten vorkommt.

IDF ist ein wichtiger Faktor in der WDF*IDF-Methode, da es die relative Seltenheit eines Wortes in einer Sammlung von Dokumenten bestimmt und dazu beiträgt, die Wichtigkeit eines Wortes innerhalb eines bestimmten Dokumentes zu bewerten. Ein Wort mit einem hohen WDF-Wert (hohe Häufigkeit innerhalb eines Dokumentes) und einem niedrigen IDF-Wert (hohe Häufigkeit in einer Sammlung von Dokumenten) wird als weniger wichtig angesehen als ein Wort mit einem niedrigen WDF-Wert und einem hohen IDF-Wert.

Fazit

Die WDF*IDF-Formel ist eine deutlich bessere Möglichkeit relevante Keywords in Texten zu ermitteln und diese so zu gewichten. Alle vorherigen Methoden führten meist dazu, dass Texte mittels Keyword Spamming hinsichtlich ihrer Relevanz manipuliert werden konnten. Dieses Problem löst die WDF IDF Analyse in dem zwei einzelne Parameter miteinander kombiniert werden.

So findet der WDF IDF Wert heute großen Anklang und ist längst tief in die Praxis von SEOs und Marketingverantwortlichen integriert. Mit diesem Termgewichtungsverfahren lässt sich letztlich die Relevanz der eigenen Webseiten Inhalte genau berechnen und man kann deutlich besser auf die Vorlieben der Suchmaschine eingehen.

Info:
Für diesen Artikel haben wir die Unterstützung von dem KI-basierten Sprachtool ChatGPT beansprucht. Ist es Dir aufgefallen? Natürlich werden die Inhalte durch unsere Fachexpert:innen geprüft und verifiziert. Ganz ohne den Menschen geht es dann doch nicht.

Benötigst Du Unterstützung?

Sende uns eine E-Mail, ruf uns einfach an oder vereinbare direkt einen Termin.
Wir beraten Dich unverbindlich, schnell & unkompliziert.
Kontakt - Icon E-Mail

E-Mail senden
kontakt@mso-digital.de

Einfach anrufen
0541 3437170

Termin vereinbaren
Jetzt buchen

Empfohlene Beiträge

1 Kommentar

  1. Hallo Michael, sehr guter Beitrag und danke für die Erwähnung auch unseres Tools. Übrigens haben wir unter http://www.wdfidf-tool.com auch ein kostenloses Tool für jeden, der ohne Anmeldung oder Registrierung direkt WDF*IDF Abfragen starten möchte. Just for info 🙂


Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert