WDF * IDF Analyse? Textoptimierung mit WDF*IDF einfach erklärt

Kategorie: Suchmaschinenoptimierung

Was ist WDF*IDF? Wer als Online-Marketer oder Marketing-Verantwortliche nicht direkt operativ mit der Suchmaschinenoptimierung beschäftigt ist, kommt mit dieser Formel dennoch irgendwann in Berührung.

Mit WDF*IDF wird ein Verfahren zur Termgewichtungsanalyse beschrieben mit dem sich berechnen lässt, welche Schlagwörter, Terme und Begriffe in einem Dokument als relevant erachtet werden. In der Suchmaschinenoptimierung wird die WDF*IDF Analyse bei der Erstellung von Online-Texten genutzt um die Relevanz einer Webseite zu erhöhen. Die Relevanz ist neben vielen weiteren Faktoren wie Ladezeiten, Meta-Angaben oder Backlinks einer der Rankingfaktoren.

Inhaltsverzeichnis

  1. Relevanz im Kontext der Suchmaschinenoptimierung
  2. Von der Keyword Density zur Within Document Frequency (WDF)
  3. Der IDF-Wert – die inverse Dokumentenhäufigkeit (Inverse Document Frequency)
  4. Zur WDF*IDF Formel: Nutzen für die Suchmaschinenoptimierung
  5. WDF*IDF in der Praxis – für wen sind WDF*IDF Texte interessant?
  6. Was sind Nachteile der Textoptimierung mit WDF*IDF?
  7. Tools zur WDF*IDF Optimierung

Relevanz im SEO-Kontext

Die Relevanz ist einer der wesentlichen Rankingfaktoren, denn wenn ein Dokument keine Relevanz zu einer bestimmten Suchanfrage besitzt, sollte es logischerweise auch nicht ranken.

Die Relevanzbestimmung beschäftigt sich dabei mit verschiedenen Faktoren:

  • Befriedigt ein Dokument das Bedürfnis des Suchenden?
  • Besitzt ein Dokument eine höhere Relevanz als ein anderes Dokument?
  • Wie gehaltvoll ist ein Dokument?
  • etc.

Warum Keyword Density kein geeignetes Maß zur Bestimmung der Relevanz eines Dokumentes ist

Die Optimierung von Online-Texten nach Keyword Density wurde vor einigen Jahren grundlegend von Karl Kratz hinterfragt. Die Keyword Density Formel sieht dabei wie folgt aus:

KD Formel

Man nimmt die Nennung des Terms innerhalb des Textes, teilt diese durch die Anzahl der anderen Terme/Wörter, multipliziert dies mit 100 und man erhält einen Prozentwert. Diese Formel soll anhand eines kleinen Beispiels näher erläutert werden:

Keyword Density Paid

Bei insgesamt 50 Wörtern (49 mal „Paid“ und 1 mal „SEO“) hätte das Wort SEO in diesem Text eine Keyword-Density von 2 %. Ein weiteres Beispiel:

Keyword Density SEO

In diesem Text hätte das Wort „SEO“ eine Keyword-Density von 98%. Der Text wäre also 49-mal relevanter als der erste Text. Man sieht hier bereits, dass diese Formel irgendwann nicht mehr greift. Bei einer Keyword-Density von 98 % ist der Text natürlich nicht mehr lesbar und voll mit immer gleichen Termen. Diese Formel ist viel zu einfach um die Berechnung von Relevanz innerhalb von Suchmaschinenalgorithmen abzubilden. Die Keyword Density ist also kein geeignetes Maß für die Bestimmung der Relevanz eines Dokuments zu einer bestimmten Suchanfrage.

Die Keyword Density visualisiert an einem 500 Wörter Dokument:

KD Diagramm

Auf der x-Achse befindet sich die Termfrequenz (wie oft wird ein Term genannt), auf der y-Achse die Keyword Density. Je häufiger ich den Wert benutze, desto höher steigt meine Keyword Density. Bei dieser Berechnung fehlt es also vollkommen an Schutz gegen Spam, da der Verlauf nach oben offen ist. Wenn die Keyword Density wirklich ein geeignetes Maß zur Berechnung der Relevanz eines Dokumentes wäre, könnte man einfach den zu optimierenden Term so häufig wie möglich in einem Dokument nennen und würde ganz oben ranken. Das kann natürlich nicht im Sinne der Suchmaschinen sein.

Von der Keyword Density zur Within Document Frequency (WDF)

Man hat sich anschließend Gedanken gemacht, wie man die Relevanz besser berechnen kann, so dass Keyword Spam nicht honoriert wird. Dabei ist man auf die Within-document-Frequency gestoßen, die bereits in den 1990er Jahren im Bereich der Informationswissenschaft von Donna Harman entwickelt wurde. Sie beschreibt wie häufig ein Term in einem Dokument im Vergleich zu allen anderen Termen auftritt.

Die WDF Formel sieht wie folgt aus:

WDF Formel

Die Formel benutzt dabei einen Logarithmus, der den Kurvenverlauf der Keyword Density abstumpft, damit eine möglichst häufige Nutzung eines Begriffs diesen Wert nicht positiv beeinflusst. Die Formel ist ebenfalls relativ simpel: Man berechnet den Logarithmus der Termfrequenz (wie oft wird ein Begriff genutzt (a)) plus 1 im Zähler und teilt diesen Wert durch den Logarithmus der Gesamtwortanzahl (b). Im Prinzip sehr ähnlich zur Keyword-Density – nur dass Zähler und Nenner logarithmiert sind.

Angewandt auf die vorherigen Beispiele hätte der Text mit den vielen „Paid“ für den Termin „SEO“ einen WDF-Wert von 0,18.

Keyword Density Paid
SEO hat einen WDF-Wert von log_2(1+1)/log_2(50) = 0,18

Im Gegensatz dazu würde man in dem „spammigen“ Text mit den sehr vielen „SEO“ einen Wert von 1 für den Term „SEO“ ermitteln.

Keyword Density SEO
SEO hat einen WDF-Wert von log_2(49+1)/log_2(50) = 1

Der Text wäre damit also 5,5-mal relevanter als der erste Text. Beim Vergleich der Keyword-Density hatte man noch eine 49-mal höhere Relevanz ermittelt. Wenn man dies jetzt anhand der vorherigen Skizze mit der Keyword-Density vergleicht, ergibt dies bereits einen deutlich anderen Verlauf der Kurve.

WDF Diagramm

Auf der y-Achse befindet sich der WDF-Wert (rot), auf der x-Achse weiterhin die Termfrequenz. Man sieht hier jetzt keine lineare Entwicklung wie bei der Keyword Density, sondern einen wesentlich flacheren Verlauf, der gegen 1 konvergiert. Ein höherer Wert als 1 kann also nicht angenommen werden. Damit hat man also die Möglichkeit des Keyword-Spaming zumindest zum Teil abgefangen bzw. reduziert.

Der IDF-Wert – die inverse Dokumentenhäufigkeit (Inverse-Document-Frequency)

Der zweite Teil der WDF*IDF Formel beinhaltet mit dem IDF-Wert die inverse Dokumentenhäufigkeit oder in Englisch „Inverse-Document-Frequency“. Die entsprechende Formel sieht wie folgt aus:

IDF Formel

Es wird die Gesamtzahl der Dokumente in einem Korpus durch die Anzahl der Dokumente, die einen gewissen Term beinhalten, geteilt. Der IDF-Wert ermittelt also, wie oft ein Term in einem Korpus genannt wird. Ist es ein Thema über das fast jede bzw. jede Website schreibt oder ein sehr spezielles Thema. Der Term Impressum hätte im deutschsprachigen Raum zum Beispiel einen sehr geringen IDF-Wert, da dieser Begriff von fast allen Seiten aufgegriffen wird. Wenn ich diesen Begriff in meinem Inhalt ebenfalls nenne, hätte dies also fast keinen Effekt, da ich mich von anderen Websites nicht besonders abheben kann und der Term eben auf jeder Seite genannt wird.

Visualisiert würde der Verlauf des IDF-Wertes wie folgt aussehen:

IDF Diagramm

Auf der x-Achse wird die Anzahl der Dokumente abgetragen, die einen gewissen Term beinhalten (ft). Auf der y-Achse wird der IDF-Wert festgehalten (IDF). Wenn wenige Dokumente diesen Term beinhalten startet man mit einem hohen IDF-Wert, der aber mit der Zeit bzw. mit der Anzahl der Dokumente, die den Term beinhalten, abfällt.

In dieser Kurve sieht man quasi ebenfalls den Logarithmus: Wenn viele Dokumente einen Term benutzen, tendiert dessen IDF-Wert gegen 1, so dass er letztlich immer weniger Relevanz und Einfluss auf den WDF*IDF Wert besitzt.

Zur WDF*IDF Formel: Nutzen für die Suchmaschinenoptimierung

Multipliziert man den WDF- und den IDF-Wert ergibt sich dann letztlich die relative Termgewichtung eines Dokuments im Verhältnis zu allen möglichen Dokumenten, die das gleiche Keyword enthalten (WDF*IDF-Wert). Die Ergebnisse werden präziser, je größer die Datenbasis ist, die zur Berechnung von WDF*IDF heran gezogen wurde.

WDF-IDF Formel

Die WDF*IDF-Formel wird in der Suchmaschinenoptimierung vor allem bei der Optimierung der Inhalte verwendet. Der SEO versucht die Texte seiner Website möglichst einzigartig zu gestalten, so dass die Suchmaschine die jeweilige Seite aufgrund der Einzigartigkeit und Relevanz der Inhalte möglichst weit vorn in der Ergebnisliste platziert.

Nachdem früher vor allem die Keyworddichte zur Bewertung herangezogen wurde, wird bereits seit einigen Jahren (unter anderem nach den Ausführungen von Karl Kratz zum Thema WDF*IDF) von vielen SEOs WDF*IDF zur Content Optimierung genutzt. Hier dienen WDF*IDF Tools zur Bestimmung weiterer relevanter Terme, die neben der reinen Keywordoptimierung genutzt werden sollten, damit der Seiteninhalt möglichst einzigartig ist.

WDF*IDF in der Praxis – für wen sind WDF*IDF Analysen interessant?

WDF*IDF wird in der Praxis zur Optimierung von Textinhalten auf Webauftritten verwendet, die ein möglichst hohes Suchmaschinenranking erzielen sollen. Diverse Tool-Anbieter haben Möglichkeiten zur WDF*IDF Analyse in Ihre Software integriert. Nach Eingabe eines Suchbegriffs (mit dem man gerne ranken möchte) spucken einem die Tools dann die Terme aus, die einen hohen WDF*IDF Wert besitzen und vermeintlich relevant für die Suchmaschine sind.

Diese Analysemethode richtet sich vor allem an Texter und Webmaster, die suchmaschinenoptimierte Texte schreiben wollen. Aber auch als Auftraggeber ist die WDF*IDF Analyse relevant, da beispielsweise bei einer Auslagerung der Texte an Freelancer oder Textagenturen bereits sehr spezifische Vorgaben gemacht werden können. An diesen Vorgaben können sich die Texter oder Redakteure dann orientieren und seinen Textinhalt danach ausrichten.

Adressaten der WDF*IDF Analyse:

  • Webmaster
  • Redakteure
  • Texter
  • Freelancer
  • Auftraggeber (SEOs & Marketing-Verantwortliche)

Trotzdem sollte man bei aller Optimierung natürlich immer berücksichtigen, dass die Inhalte nach wie vor für den User geschrieben werden und nicht für die Suchmaschine. Die Leserlichkeit und Qualität des Textes selbst sollte also immer der Keywordoptimierung vorgezogen werden.

Was sind Nachteile der Textoptimierung mit WDF*IDF?

Neben den Vorteilen die die WDF*IDF Analyse für die Texterstellung mit sich bringt, besitzt sie aber auch einige Limitierungen:

  • Der Dokumentenkorpus bzw. die Anzahl der Dokumente, die einen bestimmten Begriff beinhalten, muss bekannt sein oder sehr genau geschätzt werden.
  • In der redaktionellen Arbeit, beispielsweise in der Online Redaktion eines Verlages, ist die WDF*IDF Analyse nur schwer systematisierbar, da gerade im Bereich von Newsinhalten schnelle Reaktionszeiten und eine hohe Aktualität extrem wichtig sind. Die spätere Optimierung eines Artikels nach erfolgter Veröffentlichung mit WDF*IDF kann aber dennoch sinnvoll sein.
  • WDF*IDF wird erst bei viel Textinhalt wirklich interessant. Shopbetreiber brauchen für eine 50 – 100 Wörter lange Produktbeschreibung keine WDF*IDF Analyse durchführen. Gleichzeitig heißt das natürlich auch nicht, dass viel Text auch immer gut für SEO ist. Die Content Menge muss je nach Suchanfrage und Themenkomplex individuell entschieden werden.
  • Die Relevanz, welche mit der WDF*IDF Methodik erhöht werden soll, ist nur einer von sehr vielen Rankingfaktoren. Das bedeutet, dass die Textoptimierung für ein gutes Ranking bei weitem nicht ausreichend ist, sondern auch verschiedenste weitere Faktoren optimiert werden müssen.

Tools zur WDF*IDF Optimierung

Wie bereits angedeutet existieren diverse Tools am Markt, die die WDF*IDF Analyse anbieten. Als kostenloses Tool bietet sich OnPage.org an, die seit einiger Zeit für kleinere Websites (bis zu 100 Unterseiten) kostenlose Accounts bereitstellen. Neben der WDF*IDF Analyse findet man hier auch diverse weitere Analyse Möglichkeiten der Onpage-Optimierung, die definitiv einen Blick wert sind.

Toolanbieter mit WDF*IDF Analysemöglichkeiten:

Comments
  • OnpageDoc

    Hallo Michael, sehr guter Beitrag und danke für die Erwähnung auch unseres Tools. Übrigens haben wir unter http://www.wdfidf-tool.com auch ein kostenloses Tool für jeden, der ohne Anmeldung oder Registrierung direkt WDF*IDF Abfragen starten möchte. Just for info :)