Beim Information Retrieval handelt es sich um eine Fachdisziplin, die sich mit Problemen der Extraktion relevanter Information aus einem Informationskomplex befasst. Dies kann jegliche Art von Information sein. In der für die Allgemeinheit sichtbaren Praxis handelt es sich aber für gewöhnlich um sprachliche Daten wie etwa Suchanfragen bei einer Suchmaschine.
Geschichte des Information Retrievals
Der Begriff „Information Retrieval“ wurde erstmals 1945 von dem amerikanischen Wissenschaftler Vannevar Bush in seinem Aufsatz „As We May Think“ verwendet. Bush und andere Forscher befassten sich während des Zweiten Weltkriegs und zur Zeit des Kalten Kriegs mit der Extraktion von Information. Das Problem einer Überladung mit oft irrelevanten Informationen über den Gegner erschwerte die Identifikation tatsächlich relevanter Kenntnisse. Dies führte darüber hinausgehend zu Suchsystemen, die sich etwa mit wissenschaftlichen Publikationen oder medizinischen Daten auseinandersetzten. Heute ist Information Retrieval ein wichtiges Thema für nach Relevanz ordnende Suchmaschinen wie Google.
Prinzipien des Information Retrievals
Während Methoden wie das Data- und Text-Mining latente Strukturen in unstrukturierten Daten herausstellen wollen, geht es beim Information Retrieval (nachfolgend auch IR) um das Auffinden bereits bestehender Daten. Das zentrale Problem ist dabei das der Relevanz. Ein Suchterm wird von einem IR-Algorithmus evaluiert, und diverse Objekte aus einem Text, einer Datenbank oder anderen Quelle können basierend auf Ähnlichkeitsmaßen oder perfekten Matches zu diesem Suchterm passen. Der Algorithmus hat nun die Aufgabe, diese Objekte nach Relevanz zu ordnen. Dabei werden bestimmte Ranking-Kriterien zur Relevanzordnung eingesetzt.
Während der Endnutzer von diesem Prozess nur die Eingabe eines Suchterms in die Suchmaske, etwa einer SQL-Datenbank, mitbekommt, müssen die anspruchsvollen IR-Algorithmen vor ihrem Einsatz rigoros evaluiert werden. Zwei zentrale Metriken aus diesem Bereich sind Precision und Recall. Precision bezeichnet das Verhältnis von relevanter gefundener Information zur gesamten gefundenen Information. Recall dagegen bezeichnet das Verhältnis von den gefundenen relevanten Informationen zu allen relevanten Informationen in den Daten. Recall ist damit nur in Testsituationen überhaupt erhebbar. Die Optimierung von Suchmaschinen im Hinblick auf Metriken wie Precision und Recall ist keine triviale Aufgabe. Oft werden dabei letztendlich doch Methoden aus dem Data- und Text-Mining eingesetzt, um die komplexen latenten Assoziationen widerspiegeln zu können, die Suchterme miteinander verbinden.
Weitere Informationen und Links
Die Natural-Language-Processing-Gruppe der Universität Stanford hat unter http://nlp.stanford.edu/IR-book/information-retrieval.html eine nützliche Aufsatz- und Informationssammlung zum Thema Information Retrieval zusammengestellt.