Suchmaschinen - Lotsen im Internet-Dschungel (LABO 11/1997)
Dr. Torsten Beyer, Saarbrücken
Das Internet hat sich in nur wenigen Jahren von einem überwiegend an Universitäten genutzten Kommunikations- und Informationsmedium zur größten Bibliothek der Welt gewandelt. Diese Entwicklung steht aber noch immer am Anfang und wird weitreichende Auswirkungen auf alle Bereiche unserer Gesellschaft haben. Die Welt wird zur Zeit vernetzt, über alle Grenzen, Ozeane und Kulturen hinweg. Wir stehen an der Schwelle eines neuen Zeitalters, der Informationsgesellschaft.
Momentan sind im Internet schätzungsweise 200 Millionen Textdokumente (in zunehmendem Maße auch Bilder, Videofilme und Tondokumente) verfügbar, mit weiterhin explosionsartigen Zuwachsraten. Diese ungeheuren Datenmengen bringen aber auch einige Probleme mit sich. Da sich das Internet so sprunghaft entwickelt hat und seine Struktur sehr dynamisch ist, fehlen grundlegende Richtlinien zur Gestaltung von Dokumenten im HTML-Format, der Sprache des Internets, bzw. sie werden unbewusst oder bewußt missachtet. Dadurch ist die systematische Erfassung vieler Dokumente erschwert bzw. nicht möglich, da sie nicht oder nur unzureichend von einer Suchmaschine indexiert werden können. Ein weiteres Problem ist die fast unüberschaubar große Anzahl von Suchmaschinen im Internet, die zu allem Überfluss teilweise sehr unterschiedliche Suchmöglichkeiten bieten, d.h. ihre Bedienung muss erst erlernt werden.
Dieser Artikel beschäftigt sich ausschließlich mit den universellen Suchmaschinen, d.h. solchen, mit denen das gesamte Internet nach beliebigen Inhalten durchsucht werden kann. Der große Bereich der Spezialsuchmaschinen für alle möglichen Bereiche (z.B. Branchenführer, Hotelreservierungen, Bahnverbindungen, E-Mail-Adressen usw.) bleibt hier unberücksichtigt.
Dem Informationssuchenden sollen Hilfestellungen für das Auffinden von naturwissenschaftlich relevanten Seiten im Internet gegeben werden. Dazu erfolgt zunächst eine Einführung in die unterschiedlichen Arten von Suchmaschinen. Danach werden diejenigen 10 Suchmaschinen (von über 40 untersuchten) mit den meisten Treffern bei den Suchtermen "Chemie", "Umwelt" und "Analytik" (Tab. 1) anhand verschiedener Kriterien (Zahl der gefundenen Dokumente, Suchmöglichkeiten, Online-Hilfe, Aktualität und Relevanz der Treffer) bewertet. Erfreulicherweise besitzen bis auf HotBot alle getesteten internationalen Suchmaschinen auch eine deutsche Oberfläche, die jedoch leider teilweise eine eingeschränkte Funktionalität (Excite) oder eine geringere Indexgröße (AltaVista) besitzen. Alle deutschen Suchmaschinen findet man unter http://www.klug-suchen.de, eine große Zahl internationaler Engines unter http://www.albany.net/allinone.
Arten von Suchmaschinen
- Roboter
Roboter sind Programme, die das Internet selbständig nach Dokumenten durchsuchen. Sie gehen von bestimmten Startseiten mit einer sehr großen Zahl von Verweisen aus und durchforsten dann alle Verweise (Hyperlinks) in diesen Dokumenten. Danach suchen sie in diesen Verweisen nach neuen Links usw. Dadurch können sie weite Bereiche des Internet selbständig durchforsten und indexieren, d.h. in einer Suchmaschine suchbar machen. Roboter können allerdings nur solche Dokumente finden, auf die in irgendeinem der bereits erfaßten Dokumente ein Verweis (Link) besteht. Es besteht aber auch für jeden, der seine Seiten im Internet veröffentlichen will, die Möglichkeit, diese per E-Mail direkt bei der Suchmaschine anzumelden. Nachteilig wirkt sich bei Robotern die fehlende redaktionelle Bearbeitung der Indizes auf die Qualität der gefundenen Daten aus. Man sollte daher die Datenquelle stets kritisch bewerten. Veröffentlichungen von Institutionen, Universitäten und bekannten Firmen sind oft qualitativ wertvoller als solche von unbekannten Privatpersonen, eine Bewertung muß der Informationssuchende aber immer selbst vornehmen. Dies ist das grundlegende Problem, aber auch die Stärke des Internet, daß jeder Zugang hat und auch jeder (fast) alles veröffentlichen kann, was er will.
- Indizes
Indizes sind redaktionell bearbeitete Internet-Kataloge, in denen Web-Adressen nach einzelnen Themengebieten geordnet werden wie etwa "Nachrichten", "Wissenschaft" oder "Kultur". Da hier eine redaktionelle Selektion des vorhandenen Materials erfolgt, ist die Qualität der hier gefundenen Informationen in der Regel höher als im Falle von Robotern, die Zahl der insgesamt berücksichtigten Seiten ist aber relativ gering, wodurch solche Systeme für spezielle naturwissenschaftliche Fragestellungen wenig geeignet sind. In anderen allgemeinen Bereichen des täglichen Lebens sind Indizes jedoch sehr wertvoll. Der bekannteste und größte Index ist Yahoo (https://yahoo.de). Viele der großen Suchmaschinen bieten neben einem Suchroboter auch redaktionell bearbeitete Indizes an.
Es ist zu erwarten, daß in Zukunft auf bestimmte Zielgruppen ausgerichtete Spezialindizes immer größere Bedeutung erlangen werden, da die ungeheuren Datenmengen, die das Internet bietet, und in Zukunft noch vielmehr bieten wird, anders überhaupt nicht mehr überblickt werden können.
- Metasuchsysteme
Metasuchsysteme sind keine Suchmaschinen im eigentlichen Sinn, sie ermöglichen nur die Suche in mehreren Datenbanken gleichzeitig mit einer Suchanfrage. Welche das sind, kann normalerweise durch Mausklick bestimmt werden. Dubletten werden in der Regel erkannt, so daß man auf einen Schlag alle verschiedenen Treffer zu einer Suchanfrage erhält. Solche Metasuchsysteme eignen sich für sehr spezielle Suchanfragen, wo nur relativ wenig Treffer zu erwarten sind, da zum einen die angezeigte Trefferzahl in den einzelnen Suchmaschinen relativ klein ist, zum anderen resultieren durch den Aufruf mehrerer Systeme gleichzeitig relativ lange Suchzeiten. Eine Zusammenstellung verschiedener Metasuchsysteme findet sich z.B. unter https://www.unix-ag.uni-siegen.de/search.
- Agenten
Agenten (Bots, Spider) sind autonom arbeitende, intelligente Suchprogramme, die das Netz selbständig nach vorgegebenen Fragestellungen durchsuchen und die Trefferlisten an den Benutzer übermitteln. Im Moment können aber nur eingeschränkte Bereiche des Internet mithilfe von Bots durchsucht werden, sie können sich aber in Zukunft zu einem interessanten Tool entwickeln. Die großen Suchmaschinen nutzen solche Helfer seit jeher zur Erhöhung der Zahl ihrer indexierten Web-Seiten.
Neben den hier beschriebenen kostenlosen Suchmaschinen (ihre Finanzierung erfolgt fast durchweg durch Werbeeinblendungen) gibt es inzwischen auch einige kommerzielle Produkte unter Windows95 (siehe CHIP 7/97, Seite 168-172), die hier nicht weiter betrachtet werden.
Bewertung der getesteten Suchmaschinen:
Für die Bewertung der Leistungsfähigkeit einer Suchmaschine spielen verschiedene Kriterien ein Rolle. Neben der Zahl Treffer auf eine Suchanfrage sind dies vor allem die möglichen Suchoptionen, die Relevanz der Treffer und die Frage der Aktualisierung des Index. Bewertet wurde außerdem die Online-Hilfe und die Bedienung. Alle drei Kriterien (1. Trefferzahl, Relevanz, Aktualität, 2. Online-Hilfe und Bedienung und 3. Suchoptionen) wurden bei der Beurteilung gleich gewichtet.
Die Zahl der Internet-Seiten, die eine Suchmaschine indexiert hat, ist als Bewertungskriterium ungeeignet, da es hier verschiedene Zählarten gibt:
- Man zählt nur die Seiten, deren Inhalt wirklich indiziert wurde.
- Es werden auch alle Links auf andere Seiten gezählt, selbst wenn diese Seiten vom Roboter der Suchmaschine nie besucht wurden.
- Es wird jeder Link gezählt, auch wenn er mehr als einmal vorkommt.
Da die Art der Zählung in der Regel ein Geheimnis der Betreiber der Suchmaschine ist, und jeder mit möglichst vielen Adressen werben will, sind Angaben wie "Hier finden sie über 50 Millionen Seiten im Netz" mit Vorsicht zu genießen. Darüber hinaus sind die benutzten Indexierungsmechanismen für Dokumente ein gut gehütetes Geheimnis (in der Regel wird eine bestimmte Anzahl von Zeichen zu Beginn einer HTML-Seite gelesen und indexiert, manchmal sogar der komplette Text).
Das wichtigste Beurteilungskriterium für die Leistungsfähigkeit einer Suchmaschine ist also die Zahl der Treffer auf einer Suchanfrage und deren Qualität. Haben die Treffer wirklich etwas mit der eingegebenen Anfrage zu tun (Relevanz)? Sind die Links überhaupt noch gültig und wie ändert sich die Trefferzahl im Laufe der Zeit (Aktualität)? Zur Bewertung der Qualität der Treffer wurde eine Suche nach "Chromatographie" und "Pestizide" durchgeführt und die Relevanz sowie die Gültigkeit der einzelnen Links überprüft. Nicht mehr gültige Links wirkten sich dabei negativ auf die Bewertung aus. Überraschenderweise lieferte hier die deutsche Suchmaschine Fireball die meisten Treffer (Tab. 2), bei HotBot waren 40% der Links nicht mehr gültig. Die Aktualität wurde überprüft, indem die gleiche Suchanfrage im Abstand von drei Wochen durchgeführt wurde. Dabei erhöhte sich die Trefferzahl bei fünf Suchmaschinen teilweise sehr stark (AltaVista, Fireball, HotBot, Excite, Euroseek), bei den anderen änderte sich wenig bis nichts, was auf eine schlechte Pflege dieser Maschinen schließen lässt.
Die größten Unterschiede zwischen den Testkandidaten ergeben sich bei den zur Verfügung stehenden Suchoptionen (logische Ausdrücke und deren Verknüpfungen, Trunkierung usw.). Hier ist AltaVista nach wie vor das Maß der Dinge (Tab. 3). Diese Suchmaschine kommt fast an die Funktionalität der von den kommerziellen Datenbankanbietern (Hosts) bekannten Retrievalsprachen heran. Danach folgen Excite, HotBot und die deutsche Suchengine Fireball, die bei Suchen im deutschsprachigen Raum fast mit AltaVista konkurrieren kann. Die restlichen Kandidaten bis auf Infoseek (Suche nach untergeordneten Seiten der Trefferliste möglich) fallen deutlich ab und können nur bedingt für spezielle Aufgaben (Euroseek für Suche in ganz Europa, Nathan für die Suche nach anderen Dateitypen wie z.B. Postscript) oder gar nicht empfohlen werden (Intersearch, Netguide, Crawler). Ein wichtiger Punkt soll hier noch einmal betont werden: Insbesondere bei komplexen Suchanfragen sollte großer Wert auf deren korrekte Formulierung gelegt werden, da dies die Qualität der Ergebnisse stark beeinflussen kann. Oft macht man den Fehler, eine Anfrage zu ungenau bzw. zu allgemein zu formulieren, was in der Regel zu einer großen Zahl von Treffern führt, durch die man sich dann mühsam durchkämpfen muß, um die wirklich relevanten Treffer zu selektieren. Viele Anwender geben an dieser Stelle auch frustriert auf. Man sollte sich stets über die vorhandenen Suchoptionen informieren und diese dann auch benutzen um kleine Trefferlisten mit hoher Relevanz zu bekommen. Hier kann die Übersicht in Tab. 3 ein wichtiges Hilfsmittel sein. Am sichersten fährt man immer noch, wenn man die gleiche Suche in mehreren Maschinen, gegebenenfalls unter Zuhilfenahme einer Meta-Suchmaschine, durchführt.
Bei der Suche nach "Chromatographie" bzw. "Chromatography" (Tab. 4) wird offensichtlich, daß der überwiegende Anteil der Dokumente im Internet in englischer Sprache vorliegt. Man sollte daher immer dann, wenn man nicht nur auf deutschsprachige Inhalte aus ist, auch nach dem englischen Fachbegriff suchen, da dies die Zahl der Treffer in der Regel drastisch erhöht.
Zusammenfassend kann man also sagen, daß AltaVista die beste Suchmaschine für weltweite Suchen ist, gefolgt von Excite und mit einigen Abstrichen von HotBot. Ist die Suche auf den deutschsprachigen Raum beschränkt, sind Fireball und die deutsche Version von AltaVista zu empfehlen, alle anderen deutschen Suchmaschinen weisen deutliche Mängel auf (Tab. 5). Es soll hier aber nicht verschwiegen werden, daß die heute verfügbaren Suchmaschinen mit den kommerziellen Hosts noch nicht konkurrieren können. Das liegt aber nicht nur an den Suchmaschinen selbst, sondern daran, daß immer noch relativ wenig wissenschaftliche Fachinformationen in Deutschland online verfügbar sind, hier sind uns die Amerikaner weit voraus. Außerdem gibt es sehr viele unvollständige und fehlerhafte HTML-Seiten, die eine vernünftige Aufarbeitung der Daten in einer Suchmaschine erschweren.
Suchmaschine | Trefferzahl bei der Suche nach | |||
"Chemie" | "Umwelt" | "Analytik" | Gesamt | |
AltaVista | 210140 | 196610 | 12400 | 419150 |
HotBot | 59226 | 46198 | 4204 | 109628 |
Fireball | 44875 | 55181 | 4115 | 104171 |
Excite | 43230 | 35875 | 2982 | 82087 |
Infoseek | 30443 | 23181 | 2103 | 55727 |
Nathan | 14875 | 20694 | 2040 | 37609 |
Crawler | 15481 | 17315 | 1235 | 34031 |
Euroseek | 17716 | 14584 | 1622 | 33922 |
Intersearch | 15204 | 13274 | 885 | 29363 |
Netguide | 6013 | 6170 | 1972 | 14155 |
Tab. 1: Die 10 Suchmaschinen mit den meisten Dokumenten im Internet
(von über 40 untersuchten), Stand: 01.08.1997
Suchmaschine | Treffer bei der Suche nach "Chromatographie" AND "Pestizide" |
Fireball | 18 |
AltaVista | 131, 62 |
HotBot | 13 |
Excite | 9 |
Nathan | 5 |
Netguide | 4 |
Crawler | 3 |
Intersearch | 3 |
Infoseek | 2 |
Euroseek | 1 |
Tab. 2: Suche nach "Chromatographie" AND "Pestizide"
1deutsche Version von AltaVista
2internationale Version von AltaVista
Suchmaschine | Trefferzahl bei Suchbegriff | |
"Chromatographie" | "Chromatography" | |
AltaVista | 2760 | 90130 |
HotBot | 1466 | 32130 |
Excite | 1053 | 23714 |
Infoseek | 803 | 18673 |
Fireball1 | 674 | 172 |
Netguide | 464 | 6010 |
Euroseek | 376 | 7952 |
Intersearch1 | 277 | 151 |
Nathan1 | 275 | 2073 |
Crawler1 | 166 | 80 |
Tab. 4: Suchbeispiel Chromatographie bzw. Chromatography
1Suchmaschinen mit Dokumenten ausschließlich aus dem deutschsprachigen Raum
Such- maschine | Suchoptionen | |||||||||||
immer | nie | und1 | oder1 | nicht1 | nahe bei1 | Ausdruck | Klam- merung |
Trun- kierung |
USENET | Zeit | Bemerkungen | |
AltaVista | + | - | AND & |
OR | |
NOT ! |
NEAR ~ |
"Wort1 Wort2" |
( ) | * | ja | ja | viele zusätzlichen Optionen |
Crawler | "Wort1 Wort2" |
nein | nein | |||||||||
Euroseek | AND |
OR | "Wort1 Wort2" |
( ) | nein | nein | Suche in ganz Europa möglich | |||||
Excite | + | - | AND | OR | NOT | "Wort1 Wort2" |
( ) | ja | ja | Synonym- vorschläge, zusätzliche Optionen |
||
Fireball | AND & |
OR | |
NOT ! |
NEAR ~ |
"Wort1 Wort2" |
( ) | * | ja | ja | zusätzliche Optionen | ||
HotBot | + | - | AND & |
OR | |
NOT ! |
"Wort1 Wort2" |
( ) | ja | ja | Suche speicherbar, viele weitere Optionen | ||
Infoseek | + | - | AND | [Wort1 Wort2] | "Wort1 Wort2" Wort1-Wort1 |
* | nein | nein | untergeord- nete Seiten der Trefferliste suchbar |
|||
Intersearch | + | , | - | nein | nein | Statistiken zur Häufigkeit aller Suchbegriffe | ||||||
Nathan | - | AND | OR | nein | nein | andere Datentypen suchbar (z.B. Postscript) | ||||||
Netguide | AND | OR | nein | nein | basiert auf Lycos |
Tab.3: 1Falls eine Kurzschreibweise möglich ist, steht diese in der 2. Zeile
Erklärung der Suchoptionen:
immer: Der Suchbegriff muß auf der Seite vorkommen.
nie: Der Suchbegriff darf nicht auf der Seite auftreten.
und: Die verknüpften Ausdrücke müssen beide auftreten, z.B. "GC" AND "MS" liefert alle Seiten, auf denen sowohl "GC" als auch "MS" erwähnt wird.
oder: Mindestens einer der verknüpften Ausdrücke muß auftreten, z.B. "Herbizide" OR "Pestizide" liefert alle Seiten, auf denen beide Wörter vorkommen.
nicht: Der 1. Ausdruck muß, der 2. darf nicht auftreten, z.B. "Chromatographie" NOT "HPLC" liefert alle Seiten über "Chromatographie", auf denen "HPLC" nicht erwähnt wird.
nahe bei: Die verknüpften Begriffe dürfen nicht weiter als 10 Wörter auseinander stehen.
Ausdruck: Es kann ein zusammenhängender Ausdruck gesucht werden, z.B. "elektrolytische Abscheidung"
Klammerung: Ermöglicht die Verknüpfung logischer Ausdrücke, z.B. ("Chromatographie" OR "Spektroskopie") AND "Pestizide"
Trunkierung: Die Maskierung des Wortendes ist möglich, z.B. "Chromatograph*" findet sowohl "Chromatographie" als auch "Chromatography"
USENET: Die Suche kann auch in Newsgruppen durchgeführt werden.
Zeit: Hier kann der Erfassungszeitraum festgelegt werden, in dem Dokumente gesucht werden.
Suchmaschine | Trefferzahl, Relevanz und Aktualität |
Online-Hilfe und Bedienung | Suchoptionen | Gesamtbewertung1 |
AltaVista2 | 1 | 1 | 1 | 1,0 |
Fireball | 2 | 1 | 1 | 1,3 |
Excite | 2 | 1 | 2 | 1,7 |
HotBot | 3 | 2 | 2 | 2,3 |
Infoseek | 4 | 2 | 3 | 3,0 |
Euroseek | 4 | 3 | 3 | 3,3 |
Nathan | 4 | 3 | 4 | 3,7 |
Intersearch | 5 | 3 | 4 | 4,0 |
Netguide | 5 | 4 | 5 | 4,7 |
Crawler | 6 | 4 | 5 | 5,0 |
Tab. 5: 1bewertet wurde von sehr gut(1) bis ungenügend(6)
2deutsche Version mit insgesamt geringerer Indexgröße aber mehr deutschen Adressen