|
Websuchmaschinen indexieren zwar z.T. viele Milliarden
Dokumente, erfassen damit aber derzeit nur einen Teil des Internet. Dabei sind
die erfassten Ressourcen inhaltlich, strukturell und qualitativ sehr heterogen,
so dass trotz der hohen Abdeckung und der oben dargestellten aufwändigen
Sortiermechanismen eine hohe Unsicherheit bezüglich der Vollständigkeit und
Qualität der Ergebnisse besteht.
Hinsichtlich der Repräsentation der indexierten
Objekte ist festzuhalten, dass diese meist nur einen geringen, je nach
Dokumenttyp auch unterschiedlichen Strukturierungsgrad aufweisen und dass, sofern
vorhanden, Metadaten nicht a priori als verlässlich einzustufen sind. Nicht zuletzt
aus diesem Grund weisen Suchmaschinen nur rudimentäre Optionen zur
Suchraumbegrenzung auf: meist Dateiformat, Domain, Datum[1], Sprachraum, Region.
D.h. es bestehen erhebliche Defizite bzw. nur geringe Möglichkeiten zur
Durchführung strukturierter Anfrageformulierungen.
Speziell auf einen bestimmten Gegenstandsbereich fokussierte
oder dokumenttypbezogene Spezialsuchdienste sind in ihrer Domäne wesentlich
mächtiger, da sie in der Lage sind, spezifische, auf ihren jeweiligen Kontext
bezogene Funktionalitäten bereitzustellen. Diese eröffnen zusätzliche Suchoptionen.
Im Folgenden wird ein Überblick über wichtige Spezialsuchdienstetypen gegeben.
Es handelt sich um:
- News & Blogsuchmaschinen
- Wissenschaftssuchmaschinen
- Online-Datenbanken
- (Multi)Mediasuchdienste
- Einsatz von Visualisierungskonzepten
1 News & Blogsuchmaschinen
News und Blogsuchmaschinen zielen darauf, aktuelle
Inhalte verfügbar zu machen. Während Newssuchmaschinen klassische
journalistische Nachrichten, i.d.R. erstellt von professionellen Fachleuten
bzw. Agenturen, fokussieren, versuchen Blogsuchdienste die Inhalte der
Blogosphäre, d.h. der Community aller Blogs zu erschließen, welche oftmals oder
überwiegend von Privatpersonen, Firmen oder Organisationen verfasst werden.
Kern der News- oder Nachrichtensuchmaschine stellt ein
gesonderter Index dar. Dieser kann zum einen aus einem Teilbestand des Webindex
aufgebaut werden, indem spezielle Nachrichtenwebseiten, z.B. Tageszeitungen, hochfrequent,
etwa im Minutentakt, „gecrawlt“ werden[2]. Ergänzend oder alternativ ist es
möglich, Nachrichtenbestände zu kaufen, d.h. z.B. bei Nachrichtenagenturen (Feeds)
zu erwerben und zu indexieren. Insbesondere im letzten Fall ist es für die
Suchmaschine besonders einfach, aus den bereits vorstrukturierten Feeds den
Zeitpunkt der jeweiligen Nachricht zu extrahieren, während dies bei selbstständig
indexierten Webseiten aufwändiger ist und bspw. durch speziell angepasste
(halb)automatische Extraktionsheuristiken vorgenommen werden kann. Auf dieser
Grundlage ist es für Newssuchmaschinen möglich, zeitbasierte Sortier- und
Anfragekriterien bereitzustellen.
Im Unterschied zu den bei Newssuchdiensten speziell
ausgewählten Nachrichtendiensten fokussieren Blogsuchdienste die Inhalte der
Blogosphäre[3]. D.h. sie zielen auf den Teil des Web, dem eine besonders hohe
Aktualität zugeschrieben wird und dessen Inhalte quasi von jedermann generiert
werden können. Aus der Perspektive einer Suchmaschine weisen Blogs im Vergleich
zu Standard-HTML-Seiten meist die Besonderheit auf, dass die Inhalte auch in
Form strukturierter XML-Formate (RSS-Feeds) bereitgestellt werden. RSS-Formate
sind strukturell ähnlich oder gleich den Feeds, die von Suchmaschinen bei
Nachrichtenanbietern erworben werden können. D.h. sie sind wesentlich einfacher
und einheitlicher aufgebaut als HTML-Seiten mit ihrer Vielzahl
unterschiedlicher, oft komplex ineinander geschachtelter Tags. Deshalb kann auch
hier u.a. das Erstellungsdatum einzelner Blogbeiträge relativ einfach extrahiert
werden. Aus diesem Grund ist es Blogsuchmaschinen wie z.B: „Google Blog Search“
oder „Ask.com Blog Search“
möglich, zusätzlich eine Sortierung nach Datum vorzunehmen bzw. es dem Nutzer zu
gestatten, Datumsbereiche mit einer hohen Genauigkeit zu durchsuchen. Die folgende
Abbildung zeigt diese Optionen auf der Trefferseite von „Google Blog Search“.  Google Blog Search
Festzuhalten bleibt: News- und Blogsuchmaschinen bieten
also nicht nur den Zugriff auf einen Teilbestand des Web, dem eine besonders
hohe Aktualität zugeschrieben wird, sondern erlauben zugleich strukturiertere
Anfragen als universell ausgerichtete Websuchmaschinen.
2 Wissenschaftssuchmaschinen
Wissenschaftssuchmaschinen zielen darauf, wissenschaftliche
Texte systematisch zu erschließen. Ähnlich Nachrichtensuchdiensten weisen
Wissenschaftssuchmaschinen oftmals einen hybriden Index auf. D.h. der
Datenbestand dieser Dienste besteht zum einen aus einem Subset des Webindex, der
z.B. aufgrund von Dokument- und/oder Domaintyp sowie anderen Kriterien als
wissenschaftlich eingestuft wird, zum anderen werden z.T. auch Inhalte von
Verlagspartnern in den Index eingespeist. Wissenschaftssuchmaschinen können als
Mischform einer Volltextsuchmaschine (Webdokumente) und Referenzdatenbank
betrachtet werden, die Sekundärinformationen zu Veröffentlichungen, teilweise
auch die korrespondierende Volltexte, verfügbar macht.
Damit ermöglichen Wissenschaftssuchmaschinen zumindest teilweise auch den Zugriff
auf nicht-indexierbare Wissensbestände des Deep Web. Der Volltextzugriff ist je
nach erfasster Quelle z.T. kostenpflichtig bzw. nur nach einem Login möglich. Auch
wenn die jeweiligen Standardsuchmasken von Wissenschaftssuchmaschinen zunächst häufig
wenig Unterschiede zu denen von Universalsuchmaschinen zeigen, versuchen
wissenschaftliche Suchmaschinen strukturierte Anfrageoptionen bereitzustellen.
Neben den angesprochenen zeitbasierten Kriterien ist hier vor allem die Suche
nach Autoren relevant. Des Weiteren werden z.B. in Google Scholar auch teilweise
Textzitate analysiert und ähnlich der Websuche eine Möglichkeit zur
Zitationssuche angeboten. Folgende Abbildung der „Advanced Search“ der Wissenschaftssuchmaschine
Scirus.com zeigt das Bemühen, ähnlich Fachdatenbanken über vielfältige Optionen
zur Suchraumeingrenzung präzise Suchanfragen zu ermöglichen.
Wissenschaftsuchmaschinen stellen einen interessanten
Ansatz dar, die Suche nach wissenschaftlichen Dokumenten in Form von
Websuchmaschinen umzusetzen. Die Tauglichkeit für die Zielgruppe ist derzeit
aber deutlich eingeschränkt. Die Suchoptionen sind gerade im Vergleich zu
Fachdatenbanken bzw. den Rechercheoptionen bei Online-Hosts eher marginal. Insbesondere
ist es nur begrenzt möglich, Suchanfragen weiter zu verarbeiten bzw. mit Hilfe
einer Suchhistorie unterschiedliche Anfragen komplex miteinander zu verknüpfen.
Auch hinsichtlich der Abdeckung stellen Wissenschaftssuchmaschinen derzeit
keine Alternative zu bibliografischen Datenbanken dar[4]. Wissenschaftssuchmaschinen
eignen sich deshalb für eher explorative Kontexte, bei denen die
Vollständigkeit und Genauigkeit der Suche von untergeordneter Bedeutung ist – beides ist typischerweise bei
der Suche nach wissenschaftlicher Literatur nicht der Fall. Ebenso wie
Websuchmaschinen stellen sie auch eine Möglichkeit dar, um schnell und
kostengünstig an die Volltexte wissenschaftlicher Artikel zu gelangen.
Als Alternative zu den thematisch unspezifischen
Wissenschaftssuchmaschinen wie Google Scholar bietet sich im deutschsprachigen
Raum das von den überregionalen Fachinformationseinrichtungen und
wissenschaftlichen Bibliotheken getragene Wissenschaftsportal vascoda
an. Dort können unter einer einheitlichen Oberfläche wahlweise fachspezifisch
oder interdisziplinär Inhalte gesucht werden. Der Einsatz moderner
Suchmaschinentechnologie sowohl bei vascoda selbst als auch bei den Partnern
erlaubt eine strukturierte Suche über eine Vielzahl verschiedenster
Datenbestände, wie Fachdatenbanken, Bibliothekskataloge und Internetquellen.
Kennt ein informationssuchender Wissenschaftler das disziplinäre Ziel, so kann
er aber auch direkt zu einem der in den letzten Jahren entstandenen Fachportale
oder zu einer der virtuellen Fachbibliotheken
in Deutschland verzweigen. Als meistgenutzte Portale gelten die virtuelle
Fachbibliothek Medpilot6 zum
Themengebiet Medizin und das Fachportal Pädagogik7, welches das
fachwissenschaftliche Pendant zu dem weiter oben genannten Deutschen
Bildungsserver ist.
3 Online Datenbanken
Die Überschrift Online-Datenbanken steht für eine
Vielzahl von Suchdiensten, die thematisch oder dokumenttypbezogen abgegrenzte
Wissensobjekte erschließen. Beispiele solcher Datenbanken stellen etwa Literatur-,
Fachinformations-, Reise-, Job-, Event-, Film- und Produktsuchdienste dar. Innerhalb
der jeweiligen Datenbank werden die einzelnen Objekte durch eine Vielzahl von
Feldern kategorisiert. Dabei werden z.T. semantisch eindeutige Kriterien
(Postleitzahl, Preis, Gewicht, Größe) mit Feldern kombiniert, in denen eine
textuelle Beschreibung eingegeben werden kann. Folgende Abbildung
veranschaulicht eine solche Struktur anhand der von Google vorgegebenen Kategorien
für die Produktsuche. 
Je nach Struktur können Suchanfragen und -ergebnisse
nach den erfassten Kategorien selektiert werden. Die Ergebnissortierung lässt
sich zum einen über die Einträge und Werte in den formalen Kategorien vornehmen,
zum anderen ist es möglich, in den vorhandenen Textfeldern termbasierte
Abgleichsverfahren zu nutzen. Schließlich können zusätzlich auch dokumentexterne
Informationen (populärste, meistverkaufte, bestbewertete Produkte) für die
Spezifikation der Ergebnisse herangezogen werden. Online-Datenbanken bieten
also für und in den jeweiligen Domänen spezifisch zugeschnittene Suchfunktionen,
die eine präzise Suche gestatten. Die Vollständigkeit des Ergebnisses ist dabei
von der Abdeckung des jeweiligen Anbieters abhängig. Oft erschließen derartige
Datenbanken Wissensbestände des Deep Web, die durch Websuchmaschinen nicht bereitgestellt
werden, da deren Suchroboter i.d.R. keinen Zugriff darauf haben und auch nur
unzureichend in der Lage sind, die jeweilige Objektstruktur zu erfassen und
recherchierbar zu machen. Die Inhalte der jeweiligen Datenbank werden oftmals
von speziellen Anbietern maschinell und manuell zusammengestellt. Häufig ist
ein Eintrag in eine derartige Datenbank auch kostenpflichtig.
Mit Google Base
und Diensten anderer Anbieter, z.B. Freebase.com,
existieren Ansätze, die dahin zielen, eine Vielzahl unterschiedlicher Produkte,
Dienstleistungen, Publikationen usw. hochgradig strukturiert in einem
Websuchsystem zusammenzuführen. Dabei werden die Daten von Nutzern
bereitgestellt bzw. eingetragen. Sofern sich diese Ansätze in den nächsten
Jahren etablieren, ist zu erwarten, dass Websuchdienste deutlich
strukturiertere und damit genauere Anfrageoptionen ermöglichen, als es bislang
der Fall ist.
4 (Multi)Mediasuchdienste
Standen bislang Textobjekte bzw. die textbasierte
Repräsentation von Wissensobjekten im Fokus, so ist festzuhalten, dass sich die
Suche nach (bewegten) Bildern und gesprochenem Text bzw. Musik zwar nach wie
vor zum Großteil auf objektbeschreibende Texte bzw. erfasste Metadaten stützt, zunehmend
mehr aber darauf hinzielt, die Inhalte der Bilder, Filme, Lieder usw. selbst zu
berücksichtigen.
Die simpelste Form eines Multimediasuchdienstes stellen die
in 3. dargestellten Tagging Communities wie z.B. Flickr.com und Youtube.com
dar. In diesen Diensten werden Bilder bzw. Videos primär über die von Nutzern
eingetragenen bzw. erzeugten Schlagwörter und Metadaten erschlossen. Suchmaschinen
sind in der Lage, neben den in Webdokumente eingetragenen Objekttiteln bzw.
alternativen Textbezeichnungen sowie Metainformationen (z.B. Dateityp und
Dateigröße) auch Kontextinformationen in Form von Termen, welche die jeweiligen
Objekte umgeben oder in Form von Links auf diese verweisen, auszuwerten. Darüber
hinaus soll die Google-Bildsuche beispielsweise eine Gesichtserkennungssoftware
nutzen, die es gestattet, die Bildersuche auf Gesichter einzuschränken.
Die Entwicklung derartiger Technologien steht zwar noch am Anfang, schreitet
aber in einem schnellen Tempo voran[5], [6].
5 Einsatz von Visualisierungskonzepten
Aktuell kann auf dem Suchdienstemarkt ein steigendes
Angebot an Systemen beobachtet werden, die mit spezifischen
Visualisierungstechniken experimentieren oder diese schon standardmäßig
einsetzen. Die Idee der Informationsvisualisierung im Internet ist dabei
keineswegs neu. Schon unmittelbar nach dem großen Durchbruch des World Wide Web
Mitte der 1990er Jahre wurden diverse Ansätze erarbeitet, wie man über
spezifische graphische Darstellungen bzw. Visualisierung Informationsräume so
gestalten kann, dass diese vom Benutzer intuitiver und schneller exploriert
werden können[7]. Die zugehörigen Konzepte reichten von einfachen Graphen zur
Darstellung der Verlinkung innerhalb von Webseiten bis hin zu Virtuellen Welten,
bei denen man versucht, Inhalte auf dreidimensionale Räume abzubilden. Der große
Durchbruch blieb jedoch weitgehend aus, die Ideen scheiterten an zu komplexen
Technologien und Darstellungen, die zuerst von Anwendern erlernt werden mussten,
letztendlich aber dennoch die erhofften Mehrwerte vermissen ließen.
Die weiterhin stetig zunehmende Menge an Formen und Inhalten
sowie neue technologische Möglichkeiten ließen die Entwicklungen allerdings
nicht ruhen, so dass mittlerweile sowohl bekannte als auch ganz neue
Visualisierungskonzepte angeboten werden, die im Gegensatz zu vielen früheren
Konzepten nicht in spezifischen Umgebungen angewandt werden müssen, sondern im
Realbetrieb auf entsprechenden Webseiten ausprobiert werden können. Dies führt
zunächst einmal zu einer größeren Verbreitung, viel wichtiger aber dazu, dass
die Benutzerakzeptanz jetzt verstärkt in Weiterentwicklungen und Verbesserungen
einbezogen werden kann.
Die aktuellen Einsatzgebiete von Visualisierungen bei
Suchmaschinen sind zwar vielfältig, am häufigsten findet man diese jedoch bei
der Ergebnisdarstellung[8]. Sowohl die Trefferzahlen als auch die Heterogenität
der Treffer sind so hoch, dass ein breiteres intellektuelles Sichten und
Auswerten der Ergebnisse auf Nutzerseite bereits bei kleineren Ergebnismengen
nicht mehr umsetzbar ist. Der Suchdienst Kartoo bspw. versucht dieser
Problematik zu entgegnen, indem eine spezifische Darstellung der berechneten
Relevanz und die Relationen zwischen den Trefferdokumenten in einer Art
topographischen Landkarte abgebildet werden.
 Ergebnisdarstellung in Kartoo.com
Andere Konzepte wie z.B. Grokker stützen sich nicht nur
auf die Visualisierung alleine, sondern versuchen den Informationsraum auf
Basis von semantisch-lexikalischen Algorithmen zuerst zu strukturieren (im
Beispiel über Clustering) und wenden anschließend darauf basierend Visualisierungsformen
an, um dies den Benutzern geeignet zu vermitteln.
 Ergebnisdarstellung bei Grokker.com
Visualisierungen bei Suchdiensten findet man ferner
auch bei der Suchanfragenformulierung bzw. zu deren Verbesserung oder für
spezifische Inhaltsformen wie z.B. zeitbezogene oder geographische Bezugspunkte.
Der Mehrwert bei der Visualisierung geographischer
Bezugspunkte liegt auf der Hand: Weist eine Suchanfrage entsprechende Bezüge
wie Firmen-, Orts-, Straßennamen oder gar exakte Adressen auf, lassen sich
nicht nur entsprechende Positionen auf Landkarten zur besseren Übersicht
darstellen, sondern es können auch interessante Objekte in der Umgebung (z.B.
Hotels, Restaurants, Haltestationen) eingeblendet oder zusätzliche Dienste wie
eine Routenberechnung angeboten werden. Die Umsetzung dieser Art
Geovisualisierung bei Suchdiensten wie z.B. Google Maps, setzt entweder die
Verwendung von direkten Geobezugspunkten in einer Suchanfrage (z.B. Orts-/Straßennamen)
voraus oder basiert auf dem einfachen Abgleich mit Branchendatenbanken (z.B.
bei der Suche nach „Pizzeria“), um entsprechende Bezugspunkte zu einer
Suchanfrage zu generieren. Viel interessantere Ansätze, bei denen mittels „intelligenter“
Verfahren geographische Zusammenhänge bei Ergebnismengen eruiert und
dargestellt werden könnten (wie z.B. bei einer Anfrage nach „Sehenswürdigkeiten
in Berlin“), gibt es bei den heutigen Suchdiensten allerdings noch nicht.
Es ist festzuhalten, dass Lösungen auf diesem Gebiet nach wie
vor nicht ausgereift sind. Zu hoch ist noch der Anspruch an entsprechende
Konzepte, eine intuitive Bedienbarkeit oder zumindest einen geringen
Lernaufwand zu gewährleisten und gleichzeitig eindeutige Mehrwerte gegenüber
den heutigen textlastigen Darstellungsformen zu bieten.
6 Zusammenfassung
Die Darstellung in diesem Text skizziert die
thematische und methodologische Breite von spezialisierten Suchdiensten. Die
angeführten Beispiele führen deutlich vor Augen, dass aus Nutzerperspektive
Spezialsuchdienste oftmals wesentlich besser geeignet sind, Informationsbedürfnisse
zu befriedigen, als Universalsuchdienste. Dies ergibt sich zunächst aus dem
jeweilig eingeschränkten Objekt- bzw. Domänenbezug. Dabei können derartige
Dienste, aufsetzend auf dem jeweils höheren Standardisierungsgrad der
jeweiligen Objekte, eine deutlich reichhaltigere und (einheitlich)
strukturiertere Erschließung vornehmen und/oder für Suchmaschinen nicht
zugreifbare Wissensbestände im Internet erst zugreifbar machen und somit die
Suchoptionen von Recherchierenden in hohem Maße erhöhen und verbessern. Dieses
Potenzial wird aber auf Nutzerseite oft nicht realisiert. Zunächst beschränkt
sich eine Vielzahl der Internetnutzer von vorneherein auf die großen
Standardsuchmasken der populären Websuchdienste Google & Co[9].
Spezialsuchdienste haben so nur eine geringe Chance wahrgenommen zu werden. Das
gilt selbst dann, wenn derartige Spezialsuchdienste, wie es bei den meisten
genannten Beispielen der Fall ist, in die großen Suchportale von Google, Yahoo,
MSN eingebunden sind. Dieses Problem wurde vor einigen Jahren mit dem Begriff „Tab
Blindness“ beschrieben. „Tab Blindness“ steht als Begriff dafür, dass
Suchdienstenutzer in der überwiegenden Zahl der Fälle nicht in der Lage sind, Optionen
zur Suchraumeingrenzung wahrzunehmen oder zu verstehen[10]. Dieser Mangel oder
Unwille an Anwendungskompetenz bedeutet letztlich, dass es nicht genügt, dem
Nutzer für jeweils unterschiedliche Kontexte effektive Suchwerkzeuge
bereitzustellen, sondern dass es darüber hinaus notwendig bzw. sinnvoll ist, ihn
auch bei der Auswahl der jeweils geeignetsten Suchdienste zu unterstützen. Eine
Forderung, der Google und Co. schrittweise besser nachzukommen bzw. gerecht zu
werden suchen.
Literatur und Quellen
[1] Dirk
Lewandowski. Datumsbeschränkung bei WWW-Suchanfragen: Eine Untersuchung der
Möglichkeiten der zeitlichen Einschränkung von Suchanfragen in den
Suchmaschinen Google, Teoma und Yahoo. In Bernard Bekavac and Josef Herget and
Marc Rittberger, (Hg.): Informationen
zwischen Kultur und Marktwirtschaft. Proceedings des 9. Internationalen
Symposiums für Informationswissenschaft 2004. Konstanz: UVK Verlagsgesellschaft
mbH, 2004. S. 301 – 316.
[2] Marcel Machill; and Dirk Lewandowski. Journalistische
Aktualität im Internet: Ein Experiment mit den News-Suchfunktionen von
Suchmaschinen. In Marcel Machill and Norbert Schneider, editor(s), Suchmaschinen:
Herausforderungen für die Medienpolitik, 105-164, Vistas, Berlin, 2005.
[3]
Rebecca Blood. The Weblog Handbook: Practical Advice on Creating and
Maintaining Your Blog. Perseus Books, Cambridge MA, 2002.
[4] Dirk Lewandowski. Nachweis deutschsprachiger
bibliotheks- und informationswissenschaftlicher Aufsätze in Google Scholar. IWP - Information: Wissenschaft und
Praxis, (58)3: 165-168, 2007.
[5] Alexei
Yavlinsky. Behold: a content based image search engine for the World Wide Web.
2006.
[6]
Michael S. Lew and Nicu Sebe and Chabane Djeraba Lifl and Ramesh Jain.
Content-based Multimedia Information Retrieval: State of the Art and
Challenges. ACM Transactions on Multimedia Computing, Communications, and
Applications, (2)1: 1-19, 2006.
[7] Rolf Däßler. Informationsvisualisierung - Stand, Kritik
und Perspektiven. In Methoden/Strategien der Visualisierung in Medien, Wissenschaft
und Kunst. Trier: Wissenschaftlicher Verlag Trier.
[8] Bernard
Bekavac and Josef Herget and Sonja Hierl and Sonja Öttl. Visualisierungskomponenten
bei Web-basierten Suchmaschinen: Methoden, Kriterien und ein Marktüberblick. In
IWP - Information Wissenschaft & Praxis 58 (2007) 3, S. 149-158.
[9] Joachim Griesbaum. Zur Rolle von Websuchdiensten und
Fachinformation im Suchverhalten von Studierenden. Befunde einer explorativen
Studie. In Harald Weigel, editor(s), Wa(h)re Information, 29. Österreichischer
Bibliothekartag, Bregenz, 19.- 23. September 2006, 174-182, Neugebauer Verlag, Graz-Feldkirch,
2007.
[10] Joachim Griesbaum and Bernard Bekavac. Web-Suche im
Umbruch? Entwicklungstendenzen bei Web-Suchdiensten. In Bernard Bekavac and Marc Rittberger and Josef Herget, editor(s), Information
zwischen Kultur und Marktwirtschaft. Proceedings des 9. Internationalen
Symposiums für Informationswissenschaft (ISI 2004), Chur, 6.-8.Oktober 2004, 283-299,
UVK Verlagsgesellschaft mbH, Konstanz, 2004.
Powered by AkoComment Tweaked Special Edition v.1.4.1 |