Interaktive Literaturrecherche

Intelligente Web-Werkzeuge für die Wissenschaft
von Dr. Reinhard Schneider

Wer hat das nicht schon erlebt: Man hat sich einen wissenschaftlichen Artikel „gegoogelt“ und schon in der Einleitung tauchen mehrere Protein- und Gen-Kürzel auf, mit denen man erstmal nichts anzufangen weiß. Jetzt heißt es normalerweise Mut zur Lücke und erstmal weiterlesen oder man startet ein paar weitere Suchanfragen und verirrt sich dann so langsam im Wust der Informationen.
Dabei ist es eigentlich egal ob man Google oder eine der spezialisierten Suchmaschinen wie etwa Google Scholar (www.scholar.google.com), PubMed [1], Scirus [2], novo|seek (www.novoseek.com) oder Medstory (www.medstory.com) benutzt.

Das tiefe Web

Als Alternative steht das sogenannte „tiefe oder versteckte Web“ („deep web“ oder „hidden web“) zur Verfügung. Die gängigen Suchmaschinen indexieren nämlich nur einen Bruchteil der Webseiten im Internet und es wird geschätzt dass dieses verborgene Web etwa 500 Mal größer ist. Was verbirgt sich nun hinter dem tiefen Web? Es sind im Prinzip alle Inhalte, die in dynamischen Datenstrukturen, sprich Datenbanken abgelegt sind, und auf diese Ebene haben gängige Suchmaschinen normalerweise keinen Zugriff.
Wer also im „tiefen Web" sucht, benutzt z.B. Fachdatenbanken, wie GenBank [3], EMBL [4] und Uniprot [5, 6] oder auch einen von Hunderten Webservern, die ein breites Spektrum an Informationen, Vorhersagen und analytischen Softwarepaketen anbieten [6-10]. Jeder dieser Dienste hat nun sein eigenes Suchformular und oft benötigt man die Kenntnis einer besonderen Abfragesprache, um mit ihnen arbeiten zu können.

Der Zusammenschluss von Web und dem tiefem Web

So ziemlich jeder Aspekt der biomedizinischen Forschung könnte verbessert und beschleunigt werden, wenn wir möglichst einfach zwischen dem oberflächlichen Web und dem tiefen Web hin und herschalten könnten. Der einfachste und sinnvollste Weg, um diese extrem heterogenen und zum größtenteils inkompatiblen Systeme zu koppeln, wäre mithilfe des sogenannten semantischen Web. Das biomedizinische Wissen ist aber sehr komplex und eine semantische Beschreibung der vielen Daten würde einen sehr großen Arbeitsaufwand bedeuten, ganz davon abgesehen, dass dies typischerweise eine ziemlich langweilige Angelegenheit darstellt und für denjenigen, der die Daten beschreibt erstmal keinen direkten Nutzen bringt. Das ist wohl auch ganz schlicht der Hauptgrund warum das semantische Web nicht so richtig abheben will. Wir können daher davon ausgehen, dass das semantische Web nicht nur die Entwicklung guter Wissensbeschreibungen (Ontologien, -siehe Kasten) erfordert, sondern auch die Bereitstellung von einfacheren Mechanismen, die einen Anreiz bieten, semantische Information in die Datenbestände einzuarbeiten. Einer dieser potenziellen Mechanismen könnte der im Folgenden beschriebene sein.

Unterstützte oder erweiterte Server (Augmented browsing)

Das unterstützte oder augmented browsing markiert bei Bedarf spezifische Wörter oder Einträge und liefert dann weitere Information, wenn man auf diese Markierung klickt. Einige Methoden, wie etwa Whatizit [11] und iHop [12], markieren („taggen“) dabei systematisch alle verfügbaren Zusammenfassungen von PubMed Artikeln, die Gen- oder Proteinnamen beinhalten. Auch Verlage und Herausgebern von Zeitschriften versuchen ihr Angebot attraktiver zu machen, indem Artikel bereits vor der Veröffentlichung markiert und untereinander bzw. zu externen Datenquellen verknüpft werden [13].
Eine Reihe dieser unterstützenden Helfer sind bereits im biologischen bzw. chemischen Umfeld verfügbar. Als Beispiele seien hier folgende genannt: ChemGM [14], ConceptWeb (conceptweblinker.wikiprofessional.org) und der Conceptual Open Hypermedia Service (COHSE) [15]. Diese Services markieren alle Einträge wie Gene, Chemikalien oder Krankheitsbezeichnungen und verweisen dann mithilfe von Ontologien auf weitere Datenquellen, indem sie kleine Zusatzfenster („popup windows“) öffnen, die dann etwa zu PubChem (pubchem.ncbi.nlm.nih.gov) führen. Diese Zusatzfenster sind dabei ein sehr effektiver Weg wie nützliche Informationen zu einem Eintrag bereitgestellt werden können, ohne dass der Benutzer die ursprüngliche Webseite verlassen muss.
Zwei neue Methoden wurden kürzlich in meiner Gruppe entwickelt und öffentlich zugänglich gemacht: Reflect und OnTheFly [16, 17]. Beide Systeme erlauben dem Benutzer Gene, Proteine und Chemikalien interaktiv zu markieren. Dies funktioniert mit jeder Webseite, die sich im Browser befindet als auch mit den gängigen Dateiformaten wie PDF oder Microsoft Office. Jede der eingefügten Markierungen öffnet bei einem Mausklick ein Fenster, das eine sehr komprimierte Zusammenfassung einiger wichtiger Informationen über den markierten Eintrag enthält, und weitere Verknüpfungen zu hilfreichen Datenquellen bereitstellt (Abbildungen). Da die Verlinkung erst in dem Moment stattfindet, in dem der Benutzer es initiiert, wird sichergestellt, dass man auf die jeweils aktuellste Informationsquelle verweist.
Ein wichtiger Entwicklungsansatz war hierbei der Fokus auf die Einfachheit der Installation und Benutzung. Nach der Installation des plugins (für den Firefox Browser und den Internet Explorer), die sich auch nur mit einem Mausklick erledigen lässt, braucht der Benutzer lediglich eine Schaltfläche im Browser-Menü zu drücken. Nach typischerweise 1–2 Sekunden erscheint dann die entsprechend markierte und verknüpfte Webseite, ohne dass der Benutzer etwas über die technische Implementierung mitbekommt [18].
In der derzeitigen Fassung werden etwa die entsprechenden Datenbankverweise, die Proteinsequenz, Struktur, Literaturverweise und Interaktionspartner gezeigt (Abbildung 2). In zukünftigen Fassungen wird die Information erweitert durch Verknüpfungen etwa zu Krankheiten, Wikipedia Artikeln und Bildern (http://www.reflect.ws/beta/). Der Service wurde kürzlich mit dem ersten Preis beim Elsevier Grand Challenge Wettbewerb ausgezeichnet. Wer Interesse hat, mehr über innovative Ideen im Bereich der wissenschaftlichen Informationsverbreitung und Kommunikation zu erfahren, sollte einen Blick auf die Liste der Halb-Finalisten werfen (http://www.elseviergrandchallenge.com/teams.html).
Die Grundlage, dass Proteinnamen und Chemikalien im Reflect-Server überhaupt erkannt und markiert werden können, bilden Wörterbücher, die mithilfe von Text-Mining-Systemen aufgebaut werden. Aufgrund der vielen Synonyme und Mehrdeutigkeiten in der biologischen Nomenklatur macht ein System, das auf Wörterbüchern basiert natürlich Fehler. Das Ziel ist es, möglichst alle relevanten Terme (Proteine, Gene, Krankheiten etc.) zu erkennen, um eine hohe Trefferquote zu erreichen („Recall“) und andererseits Mehrdeutigkeiten zu erkennen oder noch besser aufzulösen und somit eine kleine Fehlerrate („Precision“) zu erreichen.
In Zukunft wird die Treffergenauigkeit dieser unterstützenden Werkzeuge verbessert werden, indem man einen Wikipedia bzw. Proteopedia [19] ähnlichen Ansatz implementiert, der es erlaubt, die Zusatzinformation des Fensters gemeinschaftlich zu editieren und zu pflegen.
Solche Entwicklungen könnten damit einen signifikanten Beitrag leisten, um die Entwicklung des semantischen Web zu beschleunigen und würden einer breiten Nutzergemeinde erlauben, ein besseres Wissenschafts-Web zu stricken.

L&M 4 / 2009

Diese Artikel wurden veröffentlicht in Ausgabe L&M 4 / 2009.
Das komplette Heft zum kostenlosen Download finden Sie hier: zum Download

Der Autor:

Dr. Reinhard Schneider

News

Schnell und einfach die passende Trennsäule finden

Mit dem HPLC-Säulenkonfigurator unter www.analytics-shop.com können Sie stets die passende Säule für jedes Trennproblem finden. Dank innovativer Filtermöglichkeiten können Sie in Sekundenschnelle nach gewünschtem Durchmesser, Länge, Porengröße, Säulenbezeichnung u.v.m. selektieren. So erhalten Sie aus über 70.000 verschiedenen HPLC-Säulen das passende Ergebnis für Ihre Anwendung und können zwischen allen gängigen Herstellern wie Agilent, Waters, ThermoScientific, Merck, Sigma-Aldrich, Chiral, Macherey-Nagel u.v.a. wählen. Ergänzend stehen Ihnen die HPLC-Experten von Altmann Analytik beratend zur Seite – testen Sie jetzt den kostenlosen HPLC-Säulenkonfigurator!

© Text und Bild: Altmann Analytik

mehr Informationen hier

ZEISS stellt neue Stereomikroskope vor

Aufnahme, Dokumentation und Teilen von Ergebnissen mit ZEISS Stemi 305 und ZEISS Stemi 508

ZEISS stellt zwei neue kompakte Greenough-Stereomikroskope für Ausbildung, Laborroutine und industrielle Inspektion vor: ZEISS Stemi 305 und ZEISS Stemi 508. Anwender sehen ihre Proben farbig, dreidimensional, kontrastreich sowie frei von Verzerrungen oder Farbsäumen.

© Text und Bild: Carl Zeiss Microscopy GmbH