Findability: Semantic Web

Stefan Nitzsche, 3. September 2008

Semantik steht für den nächsten Schritt in der Evolution des Web. Dieser Artikel beleuchtet, warum dieser Schritt nötig und schwierig ist und seine Folgen unvorhersehbar sind.

Inhalt:

Warum wir ein Problem haben

Alles wächst exponentiell. Vor 75.000 Jahren gab es höchstwahrscheinlich erst zwischen 1.000–10.000 Exemplare unserer Art (homo sapiens) auf der Erde. Durch exponentielles Wachstum sind aus dieser überschaubaren Gruppe innerhalb weniger Jahrtausende mehrere Millionen geworden, bis vor etwa 200 Jahren die magische Milliardenmarke überschritten wurde. Jetzt gibt es etwa 6,7 Milliarden Menschen, die siebte Milliarde wird bei günstiger Prognose erst 2012 erreicht.

Ein anderes Beispiel: Mitte des 17. Jahrhunderts gab es Schätzungen zufolge erst unter einer Million Menschen mit wissenschaftlich-technischer Ausbildung. Bis 1950 stieg deren Anzahl auf zehn Millionen an, um sich von 1950 bis 2000 erneut zu verzehnfachen.

Auch das Web wächst – und um das Wachstum zu verdeutlichen, kann der Google-Index als Beispiel dienen.

Publikationen von Stefan Nitzsche
Jahr Größe des Index Zuwachs
1998 2,6 Millionen Seiten (keine Daten)
2001 1,5 Milliarden Seiten ~ 57600 %
2004 8,0 Milliarden Seiten ~ 433 %
2006 25,3 Milliarden Seiten ~ 216 %

(Die vorliegenden Zahlen sind verschiedenen Quellen entnommen und, wenn möglich, auf ihre Qualität hin geprüft worden. Sie sollen lediglich einer ungefähren Verdeutlichung des Wachstums dienen.)

Google hat am 25. Juli 2008 im offiziellen Google Blog bekannt gegeben, die billionste eindeutige URL gefunden zu haben – Experten gehen von einer tatsächlichen Anzahl von derzeit etwa 40 Milliarden Seiten im Google Index aus.

Als sich die ersten Suchmaschinen mit relativ einfachen Algorithmen im noch jungen Web versuchten, gab es selten (subjektiv) relevante Ergebnisse (wenn Relevanz überhaupt ein messbares Kriterium sein kann). Erst als Google mit seiner damals revolutionären Suchtechnologie den Markt aufmischte, war man begeistert von der Qualität der Suchergebnisse. Heute ist die Qualität der Suchergebnisse Googles durch verschiedene Faktoren (SEO, Spam) herabgesetzt. Der Faktor jedoch, der für die bei weitem größte Qualitätsreduktion verantwortlich ist, wird häufig vergessen: das exponentielle Wachstum des Web.

Chaos

Ein theoretisch viel versprechender Weg aus dem Chaos ist die Steigerung der Informationsqualität. Wie für so vieles, gibt es auch für die Messung der Qualität einer Information eine Systematik, bestehend aus vier Kategorien und 15 Dimensionen:

Quelle: Deutsche Gesellschaft für Informations- und Datenqualität e.V. (DGIQ)

Suchmaschinen bemühen sich um Sortierung der Suchergebnisse nach Relevanz (Relevance Ranking), die anhand verschiedener, durch einen Algorithmus geprüfter Kriterien zu berechnen versucht wird. Vieles kann man mit aktuellen technischen Mitteln prüfen. Systembezogenen Dimensionen ist eine Suchmaschine erbarmungslos ausgeliefert, aber wenn es um die anderen Kategorien geht, kann der Algorithmus einer Suchmaschine einiges (aber nicht alles) leisten. Einzig das Kriterium, das die Suchmaschinen zum Maß aller Dinge erhoben haben, ist nahezu unmöglich exakt zu erfassen: die Relevanz.

Relevanz

Relevanz in der Informationswiedergewinnung ist im klassischen Sinne relativ, also abhängig von Eigenschaften, Größen oder Begriffen eines Bezugssystems. Das Bezugssystem ist im Kontext der Relevanz der Suchende, also der Benutzer. Seine individuelle Situation, bestehend aus vielen Faktoren wie z.B. Emotion, Vorwissen, Einstellung, Ziel, etc. bestimmt, ob er eine angebotene Information für relevant erachtet, oder nicht. Ein Suchalgorithmus kann da wenig ausrichten.

Die Informationswissenschaft beschäftigt sich natürlich nicht nur mit den oben aufgeführten Kriterien der Informationsqualität, sondern auch mit den Kriterien der Relevanz: ein Dokument ist für eine Suchanfrage (objektiv) relevant,

Wie will eine Suchmaschine dem Ziel näher kommen, die Relevanz der Suchergebnisse zu erhöhen, wenn derartig relative Kriterien den Erfolg messbar machen? Wie soll die Suchmaschine wissen, welche Entscheidung getroffen werden soll, wo die Wissenslücken des Suchenden liegen und ob die ausgelieferten Ergebnisse eine Frühwarnfunktion erfüllen?

Ein Beispiel: Ist das Ziel einer Suche, ein Restaurant in Berlin zu finden, kann man als Suchphrase „Restaurant Berlin“ verwenden. Die ausgelieferten Ergebnisse sind relativ wahllos, lassen sich nicht nach qualitativen oder preislichen Kriterien sortieren, oder gar nach Nähe vom aktuellen Ort des Suchenden, aber sie sind in annehmbarer Weise relevant. Suchte man hingegen ein Restaurant in Essen, war man aufgeschmissen. Die Suchphrase „Restaurant Essen“ lieferte bis vor kurzem bestenfalls Restaurants zurück, die Essen anbieten. Hier musste der Benutzer auf Datenbanken von Restaurants zurückgreifen, die Metadaten-gestützt sind, und somit dediziert eine Suche nach dem Ort des Restaurants möglich machen. Mittlerweile sind zehn von zehn Suchergebnissen auf der ersten Seite Googles bei Benutzung der Suchphrase „Restaurant Essen” in dem Sinne relevant, als dass alle zehn Alternativen sich auf Restaurants in Essen beziehen.

Verständnis

Das Problem: eine Suchmaschine versteht nicht immer, was wir wollen. Fragt man einen Freund nach einem kleinen Restaurant im Essener Süden, umgeben von Grün, im mittleren Preissegment, mit italienischer oder spanischer Küche – die Chance, dass er eines der Kriterien nicht versteht, ist verschwindend gering. Ob der Freund nun ein Suchergebnis ausliefert, bleibt dahingestellt. Eine Suchmaschine oder Datenbank zu finden, die über derartige Metadaten verfügt, so dass solche Suchanfrage verstanden wird, ist allerdings sehr unwahrscheinlich. Und damit sind die aktuellen Suchmaschinen entlarvt, egal wie gut der Algorithmus auch ist: als bessere Volltext-Suchen.

Findmaschinen

Seit Urzeiten werden Informationen in Form von Worten gespeichert. Die multimediale Revolution, die Speicherung von Informationen in Form von Bildern und in optischer, akustischer oder audiovisueller Form hat dem Jahrtausende andauernden Siegeszug des Wortes als Informationsmedium keinen Abbruch getan. Man mag einwenden, dass der individuelle Zugang zu den Informationen durch Verwendung von derzeit etwa 6.500 weltweit gesprochener Sprachen eingeschränkt ist, allerdings haben die meisten Worte in jeder Sprache ein Äquivalent oder lassen sich umschreiben. Aus dieser Erkenntnis ergibt sich eine Gemeinsamkeit, die ein Wort und sein Äquivalent in jeder nur vorstellbaren Sprache hat: seine Bedeutung.

Oder, mit dem oben genannten Beispiel gesprochen: eine Suchmaschine weiß nicht, ob die Suchphrase „Restaurant Essen“ nun ein Restaurant mit Essen oder ein Restaurant in Essen sucht – die Bedeutung des Wortes „Essen“ ist nicht ersichtlich. Wie viel schöner wäre es, anstelle von „Restaurant Essen“ nach Informationen zu suchen, die sich auf die Suchphrase „Ort: Essen, Dienstleistung: Gastronomie, Art: Restaurant“

Das Web kann man auch heute schon begrenzt mit semantischen Informationen anreichern. Nimmt man es genau, gibt es ja bereits rudimentär (je nach Markup-Qualität) ein semantisches Web. Maschinenlesbar sind Unterschiede zwischen verschiedenen Überschriften, Absätzen, Zitaten, Adressinformationen, Formularfeldern, Interaktionselemente, Listen, Begriffsdefinitionen, etc. bereits seit den Anfängen des Web.

Tim Berners-Lees Ansatz geht weit darüber hinaus. Die Realisierung des semantischen Web erfordert spezifische Daten, die von Menschen wahrgenommene Bedeutung in maschinenlesbaren Metadaten festhalten. Durch diese Metadaten können verschiedenste Informationen angereichert, automatisiert miteinander verknüpft und in Beziehung gesetzt werden. Nicht nur für die Qualität von Suchergebnissen wäre das semantische Web ein Durchbruch. Auch würden bisher nicht sichtbare Zusammenhänge zwischen unterschiedlichsten Informationen zu Tage treten (Serendipity-Effekt).

Soweit klingt es fantastisch. Allerdings sind diese Gedanken von 1998 und wurden seitdem zahllose Male thematisiert, optimiert, durch- und überdacht. Und natürlich verbreitet, denn neben Tim Berners-Lee selbst geht auch Vince Cerf, einer der Väter des Internet und derzeit Vize-Präsident von Google, von Tür zu Tür und postuliert die Vorteile von Lees Ansatz. Tim O‘Reillys Web 2.0, nach wie vor häufig unverstanden, findet noch erstaunlich häufig Erwähnung, stirbt jedoch in Fachkreisen als Thema einen raschen Tod. Doch schon wird in zahlreichen Publikationen das Web 3.0 gepriesen, das semantische Web. Allerdings: so schön der Hype um die nächste Version des Web sich auch anfühlt, er wartet schon seit zehn Jahren auf den Beginn der Umsetzung und kämpft um Beachtung.

Probleme bei der Implementierung

Um zu verstehen, warum die Implementierung so lange auf sich warten lässt, obwohl die technologischen Bausteine für dieses Konzept vorhanden sind, muss man vergleichbare Technologien ansehen.

Das Web hat einen ungeheuren Hype erlebt, da das Publizieren hier (vergleichsweise) einfach war. HTML und CSS sind überschaubare Sprachen, und extrem komplex sind beide nicht. Wer mit Darstellungsfehlern oder mangelhafter Validierung leben konnte, oder wer mit einem WYSIWYG-Editor arbeitete, musste sich nicht viel Mühe geben. Ähnlich lief es mit den Mikroformaten, einer Art semantischer Erweiterung des Markups mit Bordmitteln. Eine sehr begrenzte Auswahl an Werkzeugen erlaubt es, Informationen auf Webseiten so auszuzeichnen, dass sie maschinenlesbar sind. Und das sehr leicht, so dass die Implementierung keine Probleme macht. Der Grund für die rasche Verbreitung beider Technologien ist die leichte Erlernbarkeit und der verständliche Bedarf, sie einzusetzen.

Ist die Implementierung dieser beiden Technologien tatsächlich vergleichbar mit der Implementierung der Technologien des semantischen Web? Eher nicht, denn um Werkzeuge wie XML, RDF, OWL, SPARQL und GRDDL einzusetzen, sind tiefere Kenntnisse gefragt. Kaum jemand, der nicht Informatik studiert hat, kann erklären, was der Unterschied zwischen einer monodimensionalen Taxonomie und einer multidimensionalen Ontologie ist. Die Sprachen, um derartige Metadaten-Topologien aufzubauen, sind nicht trivial – und die benötigten Kenntnisse erstrecken sich nicht nur auf das Fachgebiet der Informatik, sondern auch auf das Informationsdesign, die Informationsarchitektur und viele weitere. Zusätzlich gibt es wenig Fehlertoleranz – der Code will valide sein, fehlerhafte semantische Auszeichnungen erfüllen ihren Zweck nicht. Die leichte Erlernbarkeit ist also nicht gegeben. Es gibt bereits Expertensysteme in speziellen Bereichen, die sehr erfolgreich RDF als semantische Technologie einsetzen. Allerdings sind diese Systeme ausschließlich wissenschaftlicher oder forschungsnaher Art und fristen dort ein Nischendasein. Ganz zu schweigen von der Frage, wie Technologien wie Flash/Flex in das semantische Web integrierbar sind – es gibt zwar Ansätze dazu, aber noch keine Standard-Lösung.

Und der Bedarf? Jeder, der sich mit der Materie beschäftigt, erkennt den Bedarf. Ein semantisches Web als Teil der Netzkultur ist eher schwer vorstellbar. Sicherlich wird irgendwann ein allgemeines Verständnis für die Notwendigkeit und noch eher natürlich für die Vorteile entstehen, aber das semantische Web wird für den gemeinen Webworker oder Internet-Interessierten ähnlich kryptisch bleiben, wie technische Spezifikationen des W3C.

Auch der Aufwand ist nicht zu unterschätzen. Eine automatisierte Migration des aktuellen Web wird es nicht geben. Um das zu schaffen, müsste man über Algorithmen verfügen, die zuverlässig den bereits indizierten Informationen eine Bedeutung zuordnen – dann wären Metadaten mit semantischen Informationen nicht mehr notwendig. Eine sanfte Erweiterung des aktuellen Web um semantische Komponenten gibt es schon jetzt (Mikroformate, RDF). Allerdings kommt man erst bei einer vollständigen Umsetzung von Tim Berners-Lees Ansatz in den Genuss aller Vorteile.

War das Web zu Beginn ein Archiv für die nicht zu bändigende Informationsflut, die sich aus den Arbeiten der unzähligen angestellten und gastierenden Wissenschaftler des CERN in der Schweiz ergab, wuchs es innerhalb weniger Jahre erst zu einem Informationsmedium und ist nun hochintegriert in den privaten und beruflichen Alltag. Aus diesen geänderten Anforderungen an Struktur und Komplexität müssen sich zwangsläufig Konsequenzen ergeben. Beim CERN stand man 1989 vor einem ähnlichen Problem. Wird die Informationsflut des heutigen Web in Zukunft durch ein semantisches Web entlastet, in das nach und nach alle Informationen überführt werden? Wird das semantische Web also ein Walled Garden? Ein abgeschlossener Bereich, in dem alles besser, schöner, bunter ist, neben dem chaotischen, irrelevanten alten Web? Ein semantisches Paradies voller Relevanz, frei von Spam? Ein wirkliches Web 2.0?

Bemerkungen/Erklärungen

Links zu diesem Thema: