Qimaya – Semantic Web

creating a semantic web

Der lange Weg zu Qimaya…

with 2 comments

Der heutige Standard für die Internet-Suche wurde vor zehn Jahren gesetzt. Am 9. Januar 1998 reichte die Universität Stanford beim amerikanischen Patentamt die Erfindung „Method for node ranking in a linked database“ ein. Diese Erfindung sollte das Problem lösen, die Bedeutung einer Internet-Seite zu bewerten. Vorbild war hierbei die Wissenschaft: Ein wissenschaftlicher Aufsatz gilt dann als wichtig, wenn er von anderen Wissenschaftlern häufig zitiert wird. Dieser Ansatz wird auch als „Popularity metrics“ bezeichnet.
Lange schien sich diese Vorgehensweise zu bewähren: Das World Wide Web wurde 1993 zur allgemeinen Benutzung freigegeben und anfänglich dominierten Universitäten und Forschungseinrichtungen die Inhalte des Internets.

Heute prägen private und kommerzielle Nutzer durch Blogs, Homepages sowie Video- und Community-Seiten das Gesicht des Internet. Wird etwa ein populärer Clip in einem Videoportal mit einem Goethe-Zitat betitelt, so wird der Clip zum Top-Treffer bei der Internetsuche. Inhaltlich relevantere Seiten aus dem Bereich der Kultur sind erst in den hinteren Rängen gelistet. Dies führt die Grundvoraussetzung der „Popularity metrics“ ad absurdum: Wenn wahllos Internetseiten zitiert werden, kommt die Bewertung von Qualität, Inhalt und Relevanz zu kurz. Darüber hinaus bemüht sich ein neuer Wirtschaftszweig – Firmen, die Suchmaschinenoptimierung (SEO) anbieten – um die Simulierung von Relevanz im Internet.

Das Grundproblem des bisherigen Ansatzes ist es, dass die Relevanz einer Webseite INDIREKT gemessen wird. Hier setzt Qimaya (R) mit seiner zum Patent angemeldeten Technologie an: Wir wollen die Relevanz einer Webseite DIREKT ermitteln. Zu diesem Zweck setzen wir assoziative neuronale Netzwerke ein.

Die Geschichte dieses Ansatzes begann ebenfalls im Jahr 1998. Forschungsarbeiten an den Universitäten Bonn, Jena, Bochum und Münster sowie die Kooperation mit russischen Wissenschaftlern führte zu einem Ansatz für ein neuartiges Computersystem, das Inhalte aus Texten assoziativ interpretieren kann. Vorbild bei diesem Ansatz ist unser menschliches Gehirn. Man kennt inzwischen das Erfolgsgeheimnis für die Leistungsfähigkeit unseres Denkapparats: Zwei Nervenzellen sind genau in dem Maß miteinander verknüpft, wie sie Informationen austauschen. Die Milliarden Nervenzellen kann man sich vorstellen wie ein soziales System: Wenn wir die Tastatur unseres Computers bedienen, sind bestimmte Gruppen von Nervenzellen gleichzeitig aktiv. Lesen wir die Tageszeitung, sind es andere Gruppen. Je nachdem, welchen Tätigkeiten wir nachgehen, verstärken sich bestimmte Gruppen (sog. neural assemblies). Auf diese Weise kann sich unser Gehirn flexibel an die Gegebenheiten anpassen.

Sinnvoll wäre es, wenn eine Internetsuchmaschine ebenfalls flexibel mitdenken könnte!

Leider sind die mathematischen Computerprogramme, die die Funktion von Nervenzellen nachahmen, extrem rechen- und speicheraufwendig. Mit wachsendem Umfang des Internet stellte es sich zunächst als Illusion heraus, ein „intelligentes“ Internet zu realisieren. In der Tat finden sich bis zum heutigen Tage Lösungen für intelligentes Suchen vorrangig als Unternehmenslösungen (Enterprise search) für überschaubare Datenmengen.

Im Jahr 2007 gelang dann der Durchbruch: Qimaya (R) ist es gelungen, ein skalierbares neuronales Netzwerk zu konzipieren. Damit läßt sich erstmals die gewaltige Datenmenge des Internet als Gehirnstruktur abbilden.

Die Vorteile für den Anwender der Internetsuche sind spektakulär. Wird etwa nach „Klinsmann“ gesucht, so reagiert das Netzwerk mit mehreren parallel aktivierten Gruppen: Ein Cluster repräsentiert Klinsmann als Nationaltrainer, ein weiterer Cluster stellt Klinsmann als Fußballspieler dar und ein neuer Cluster zum Thema „Klinsmann als Coach des FC Bayern“ entsteht ebenso automatisch aus den zur Verfügung stehenden Daten.

Anschaulich wird dabei jeweils ein Hypertext-Dokument als künstliches Neuron dargestellt und jeder Begriff, der in dem Dokument vorkommt, ist eine Verknüpfungsstelle (Synapse) zu anderen Neuronen.

Ermöglicht wird dabei die Leistungsfähigkeit unserer Internetsuche durch eine weitere Innovation: den Qimaya-Index. Um die Verknüpfung der Neuronen zu beschleunigen, wird jedem Begriff eine eindeutige Zahl zugewiesen. Für die deutsche Sprache verwenden wir ein Zahlensystem auf der Basis der Zahl 42. Der Buchstabe ‚a‘ hat den Wert 1, ‚b‘ hat den Wert 2 usw.

Hinzu kommen Zahlen um Umlaute. Fremdsprachige Sonderzeichen werden zuvor vereinheitlicht. So sind für Qimaya“Franck Ribéry“ und „Franck Ribery“ ein und dieselbe außergewöhnliche Person.

Diese Zahl gilt universell, egal ob sich einer der Qimaya-Server in Berlin oder Singapur befindet.

Leitmotiv für die weitere technologische Entwicklung bleibt das Vorbild Natur. Unsere Mission ist es, Algorithmen und Verfahren aus den Neurowissenschaften für den Umgang mit digitaler Information im Alltag verfügbar zu machen.

Dieser Blog wird euch in Abständen über Qimayaund unsere weitere Entwicklung informieren. Gebt uns Input, denn wir entwickeln für euch.

Die ersten Schritte sind getan……..

Autor: Klaus

Written by Qimaya

27. August 2008 um 7:48 am

Veröffentlicht in Uncategorized

Tagged with

2 Antworten

Subscribe to comments with RSS.

  1. Geile Idee !

    Spider Joe

    28. August 2008 at 8:24 pm


Hinterlasse einen Kommentar