Qimaya – Semantic Web

creating a semantic web

Suche nach Inhalten, nicht nach Prominenz

with 9 comments

Als kleines Schmankerl möchte ich euch ein kleinen Einblick in die Ergebnisliste eines Suchbegriffes geben. Anhand des Suchwortes Kosmetik wird sehr schnell klar, was es bedeutet inhaltlich zu suchen und eben gerade nicht nach einem ordinärem Schlagwort.

Zunächst eine kurze Erklärung woraus die unterschiedlichen Ergebnisse resultieren und wie dies mit künstlicher Intelligenz zusammenhängt.

Bisherige Suchmaschine, nennen wir sie einmal Yahoogle, benutzen die kontextuelle Suche, auch als Bool´sche Suche bekannt. D.h. das Suchwort wird lediglich mit dem vorliegenden Text einer Webseite abgeglichen. Wurde das Suchwort gefunden, so gilt die Seite zunächst als Treffer, damit als potentielles Ergebnis. Da es in der Natur der Sache liegt bei mehreren Milliarden an Webseiten nun mindestens auch Millionen von Treffern, damit Ergebnisse zu erhalten, müssen diese nun noch „gerankt“ werden. Hier hat sich Larry Page im Jahre 1997 etwas trickreiches einfallen lassen.

Er adaptierte einfach den in der Wissenschaft benutzten Vorgang der Zitierung als Rankingmodell. Je öfter ein Wissenschaftler zitiert wird, umso wichtiger, d.h. relevanter ist dieser Wissenschaftler bzw. seine These. Dies wurde auf Webseiten übertragen. Je öfter eine Webseite verlinkt wird, umso interessanter, d.h. als Suchergebnis bedeutender, muss diese daher anscheinend sein.

Dieses Prinzip wird seit 1998 beibehalten, allerdings von derzeit 200 Kriterien ergänzt. Das Netz wird inzwischen jedoch nicht mehr nur von den großen Webseitenbetreibern, man könnte sagen, den Konzernen dominiert. Vielmehr ist das WWW inzwischen eine Art „Mitmach“ Netz. Böse Zungen benutzen auch gerne den inzwischen fast schon inflationär gebrauchten Begriff Web 2.0.

In Zeiten von Blogs, Youtube, Flickr, natürlich verlinke ich euch auch gerne direkt die deutschen Anbieter wie Sevenload und Imageloop, wird sehr schnell klar wie einfach es inzwischen ist zu verlinken und somit einen besseren Pagerank zu erreichen. Jeder redaktionelle Beitrag einer Onlinezeitung erhält inzwischen nicht nur eine Überschrift, sondern auch eine Bearbeitung nach SEO Grundsätzen.

Gerankt wird daher nur noch nach Prominenz, nicht mehr nach Relevanz!

Qimaya hingegen führt keine kontextuelle Suche durch, sondern erkennt den ganzen Inhalt einer Webseite, Wort für Wort, Satz für Satz. Die Verbindung eines jeden Wortes mit einem weiteren, sozusagen jedes Zeichen und damit auch jede Wortkette, ergibt eine bestimmte Inhaltsaussage. Ganz so, wie ein Mensch aus der spezifischen Aneinanderreihung von Zeichen und Worten sich den Sinn eines Satzes erschließt.

Hier ein Beispiel eines, in seinen Worten übereinstimmenden, Satzes.

„Zum Golf, aber er lässt sich spielend fahren.

„Golf Spielen, aber er lässt sich fahren“

Wie ein Mensch kann Qimaya somit auch erkennen ob es in den eben genannten Sätzen um Golfsport oder das Fahrzeug Golf geht.

Das Geheimnis ist also die Adaption des neuronalen Netzes des menschlichen Gehirns. Hierdurch können Inhalte nicht nur erkannt werden, sondern auch gerankt. Denn jeder gefundene Inhalt stellt zunächst auch einen Treffer, damit ein Ergebnis dar. Aber diese Inhalte werden wie im menschlichen Gehirn gegeneinander gestellt. Nur der stärkste Inhalt ist dann auch der relevanteste Inhalt.

Gerankt wird somit nach inhaltlicher Relevanz, nicht nach Prominenz!

Deutlich wird dies nunmehr zum Suchwort Kosmetik. Yahoogle rankt nach der Verlinkungsstruktur, damit der Prominez der Webseiten. Die Folge ist, dass, von Wikipedia einmal abgesehen, insbesondere Shoppingsseiten, die alles dafür tun gut gerankt zu werden, auch als Toptreffer angezeigt werden. Wikipedia macht sich diese Eigenschaft ebenso zu Nutze, den es ist gespickt mit Verlinkungen innerhalb des Artikels. Hier das Beispiel von Google.de

Die eigentlich inhaltlichen Treffer tauchen jedoch gar nicht mehr in der Trefferliste auf. Rankt man nun nach inhaltlicher Relevanz erhält man ein vollkommen anderes Ranking. Dass Wikipedia, als DIE online Enzyklopädie, nicht als Ergebnis erscheint liegt an der Gewichtung der inhaltlichen Treffer.In diesem Fall des Inhalts zum Thema Kosmetik. Der Gedanke liegt zwar jedem fern, aber ja, es kann Webseiten geben, die noch mehr Substanz aufweisen als Wikipedia  Siehe hier ein Screenshot vom Qimaya Entwicklungsserver.

Es bleibt natürlich jedem selbst überlassen, welche Ergebnisliste er favorisiert. Aber wir sind tatsächlich so verrückt zu glauben, dass der intelligente Nutzer nach Substanz sucht und nicht nur nach dem nächsten Angelhaken, der ihm das Geld aus der Brieftasche zieht.

Written by Qimaya

29. September 2008 um 2:08 pm

9 Antworten

Subscribe to comments with RSS.

  1. Dennoch ist doch wikipedia als Anlaufstelle mit einem gewissen Vertrauen in die Wiki-Community im Netz inzwischen realtiv stark aufgestellt. Ich würde also lieber Wiki oben sehen als etwas anderes.

    Tamim

    29. September 2008 at 2:46 pm

  2. @Tamim, Wer bei Wikipedia etwas über Kosmetik erfahren möchte, sucht auch gleich dort.

    Wer hingegen das Angebot des Netzes zum Stichwort „Kosmetik“ kennenlernen will, wäre schlecht bedient, wenn ihm Wikipedia angeboten würde.

    xiongshui

    29. September 2008 at 3:39 pm

  3. xiongshui hat vollkommen recht!

    Ich find es gut, dass Ihr anhand eines Beispieles erklärt, wie alle funktioniert!

    Mr.P

    30. September 2008 at 12:49 pm

  4. Aus meiner Sicht wäre ein Mix zwischen inhaltlicher Relevanz, Prominenz und Vernetzung das, was eine gute Internetsuchmaschine auszeichen würde.

    Eine Nichtberücksichtigung von Prominenz und Vernetzung ist auch nicht das Gelbe vom Ei, zumal es ja auch Internetsuchen gibt, wo man genau nach so einer Prominenz sucht.

    Ich bin auf Quaep gespannt. Mein Traum wäre: inhaltliche Suche nach persönlichem „assoziativem Profil“, Gewichtungsmöglichkeiten der drei Ranking-Faktoren (Inhalt, Vernetzung und Prominenz), Junk-Link-Filter und(!) natürlich ein großer Index.

    André

    2. Oktober 2008 at 2:45 pm

  5. lso grundsätzlich geb ich andre recht, sowohl was den Mix angeht, also auch die persönlichen Gewichtungsmöglichkeiten.
    Zu dem genannten Beispiel mit der Kosmetik aber ein Einwand, natürlich ist es möglich, das jemand tatsächlich etwas über Kosmetik (Geschichte, Herstellung etc.) erfahren will. Gerade bei dem Begriff Kosmetik ist es aber doch so, dass die meisten Leute die ihn eingeben, tatsächlich vermutlich etwas kaufen wollen. Wenn nun also nur Seiten kommen, die „Wissen“ oder Informationen über Kosmetika enthalten wäre das nicht sinnvoll.
    Ich glaube, man sollte daher entweder eine Kategoriensuche einführen, also z.B. eine Suche nur nach Onlineshop wo Kosmetik angeboten wird, eine Suche nur nach Webseiten wo über alles rund um Kosmetik informiert wird etc. So kann jeder wählen, was er braucht.
    Alternativ und fortgeschritten wäre dann noch möglich, bei solchen Suchbegriffen, die häufig auch mit Kaufabsicht eingegeben werden, einfach von vorneherein eine gewisse Auswahl an Onlineshops in die Suchergebnisse einfließen zu lassen. Bei anderen Begriffen z.B. „Goethe“ würde sich das ja erübrigen.
    Oder man könnte – dritter und letzter Vorschlag :)- den Benutzer generell einstellen lassen, welche Art von Suchbegriffen er wie stark in seinen Ergebnislisten haben will, kauft also jemand viel im Internet, dann bekommt er vorwiegend Einkaufsseiten bei seinen Suchergebnissen, nutzt jemand das Internet nur zur Recherche, dann kann er ganz auf solche Onlineshops in den Ergebnissen verzichten.
    Ob und wie genau man das dann realisiert, bzw. es sich realisieren lässt, muss man natürlich sehen, aber ich denke, irgendetwas in dieser Richtung sollte es geben, jedenfalls, wenn Queap sich auf Dauer neben Google etablieren will.

    Trundle

    2. Oktober 2008 at 6:11 pm

  6. Das Beste ist ihr stellt das Ding online. Dann werdet ihr relativ schnell ein Feedback dazu bekommen ob bzw. wie die Leute die Suche benutzen.
    Alles andere ist Spekulation.

    Gruß
    Tamim

    Tamim

    2. Oktober 2008 at 6:45 pm

  7. „… wenn Queap sich auf Dauer neben „Yahoogle“ etablieren will“, wäre ja auch eine persönliche Einstellung, bzw. Suche nach Prominenz, Vernetzung und Relevanz nicht nötig, denn dann könnten jene, die Prominenz und und Vernetzung suchen, ja bei Yahoogle und Wikipedia bleiben. Doch Queap ist etwas Anderes und Neues, wie uns Roy sicher gleich erklären wird.

    xiongshui

    2. Oktober 2008 at 6:56 pm

  8. wie es scheint, hat beides seine vor und nachteile. könnte man nicht eine art slider einfügen, der on-the-fly die sortierung zwischen prominenz und relevanz gewichtet?

    /p.

    peter bickhofe

    2. Oktober 2008 at 7:02 pm

  9. […] möchte ich Euch sehr für die Kommentare danken. Genau diese Diskussion wünschen wir uns! Daher nun auch ein ausführlicher Blogeintrag, […]


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: