Qimaya – Semantic Web

creating a semantic web

Eintrag by Roy: Intelligenz unter sich, die Fragen und Antworten auf Qimaya

with 6 comments

Wir halten viel davon, wenn Nutzer nicht mehr „nur“ Konsumenten sind, sondern Teil des Webs werden. Ein semantisches Web lebt vom Geben und Nehmen.

Aber richtig spannend wird es durch Nutzer, die sich frei machen von bisherigen Konventionen und Intelligenz auf einer natürlichen Ebene begreifen. Exemplarisch möchte ich hier Rudi vorstellen. Die Fragen und Antworten von Rudi und Klaus gehen in die Tiefe……..

Rudi:

Wie bringt ihr der kleinen Qim bei, dass “Bindfäden”, “Bindfadens” und “Bindfaden” eigentlich dasselbe bezeichnet? Gar nicht? Käme das nicht auch dem Speicherplatz zugute?

Oder Eigennamen… kann bzw. wird die Kleine Eigennamen identifizieren können? Denn z.Z. schlägt sie beispielsweise “Kate” gleich wie “Moss” vor, ein Vorschlag “Kate Moss” wäre mE aber sinnvoller. Wenn ich beispielsweise nach “Paris” suche, bekomme ich “Hilton” auch vorgeschlagen. Eigentlich Unsinn, oder etwa nicht? Wird “Paris Hilton” und alles um diese Person nicht als eine Informationsgruppe behandelt und ganz irgendwo liegen als Informationen über Frankreich? Fragen über Fragen… würde mich nur interessieren. Ich meine, wenn ich “Hilton” höre denke ich natürlich an Paris Hilton, Hilton-Hotels, … wenn ich “Paris” höre (jetzt mal Betonung wegdenken) an den Eifelturm, Louvre, Frankreich… aber doch erst weit entfernt an die Hilton. Lernt Qim das auch?

Klaus:

yep. Nennt sich Entity Recognition und ist eines der Features aus unserer Pipeline…
Rudy, Du antizipierst extrem gut. Hut ab!

Rudi:

Danke für die Blumen! Darf ich dann noch etwas löchern? Ich kann mir anhand des klingenden Namens denken, dass die Entity Recognition nebst der genannten Eigennamen (ich nehme an da fallen auch andere Wortkombinationen darunter, die man im Gedächtnis als Entität auffassen würde) auch Nomen (oder Verben) und deren Deklinationen in eine Wolke zusammenfassen kann (cmiiw).

Wie kann Qim nun wissen, welches das nicht deklinierte Nomen oder Verb ist? Mir ist aufgefallen, dass öfters Deklinationen von Bezeichnungen verwandter Themen vorgeschlagen werden. Kann Qim das ganz alleine, oder braucht sie da eine Art Blaupause der jeweiligen Sprache, also zusätzlichen Input eurerseits? Wird sie weiter Deklinationen vorschlagen, erkennt sie den Wortstamm und schlägt diesen vor oder unterscheidet sich das dann von Fall zu Fall?

Da gibt es ja noch weitere sprachliche Unarten, wie die dank der NDR immer häufig vorkommenden Trennungen zusammengesetzter Wörter… suche ich nach “Bildzeitung”, schlägt Qim sinngemäß “Brüste” vor (kein Scherz, voll der Lacher :D), bei “Bild-Zeitung” hingegen den Verlag “Springer”. “Bild Zeitung” scheint mehr eine allgemeine Suche nach “Zeitung” gewichtet nach “Bild” zu sein, von Brüsten und Springer weit und breit nichts zu sehen. Sie unterscheidet also “Bild-Zeitung” und “Bild Zeitung” erheblich. Muss, kann, soll sie überhaupt lernen dass das wahrscheinlichste ist, dass der Suchende die Bild Zeitung meint und nicht ein Bild in irgend ‘ner Zeitung (sofern ich nicht die Suche weiter verfeinere, sollte ich tatsächlich igendjemandes Bild in der Zeitung suchen)? Lässt sich das so überhaupt festmachen? Sorry für die Fragerei, ich will Dir auch keine Betriebsgeheimnisse entlocken😉

Klaus:

Die Mustererkennung mittels neuronaler Netze erlaubt die Detektion von “Zweiwortbegriffen”. Beispiele für Zweiwortbegriffe sind “Paris Hilton”, “Deutsche Bahn” oder “Angela Merkel”.
Solche Begriffe werden künftig – sinnigerweise – in der Wolke auch zusammenstehend angezeigt.

Entity Recognition geht nun einen Schritt weiter. Nimmt man externes Wissen hinzu – etwa eine Liste weiblicher Vornamen – dann kann das Netz den Zweiwortbegriff “Angela Merkel” als Personennamen deuten. Durch die Kategorienzurodnung “Politik” kommt das Netz dann zu der Hypothese, “Angela Merkel” sei eine Politikerin. Damit könnte Qimaya ja Recht haben…

Wie gesagt, wir werden noch einige technische Themen im Blog aufgreifen. Außerdem freuen wir uns natürlich über das Interesse an unserer Technologie!

Rudi:

Kann man denn allein mit Zweiwortbegriffen genügend abdecken? U-Bahn-Trasse oder E-Mail-Adresse fallen da auch darunter? Und wie ist das dann mit den Deklinationen? Im Satz “Angela Merkels Auto ist rosa.” ist “Merkels” dekliniert (nein, kein Apostroph! ^^), Qim liest das, meint die dann die Dame heißt “Merkels” und schlägt mir bei “rosa Auto” “Merkels” vor? Gibt es hier auch einen externen Input, also die angesprochene Blaupause der Sprache, sodass sie mir “Merkel” vorschlägt? “Viele Autos fahren in Roms Straßen.” … führt das dann zu RomsAutos (so wie es momentan scheint) oder erwartungsgemäß zu “Rom” “Auto”? … ich hab da noch einige Fragen, über einen Blog-Eintrag wo man darüber quatschen kann würde ich mich freuen.

Klaus:

Gut. Ich möchte nur etwas grundsätzliches kurz anfügen.
Als (Ex-)Hirnforscher sehe ich die Dinge so: ZUERST gab es unsere assoziative Großhirnrinde mit einem POTENTIAL für Sprache. Danach haben sich Sprache und Grammatik als eine Realisierungsform von Assoziation entwicklelt.

Hier grenzt sich Qimaya strikt von anderen Ansätzen ab, wo etwa Ontologien und/oder Thesauri und Grammatik-Funktionen als das Primäre betrachtet werden.

Das Schöne bei uns ist ja, dass alle Assoziationen vollautomatisch entstehen, (auch Bild-Zeitung = Brüste etc.). Wie sagt man so schön: Kindermund tut Wahrheit kund.

OPTIONAL können bei Qimaya dann externe Ressourcen hinzugefügt werden, um das Kind in bestimmte Bahnen zu lenken.
Nur: Das hat aus unerer Sicht keinerlei Priorität.

Artefakte in den Rohdaten (Dubletten, Klappentexte etc) beeinflussen im Moment noch die Qualität der Assoziationen.

Mit jedem Update werden Qimayas Gedanken klarer und differenzierter. Dort, wo hinreichend Content zugrunde liegt (etwa in den Bereichen Politik und Umwelt), sind die Assoziationsfelder schon eine Art Kurzbeschreibung des Suchworts.

Qimaya pur ist meines Erachtens die Wolke zu “Müntefering”. Hier sind nämlich nicht nur die für Franz Müntefering wichtigen Personen assoziiert, sondern zB auch das für ihn wichtige Thema “Mindestlohn”.
Unser Anspruch ist es, dass unsere mathematischen Modelle der Assoziation – dabei spielt Informationstheorie eine sehr grosse Rolle – letzten Endes zu den gleichen Assoziationen führen, die auch ein Mensch hätte, der alle FAZ, Tagesschau, SPIEGEL-Seiten etc. gelesen hätte.

Dadurch, dass wir uns nicht an statische Ontologien binden, können wir diese Assoziationsfelder blitzschnell neu berechnen. Man könnte fragen: Was ist das Assoziationsfeld von Müntefering im Jahr 2005? Oder: Was ist das Assoziationsfeld in der Kategorie Wirtschaft? (Vielleicht “Heuschrecke”??)

Übrigens: Die Berechnung eines Assoziationsfeldes auf dem Backend-Server dauert nur ca. 160 Mikrosekunden. (Noch ohne Sparc-Prozessoren, auf die wir uns natürlich freuen).

Real-Life-Quatschen mit Roy und mir ist übrigens auf dem Barcamp Hamburg möglich.

Rudi:

Danke für diese ersten Einblicke, jetzt verstehe ich die Rolle der Grammatik im neuronalen Netz besser. Die Ausprägung der sprachlichen Feinheiten geht also Hand in Hand mit steigender Zahl an Assoziationen und Vergrößerung des neuronalen Netzes, à la “Lesen kann ich ja schon mal… und je mehr ich lese, desto besser spreche ich die Sprache dessen, was ich gelesen habe, und verstehe es auch.” Sehr spannend, ich kann gut verstehen, dass Du schon so viele Jahre daran forschst.

Written by Qimaya

22. November 2008 um 11:06 am

Veröffentlicht in Uncategorized

6 Antworten

Subscribe to comments with RSS.

  1. @Roy: danke für diese „exemplarische Vorstellung“ und den dick aufgetragenen Titel ^^ da trau ich mich fast nicht weiter zu fragen, aber die Neugier überwiegt.

    Die Beispiele „U-Bahn-Trasse“ und „E-Mail-Adresse“ waren von mir unglücklich gewählt, für die Frage, ob Qims Verständnissystem diese abdecken. Es scheint momentan ja so zu sein, dass der Bindestrich ohne Leerstelle für Qim aus mehreren Wörtern bereits jetzt eines macht (Beispiel die Bild-Zeitung, Make-Up, Ph-Wert, E-Mail-Adresse ist auch bereits drin), vielmehr wäre richtig gewesen zu fragen, ob die Entity-Recognition für Zweiwortbegriffe bei 3-Wort Entitäten wie „Bader Meinhof Komplex“, „Alice im Wunderland“ oder „Anna Sophia Müller“ reichen. Tun sie das, oder wird die Entity-Recognition hier noch erweitert?

    Und was den Satz „Viele Autos fahren in Roms Straßen“ angeht… das erwartungsgemäße Ergebnis war ebenfalls nur bis etwas vor die Nasenspitze von mir gedacht. Qim wäre intelligent, würde sie durch diese Aussage „Rom“ mit „Verkehr“ assoziieren, da „Viele Autos“ in Verbindung mit „Straße“ unmittelbar auf Verkehr schließen lassen. Kann Qim solche Rückschlüsse ziehen, oder geht sie nicht so in die Tiefe, bleibt sie also bei „Rom“ „Autos“ (immer angenommen, sie hätte alle verfügbaren Informationen bereits in ihr Netz aufgenommen).

    Weiters würde mich interessieren, wie Qim mit ambivalenten Begriffen wie z.B. „Krake“, einerseits in Verbindung mit Großindustrien und andererseits mit „Wissenschaft“ umgeht. Kann sie da alleine aufgrund der zugrundeliegenden Thematik verstehen, was der eine Krake und die andere Krake ist? Legt sie also zwei Informationsgruppen um „Krake“ an oder behandelt sie das als „Krake“ -> Wirtschaft: schnell wachsende Großkonzerne, Wissenschaft: Kopffüßer, Weichtier? Was ist dann, wenn ich allgemein nach „Krake“ suche, ohne das Assoziationsfeld auszuwählen? Die Informationen werden bunt gemischt, oder die überwiegende Information (die natürliche Bedeutung aus der Wissenschaft oder was Qim jetzt ohne Thesauri denkt, das die natürliche Bedeutung sei) wird angezeigt? Sagt jemand „Krake“, denke ich zuerst an einen Kopffüßer, aber andererseits ein Mensch aus der Wirschaft wird eher an die Industrie denken. Wahrscheinlich muss Qim hier nutzerorientiert entscheiden, was anzuzeigen ist, also die Nutzerpräferenzen kennen… das ist aber langweilig, viel interessanter wäre: was würde sie von sich aus präsentieren?

    Und abschließend die Assoziationsfelder: lassen diese sich wie bei Dr.Know aus A.I. (ruhig lachen, ist gesund =)) miteinander kombinieren? Momentan ist nur eine selektive Angabe des Themenbereichs möglich, aber für themenübergreifende Begriffe hätten kombinierte Assoziationsfelder mE andere, treffendere Ergebnisse zur Folge. Wird diese Funktion möglich sein?

    Rudy

    23. November 2008 at 11:52 am

  2. Hallo Rudy,

    Du bist ein echtes Antizipationstalent. Ja, ganz richtig: Die Ausweitung auf „Drei-Wort-Begriffe“ ist nur eine relativ kleine Erweiterung. Dafür brauchen wir die Basisalgorithmen nicht erweitern.

    Und die verschiedenen Kraken kann man a) aufgrund der verschiedenen Themenkategorien unterscheiden b) wir haben ein Tool, (Visual Qimaya), dass die vollautomatische Clusterung anzeigen kann.

    Vielleicht haben wir mal die Möglichkeit, im real life die Dinge zu betrachten.

    Qimaya42

    25. November 2008 at 10:24 am

  3. Ich hoffe auch, dass wir bald mal die Gelegenheit auf einen Plausch bekommen. Visual Qimaya würde mich brennend interessieren.

    Zwecks der Themenbereichauswahl, wird sich hier also auch eine Schnittmenge oder Vereinigungsmenge bilden lassen, oder bleiben die weiterhin einzeln?

    Und… wie viele Easter-Eggs außer dem Eliza-Alert sind in Qimaya noch versteckt? Muss ich suchen?

    Rudy

    26. November 2008 at 4:50 pm

  4. Ups. Der Eliza-Alert ist noch nicht ans neue Frontend angepasst. Schon mal „42“ probiert? Ist meine Lieblingsfrage🙂

    Naja, über weitere Easter Eggs kann man nur spekulieren. Aber zum 1. Advent kommt die Hannover Edition.

    Qimaya42

    26. November 2008 at 5:25 pm

  5. Hannover? Dachte jetzt kommt Paderborn?

    Rudy

    26. November 2008 at 7:24 pm

  6. Ups. Paderborn ist uns kaputt gegangen. Sorry. Aber: Bekanntlich ist Hannover vieeeel größer als Paderborn🙂

    Qimaya42

    26. November 2008 at 9:04 pm


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: