Qimaya – Semantic Web

creating a semantic web

Archive for November 2008

Hannover im Advent…

with 8 comments

Klaus hat wieder mal keine Mühen gescheut euch schon jetzt eine vorweihnachtliche Freude zu bereiten. Das erste von vier vorweihnachtlichen Updates ist online! Viel Spaß mit der Hannover Edition.

Zum neuen Content gehören unter anderem das Wissensmagazin Scinexx sowie zahlreiche IT- und Kultur-URLs.

Etliche Bugs wurden behoben. Das Suchwort „Weltall“ offenbart, dass der berühmte „Weltall-Mayonnaise-Bug“ (thanx Rudy) nunmehr behoben ist. Die kleine Qim war sehr fleissig und hat auch neue Worte gelernt, zum Beispiel „eeePC“. Böse Zunge behaupten jedoch Klaus hätte sich in eines dieser kleinen EEE verliebt. Ich sage jedenfalls nichts…. 

Wie dem auch sei, der Content wächst, schrittweise. @Timon auch deine URL-Wünsche werden bedacht. Wer noch weitere URL-Vorschläge oder-Wünsche hat, bitte melden. Es liegen noch 3 Advent vor uns!

Wir freuen uns auf eurer Feedback!

Advertisements

Written by Qimaya

28. November 2008 at 4:06 pm

Veröffentlicht in Uncategorized

Webseiten Optimierung für die Qimaya Suche

with 5 comments

XiongShui mailte mir gestern mit einem Hinweis auf Seittest.

Bei Seittest geht es darum, ich zitiere:

http://www.SeitTest.de analysiert Webseiten, wie ein Mensch es tun würde. Niveau, Qualität und Lesbarkeit zählen – nicht nur Pagerank und Verlinkung

Es könnte spannend werden zu sehen, ob Seittest eines der ersten Tools ist mittels derer man bestimmen kann wie gut oder schlecht eine Webseite im Hinblick auf Neurosemantik gerankt werden würde. Ich selbst kann dazu noch keine wirkliche Aussage treffen. Letztlich müsste man genau vergleichen. Aber wenn ich XiongShui zitieren darf:

Wenn ich mir das so ansehe, scheint die Zukunft der Wissenschaft auf einem lange vernachlässigten Gebiet zu liegen, der „Mehrfachkompetenz“. Die alten Griechen dürfte das freuen, sahen sie doch die „Lehre der Sophia“ als Mutter aller Lehren an. Wenn wir die Welt holistisch begreifen wollen, müssen wir selbstverständlich auch wieder das holistische Denken lernen 😉

Dies kann ich unterschreiben. Wie ihr aus unserem Blogeinträgen sicherlich erkennen könnt, geht es um weit mehr als schnöde Mathematik. Wir kommen zurück zum Menschen…..jedenfalls emulieren wir die menschliche Gehirnstruktur. 🙂

Written by Qimaya

26. November 2008 at 10:14 am

Veröffentlicht in Uncategorized

Autor Roy: Audio Interview mit…….Qimaya

leave a comment »

Vor einigen Tagen gab ich Timon von Z!-Podcast ein Interview über Qimaya. Ab heute könnt ihr die erste Folge hören. Nächste Woche folgt der zweite Teil.

Timon gab sich mit seinen Fragen große Mühe mir das eine oder andere zu entlocken. Ich denke es wird aber auch so sehr informativ sein, ein paar grundsätzliche Dinge zum Ziel Semantik für alle zu erstellen, zu erfahren.

Hört selbst!

Written by Qimaya

24. November 2008 at 9:38 pm

Veröffentlicht in Uncategorized

Tagged with ,

Eintrag by Roy: Intelligenz unter sich, die Fragen und Antworten auf Qimaya

with 6 comments

Wir halten viel davon, wenn Nutzer nicht mehr „nur“ Konsumenten sind, sondern Teil des Webs werden. Ein semantisches Web lebt vom Geben und Nehmen.

Aber richtig spannend wird es durch Nutzer, die sich frei machen von bisherigen Konventionen und Intelligenz auf einer natürlichen Ebene begreifen. Exemplarisch möchte ich hier Rudi vorstellen. Die Fragen und Antworten von Rudi und Klaus gehen in die Tiefe……..

Rudi:

Wie bringt ihr der kleinen Qim bei, dass “Bindfäden”, “Bindfadens” und “Bindfaden” eigentlich dasselbe bezeichnet? Gar nicht? Käme das nicht auch dem Speicherplatz zugute?

Oder Eigennamen… kann bzw. wird die Kleine Eigennamen identifizieren können? Denn z.Z. schlägt sie beispielsweise “Kate” gleich wie “Moss” vor, ein Vorschlag “Kate Moss” wäre mE aber sinnvoller. Wenn ich beispielsweise nach “Paris” suche, bekomme ich “Hilton” auch vorgeschlagen. Eigentlich Unsinn, oder etwa nicht? Wird “Paris Hilton” und alles um diese Person nicht als eine Informationsgruppe behandelt und ganz irgendwo liegen als Informationen über Frankreich? Fragen über Fragen… würde mich nur interessieren. Ich meine, wenn ich “Hilton” höre denke ich natürlich an Paris Hilton, Hilton-Hotels, … wenn ich “Paris” höre (jetzt mal Betonung wegdenken) an den Eifelturm, Louvre, Frankreich… aber doch erst weit entfernt an die Hilton. Lernt Qim das auch?

Klaus:

yep. Nennt sich Entity Recognition und ist eines der Features aus unserer Pipeline…
Rudy, Du antizipierst extrem gut. Hut ab!

Rudi:

Danke für die Blumen! Darf ich dann noch etwas löchern? Ich kann mir anhand des klingenden Namens denken, dass die Entity Recognition nebst der genannten Eigennamen (ich nehme an da fallen auch andere Wortkombinationen darunter, die man im Gedächtnis als Entität auffassen würde) auch Nomen (oder Verben) und deren Deklinationen in eine Wolke zusammenfassen kann (cmiiw).

Wie kann Qim nun wissen, welches das nicht deklinierte Nomen oder Verb ist? Mir ist aufgefallen, dass öfters Deklinationen von Bezeichnungen verwandter Themen vorgeschlagen werden. Kann Qim das ganz alleine, oder braucht sie da eine Art Blaupause der jeweiligen Sprache, also zusätzlichen Input eurerseits? Wird sie weiter Deklinationen vorschlagen, erkennt sie den Wortstamm und schlägt diesen vor oder unterscheidet sich das dann von Fall zu Fall?

Da gibt es ja noch weitere sprachliche Unarten, wie die dank der NDR immer häufig vorkommenden Trennungen zusammengesetzter Wörter… suche ich nach “Bildzeitung”, schlägt Qim sinngemäß “Brüste” vor (kein Scherz, voll der Lacher :D), bei “Bild-Zeitung” hingegen den Verlag “Springer”. “Bild Zeitung” scheint mehr eine allgemeine Suche nach “Zeitung” gewichtet nach “Bild” zu sein, von Brüsten und Springer weit und breit nichts zu sehen. Sie unterscheidet also “Bild-Zeitung” und “Bild Zeitung” erheblich. Muss, kann, soll sie überhaupt lernen dass das wahrscheinlichste ist, dass der Suchende die Bild Zeitung meint und nicht ein Bild in irgend ‘ner Zeitung (sofern ich nicht die Suche weiter verfeinere, sollte ich tatsächlich igendjemandes Bild in der Zeitung suchen)? Lässt sich das so überhaupt festmachen? Sorry für die Fragerei, ich will Dir auch keine Betriebsgeheimnisse entlocken 😉

Klaus:

Die Mustererkennung mittels neuronaler Netze erlaubt die Detektion von “Zweiwortbegriffen”. Beispiele für Zweiwortbegriffe sind “Paris Hilton”, “Deutsche Bahn” oder “Angela Merkel”.
Solche Begriffe werden künftig – sinnigerweise – in der Wolke auch zusammenstehend angezeigt.

Entity Recognition geht nun einen Schritt weiter. Nimmt man externes Wissen hinzu – etwa eine Liste weiblicher Vornamen – dann kann das Netz den Zweiwortbegriff “Angela Merkel” als Personennamen deuten. Durch die Kategorienzurodnung “Politik” kommt das Netz dann zu der Hypothese, “Angela Merkel” sei eine Politikerin. Damit könnte Qimaya ja Recht haben…

Wie gesagt, wir werden noch einige technische Themen im Blog aufgreifen. Außerdem freuen wir uns natürlich über das Interesse an unserer Technologie!

Rudi:

Kann man denn allein mit Zweiwortbegriffen genügend abdecken? U-Bahn-Trasse oder E-Mail-Adresse fallen da auch darunter? Und wie ist das dann mit den Deklinationen? Im Satz “Angela Merkels Auto ist rosa.” ist “Merkels” dekliniert (nein, kein Apostroph! ^^), Qim liest das, meint die dann die Dame heißt “Merkels” und schlägt mir bei “rosa Auto” “Merkels” vor? Gibt es hier auch einen externen Input, also die angesprochene Blaupause der Sprache, sodass sie mir “Merkel” vorschlägt? “Viele Autos fahren in Roms Straßen.” … führt das dann zu RomsAutos (so wie es momentan scheint) oder erwartungsgemäß zu “Rom” “Auto”? … ich hab da noch einige Fragen, über einen Blog-Eintrag wo man darüber quatschen kann würde ich mich freuen.

Klaus:

Gut. Ich möchte nur etwas grundsätzliches kurz anfügen.
Als (Ex-)Hirnforscher sehe ich die Dinge so: ZUERST gab es unsere assoziative Großhirnrinde mit einem POTENTIAL für Sprache. Danach haben sich Sprache und Grammatik als eine Realisierungsform von Assoziation entwicklelt.

Hier grenzt sich Qimaya strikt von anderen Ansätzen ab, wo etwa Ontologien und/oder Thesauri und Grammatik-Funktionen als das Primäre betrachtet werden.

Das Schöne bei uns ist ja, dass alle Assoziationen vollautomatisch entstehen, (auch Bild-Zeitung = Brüste etc.). Wie sagt man so schön: Kindermund tut Wahrheit kund.

OPTIONAL können bei Qimaya dann externe Ressourcen hinzugefügt werden, um das Kind in bestimmte Bahnen zu lenken.
Nur: Das hat aus unerer Sicht keinerlei Priorität.

Artefakte in den Rohdaten (Dubletten, Klappentexte etc) beeinflussen im Moment noch die Qualität der Assoziationen.

Mit jedem Update werden Qimayas Gedanken klarer und differenzierter. Dort, wo hinreichend Content zugrunde liegt (etwa in den Bereichen Politik und Umwelt), sind die Assoziationsfelder schon eine Art Kurzbeschreibung des Suchworts.

Qimaya pur ist meines Erachtens die Wolke zu “Müntefering”. Hier sind nämlich nicht nur die für Franz Müntefering wichtigen Personen assoziiert, sondern zB auch das für ihn wichtige Thema “Mindestlohn”.
Unser Anspruch ist es, dass unsere mathematischen Modelle der Assoziation – dabei spielt Informationstheorie eine sehr grosse Rolle – letzten Endes zu den gleichen Assoziationen führen, die auch ein Mensch hätte, der alle FAZ, Tagesschau, SPIEGEL-Seiten etc. gelesen hätte.

Dadurch, dass wir uns nicht an statische Ontologien binden, können wir diese Assoziationsfelder blitzschnell neu berechnen. Man könnte fragen: Was ist das Assoziationsfeld von Müntefering im Jahr 2005? Oder: Was ist das Assoziationsfeld in der Kategorie Wirtschaft? (Vielleicht “Heuschrecke”??)

Übrigens: Die Berechnung eines Assoziationsfeldes auf dem Backend-Server dauert nur ca. 160 Mikrosekunden. (Noch ohne Sparc-Prozessoren, auf die wir uns natürlich freuen).

Real-Life-Quatschen mit Roy und mir ist übrigens auf dem Barcamp Hamburg möglich.

Rudi:

Danke für diese ersten Einblicke, jetzt verstehe ich die Rolle der Grammatik im neuronalen Netz besser. Die Ausprägung der sprachlichen Feinheiten geht also Hand in Hand mit steigender Zahl an Assoziationen und Vergrößerung des neuronalen Netzes, à la “Lesen kann ich ja schon mal… und je mehr ich lese, desto besser spreche ich die Sprache dessen, was ich gelesen habe, und verstehe es auch.” Sehr spannend, ich kann gut verstehen, dass Du schon so viele Jahre daran forschst.

Written by Qimaya

22. November 2008 at 11:06 am

Veröffentlicht in Uncategorized

Autor Roy: Html-Index und Speicher, erfahrt mehr über Qimaya

with 13 comments

Viele Mails und Kommentare erreichten uns in den letzten zwei Tagen. Die Antworten sind schon raus und die Kommentare haben ein Reply.

Ein paar Dinge möchten wir euch jedoch noch als Schmankerl für euer großes Engagement geben. Technik!!! Nicht gähnen, ist lustig, für uns jedenfalls.

Qimaya basiert derzeit auf ca. 400 URL´s. Richtig, so wenig! Aber wird mehr, versprochen. Diese 400 URL´s führen zu einem Index von ca. 3.500.000 Html-Seiten. Da es ja hier nicht um den Wettbewerb geht, wer den größten Index hat (sonst wären wir wahrscheinlich auch längst nicht in die Passwortphase gegangen), kann man diesen kleinen Html-Index durchaus erwähnen. Denn, und jetzt Butter bei de Fische, die besagten 3.500.000 Html-Seiten sind letztlich nur ein Bruchteil der eigentlich indexierten, aber wiederum ausgeworfenen Html-Seiten.

Unverständlich? Wie kann das sein?

Ganz einfach, jeder kennt die unzähligen Druck-, eMail- und Trackback- und Kommentarversionen auf Webseiten. Ganz gleich ob auf kommerziellen oder privaten Seiten. Jeder Inhalt ist oftmals X-fach auf der gecrawlten URL vorhanden. Hierdurch entstehen z.B. auch Dubletten. Qimaya filtert diese natürlich heraus, was zur Folge hat, dass jedesmal wenn ihr uns einen solchen „Bug“ meldet unser Index an Html-Seiten „fällt“.

Hört sich negativ an, ist es aber gar nicht. Ganz im Gegenteil. Wir lieben euch dafür, dass ihr uns diese „Bugs“ nennt.

Was heißt das jetzt aber für den Speicher. Nun ja, auch dieser wird immer leerer. Leer hört sich so an, als wenn man in einen Brunnen schauen würde, in dem man das Wasser am Grund nicht erblicken kann.

In Erwartung eines Speichermonsters haben wir sehr viel Arbeit (gerade jene, die man nicht von außen erblickt) in die Abbildung einer der natürlichsten Eigenschaften des neuronalen Netzes investiert. Die neuronale Komprimierung von Daten. Vergleichbar mit der Komprimierung des menschlichen Gehirns. Nix Hemmung oder Vergessen, KOMPRIMIERUNG.

Besagte 3.500.000 Html-Seiten ensprechen mehreren Tera-Byte an Datensätzen. Die Webseitenbetreiber nicken jetzt ganz eifrig.

Die ca. 3.500.000 Html-Seiten kosten uns derzeit 286 MB Speicherplatz!!!!

Und je mehr Bugs/Dubletten beseitigt werden, umso geringer ist der benötigte Speicherplatz. Ihr werdet es uns zwar jetzt eh nicht mehr glauben, aber wer vor lauter Kopfschütteln diesen Satz noch lesen kann, dem sei eine Rückblende gegönnt. Bevor ihr uns diese „Bugs“ nanntet, hatten wir einen Index mit knapp über 300 MB Speicherplatz.

KEIN SCHERZ. Speicherplatz wird jedenfalls für Qimaya kein Problem.  😉

Written by Qimaya

17. November 2008 at 8:47 pm

Veröffentlicht in Uncategorized

Autor Roy: 2. Passworttranche und Bugs, die wir noch gar nicht kannten

with 9 comments

Die 2. Passworttranche ist ausgegeben. Wer noch ein Passwort erhalten möchte, möge sich bitte bei mir bzw. in den Kommetaren melden. Ich habe hier noch ein paar „herumliegen“.

Wie wir sehen, seid ihr fleißig am testen. Und die ersten Reaktionen sind auch schon in den Kommentaren sichtbar. So schrieb Rudy:

Weltall und Mayonnaise ist sehr interessant. Wie das kommt… ^^ Ich hab derer viele gefunden. Was soll ich damit machen, hier posten oder zuschicken, oder gibt sich das von alleine, wenn der Index wächst? Und X Dubletten, Suchergebnisse ohne Titel, Suchergebnisse die “kaputt” schienen… war nicht anders zu erwarten, als Programmierer weiß ich was ne Alpha ist Also, was genau ist wirklich interessant für euch, dass ich da nicht was reporte was “kein Schwein” interessiert

Übrigens gibts einen Escape-Bug mit Double-Quotes. Suche ich “Hello World” (was mir natürlich die ersten Cover der Jolie Twins bringt) hab ich dann “\” im Suchfeld stehen.

Sowie

Ok, dann werd ich mal alles erfassen wenn ich wieder mal teste und peu à peu mailen, dann bleibt die Übersicht hier erhalten. Der Zusammenhang zwischen Weltall und Mayonnaise scheint mir irgendwo bei Columbus zu liegen… wobei das … na ja, häh? Ich wäre gespannt auf einige Hintergründe, um zu verstehen, wie die kleine tickt, das macht die Bugreports dann auch präziser.

Es ist irre lustig da in den Wirrungen zu schmökern, und nicht selten kann ich da herzhaft lachen. Beruhigend ist, dass die Grundschülerin die Frage “Wer bist Du?” nicht beantworten kann und “Qimaya” mit “Achsenbruch” assoziiert.

Was heißt denn “Warning: unpack(): unpack() [function.unpack]: Type l: not enough input, need 4, have 0 in /var/www/domains/queap.com/get-link-weimar2.php on line 20

Das Kind braucht “Input” bei Achsenbruch!

Jegliche Auffälligkeiten bitte an Klaus.Holthausen ett Qimaya.de oder an mich, Roy.Uhlmann ett Qimaya.de, senden. Wir nehmen eure Anmerkungen nicht nur auf, sondern freuen uns über jeden Bug, den ihr findet. Ich denke, ich muss nicht erklären warum.

Großen Dank an Rudi, deine Anmerkungen der letzten 2 Stunden haben uns enorm weiter gebracht.

Durch deine Suchanfragen wurde klar, dass bestimmte Seiten falsch gecrawled wurden. (Auch
Sites, wie tagblatt.ch, die bisher nie aufgefallen waren). Uns ist es ein Rätsel wieso. Aber jetzt wurde dieser Fehler überhaupt erst sichtbar. Wir werden jetzt unseren manuellen Crawler durch einen anderen …äh… Anbieter ersetzen. Hierdurch können wir schon einmal den größten „Bug“ beheben.
Desweiteren gibt es noch eine Framebug in der taz, daher Weltraum <> Mayonnaise. Dieser Framebug hart zur Folge, dass ein Frameinhalt als artikelrelevanter Inhalt der Webseite identifiziert wird. Bei bestimmten Webseiten gab es dieses Problem früher auch schon einmal, schön, dass Rudy eine weitere Möglichkeit für einen solchen Bug aufgespürt hat. Großes Danke.

Bitte gebt uns mehr.

Also schön weiter testen unter http://www.Qimaya.de

Written by Qimaya

16. November 2008 at 8:17 pm

Veröffentlicht in Uncategorized

Autor Roy: Wir können anfangen zu zählen…

with 5 comments

Wie bereits angekündigt werden wir am Sonntag die 2. Passworttranche ausliefern. Noch heute erfolgt ein größeres Update sowie einige Arbeiten am Front-end.

Das Poblem des noch sehr geringen Indexes von ca. 3 Millionen Seiten ist, wie ihr euch vorstellen könnt, bis dahin natürlich nicht behebbar. Nun ja….wer sich ein wenig auskennt weiß, dass dies ein stetiger Prozeß ist. Denn einen Index kann man schließlich schlecht bei Media Markt kaufen.

Daher möchte wir euch bitten bei Qimaya vor allem auf die technischen Gegebenheiten hinweisen. Gerade an diesen könnt ihr die künftigen Möglichkeiten neuronale Netze erkennen. Artverwandte Themen sowie eine automatische Kategorisierung der Suchergebnisse sind zwei Stichpunkte dazu.

Nun denn, wir müssen weitermachen, freut euch auf euer künftiges Passwort…

Written by Qimaya

14. November 2008 at 2:27 pm

Veröffentlicht in Uncategorized