Qimaya – Semantic Web

creating a semantic web

Autor Roy: Html-Index und Speicher, erfahrt mehr über Qimaya

with 13 comments

Viele Mails und Kommentare erreichten uns in den letzten zwei Tagen. Die Antworten sind schon raus und die Kommentare haben ein Reply.

Ein paar Dinge möchten wir euch jedoch noch als Schmankerl für euer großes Engagement geben. Technik!!! Nicht gähnen, ist lustig, für uns jedenfalls.

Qimaya basiert derzeit auf ca. 400 URL´s. Richtig, so wenig! Aber wird mehr, versprochen. Diese 400 URL´s führen zu einem Index von ca. 3.500.000 Html-Seiten. Da es ja hier nicht um den Wettbewerb geht, wer den größten Index hat (sonst wären wir wahrscheinlich auch längst nicht in die Passwortphase gegangen), kann man diesen kleinen Html-Index durchaus erwähnen. Denn, und jetzt Butter bei de Fische, die besagten 3.500.000 Html-Seiten sind letztlich nur ein Bruchteil der eigentlich indexierten, aber wiederum ausgeworfenen Html-Seiten.

Unverständlich? Wie kann das sein?

Ganz einfach, jeder kennt die unzähligen Druck-, eMail- und Trackback- und Kommentarversionen auf Webseiten. Ganz gleich ob auf kommerziellen oder privaten Seiten. Jeder Inhalt ist oftmals X-fach auf der gecrawlten URL vorhanden. Hierdurch entstehen z.B. auch Dubletten. Qimaya filtert diese natürlich heraus, was zur Folge hat, dass jedesmal wenn ihr uns einen solchen “Bug” meldet unser Index an Html-Seiten “fällt”.

Hört sich negativ an, ist es aber gar nicht. Ganz im Gegenteil. Wir lieben euch dafür, dass ihr uns diese “Bugs” nennt.

Was heißt das jetzt aber für den Speicher. Nun ja, auch dieser wird immer leerer. Leer hört sich so an, als wenn man in einen Brunnen schauen würde, in dem man das Wasser am Grund nicht erblicken kann.

In Erwartung eines Speichermonsters haben wir sehr viel Arbeit (gerade jene, die man nicht von außen erblickt) in die Abbildung einer der natürlichsten Eigenschaften des neuronalen Netzes investiert. Die neuronale Komprimierung von Daten. Vergleichbar mit der Komprimierung des menschlichen Gehirns. Nix Hemmung oder Vergessen, KOMPRIMIERUNG.

Besagte 3.500.000 Html-Seiten ensprechen mehreren Tera-Byte an Datensätzen. Die Webseitenbetreiber nicken jetzt ganz eifrig.

Die ca. 3.500.000 Html-Seiten kosten uns derzeit 286 MB Speicherplatz!!!!

Und je mehr Bugs/Dubletten beseitigt werden, umso geringer ist der benötigte Speicherplatz. Ihr werdet es uns zwar jetzt eh nicht mehr glauben, aber wer vor lauter Kopfschütteln diesen Satz noch lesen kann, dem sei eine Rückblende gegönnt. Bevor ihr uns diese “Bugs” nanntet, hatten wir einen Index mit knapp über 300 MB Speicherplatz.

KEIN SCHERZ. Speicherplatz wird jedenfalls für Qimaya kein Problem.  ;)

About these ads

Written by Qimaya

17. November 2008 at 8:47 nachmittags

Veröffentlicht in Uncategorized

13 Antworten

Subscribe to comments with RSS.

  1. @Speicherbedarf: 300MB für 3.5Mio HTML-Docs?

    Was mir so spontan einfallen würde:

    a) Indexes (wie bei einer DB), die eigentlich nur eine Art Pointer sind, selbst keine Infos enthalten sondern nur (ver)linken?

    b) Hashwerte; getaggte, hierarchisch eingeordnete, gehashte letzt-gecrawlte Version der HTML-Docs?

    c) Vogonen-Technologie?

    Grüße aus Wien, M.

    martinwaiss

    18. November 2008 at 6:49 vormittags

  2. Lässt sich das linear hochrechnen auf, sagen wir mal 120Mrd Seiten, oder ist das Schwankungen unterworfen, je nachdem, welche Informationen gefunden werden, also ob es bereits vergleichbares im Index gibt?

    Rudy

    18. November 2008 at 12:07 nachmittags

  3. @martin Keine Pointer oder Hashwerte, wie Klaus schon einmal, ziemlich am Anfang, im Blog schrieb. Ganz anders.

    @Rudy Das ist natürlich Schwankungen unterworfen, da ja auch jede Seite “anders” ist. Textumfang, sonstiges…

    Jedoch lässt sich sagen, dass die “dicken Dinger” im Index sind. Insofern halten sich die Überraschungen nach oben in Grenzen.

    Es gibt natürlich bei uns Berechnungen, aber dazu später mal mehr.

    Klaus wird zum Bereich Serverkapazitäten ect. später auch noch einen eigenen Bericht schreiben.

    Vielleicht auch wie es funktioniert, wenn er Lust hat. ;)

    Qimaya

    18. November 2008 at 12:27 nachmittags

  4. Ob die Vogonen Hash genommen haben, entzieht sich meiner Kenntnis. Und glaubt mir: Wie es funktioniert, wenn ich Lust habe, wollt ihr gar nicht wissen :-)

    Hint: Zum Qimaya-Index lohnt es sich, auf den allerersten Blogeintrag zurückzublättern. Stichwort 42.
    Nächste Woche dann ein weiterer Artikel dazu. Heute wird erst einmal die “Paderborn Edition” vollendet…

    Qimaya42

    18. November 2008 at 1:59 nachmittags

  5. Wie bringt ihr der kleinen Qim bei, dass “Bindfäden”, “Bindfadens” und “Bindfaden” eigentlich dasselbe bezeichnet? Gar nicht? Käme das nicht auch dem Speicherplatz zugute?

    Oder Eigennamen… kann bzw. wird die Kleine Eigennamen identifizieren können? Denn z.Z. schlägt sie beispielsweise “Kate” gleich wie “Moss” vor, ein Vorschlag “Kate Moss” wäre mE aber sinnvoller. Wenn ich beispielsweise nach “Paris” suche, bekomme ich “Hilton” auch vorgeschlagen. Eigentlich Unsinn, oder etwa nicht? Wird “Paris Hilton” und alles um diese Person nicht als eine Informationsgruppe behandelt und ganz irgendwo liegen als Informationen über Frankreich? Fragen über Fragen… würde mich nur interessieren. Ich meine, wenn ich “Hilton” höre denke ich natürlich an Paris Hilton, Hilton-Hotels, … wenn ich “Paris” höre (jetzt mal Betonung wegdenken) an den Eifelturm, Louvre, Frankreich… aber doch erst weit entfernt an die Hilton. Lernt Qim das auch?

    Rudy

    18. November 2008 at 7:12 nachmittags

  6. yep. Nennt sich Entity Recognition und ist eines der Features aus unserer Pipeline…
    Rudy, Du antizipierst extrem gut. Hut ab!

    Qimaya42

    18. November 2008 at 7:20 nachmittags

  7. Danke für die Blumen! Darf ich dann noch etwas löchern? ;) Ich kann mir anhand des klingenden Namens denken, dass die Entity Recognition nebst der genannten Eigennamen (ich nehme an da fallen auch andere Wortkombinationen darunter, die man im Gedächtnis als Entität auffassen würde) auch Nomen (oder Verben) und deren Deklinationen in eine Wolke zusammenfassen kann (cmiiw).

    Wie kann Qim nun wissen, welches das nicht deklinierte Nomen oder Verb ist? Mir ist aufgefallen, dass öfters Deklinationen von Bezeichnungen verwandter Themen vorgeschlagen werden. Kann Qim das ganz alleine, oder braucht sie da eine Art Blaupause der jeweiligen Sprache, also zusätzlichen Input eurerseits? Wird sie weiter Deklinationen vorschlagen, erkennt sie den Wortstamm und schlägt diesen vor oder unterscheidet sich das dann von Fall zu Fall?

    Da gibt es ja noch weitere sprachliche Unarten, wie die dank der NDR immer häufig vorkommenden Trennungen zusammengesetzter Wörter… suche ich nach “Bildzeitung”, schlägt Qim sinngemäß “Brüste” vor (kein Scherz, voll der Lacher :D), bei “Bild-Zeitung” hingegen den Verlag “Springer”. “Bild Zeitung” scheint mehr eine allgemeine Suche nach “Zeitung” gewichtet nach “Bild” zu sein, von Brüsten und Springer weit und breit nichts zu sehen. Sie unterscheidet also “Bild-Zeitung” und “Bild Zeitung” erheblich. Muss, kann, soll sie überhaupt lernen dass das wahrscheinlichste ist, dass der Suchende die Bild Zeitung meint und nicht ein Bild in irgend ‘ner Zeitung (sofern ich nicht die Suche weiter verfeinere, sollte ich tatsächlich igendjemandes Bild in der Zeitung suchen)? Lässt sich das so überhaupt festmachen? Sorry für die Fragerei, ich will Dir auch keine Betriebsgeheimnisse entlocken :)

    Rudy

    18. November 2008 at 8:25 nachmittags

  8. Hm. Eigentlich wäre das was für einen eigenen Blog-Beitrag. Daher hier nur kurz angerissen: Die Mustererkennung mittels neuronaler Netze erlaubt die Detektion von “Zweiwortbegriffen”. Beispiele für Zweiwortbegriffe sind “Paris Hilton”, “Deutsche Bahn” oder “Angela Merkel”.
    Solche Begriffe werden künftig – sinnigerweise – in der Wolke auch zusammenstehend angezeigt.

    Entity Recognition geht nun einen Schritt weiter. Nimmt man externes Wissen hinzu – etwa eine Liste weiblicher Vornamen – dann kann das Netz den Zweiwortbegriff “Angela Merkel” als Personennamen deuten. Durch die Kategorienzurodnung “Politik” kommt das Netz dann zu der Hypothese, “Angela Merkel” sei eine Politikerin. Damit könnte Qimaya ja Recht haben…

    Wie gesagt, wir werden noch einige technische Themen im Blog aufgreifen. Außerdem freuen wir uns natürlich über das Interesse an unserer Technologie!

    Qimaya42

    18. November 2008 at 9:24 nachmittags

  9. Kann man denn allein mit Zweiwortbegriffen genügend abdecken? U-Bahn-Trasse oder E-Mail-Adresse fallen da auch darunter? Und wie ist das dann mit den Deklinationen? :) Im Satz “Angela Merkels Auto ist rosa.” ist “Merkels” dekliniert (nein, kein Apostroph! ^^), Qim liest das, meint die dann die Dame heißt “Merkels” und schlägt mir bei “rosa Auto” “Merkels” vor? Gibt es hier auch einen externen Input, also die angesprochene Blaupause der Sprache, sodass sie mir “Merkel” vorschlägt? “Viele Autos fahren in Roms Straßen.” … führt das dann zu RomsAutos (so wie es momentan scheint) oder erwartungsgemäß zu “Rom” “Auto”? … ich hab da noch einige Fragen, über einen Blog-Eintrag wo man darüber quatschen kann würde ich mich freuen.

    Rudy

    18. November 2008 at 9:55 nachmittags

  10. Gut. Ich möchte nur etwas grundsätzliches kurz anfügen.
    Als (Ex-)Hirnforscher sehe ich die Dinge so: ZUERST gab es unsere assoziative Großhirnrinde mit einem POTENTIAL für Sprache. Danach haben sich Sprache und Grammatik als eine Realisierungsform von Assoziation entwicklelt.

    Hier grenzt sich Qimaya strikt von anderen Ansätzen ab, wo etwa Ontologien und/oder Thesauri und Grammatik-Funktionen als das Primäre betrachtet werden.

    Das Schöne bei uns ist ja, dass alle Assoziationen vollautomatisch entstehen, (auch Bild-Zeitung = Brüste etc.). Wie sagt man so schön: Kindermund tut Wahrheit kund.

    OPTIONAL können bei Qimaya dann externe Ressourcen hinzugefügt werden, um das Kind in bestimmte Bahnen zu lenken.
    Nur: Das hat aus unerer Sicht keinerlei Priorität.

    Artefakte in den Rohdaten (Dubletten, Klappentexte etc) beeinflussen im Moment noch die Qualität der Assoziationen.

    Mit jedem Update werden Qimayas Gedanken klarer und differenzierter. Dort, wo hinreichend Content zugrunde liegt (etwa in den Bereichen Politik und Umwelt), sind die Assoziationsfelder schon eine Art Kurzbeschreibung des Suchworts.

    Qimaya pur ist meines Erachtens die Wolke zu “Müntefering”. Hier sind nämlich nicht nur die für Franz Müntefering wichtigen Personen assoziiert, sondern zB auch das für ihn wichtige Thema “Mindestlohn”.
    Unser Anspruch ist es, dass unsere mathematischen Modelle der Assoziation – dabei spielt Informationstheorie eine sehr grosse Rolle – letzten Endes zu den gleichen Assoziationen führen, die auch ein Mensch hätte, der alle FAZ, Tagesschau, SPIEGEL-Seiten etc. gelesen hätte.

    Dadurch, dass wir uns nicht an statische Ontologien binden, können wir diese Assoziationsfelder blitzschnell neu berechnen. Man könnte fragen: Was ist das Assoziationsfeld von Müntefering im Jahr 2005? Oder: Was ist das Assoziationsfeld in der Kategorie Wirtschaft? (Vielleicht “Heuschrecke”??)

    Übrigens: Die Berechnung eines Assoziationsfeldes auf dem Backend-Server dauert nur ca. 160 Mikrosekunden. (Noch ohne Sparc-Prozessoren, auf die wir uns natürlich freuen).

    Real-Life-Quatschen mit Roy und mir ist übrigens auf dem Barcamp Hamburg möglich.

    Qimaya42

    18. November 2008 at 10:26 nachmittags

  11. Danke für diese ersten Einblicke, jetzt verstehe ich die Rolle der Grammatik im neuronalen Netz besser. Die Ausprägung der sprachlichen Feinheiten geht also Hand in Hand mit steigender Zahl an Assoziationen und Vergrößerung des neuronalen Netzes, à la “Lesen kann ich ja schon mal… und je mehr ich lese, desto besser spreche ich die Sprache dessen, was ich gelesen habe, und verstehe es auch.” Sehr spannend, ich kann gut verstehen, dass Du schon so viele Jahre daran forschst.

    Zwecks Barcamp und RL-Quatschen: Nichts lieber als das, Hamburg ist aber über 1000 Kilometer weit weg :( Das wird, für mich zumindest, so schnell wohl leider nix ;)

    Rudy

    18. November 2008 at 10:58 nachmittags

  12. [...] Konventionen und Intelligenz auf einer natürlichen Ebene begreifen. Exemplarisch möchte ich hier Rudi vorstellen. Die Fragen und Antworten von Rudi und Klaus gehen in die [...]

  13. [...] Und damit Ihr mal alle über Qimaya auch ins Staunen geratet, lest Euch diesen Artikel mal durch: 3.500.000 Html-Seiten kosten Qimaya derzeit 286 MB Speicherplatz [...]


Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ photo

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

Folgen

Erhalte jeden neuen Beitrag in deinen Posteingang.

%d Bloggern gefällt das: