Qimaya – Semantic Web

creating a semantic web

Archive for November 17th, 2008

Autor Roy: Html-Index und Speicher, erfahrt mehr über Qimaya

with 13 comments

Viele Mails und Kommentare erreichten uns in den letzten zwei Tagen. Die Antworten sind schon raus und die Kommentare haben ein Reply.

Ein paar Dinge möchten wir euch jedoch noch als Schmankerl für euer großes Engagement geben. Technik!!! Nicht gähnen, ist lustig, für uns jedenfalls.

Qimaya basiert derzeit auf ca. 400 URL´s. Richtig, so wenig! Aber wird mehr, versprochen. Diese 400 URL´s führen zu einem Index von ca. 3.500.000 Html-Seiten. Da es ja hier nicht um den Wettbewerb geht, wer den größten Index hat (sonst wären wir wahrscheinlich auch längst nicht in die Passwortphase gegangen), kann man diesen kleinen Html-Index durchaus erwähnen. Denn, und jetzt Butter bei de Fische, die besagten 3.500.000 Html-Seiten sind letztlich nur ein Bruchteil der eigentlich indexierten, aber wiederum ausgeworfenen Html-Seiten.

Unverständlich? Wie kann das sein?

Ganz einfach, jeder kennt die unzähligen Druck-, eMail- und Trackback- und Kommentarversionen auf Webseiten. Ganz gleich ob auf kommerziellen oder privaten Seiten. Jeder Inhalt ist oftmals X-fach auf der gecrawlten URL vorhanden. Hierdurch entstehen z.B. auch Dubletten. Qimaya filtert diese natürlich heraus, was zur Folge hat, dass jedesmal wenn ihr uns einen solchen „Bug“ meldet unser Index an Html-Seiten „fällt“.

Hört sich negativ an, ist es aber gar nicht. Ganz im Gegenteil. Wir lieben euch dafür, dass ihr uns diese „Bugs“ nennt.

Was heißt das jetzt aber für den Speicher. Nun ja, auch dieser wird immer leerer. Leer hört sich so an, als wenn man in einen Brunnen schauen würde, in dem man das Wasser am Grund nicht erblicken kann.

In Erwartung eines Speichermonsters haben wir sehr viel Arbeit (gerade jene, die man nicht von außen erblickt) in die Abbildung einer der natürlichsten Eigenschaften des neuronalen Netzes investiert. Die neuronale Komprimierung von Daten. Vergleichbar mit der Komprimierung des menschlichen Gehirns. Nix Hemmung oder Vergessen, KOMPRIMIERUNG.

Besagte 3.500.000 Html-Seiten ensprechen mehreren Tera-Byte an Datensätzen. Die Webseitenbetreiber nicken jetzt ganz eifrig.

Die ca. 3.500.000 Html-Seiten kosten uns derzeit 286 MB Speicherplatz!!!!

Und je mehr Bugs/Dubletten beseitigt werden, umso geringer ist der benötigte Speicherplatz. Ihr werdet es uns zwar jetzt eh nicht mehr glauben, aber wer vor lauter Kopfschütteln diesen Satz noch lesen kann, dem sei eine Rückblende gegönnt. Bevor ihr uns diese „Bugs“ nanntet, hatten wir einen Index mit knapp über 300 MB Speicherplatz.

KEIN SCHERZ. Speicherplatz wird jedenfalls für Qimaya kein Problem.  😉

Werbeanzeigen

Written by Qimaya

17. November 2008 at 8:47 pm

Veröffentlicht in Uncategorized