Qimaya – Semantic Web

creating a semantic web

Ein Inside-Bericht aus dem Qimaya-Labor! Autor: Klaus

leave a comment »

Bevor ich euch mit ein wenig Technik verwirre, flüsterte mir Roy eben zu, dass er morgen einen Blogbeitrag schreiben wird, in dem er auf eure zahlreichen Kommentare eingehen wird. So, jetzt habe ich ihn aber wieder an seinen Schreibtisch gefesselt und werde euch endlich einen für mich genüsslichen Einblick in unsere Probleme im Qimaya-Labor geben

Nach jedem major update geht das Crawlerteam von Qimaya ins Kino. Kulturbeflissen wie wir sind fiel die Wahl auf das epische existenzialphilosophische Werk „Hellboy II“. Wir mussten gelegentlich schmunzeln, denn wir hatten ständig ein déja vu (bzw. ein déja écouter). Ständig sagte der Hauptdarsteller Ron Perlmann, dem Wikipedia ungerechtfertigt eine „grobschlächtige Physiognomie“ andichtet, das Wort „Kacke“. Genau das hatten wir in den letzten 48 Stunden selbst ständig gesagt, wenn unsere Crawler auf dynamische URLs stießen. Wir fühlten uns wie die Hellboys des Internet.

Was hat es also mit den dynamischen URLs auf sich und wie kam es zum „Handelsblatt-Bug“, den Roy schon kurz erwähnte?

Zunächst kann ich darauf verweisen, dass wir auf eine Problematik gestoßen sind, mit der sich auch die Yahoogels dieser Erde schon äh…länger rumschlagen. Einen ausführlichen Bericht findet man hier:

http://www.sistrix.de/news/804-google-verwirrt-dynamische-urls-jetzt-besser.html

Beginnen wir mit den „guten“ URLs. Ein Paradebeispiel wäre dieser Link einer Tageszeitung:

http://www.welt.de/politik/article2626863/Seehofer-soll-die-CSU-liberaler-machen-und-sexy.html

Was ist daran schön?
1. Es handelt sich um eine Pfadstruktur, die sich 1:1 auf ein Filesystem (oder eine Datenbank) übertragen läßt. Also ein eindeutiges Objekt („Seehofer-soll-die-CSU-liberaler-machen-und-sexy.html“), das man in ein eindeutiges Verzeichnis packen kann („www.welt.de/politik/article2626863/“).
2. Auch morgen und übermorgen kann man den Artikel mit dem Pfad öffen. Statisch. Konservativ. Gut.

Vergleichen wir folgende URL:

http://www.handelsblatt.com/politik/deutschland/csu-parteitag-die-seehofer-show;2072285

Keine Dateiendung. Und die Zahl (rot markiert) wird über das Semikolon wie ein Parameter einfach angehängt. Vielleicht könnte der Webmaster des Handelsblatt nächstes Mal noch eine Hieroglyphe dranhängen, um den Schwierigkeitsgrad weiter zu erhöhen…
Genau jetzt kommt die Stelle mit dem oben zitierten Fäkalwort. Unser Webcrawler hat genau diese Stelle mit dem Parameter nicht gerafft, und das Handelsblatt sozusagen nicht mehr umgeblättert und sich in eine x-beliebige Seite festgefressen.  Jeder, der im Zug schon einmal eine Seite im Handelsblatt umblättern wollte, weiß sicherlich wovon ich bildlich spreche!

Dementsprechend sahen die Trefferlisten in der Berlin Edition aus:

Wir konnten den Fehler beheben und erzielten folgendes Resultat (Görlitz Edition):

Anmerkung: Dies ist noch ein vergleichsweise simples Beispiel einer noch nicht mal dynamischen URL. Wir wollen aber unsere teilweise noch recht jungen Leser von den echten Hardcore-Problemen verschonen. Nicht, dass ihr wieder auf den Rechenschieber umsteigt.😉

Es gibt aber hinter diesen Problemchen ein hartnäckiges Problem, wenn man die Welt (i.E. das Netz) mit den Augen einer Suchmaschine betrachet. Für den AUFBAU einer Seite gibt es mit HTML eine weltweite Konvention. Die VERLINKUNG einer Seite jedoch wird von URL zu URL verschieden gehandhabt. Teilweise ist das historisch begründet, weil Verlage und Firmen sich an ganz bestimmte Web Content Management Systeme gebunden haben. Dies hat zur Folge, dass es heute ein babylonisches Gewirr aus URL-Strukturen gibt. So manche werden jetzt mit dem Kopf nicken.

Nun will Qimaya seinen Nutzern natürlich optimale Ergebnisse zur Verfügung stellen. Dazu gehört unter anderem, dass Druckversionen von Artikeln nicht zusätzlich (als Dublette) in den Trefferlisten auftauchen sollen. Da aber jedes WCMS (und gefühlt jede zweite URL) hier ein eigenes Süppchen kocht, können Druckversionen sehr verschieden gekennzeichnet sein:

…/Druckversion/…
…/printpage/…
…/cc=print/…
…/par_p/…
etc.
(Jetzt hören wir Hellboy wieder seinen Ausspruch tätigen).

Und jetzt übertragt dieses Problem einmal auf das so genannten Semantic Web.

Da ich mich grundsätzlich nicht mit Dingen beschäftige, die in einer Sackgasse enden, kenne ich das Semantic Web leider nur recht oberflächlich. Sollen sich damit ruhig Menschen beschäftigen, die ihr Leben dem Pflegen von Metadaten verschrieben haben. Ich habe mir aber sagen lassen, dass ich auf diese Weise demnächst den Vanillepudding in meinem Kühlschrank mit einer Hölderlin-Ausgabe der Nationalbibliothek vernetzen kann. Prima, beides steht da ja letztlich auch nur ganz undynamisch rum und kann nicht weg.

Jetzt habe ich dann aber doch ein wenig nachgelesen.
Ein wichtiger Schlüssel, so flüstert man in den Fluren US-amerikanischer Unternehmen, sei die Web Ontology Language (OWL). Damit kann man Dinge, die man nicht weiß, recht kompliziert umschreiben. Andere sagen, man kann mit der Kirche ums Dorf rennen.

Nehmen wir mal ein Beispiel.
Natural Language: „Hallo Udo. Ich war im Urlaub in Kalifornien. Dort gibt es eine malerische, fast schon wilde Weinbauregion, die Santa Cruz Mountains“.

Nach dem OWL-Handbuch bräuchte man für die ontologische Umschreibung dieser Aussage eine handliche DIN-A4-Seite, mit Komponenten wie z.B.

<Region rdf:ID=“SantaCruzMountainsRegion“>
<locatedIn rdf:resource=“#CaliforniaRegion“ />
</Region>

Könnte man so etwas für die URLs nutzen?

Hier gibt es den Uniform Resource Identifier (URI). Damit wird eine URL nach Authority + Pfad unterteilt (Praktisch Domain + Seite). Könnte man nicht auf Authority + Klasse + Pfad erweitern?

Für die Klasse könnte man ja ein OWL-Objekt nehmen, zum Beispiel: <owl:Class rdf:ID=“print“>.

Dann gäbe es eine weltweite Konvention für Druckversionen im Internet. Aber wahrscheinlich wird eher mein Vanillepudding intelligent, als dass es hier zu einer Konvention im Web käme.

Ergo, wenn schon das Handelsblatt seine URL mit einem künstlerischen Unikat veredelt, und sich seit 2002 ebenso kaum Webseitenbetreiber die Mühe machen wenigsten ihre eigene Seite semantisch aufzuwerten, dann müssen wir Wohl oder Übel den Weg gehen und Semantik durch den Qimaya Algorithmus erzeugen.

Danke, es wäre doch zu einfach gewesen!

Das Crawlerteam wird daher auch künftig für euch durch die Hölle gehen. Karten für die James Bond Premiere sind schon vorbestellt!😉

Written by Qimaya

25. Oktober 2008 um 11:57 pm

Veröffentlicht in Uncategorized

Tagged with , ,

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: