Qimaya – Semantic Web

creating a semantic web

Archive for Oktober 2008

Unterlassungs- und Verpflichtungserklärung, Queap schließt die Tore!

with 21 comments

Jetzt bin ich schon selbst Jurist und springe doch gleich mit allen anderen in die meistdiskutierteste Pfütze im Netz.

Ihr habt Euch in den letzten Tagen sicherlich gefragt warum es in letzter Zeit so still um uns geworden ist. Nun ja, Queap schließt nicht wirklich die Tore. Unser Name weist leider nur eine von uns bisher unbemerkte phonetische Ähnlichkeit mit dem Webangebot der Firma qeep.de auf. Jetzt sind wir mal ganz objektiv und erkennen daher ja auch an, dass, wenn man qeep wie eben gewünscht kwiip aussprechen will, dem natürlich auch so ist. Daher ist das Anwaltsschreiben natürlich berechtigt bei uns eingegangen.

Die letzten Tage prüften wir daher nicht nur die rechtlichen Möglichkeiten, was sein Ende in der Unterschrift einer Unterlassungs- und Verpflichtungerklärung findet, sondern wir zerbrechen uns vor allem den Kopf darüber WIE WIR UNS JETZT NENNEN SOLLEN? 

Also, Vorschläge vor! Wir brauchen Euch jetzt dringend. Wir können leider keine Fernreisen, Autos oder Plasmafernseher als Preis ausloben, aber …………….wir können umso schneller weiterarbeiten je eher wir dieses Problem gelöst haben. Ok schlechter Deal, ich weiß. Aber erstmal müssen wir die Gebühren zahlen 😉

In 4 Tagen ist die Frist rum, bis dahin brauchen wir einen anständigen Namen!

Bitte schickt uns eure Vorschläge per eMail an Roy.Uhlmann@Queap.de ………solange es diese Mailadresse noch gibt!

Written by Qimaya

30. Oktober 2008 at 9:48 pm

Veröffentlicht in Uncategorized

Markus dropes a line „what about Qimaya?“

with 2 comments

Since recently a new name is going around and gaining ground within the web community: Qimaya! Everybody is looking to find some major development for an industry which is currently suffering on too many copies of already existing web sites. Tim O-Reilly mentioned on the Web 2.0 Expo that the industry doesn’t need another search engine or another social network, that we don’t need copies of already existing business models BUT new and innovative models for true innovation. Also he is expecting the developers to build sustainible solutions looking at the currently existing and serious problems for everybody on this planet. Tim stated that independant whether it is global warming, the lack of meaning of the sciences or the spread between rich and poor; the Web2.0 application development is taking too less care of it.

btw. this is not Markus, the Geeks will probably wet their pants, this is of course Tim O´Reilly.
Qimaya is going to become one of the main contributors to change that! But what is Qimaya? How is Qimaya contributing? What ist he benefit for the users by using Qimaya?
A number of questions but let me also provide the answers to those.

First of all, Qimaya is NOT just another search engine, but a not yet known value add generating platform to all e-business applications and processes. Just looking at Qimaya as an application I would state that Qimaya is a „find engine“ but finally we’re talking about about a platform which enables users to bring their requests in connection with whatever kind of content. Qimaya is based on a long lasting research in neural information technology, consequently artificial intelligence (AI). Old stuff, you could think but wait a minute and continue reading …

You know the BIG myth of the WEB? You don’t? It’s the ability to create the true SEMANTIC WEB! Who made it happen so far? Nobody! Who will make it happen? Qimaya! Qimaya is doing many things very different compared to what all the today known search engines are doing. Of course, technology behind is quite complicated and difficult to explain but I’ll try to keep it as illustrative as possible (i.e. because I’m not able to do it technoligically myself). However, what Qimaya basically does is to work like the human brain! Oppositely to what exisiting algorithims are doing, Qimaya is NOT comparing just the searched word or phrase against the content of the web page. Qimaya is adapting the ability of the human brain to recognize and categorize the complete content of a web page. In other words, Qimaya does have the power to identify a relevant relation between the searched word/phrase and the content of a web page EVEN THOUGH that the word/phrase hasn’t been mentioned explicitely within the content.
Wow, that’s kind of an innovation, isn’t it? But that’s not all and enough. Qimaya is continiously building, depending on the growing and changing content, AUTOMATICALLY a neural network which allows Qimaya to provide all information relevant to the appropriate search request. If you’re not sure about it, read it agian: continiously, automatically, information. The human brain associates permanently things to its thoughts (requests) and every individuals brain associates differently. So does Qimaya! Relevancy is individually triggered. Something which is very relevant to me, relative to one topic (search request), might be absolutely irrelvant to you. That’s something Qimaya learns and recognizes automatically. Which is another BIG difference to all other search engines we do know today. Qimaya is working highly automatic in different aspects: Automatically growing, automatically changing (content can become irrelevant over a certain period of time), automatically associating!

Green IT! Ever heard about about? I’m in the industry for quite a while and always some major topic is touching both individuals and organizations. Very often those topics are different because of the different levels of interest. I perceive Green IT as one of these topics which perfectly builds THE lowest common denominator for both. Global warming, the reasonable use of the decreasing availibilty of resources and the finally required responsibility we all have to take for the planet we’re living on is what has to be taken into account when we talk about the value of IT and the information. I mentioned earlier that Qimaya is focussing on information. But what is information? Is it all, what is available in the web today? No! I would bring it down to a simple formula:

Information = (available data in the web) – (rubbish data in the web)

Information is value! How do we define value? Easy: By the level of relevance an information has for us! How do reach relevance? Easy again: By the analysis of linking but not by linking pages (i.e. web pages). True linking means linking of directly the true content! Qimaya is using this formula absolutely strict because each request is being linked with the true content! The effects out of this capability is twofold. First the level of quality of information is increasing tremendously (Knowledge Management) and secondly the amount of required space for storage and other resources is decreasing equally tremendous. That leads, absolutely no doubt about that, to a higher satisfaction for the users and more important to a more responsible use of the resources we do have.

I trust this is some heavy stuff to digest already but I promise you that’s just the beginning of the story. I finish for now and will let you some room for thinking about it. I tell you, it’s worth about thinking it because some changes are going to take place soon. I look forward sharing and enjoying those together with you.

Speak to you shortly!

Written by Qimaya

29. Oktober 2008 at 1:10 pm

In English please……..

leave a comment »

As Qimaya, our well known elemantary school student, is doing well throughout the last months, we´re not only feeling but also facing a need for english communication. So far our communication on channels such as Twitter and the Qimaya blog has rarely been spotted in english.

For a reason the WorldWideWeb does take its advantage out of being a global network, which is much more than only german. Even the Germans know that 😉 However since more and more english eMails and twitterstats came up we´ve been beared out in taking much more care of the english-speaking market. But questions for an early english Version of Qimaya must be answered with a smile!

Thus the Qimaya-Team, to be detailed Markus and sometimes me, will now and then drop some lines for the english speaking geeks just only to remind you, that Germany is still the mother country of technology and innovation!

Written by Qimaya

28. Oktober 2008 at 5:24 pm

Veröffentlicht in Uncategorized

Tagged with ,

Die Medienlese bezogen auf die letzte Woche

with 2 comments

Heute einmal ein wenig abgekürzt. Qimaya wartet schon, ihr wisst ja wie Kinder sind…….

Marmel hat seine ersten Erfahrungen gemacht……….mit Qimaya natürlich. Besonders empfehlenswert das recht lustige Interview mit Marco als Podcast.

Das Dresdner-Zukunftsforum lauschte unseren Ausführungen ebenso recht interessiert. Der Düsseldorfer Webmontag brachte uns das Interesse von Holger ein. Ein paar Impressionen von uns in Bild und Text vom Barcamp Berlin findet ihr hier, hier und hier und dann auch nochmal bei Hannes. 😉 Dank auch an Michael für die nette Erklärung.

Auf das Interview von Marco von Radio4SEO gab es recht viele Reaktionen. Zum Beispiel bei Baynado, JKW-Media, den SEO-News im SEOBlog und auch recht spannend im Wissensgarten.

Als informativen Leckerbissen, jetzt allerdings ohne direkten Bezug zu Qimaya möchte ich euch noch Martin´s Blog empfehlen. Vielleicht erkennt der eine oder andere dann noch genauer, was die Vision hinter Semantik überhaupt erst ist.

Huch, auf keinen Fall fehlen dürfen natürlich auch Norman und der Bloggonaut.

Written by Qimaya

27. Oktober 2008 at 4:45 pm

Veröffentlicht in Uncategorized

Ihr fragt, wir antworten

with 2 comments

Wie gestern schon von Klaus angekündigt, heute ein Beitrag von mir.

Meine Passworttabelle wird immer länger, aber ich möchte, dass ihr wisst, dass sie auch zur Auslieferung kommt. Zwar nicht heute und das heißt jetzt auch nicht morgen, aber sie wird kommen. Also bitte noch ein wenig Geduld. In der Zeit können wir nur besser werden, also entgeht euch ja eh nichts. 😉

Zu euren Fragen und Anmerkungen.

Besonders schön fand ich die Frage von „Neues aus dem Netz“.

Worin liegt der Unterschied von Qimaya und Powerset?

Herrlich, so ein Frage lag Qimaya selbst schon lange als Beitrag auf den Lippen. Daher möchte ich sie hier nicht so schnöde in 4 Zeilen abtun. Qimaya hat sich überlegt in den nächsten Tagen daraus einen eigenen Beitrag zu machen. Damit ihr auch richtig auf eure Kosten kommt. Wir sind ja sonst schon immer so schreibfaul….

Sonja schrieb endlich mal etwas zum Thema Domains.

Ich habe gerade Qimaya ein wenig suchen lassen, dabei fiel mir auf, dass man vor allem „professionelle” Seiten findet, weniger die Seiten von Privatmenschen oder gar Blogs.

Dies liegt nicht, wie schon zu Recht gefragt, am Algorithmus, sondern daran, dass Qimaya zum großen Teil bei diesen Webseiten anfingen zu crawlen. Es würde Qimaya aber sehr freuen, wenn ihr, wie schon einmal aufgerufen, uns 5 Domains eurer Wahl schreiben könntet. Diese würden wir dann bevorzugt crawlen um so auch immer mehr der breiten Masse gerecht zu werden. Also, 5 Domains plus x, das kann nicht viel sein.

XiongShui sprach in einem Kommetar nicht nur die Lernkurve von Qimaya an, sondern auch unsere, also die des Teams, das hinter Qimaya steht. Mit vollem Selbstbewußtsein muss ich ihm zustimmen, das Wort „wir“ wird künftig durch „Qimaya“ ersetzt. Man kann es eigentlich gar nicht genug erwähnen. Es sollte in euren Sprachgebraucht übergehen! Wir sind Qimaya und Qimaya ist wir……

Daneben gab er etwas durchaus relevantes zu dem Begriff Lieschen Müller zu bedenken. Der Begriff könnte heute inzwischen mit dem typisch blonden Mädchen assoziert sein, insofern auch einen Angriff darstellen. Nun jedoch einfach Lieschen Müller als den normalen Nutzer zu beschreiben stimmt zwar, aber auch Qimaya hat seinen Schalk im Nacken. 😉 Aber mir schwebt da schon etwas vor. Unser Bezugsnutzer sitzt eigentlich gerade um die Ecke, ich werde ihn äh…..sie schon einmal vorbereiten………..

Ein weiterer, sehr wesentlicher Beitrag kommt ebenfalls von XiongShui (wenn XiongShui nicht schon ein Passwort hätte würde er mit seinem Engagement sich jetzt eins verdient haben)

ich habe eben ICE3, Mehdorn, Achsenbruch gesucht, da ich an einem Artikel über Mehdorns Krieg mit den Zulieferern auf dem Rücken der Fahrgäste recherchiere. ICE3: kein Ergebnis. Mehdorn viel Altes, aber nichts über seine aktuellen “Späße”, der Achsenbrüche.

Es besteht kein assoziativer und kein thematischer Zusammenhang – ist das ein Bug?

Ein Bug, ein Bug, ein Königreich für ein Bug! Genau so etwas will Qimaya wissen. Folgendes führt zu dem besch… Suchergebnis. Im weitesten Sinne redet Qimaya hier von einem Bug. Zum einen ist das Suchwort ICE3 noch nicht enthalten. Ist aufgenommen und kommt in den nächsten Updates mit hinein! Zu den Ergebnissen bei Mehdorn und insbesondere Achsenbruch verhält es sich so. Der Index ist schlichtweg noch zu klein um hierbei wirklich gute Ergebnisse zu liefern. Insofern auch wieder der Aufruf an euch………gebt Qimaya mehr Domains, Qimaya ist hungrig. Wie schon in einem der vorherigen Beiträge beschrieben, stand Qimaya jetzt wieder als unser Grundschüler vor der Tafel und hatte einfach zu wenig Wissen verinnerlicht um diese Suchanfrage mit wirklich guten Ergebnissen zu beantworten.

Am Index-Problem sitzen Qimaya natürlich. Sobald der intelligente Crawler läuft……….äh erstellt ist, werden jegliche Seiten selbstständig gecrawlt. Es wird Qimaya eine Menge Arbeit abnehmen, aber auch den Index auf eine relevante Größe hieven. Ebenso gleicht sich dann auch der Suchwortindex mit den gecrawlten Seiten ab, so dass sich auch das Suchwortindex-Problem lösen wird.

In diesem Sinne mache ich mich auch mal wieder an die Arbeit, eh kein schönes Wetterchen heute.

Written by Qimaya

26. Oktober 2008 at 2:45 pm

Veröffentlicht in Uncategorized

Tagged with , ,

Ein Inside-Bericht aus dem Qimaya-Labor! Autor: Klaus

leave a comment »

Bevor ich euch mit ein wenig Technik verwirre, flüsterte mir Roy eben zu, dass er morgen einen Blogbeitrag schreiben wird, in dem er auf eure zahlreichen Kommentare eingehen wird. So, jetzt habe ich ihn aber wieder an seinen Schreibtisch gefesselt und werde euch endlich einen für mich genüsslichen Einblick in unsere Probleme im Qimaya-Labor geben

Nach jedem major update geht das Crawlerteam von Qimaya ins Kino. Kulturbeflissen wie wir sind fiel die Wahl auf das epische existenzialphilosophische Werk „Hellboy II“. Wir mussten gelegentlich schmunzeln, denn wir hatten ständig ein déja vu (bzw. ein déja écouter). Ständig sagte der Hauptdarsteller Ron Perlmann, dem Wikipedia ungerechtfertigt eine „grobschlächtige Physiognomie“ andichtet, das Wort „Kacke“. Genau das hatten wir in den letzten 48 Stunden selbst ständig gesagt, wenn unsere Crawler auf dynamische URLs stießen. Wir fühlten uns wie die Hellboys des Internet.

Was hat es also mit den dynamischen URLs auf sich und wie kam es zum „Handelsblatt-Bug“, den Roy schon kurz erwähnte?

Zunächst kann ich darauf verweisen, dass wir auf eine Problematik gestoßen sind, mit der sich auch die Yahoogels dieser Erde schon äh…länger rumschlagen. Einen ausführlichen Bericht findet man hier:

http://www.sistrix.de/news/804-google-verwirrt-dynamische-urls-jetzt-besser.html

Beginnen wir mit den „guten“ URLs. Ein Paradebeispiel wäre dieser Link einer Tageszeitung:

http://www.welt.de/politik/article2626863/Seehofer-soll-die-CSU-liberaler-machen-und-sexy.html

Was ist daran schön?
1. Es handelt sich um eine Pfadstruktur, die sich 1:1 auf ein Filesystem (oder eine Datenbank) übertragen läßt. Also ein eindeutiges Objekt („Seehofer-soll-die-CSU-liberaler-machen-und-sexy.html“), das man in ein eindeutiges Verzeichnis packen kann („www.welt.de/politik/article2626863/“).
2. Auch morgen und übermorgen kann man den Artikel mit dem Pfad öffen. Statisch. Konservativ. Gut.

Vergleichen wir folgende URL:

http://www.handelsblatt.com/politik/deutschland/csu-parteitag-die-seehofer-show;2072285

Keine Dateiendung. Und die Zahl (rot markiert) wird über das Semikolon wie ein Parameter einfach angehängt. Vielleicht könnte der Webmaster des Handelsblatt nächstes Mal noch eine Hieroglyphe dranhängen, um den Schwierigkeitsgrad weiter zu erhöhen…
Genau jetzt kommt die Stelle mit dem oben zitierten Fäkalwort. Unser Webcrawler hat genau diese Stelle mit dem Parameter nicht gerafft, und das Handelsblatt sozusagen nicht mehr umgeblättert und sich in eine x-beliebige Seite festgefressen.  Jeder, der im Zug schon einmal eine Seite im Handelsblatt umblättern wollte, weiß sicherlich wovon ich bildlich spreche!

Dementsprechend sahen die Trefferlisten in der Berlin Edition aus:

Wir konnten den Fehler beheben und erzielten folgendes Resultat (Görlitz Edition):

Anmerkung: Dies ist noch ein vergleichsweise simples Beispiel einer noch nicht mal dynamischen URL. Wir wollen aber unsere teilweise noch recht jungen Leser von den echten Hardcore-Problemen verschonen. Nicht, dass ihr wieder auf den Rechenschieber umsteigt. 😉

Es gibt aber hinter diesen Problemchen ein hartnäckiges Problem, wenn man die Welt (i.E. das Netz) mit den Augen einer Suchmaschine betrachet. Für den AUFBAU einer Seite gibt es mit HTML eine weltweite Konvention. Die VERLINKUNG einer Seite jedoch wird von URL zu URL verschieden gehandhabt. Teilweise ist das historisch begründet, weil Verlage und Firmen sich an ganz bestimmte Web Content Management Systeme gebunden haben. Dies hat zur Folge, dass es heute ein babylonisches Gewirr aus URL-Strukturen gibt. So manche werden jetzt mit dem Kopf nicken.

Nun will Qimaya seinen Nutzern natürlich optimale Ergebnisse zur Verfügung stellen. Dazu gehört unter anderem, dass Druckversionen von Artikeln nicht zusätzlich (als Dublette) in den Trefferlisten auftauchen sollen. Da aber jedes WCMS (und gefühlt jede zweite URL) hier ein eigenes Süppchen kocht, können Druckversionen sehr verschieden gekennzeichnet sein:

…/Druckversion/…
…/printpage/…
…/cc=print/…
…/par_p/…
etc.
(Jetzt hören wir Hellboy wieder seinen Ausspruch tätigen).

Und jetzt übertragt dieses Problem einmal auf das so genannten Semantic Web.

Da ich mich grundsätzlich nicht mit Dingen beschäftige, die in einer Sackgasse enden, kenne ich das Semantic Web leider nur recht oberflächlich. Sollen sich damit ruhig Menschen beschäftigen, die ihr Leben dem Pflegen von Metadaten verschrieben haben. Ich habe mir aber sagen lassen, dass ich auf diese Weise demnächst den Vanillepudding in meinem Kühlschrank mit einer Hölderlin-Ausgabe der Nationalbibliothek vernetzen kann. Prima, beides steht da ja letztlich auch nur ganz undynamisch rum und kann nicht weg.

Jetzt habe ich dann aber doch ein wenig nachgelesen.
Ein wichtiger Schlüssel, so flüstert man in den Fluren US-amerikanischer Unternehmen, sei die Web Ontology Language (OWL). Damit kann man Dinge, die man nicht weiß, recht kompliziert umschreiben. Andere sagen, man kann mit der Kirche ums Dorf rennen.

Nehmen wir mal ein Beispiel.
Natural Language: „Hallo Udo. Ich war im Urlaub in Kalifornien. Dort gibt es eine malerische, fast schon wilde Weinbauregion, die Santa Cruz Mountains“.

Nach dem OWL-Handbuch bräuchte man für die ontologische Umschreibung dieser Aussage eine handliche DIN-A4-Seite, mit Komponenten wie z.B.

<Region rdf:ID=“SantaCruzMountainsRegion“>
<locatedIn rdf:resource=“#CaliforniaRegion“ />
</Region>

Könnte man so etwas für die URLs nutzen?

Hier gibt es den Uniform Resource Identifier (URI). Damit wird eine URL nach Authority + Pfad unterteilt (Praktisch Domain + Seite). Könnte man nicht auf Authority + Klasse + Pfad erweitern?

Für die Klasse könnte man ja ein OWL-Objekt nehmen, zum Beispiel: <owl:Class rdf:ID=“print“>.

Dann gäbe es eine weltweite Konvention für Druckversionen im Internet. Aber wahrscheinlich wird eher mein Vanillepudding intelligent, als dass es hier zu einer Konvention im Web käme.

Ergo, wenn schon das Handelsblatt seine URL mit einem künstlerischen Unikat veredelt, und sich seit 2002 ebenso kaum Webseitenbetreiber die Mühe machen wenigsten ihre eigene Seite semantisch aufzuwerten, dann müssen wir Wohl oder Übel den Weg gehen und Semantik durch den Qimaya Algorithmus erzeugen.

Danke, es wäre doch zu einfach gewesen!

Das Crawlerteam wird daher auch künftig für euch durch die Hölle gehen. Karten für die James Bond Premiere sind schon vorbestellt! 😉

Written by Qimaya

25. Oktober 2008 at 11:57 pm

Veröffentlicht in Uncategorized

Tagged with , ,

Görlitz steigt auf, München steigt ab!

with 6 comments

Nein es geht nicht um Fussball, auch wenn Klaus und der Rest des Teams dies gerne sehen würden. Aber da ich selbst gar kein Fussballfan bin (das kostet uns jetzt bestimmt 300 Besucher, aber ist mir doch Wurscht) kann ich es mir leisten diesen schönen Satz als Aufhänger zu benutzen. Gibt´s eigentlich einen relevanten Fussballclub in Görlitz?

Wie dem auch sei. Görtlitz steigt auf, München steigt ab!? So manchem Testnutzer mag es schon aufgefallen sein, dass Klaus, als Hardcore Bahnfahrer, den verschiedenen Updates Städtenamen gegeben hat. Berlin, München und jetzt Görlitz. Das Update Görlitz ist gerade ganz frisch aus dem Labor gehopst und zeigt deutliche Unterschiede zu München. Es beinhaltet das Beheben eines Bugs, den uns das Handelsblatt bescherte und ein Suchwort- und URLindex-Update. Zum Handelsblatt-Bug wird Klaus am Wochenende einen Hintergrundbericht aus dem Qimaya Labor geben. Schon jetzt meine Empfehlung für die Wochenendlektüre!

Aber zurück nach Görlitz! Unsere Testaccountler der 2. Tranche mag dieser Bericht trivial erscheinen, so sie denn noch nicht testen können. Aber dem ist nicht so. Ganz im Gegenteil. Wir haben uns die Anmerkungen der Testnutzer aus der 1. Tranche zu Herzen genommen, damit wir euch im nächstwöchigen Update dann auch Passwörter für ein noch besseres Qimaya ausliefern können. Natürlich erwarten wir dann auch wieder von euch Anmerkungen.

Nunmehr noch ein Aufruf an jeden Blogleser, Qimayaner und an Lieschen Müller sowieso. Wir crawlen wie die Blöden. Und die bisherigen Hinweise welche Themen unterrepräsentiert sind haben uns schon sehr weitergeholfen. Aber es geht noch mehr! Qimaya schwitzt noch nicht einmal!

Schreibt uns bitte in den Kommentaren mindestens 5 eurer Lieblings- oder aber meistbesuchten Domains. Wenn euer Blog/Webseitenangebot dabei ist, umso besser.

1. ………………

2. ……………..

3. ……………..

4. ……………..

5. ……………..

und einer mehr geht immer noch, Klaus wird es euch danken!

Written by Qimaya

24. Oktober 2008 at 8:20 pm

Veröffentlicht in Uncategorized

Tagged with ,