Lifestream » semantic-web

Suche 2.0 - wie Suche sozial wird

Wer bei der Twittersuche nach bestimmten Begriffen Ausschau hält, hat sich sicher auch schon mal gewünscht, dass zunächst die Tweets seiner eigenen Follower gezeigt werden oder die Inhalte auf den Pinwänden seiner Freund bei Facebook bevorzugt werden. Dass wir solche Wünsche überhaupt haben können, basiert auf der relativ neuen Idee der Realtime-Search - also dem Durchsuchen von Inhalten, die extrem oft pro Tag oder Stunde aktualisiert werden.

Mein liebstes Beispiel ist die Suchmaschine http://www.icerocket.com, ohne die ich seit einiger Zeit gar nicht mehr im Web zurecht käme. Denn obwohl Bing und Google einen Schritt weiter sind, und man dort viel besser als früher Tweets bzw. Videos zu allerlei Themen findet, hat icerocket einen Vorteil: Ich kann direkt die Quellen, also Blogs, Tweets (auch identi.ca und jaiku), soziale Netzwerke etc. auswählen. Das ist natürlich ein Eldorado für alle Marketingberater und -mitarbeiter, die dort kostenfrei ihre Produkte, Firmen oder Kampagnen überwachen können. Leider geht das Thema Realtime-Search noch an den meisten Menschen vorbei, weil sie glauben, das sei einfach ein Gag, um alten Wein in neuen Schläuchen zu verkaufen. Und in der Tat, wer sich nicht im Web 2.0-Umfeld von Social Media umtut und mit Twitter und Blogs nichts anfangen kann, der hat keinen Mehrwert. Relevanz Doch wer sich etwas genauer mit dem Thema Suchmaschinen befasst hat, der erkennt das Potenzial. Denn seit vielen Jahren gibt es diverse Überlegungen, wie man die langen Listen an Ergebnissen aus einer Suche besser auf den Sucher oder dessen Suchworte eingrenzt. Google hat mit dem Page Rank ein mathematisch basiertes Lösungsverfahren (Algoritmus) erarbeitet, das immer wieder optimiert wird und im Kern die Verlinkung von Inhalten und ganzen Websites untereinander bewertet. Auf dieser Basis ordnet die Google-Suchmaschine die Webinhalte danach, wieviel andere Inhalte sich darauf beziehen. Neue Inhalte sind also immer etwas weniger wert als Inhalte, die schon lange im Web sind und daher von vielen Seiten referenziert werden. Es ist offenbar, dass das in nicht wenigen Bereichen Quatsch ist, weil zum Beispiel gerade in den Naturwissenschaften die neuesten Studien oft die Ergebnisse älterer Studien beinhalten und erweitern oder gar relativieren. Nun haben schon früh die Väter der Suchmaschinen daran gedacht, dass man die Suchergebnisse verbessern muss. Support Vector Engines fassen beispielsweise ein Dokument als Bündel von Vektoren auf, wobei jeder eindeutige Begriff von einem Vektor dargestellt wird. Die Software vergleicht dann einfach das “Aussehen” der Knäuel und kann vor allem mit Hilfe der Nutzer feststellen, ob und welche inhaltliche Nähe Dokumente zueinander haben. Je nach Unterstützung der jeweiligen Sprache klappt das sehr gut bis bescheiden. Noch zufälliger werden die Ergebnisse, wenn die Relevanz mit einfachen statistischen Verfahren oder mithilfe von Neuronalen Netzwerken entstehen soll (Neuronale Netzwerke sind lernfähige, autonome und selbststeuernde Softwareeinheiten, die auf der Grundlage zumeist veralteter Modelle vom Gehirn Entscheidungen treffen). All diese System sind jedoch nur dann sinnvoll, wenn man eine eher geschlossene Menge an Daten hat. Beim Durchsuchen von Streams, also ständig neuen Inhalten, helfen sie wenig. Dieses Charakteristikum weist auch der letzte Schrei der Suchtechnologie auf, der schon einige Jahre auf dem Buckel hat. Denn in den letzten Jahren entstand mit dem semantischen Web eine Idee, bestimmte Daten der Dokumente intelligent zu verknüpfen, damit Maschinen (gemeint ist Software) die Inhalte zuordnen (verstehen) können. Semantik ist ein Teil der Zeichenlehre namens Semiotik und beschreibt die Bedeutungsebene von Wörtern. Die Idee bestand darin, einfach unsere Satzkonstruktion aus Subjekt, Prädikat und Objekt auf Software zu übertragen. Denn vorher konnte Software nur Subjekte mit Objekten verbinden nach dem Prinzip Ort=Hamburg oder Band=Prodigy. Das Semantische Web soll dies nun erweitern um ein Prädikat, also eine Satzaussage wie Geburtsort oder Lieblingsband. Dann würde ein kleinste Informationseinheit nicht mehr aus zwei, sondern aus drei Elementen bestehen: Hamburg ist Geburtsort von Udo Lindenberg oder Prodigy ist Lieblingsband von Angela Merkel. Damit das überhaupt als ein Fortschritt in der Suchtechnologie aufgefasst werden kann, sollen dann Tausende von Dialekten und Sprachen erstellt werden, die diese Tripel (Menge aus drei Elementen) zu einem thematisch sinnvollen Ganzen zusammenfassen. Es gibt diese Dialekte aus Tausenden dreiwertigen Zuordnungen schon in den Naturwissenschaften und in der Bibliothekswelt. Der Nutzen für den Menschen, der eine Suchanfrage stellt, ist begrenzt auf bestimmte thematische Felder. Die Suche an sich ist keineswegs alltagstauglicher geworden. Der Mensch ist das Maß aller Dinge Das hat einen Grund, denn allerlei Prinzipien wie man Inhalte zueinander ordnet, sind immer festgeschriebene Muster, nach denen die Software einfach Inhalte zuordnet. Das hat aber kaum einen Vorteil im Alltag. Nun betritt eine neue Idee den Raum der Suchtechnologien: das Social Ranking. Denn wenn meine Suchergebnisse danach geordnet werden, was meine Kollegen oder Freunde zu einem Thema benutzt haben oder was sie veröffentlicht haben oder eben per Twitter verbreiten, dann kann die Suche die Themen meiner Lebenswelt abbilden. Suchmaschinen können dann soweit gehen und die Relevanz erweitern um den Kreis der Freunde meiner Freunde, oder (klammern wir mal das Thema Datenschutz aus, was mit Anonymisierung nur beschränkt funktioniert) um Suchende, die ein ähnliche Ausbildung und einen ähnlichen Beruf haben wie ich. Es ist sicher richtig, wenn wir Bauchschmerzen bekommen angesichts der enormen Menge an Daten, die Marktführer wie Google zu einer Person sammeln. Viele Leute befeuern diese Sammelwut noch, indem sie sogar die internen Daten ihrer Firma bei Google Docs lagern. Aber wenn wir den Begriff der Relevanz mal befreien aus den Klauen von mathematischen Lösungsverfahren und uns zurückbesinnen auf solche Begriffe wie Clans oder Freundeskreis, und dort das Zentrum sehen einer real vorhandenen Instanz an praktischem Wissen und handelnden Menschen, die uns mit der ständig wachsenden Menge an Inhalten im Web besser umgehen lässt, dann wäre es doch sicher sinnvoll, das einfach mal zu vertiefen und auszuprobieren. Mehr dazu siehe im readwriteweb.

 Verwandte Artikel

Linktipps: 10 semantische Web Apps (0) Linktipp: StockMood gibt Prognosen über Aktienkurse ab (1) Begriffsklärung: Was ist das Web 3.0? (3) Zemanta – Einfach besser bloggen (1) Wolfram Alpha - Matrix reloaded? (6)

July 18 2009, 1:57pm

Wolfram Alpha - Matrix reloaded?

Gastbeitrag von Dr. Klaus Holthausen von Qimaya.de über den aktuellen Hype um Stephen Wolframs Projekt “Wolfram Alpha“.

Sicherlich ist bei Wolfram Alpha der Name bereits Teil des Programms. Der Mathematiker Stephen Wolfram ist ein Schwergewicht in der wissenschaftlichen Welt. Es ist durchaus damit zu rechnen, dass wir im Mai etwas Spektakuläres zu sehen bekommen. Eine Maschine, die Fragen beantworten kann! Schon mehr als 40 Jahre denkt man darüber nach, ob eines Tages eine Maschine denken kann. Es gibt sogar ein spezielles Testverfahren, das es erlauben soll, objektiv darüber zu entscheiden, ob eine Maschine tatsächlich intelligent ist (Turing Test). Allerdings hat die Angelegenheit einen Haken. Wolfram Alpha beruht - soweit man den Berichten entnehmen kann - auf symbolischer künstlicher Intelligent (KI). Die prinzipielle Begrenzung des symbolischen Ansatzes der KI hat H.L. Dreyfus einleuchtend dargestellt. Anschaulich unterscheidet man zwischen knowing-how und knowing-that. Eine typische knowing-that-Frage ist: “Wie hoch ist der Mount Everest?” Ein derartiges Faktenwissen kann in der Tat durch symbolische KI gut abgebildet werden. Eine knowing-how-Frage hingegegen wäre: “Wie fühlt es sich an, wenn auf 6000 Meter Höhe die Luft dünner wird?” Mit knowing-how ist das Handlungswissen gemeint, das sich nur in der tatsächlich durchgeführten Handlung zeigt. Das kontextabhängige, implizite Wissen kann durch symbolische KI nicht abgebildet werden. Prinzipiell nicht. Nun steht Stephen Wolfram für einen eher ungewöhnlichen Ansatz in der KI. Sehr verbreitet ist der Top-down-Ansatz, bei dem sehr allgemeine Regeln aufgestellt werden. Wolfram betrachtet das KI-Problem von einer ganz anderen Perspektive (Bottom-up). Eine der Wurzeln für das Projekt Wolfram Alpha ist die langjährige Forschung an zellularen Automaten. Das sind simple Recheneinheiten, die im einfachsten Fall nur den Zustand an/aus kennen. Man kann sich solche Zellularautomaten als ein schachbrettartiges Muster vorstellen, der Zustand “an” wäre durch ein weißes und der Zustand “aus” durch ein schwarzes Quadrat repräsentiert. Der Clou sind nun einfache Regeln, die das Schachbrett zum Leben erwecken. Eine Regel könnte zum Beispiel lauten: Eine Zelle wird dann aktiv, wenn mindestens zwei Nachbarn aktiv sind. So können durch einfache Regeln komplexe Selbstorganisationsprozesse entstehen. Von der Entstehung komplexer Strukturen auf Basis einfacher Regeln handelt Wolframs Buch “A new kind of science“. In diesem Buch vertritt Wolfram ein radikalen Standpunkt: Er geht davon aus, dass wir JEDEN wissenschaftlichen Prozess mit Zellularautomaten abbilden können. Zum Beispiel auch die Allgemeine Relativitätstheorie. Mehr noch: Wolfram sieht die Wissenschaft in einer Sackgasse. Die komplizierte Mathematik, die Relativitätstheorie und Quantenphysik zugrunde liegt, wäre lediglich ein unvollkommenes Konstrukt unseres Geistes. Vielleicht ist die Welt ja “in echt” ein Zellularautomat. — Im Kino hat uns die Matrix-Trilogie ein derartiges Szenario vor Augen geführt — Dann wäre es richtig, Theoretische Astrophysik nur auf Basis von Zellularautomaten zu betreiben. Niemand müsste mehr Differentialgeometrie — oder andere schweißtreibende Sachen — studieren. Jedenfalls erläutert dies die Motivation des Titels “A new kind of science”. Eine Kostprobe des Selbstbewusstseins des Autors findet sich auf Seite 42 des oben genannten Buches. Wolfram stellt die Überlegung an, ob vielleicht eines Tages Archäologen bei den Babyloniern Schrifttafeln mit Mustern von Zellularautomaten finden. Nein, heißt es dann, das könne nicht sein. Denn: Hätte man damals schon Zellularautomaten gehabt, dann wäre unsere heutige Naturwissenschaft nicht zustande gekommen! Gibt es nun eine Möglichkeit, bereits vor dem Launch im Mai zu erahnen, was mit Wolfram Alpha auf uns zukommt? Auf Wolframs Blog findet man einen hilfreichen Hinweis. An einer Stelle ist von “curation of data” die Rede. Dies führte mich zu einer Arbeitsgruppe aus Deutschland. Vom Max-Planck-Institut für evolutionäre Anthropologie stammt der Ansatz: “The design of a wiki-based curation system for the Ontology of Functions” [PDF] Hier geht es um die Generierung medizinischen (und biologischen) Wissens und damit eigentlich einer Paradeaufgabe für Wolfram Alpha. Das MPI definiert eine Art Wissensfunktion für biologische Entitäten. Beispiele: hasFunction(transport O2, red blood cell,circulating system) und hasFunction(accumulate O2, red blood cell, respiratory system). Solche Funktionen werden mit der Absicht definiert, dass man zum Beispiel verschiedene Wikis kombinieren kann, Expertensysteme einbauen etc. In diesem Konzept spielt der Mensch eine große Rolle, der aktiv Ontologien nutzt und pflegt. Übrigens kann man heute schon mit dem MPI-System arbeiten und Eindrücke eines “intelligenten” Retrievalsystems gewinnen. So weit so gut. Der MPI-Ansatz bindet den Menschen ausdrücklich ein (”However, human intervention is required in order to clear noise from the generated data.“). Doch was wäre, wenn man solche Funktionen(x,y,z) als Teile eines selbstorganisierten Zellularautomaten definieren - und programmieren - könnte? Könnte dann Wissen VOLLAUTOMATISCH generiert werden? Das wäre verrückt, ambitioniert, genial und erstaunlich zugleich. Die daraus resultierende Maschine wäre allerdings nicht menschlich, nicht assoziativ und auch nicht fuzzy. Die resultierende Maschine berechnet sich ihre eigene Wahrheit. Sie setzt sich selbst in Geltung. Die Maschine würde ihre “data curation” vielleicht mit der Wikipedia beginnen. Parteien, Kirchen und Künstler stehen später auf dem Speiseplan. — Zu dieser Vision passt übrigens ein prophetischer Text von Stanislaw Lem: Das Internetrisiko. Nun gibt es exakt zwei Möglichkeiten: Entweder ich irre mich und Wolfram Alpha ist ein JASE (just another search engine). Oder: Der kongeniale Stephen Wolfram hat tatsächlich eine Maschine gebaut, die wie oben beschrieben funktioniert. Dann kapituliere ich schon mal vorab und sage: Willkommen, Wolfram Alpha! Bildnachweis: David Asch auf Flickr.com

 Verwandte Artikel

Der semantische Gral (7) Linktipp: StockMood gibt Prognosen über Aktienkurse ab (1) Begriffsklärung: Was ist das Web 3.0? (3) Social Bookmarking 3.0 – Twine verbindet die Interessen (0) Linktipps: 10 semantische Web Apps (0)

March 11 2009, 10:14am

Der semantische Gral

Und täglich buzzed das Murmeltier. Via Rivva bin ich auf die Buzzwelle um Stephen Wolfram gestoßen, die über den großen Teich jetzt auch in die deutsche Fach- und Bloggerpresse schwappt. Drüben bei Thomas Knüwer ist ein Teil der Geschichte in dem Post Wolfram Alpha: Wird Geschichte gemacht, geht es voran? aufgeschrieben. Worum geht es? Stephen Wolfram ist Wissenschaftler (Promotion in Theoretischer Physik im Alter von 20 Jahren) und auch sonst ein heller Kopf. Man lese dazu nur mal ein wenig in seinem CV. Im Mai soll sein neuestes Projekt namens Wolfram Alpha an den Start gehen, eine Such- … ne … eigentlich Antwortmaschine, die Google angeblich den Rang ablaufen kann. Alpha, so die Behauptung, soll Antworten auf konkret gestellte Fragen liefern, also nicht Ergebnisseiten auf Basis einer Sucheanfrage, sondern Antworten auf Fragen. Ein Versprechen, das oft gegeben, aber bisher gar nicht oder nur sehr rudimentär und in bestimmten klar definierten Wissensbereichen gehalten werden konnte. Semantik und neuronale Netze Vor einigen Wochen hatte ich die Gelegenheit mit Roy Uhlmann und Dr. Klaus Holthausen von Qimaya zu sprechen, die mit Qimaya ebenfalls einen Weg gefunden haben (wollen), wie man mit Hilfe mathematischer Formeln eine an die neuronalen Prozesse im menschlichen Gehirn angelehnte Erschließung der Informationsbestände im Web abbilden kann. Dresden Future Talks 2009: Dr. Klaus Holthausen und Roy Uhlmann from Steffen Bueffel on Vimeo. Zum Wolfram Alpha gibt es eine Reihe lesenwerter Beiträge, u.a. bei Twine, Venturebeat, Arstechnica und beim Guardian. Die Verheißungen und der Buzz sind verführerisch. Aber ob nun der eine, der andere oder irgendwer sonst den semantischen Gral aus den Tiefen des Möglichen heben kann, muss sich erst zeigen. Da heisst es im Falle von Wolfram Alpha abwarten. Denn alles neu macht der Mai.

 Verwandte Artikel

Social Bookmarking 3.0 – Twine verbindet die Interessen (0) Seifenblase oder die Zukunft des Web? (2) Mufin – Finde Musik nach Deinem Geschmack (1) Linktipps: 10 semantische Web Apps (0) Linktipp: StockMood gibt Prognosen über Aktienkurse ab (1)

March 10 2009, 8:12am

Seite 1