GetSocial

www.doep.de

Wissenschaft – Gesellschaft – Medien – Persönliches

Lernen als angewandte Statistik

Posted on | November 10, 2006 | No Comments

Ein Post machte neugierig:

Google has built an English translation tool for Chinese and Arabic texts — using a team that speaks neither of the two languages. The system, which last week topped an international exercise to find the best Chinese and Arabic translation technology, is symbolic of a shift in approach to computer translation.

(im Blog Lingformant)

Wie geht denn sowas? Als ich dann auf den verlinkten Nature-Artikel ging, wurde das Vorgehen des Programms klar:

Im Prinzip funktioniert das Teil ganz simpel: Statt – wie bisher üblich – die Regeln und die Lexik zu programmieren und so manchmal recht komische Übersetzungen zu erzeugen, verfolgt das Team eine ganz andere Strategie. Es vergleicht Dokumente, die sowohl in Chinesisch/Arabisch als auch auf Englisch vorliegen. Am Anfang ist dies natürlich nicht sehr sinnvoll. Aber: Die Masse machts! Es ist davon auszugehen, dass nach dem Erreichen einer kritischen Masse die Übersetzungen relativ gut werden.

Das Prinzip des Lernens als angewandter Statistik (weiß irgendjemand eine zitierfähige Quelle dazu?) ist nicht neu: Zum ersten Mal stolperte ich bei der Parallel Distributed Processing-Gruppe um Rumelhart & McClelland über das Phänomen, dass ein neuronales Netz nach einem Training in seiner Wichtungsmatrix die statistische Verteilung der sprachlichen Oberflächenerscheinungen widerspiegelt.
Aber nicht nur im Konnektionismus lässt sich der Einfluss der Statistik finden. Schließlich ging es auf der diesjährigen Cognitive Science in Vancouver vor allem um die Bayes’sche Statistik (siehe Bayestheorem). Hier geht es um die Wahrscheinlichkeit einer Hypothese (oder Regel?) aufgrund der vorher angenommenen Wahrscheinlichkeit und der Erfahrungen, die man gesammelt hat.

Auch hat dieses Verfahren historische Vorläufe: Schließlich hat man die Hieroglyphen auch in einem ähnlichen Verfahren “entschlüsselt”. Der Stein von Rosetta trägt eine Inschrift in drei Sprachen (u.a. auch Altgriechisch). Es handelt sich dabei um einen Text mit zwei Übersetzungen. Durch Zuordnung der Hieroglyphen zu den anderen Texten konnten sie entschlüsselt werden.

Comments

Leave a Reply





  • Skype Online Status

    Mein Skype-Status Call me! - Martin Döpel: Offline
    » Get Skype, call free!
  • I am reading

    Sundermann und der Tote ohne Herz: Ein Münsterkrimi
    Sundermann und der Tote ohne Herz: Ein Münsterkrimi
  • Flickr

    			md_fotos posted a photo:	Omas Duftwasser.			md_fotos posted a photo:	Der WDR, der bekanntlich in Köln sitzt, hat dort auch einen Mausshop. Hier bin ich mit meinem Alter-Ego als Handpuppe.			md_fotos posted a photo:
  • Schlagwörter

  • Meta