JMDict

tc1970 · 14.01.14 22:08

Ich bin zufällig auf das JMDict gestossen. So wie ich das verstanden habe, hat das JMDict ungefähr 90.000 Wörter Japanisch-Deutsch.

Das finde ich sehr interessant. Bisher kannte ich nur das WaDoku mit ungefähr 250.000 Einträgen. Somit ist das JMDict viel handlicher als das WaDoku.

Ich komme nur mit der XML-Struktur des JMDict nicht klar. Das JMDict hat ausser Jap.-Deutsch noch andere Sprachpaare als Inhalt und ist insgesamt größer als 90 MB.

Hat jemand eine Idee, wie ich aus der großen JMDict-Datei nur die Jap-Dt-Paare herausfiltern kann ?

Das würde mir sehr helfen. Eine solche Datei könnte ich durch ein Vorlese-Programm wie Text-Aloud jagen und hätte auf einem Schlag sehr viele vertonte Vokabeln.

vdrummer · 15.01.14 00:07

Habe gerade mal auf die Schnelle ein Programm geschrieben, dass die deutschen Bedeutungen und japanischen Lesungen jedes Eintrages zusammenfasst und in eine Zeile einer Datei schreibt.

Das Ergebnis ist zu groß für's JN und deshalb hier nicht mehr zu finden zwinker

.
Es gibt eine bessere Version namens "Lesung-Deutsch" zwei Posts weiter unten.

Falls ich noch was an der Syntax der Datei anpassen soll, sag bescheid.
Hab gerade noch gesehen, dass da immer das grammatikalische Geschlecht von Substantiven dabeisteht, was beim Vorlesen bestimmt nervig ist. Das ließe sich aber leicht rausfiltern.

PS: Ich hab jetzt nicht die ganze Datei nach Fehlern durchgesehen, von daher keine Garantie für Korrektheit zwinker

PPS: Es sind 105.909 deutsche Einträge

tc1970 · 15.01.14 17:13

Vielen Dank für die Mühe. grins

Alleine hätte ich die XML-Datei nicht parsen können.

Mein Vorlese-Programm "Text-Aloud" versteht aber auch Kanjis. Wenn das nicht zuviel Arbeit ist: Über eine Datei mit den Spalten "Kanji; deutsche Bedeutung" würde ich mich auch sehr freuen. grins

Ich möchte hier noch Werbung für ein Wörterbuch von Amazon Kindle machen:
電子辞書 Japanisch → Deutsch Wörterbuch von Roger Häusermann (10. November 2013)
Sprache: Deutsch
ASIN: B00FD956JI
Preis: 1,91 Euro

Der Autor hat im Prinzip nur die JMDict-Datei mit den Tatoeba-Satz-Dateien kombiniert und als eBook veröffentlicht. Bei dem Preis finde ich es aber geschenkt.

Das Beste ist: Auf meinem iPad kann wird das Wörterbuch in die Kindle-App integriert. Wenn ich einen japanischen Text im Kindle lese und einzelne Kanjis nicht verstehe, kann ich mir durch Antippen des Kanjis die Bedeutung im Wörterbuch zeigen lassen.

Früher war ich immer skeptisch, was Open-Source-Projekte anbetrifft. Aber JMDict und die Tatoeba-Dateien scheinen kommerziellen Anbietern doch tatsächlich überlegen zu sein.

vdrummer · 15.01.14 18:30

(15.01.14 17:13)tc1970 schrieb: Vielen Dank für die Mühe. Alleine hätte ich die XML-Datei nicht parsen können.

Gern geschehen!
War eingentlich gar nicht so schwierig. Innerhalb eines entry-Blockes die Zeilen, die mit <reb> oder <gloss xml:lang="ger"> beginnen zurechtschneiden und zwischenspeichern und am Ende des Blocks schreiben.

Zitat:Mein Vorlese-Programm "Text-Aloud" versteht aber auch Kanjis.

Und das klappt? Ich habe eine Zeit lang ein Programm genutzt, das Kanji quasi "furiganisiert" und das ist teilweise an für uns Menschen ziemlich einfachen Lesungen gescheitert.

Zitat:Wenn das nicht zuviel Arbeit ist: Über eine Datei mit den Spalten "Kanji; deutsche Bedeutung" würde ich mich auch sehr freuen.

Ich habe jetzt einfach mal 3 Dateien gemacht:
Kanji-Lesung-Deutsch
Kanji-Deutsch (da, wo es keine Kanji gab, hab ich die Lesung genommen)
Lesung-Deutsch

Dabei habe ich die einzelnen Kategorien durch Semikola und die einzelnen Wörter durch Kommata getrennt.

tc1970 · 15.01.14 19:40

(15.01.14 18:30)vdrummer schrieb: Und das klappt? Ich habe eine Zeit lang ein Programm genutzt, das Kanji quasi "furiganisiert" und das ist teilweise an für uns Menschen ziemlich einfachen Lesungen gescheitert.

TextAloud 3 schafft eigentlich fast alle Kanjis. Dafür ist eine Stimme aber auch einige 100 MB groß und muss separat hinzugekauft werden. Wenn ich mich richtig erinnere, habe ich für TextAloud 3 und den 3 Stimmen (deutsch, englisch, japanisch) zusammen etwa 100-150 Euro bezahlt.

Man muss TextAloud sagen, welche Stimme aktuell verwendet werden soll. Mit einem Tabellenkalkulationsprogramm habe ich Textdateien erstellt, die wie folgt aussehen:

<voice required="name = Reiner16"> Es ist komisch, dass er immer noch nicht gekommen ist. <voice required="name = Sakura22k_HQ"> 彼がまだ来ていないとはへんだ。 {{Pause=1}} 彼がまだ来ていないとはへんだ。
<voice required="name = Reiner16"> Zusammen oder getrennt? <voice required="name = Sakura22k_HQ"> 一緒にとか別々にとか？ {{Pause=1}} 一緒にとか別々にとか？

Das waren jetzt die ersten 2 Zeilen aus meiner Tatoeba-Vertonung.
Man kann TextAloud sagen, dass es zum Beispiel nach allen 5 Minuten eine neue mp3-Datei anfängt. Einzeln vertonte Vokabeln klingen besser als lange Sätze. Lange Sätze, die vertont werden, klingen blechern.

Ein großes Problem hat aber TextAloud: Bei ganz großen Dateien hängt sich das Programm auf. Der Support konnte mir da auch nicht weiterhelfen.

Das heißt, man muss die große Textdatei, die vertont werden soll, vorher splitten. Das Vertonen großer Dateien ist deshalb schon zeitaufwendig.

Möglicherweise verwandte Themen...
Thema:	Verfasser	Antworten:	Ansichten:	Letzter Beitrag
JMdict in JWPce ?	Christof	1	2.411	13.10.05 23:52 Letzter Beitrag: Kanjiquäler

JMDict
Verfasser	Nachricht