Antwort schreiben 
Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Verfasser Nachricht
tc1970


Beiträge: 216
Beitrag #1
Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Bei http://ideenouveau.com/japan/three-ways-learn-japanese/
bin ich auf den Tanaka Corpus gestossen:
http://www.edrdg.org/wiki/index.php/Tanaka_Corpus

Das ist eine Datenbank, die Sätze sammelt, von Englisch nach Japanisch.

Ich wollte mal fragen, ob schon jemand mit dem Tanaka Corpus aktiv gearbeitet hat ?

Ich kann mir vorstellen, dass es Sinn macht, die Datei zum Beispiel in Anki einzubinden und dann die Richtung Englisch->Japanisch zu üben.

Über Erfahrungsberichte würde ich mich freuen.
(Dieser Beitrag wurde zuletzt bearbeitet: 23.09.12 15:51 von tc1970.)
09.09.12 16:21
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
tc1970


Beiträge: 216
Beitrag #2
RE: Tanaka Corpus und Tatoeba.org
Über den Tanaka-Corpus bin ich zu http://www.tatoeba.org gestossen.

Das ist eine Webseite, wo man erst die Sprachrichtung wählt und sich dann Sätze zu einer Vokabel anzeigen lässt. Es gibt es ganz viele Sätze Deutsch-Japanisch.

Alle Sätze kann man auch als csv-Datei downloaden.
Ich habe aber noch nicht herausgefunden, wie ich aus der csv-Datei nur die Sprachrichtung Deutsch-Japanisch herausfiltern kann.

Es wäre toll, tausende von Sätze in Anki zu importieren und dann die sprachliche Ausdrucksfähigkeit im Japanischen zu üben.
(Dieser Beitrag wurde zuletzt bearbeitet: 23.09.12 15:52 von tc1970.)
23.09.12 15:41
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
frostschutz
Technik

Beiträge: 1.629
Beitrag #3
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Geht nicht direkt da das erstmal eine Datenbank ist wo man erst die Relation auflösen muss um die passenden Satzpaare (japanisch, deutsch) zu finden.

Man kann dort aber (wenn man registriert ist) eine Liste erstellen und diese dann mit Übersetzung downloaden (angeblich, hab ich nicht ausprobiert).

Hier hat jemand was geschrieben http://a4esl.com/temporary/tatoeba/anki/ aber das sind nur Dateien für Englisch. Vergleichbares müsste man auch für Deutsch machen. Man kann den Autor auf tatoeba anschreiben, vielleicht kann er sein Script ja auch einfach auf Anfrage für jpn-deu anwerfen?

Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
23.09.12 20:55
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
frostschutz
Technik

Beiträge: 1.629
Beitrag #4
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Oder selbst gemacht mit SQLite3. Zunächst sentences und links aus csv in Tabellen importieren.

Dann dieses Query:

Code:
SELECT c.text,a.text FROM sentences a LEFT JOIN links b ON a.id=b.sentence_id LEFT JOIN sentences c ON c.id=b.translation_id WHERE a.lang='deu' AND c.lang='jpn' GROUP BY a.id;

Liefert Übersetzungspaare Japanisch<->Deutsch. Qualität ist eine andere Frage.

Allerdings komme ich da nur auf 1490 Sätze. Insgesamt sind in der Datenbank 73525 deutsche und 10002 japanische Sätze, daß davon nur 1490 gepaart sein sollen ist etwas dürftig. Bei Englisch statt Deutsch komme ich immerhin auf 5745 Paare.

EDIT: Wegen einem Datenbank-Import-Fehler war die Liste unvollständig...

Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
(Dieser Beitrag wurde zuletzt bearbeitet: 25.09.12 18:43 von frostschutz.)
23.09.12 22:10
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Hellstorm
Moderator

Beiträge: 3.895
Beitrag #5
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Ich kann mir aber irgendwie nicht ganz vorstellen, dass die Qualität da so gut sein kann.

Nehmen wir mal an, wir haben den simplen Satz

お名前は何ですか。 auf Japanisch

Dann wird der vielleicht auf Englisch als „What is your name?“ übersetzt.

Ich glaube aber kaum, dass der jetzt direkt von Japanisch auf Deutsch übersetzt wird, sondern wahrscheinlich fast immer nur Englisch übersetzt wird. Und dann könnte sein, dass der Satz als „Wie heißt du?“ übersetzt wird, was dann natürlich von der Richtung Engl->Deutsch richtig ist, aber von Japanisch->Deutsch nicht wirklich.

Ich könnt mir schon vorstellen, dass das Problem öfters auftritt.

やられてなくてもやり返す!八つ当たりだ!
23.09.12 22:26
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
frostschutz
Technik

Beiträge: 1.629
Beitrag #6
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Meine Methode ist leider nicht wirklich perfekt, es sind auch ein paar doppelte Übersetzungsvorschläge drinnen.

Kann auch gut sein daß ich allgemein irgendwo einen Fehler gemacht habe, die vorher gepostete Seite hat 18000 Sätze in seiner jpn-eng Datei. Da ich nur auf 5000 komme ist da vielleicht irgendwo was verschütt gegangen.

EDIT: Ah, sqlite3 hat nur einen Teil der Sätze-Datenbank importiert bei mir und keine Fehlermeldung ausgegeben. kratz Ich muss mir das ein andermal nochmal anschauen, keine Lust mehr heute... rot

Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
(Dieser Beitrag wurde zuletzt bearbeitet: 23.09.12 23:02 von frostschutz.)
23.09.12 22:53
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
moustique


Beiträge: 1.811
Beitrag #7
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
24.09.12 01:05
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
frostschutz
Technik

Beiträge: 1.629
Beitrag #8
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Hier nochmal richtig, diesmal mit einem Python-Script. Kommt für jpn-deu auf 18'499 Sätze, für jpn-eng auf 163'454. Die englische Datei ist selbst gepackt ein paar MB groß...


Angehängte Datei(en)
.txt  pairs.py.txt (Größe: 581 Bytes / Downloads: 171)
.zip  tatoeba-jpn-deu.zip (Größe: 726,27 KB / Downloads: 122)

Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
25.09.12 18:48
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
tc1970


Beiträge: 216
Beitrag #9
RE: Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Vielen Dank für Deine Mühe ! grins
(Dieser Beitrag wurde zuletzt bearbeitet: 25.09.12 20:36 von tc1970.)
25.09.12 20:17
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Satz-Datenbanken: Tanaka Corpus und Tatoeba.org
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema: Verfasser Antworten: Ansichten: Letzter Beitrag
Anki und Datenbanken moustique 4 1.414 12.09.14 08:48
Letzter Beitrag: Woa de Lodela