Antwort schreiben 
Wo finde ich downloadbare Vokabellisten?
Verfasser Nachricht
Kokujou


Beiträge: 125
Beitrag #1
Wo finde ich downloadbare Vokabellisten?
Ich bin gerade dabei als Hobby einen Vokabeltrainer zu designen. Das Hauptproblem: Die Datenquelle.
Was ich brauche sind Vokabellisten mit folgenden Daten.
Kanji | Lesung (Hiragana) | Romaji | Deutsch | Wordtyp | Kategorie | Häufigkeit | Level (z.B. JLPT)
Mit Wortyp meine ich den grammatikalischen Typ, also Substantiv, Verb, Adjektiv...
Mit Kategorie meine ich eine thematische Klassifizierung des Wortes, z.B. Biologie und Chemie, bzw. Bewegung und Kommunikation für Verben.
Das Level erklärt sich von selbst, JLPT ist das bekannteste, aber wichtig ist mir nur eine Klassifizierung nach "Schwierigkeit" oder "Wichtigkeit" von Grundlagen bis hin zu extremen Nischen-Wörtern.

Was ich bereits versucht habe:
1. JMDict - leider viel zu komplex, außerdem gibt es weniger ein Wort-zu-Wort Mapping, es ist eben ein Wörterbuch, dass mehr darauf aus ist Erklärungen zu liefern. Schlecht zum Abfragen von Vokabeln. Das Schlimmste ist, dass es theoretisch mehrere Kanji auf mehrere Lesungen auf mehrere Übersetzungen mappt ohne diese klar zu verbinden. Problematisch.
2. BCCWJ - detailierte Information für Häufigkeiten
3. Wadoku XML Dump - Keine Kategorien wie beim JMDict, aber dafür eine einfachere Struktur. Leider auch eher Erklärungen als Übersetzungen
4. verschiedene JLPT-Listen

Das Problem: Der Join.
Ihr wisst sicher, dass selbst die Kombination aus Kanji und Lesung nicht unique ist. Es gibt keinen eindeutigen Identifier bezüglich der "Bedeutung" eines Wortes. Darum ist es quasi unmöglich diese Quellen sinnvoll zu kombinieren.
Ein Beispiel: Allein der Buchstabe A. Er ist sowohl eine Onomatopoesie, kann aber auch für bestimmte Krankheiten gelten. Was passiert nun? Ich joine die Kategorien vom JMDict hinein und jetzt ist plötzlich A im Sinne des Schmerz-Ausrufes der Kategorie "Pharmakologie" zugeordnet. Prost Mahlzeit hoho

Meine aktuell beste Lösung ist KI. Es gibt verschiedene Klassifikatoren die kostenlos erhältlich sind, aber diese sind chronisch langsam. Sowohl eine Basis-Wortliste zu nehmen und diese einfach nur mittels KI zu klassifizieren als auch mir komplette Tabellen mittels KI generieren zu lassen würde Monate oder Jahre dauern, da die ja nicht auf Massenverarbeitung ausgelegt sind.

Also wollte ich hier mal fragen. Was sind eure Erfahrungen damit? Kennt ihr andere Schemata, die ich benutzen könnte, Projekte, die das schonmal angegangen sind? Es gibt doch unzählige Vokabeltrainer da draußen, da muss man doch an sinnvolle Daten kommen können oder? Oder kennt ihr euch besser mit einem der oben genannten Schemata aus, habt Ideen zu den Joins? Jede Hilfe ist willkommen.
31.05.25 18:57
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 693
Beitrag #2
RE: Wo finde ich downloadbare Vokabellisten?
Konkret zu Deinen Fragen:
Schau Dir die Datenquellen von jisho.org und Rikaichamp an. Da sind die geforderten Informationen drin.
Wie schätzt Du Deinen eigenen Stand ein? Ich habe ziemlich schnell einsehen müssen, dass Japanisch nicht wie Latein oder Englisch gelernt werden kann, Grund sind die Homonyme. Abfragen machen nur Sinn im Kontext. Eine alleinstehende Phonemfolge kann alles mögliche bedeuten.
Alles was ich aktuell noch wiederhole sind Kanji. Anki zeigt mir Kanji und ich versuche mich an Lesungen und Bedeutungen zu erinnern. In den Vokabelkarten stehen dann Beispiele für Komposita.
Das ist aber immer noch nicht das Gelbe vom Ei für den Studenten. Dem wird man im allgemeinen das Lernen von Beispielsätzen nahelegen.
Ich muss mich wiederholen - Japanisch ist nicht wie dem Deutschen verwandte Sprachen zu lernen. Ich stehe immer noch zu meiner Empfehlung, ein paar Kanji zu lernen (~JLPT N3), Grammatikgrundlagen zu lernen und dann viel Lesen und im Idealfall Hören und Sprechen.
Vielleicht findest Du hier irgendwas brauchbares:
https://www.harerod.de/nihongo/
Meine ANKI Datenbank liegt dort auch herum, ggf. Copyright der Quellen beachten. Es fehlen jedoch weitgehend Meta-Daten.
31.05.25 20:33
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Kokujou


Beiträge: 125
Beitrag #3
RE: Wo finde ich downloadbare Vokabellisten?
(31.05.25 20:33)harerod schrieb:  Konkret zu Deinen Fragen:
Schau Dir die Datenquellen von jisho.org und Rikaichamp an...

Ich hab nie einen Test oder so gemacht, weil ich... mich weigere Kanji zu lernen hoho
Kanji ist gefühlt 99% der Komplexität der japanischen Sprache. Ich konnte mich in Japan halbwegs verständigen. Ich würde so sagen Grundschul bis Mittelschul-Level.

Mit ein paar Ausnahmen empfinde ich Japan als angenehm einfach. Die japansiche Grammatik ist... sehr einfach zu verstehen. Du hast kaum Flexionen. Die Verben konjugierst du ein wenig, aber auch das ist ziemlich straight forward. Es gibt keine Geschlechter, mitunter nichtmal wirklich Plural, keine 4-Fälle wie im Deutschen.

Natürlich ist das, was jetzt komm hochsimplifiziert, aber ich würde sagen, wenn du dir die Basis-Grammatik drauf schaffst und im Grunde das Wörterbuch auswendig lernst und dich mit der Aussprache arrangierst, kannst du dich fließend auf japanisch Unterhalten.

Und letzteres ist halt das, was mir noch fehlt und es gibt erstaunlich wenige Lern-Apps, die dir die Vokabeln auf Romaji hinschreiben. Und die Hiragana Transkription fügen sie nur für besondere Kanji hinzu also... Ja. Do it yourself, war meine idee. Und weil ich mal wieder Programmieren wollte ^-^

Da oben drauf kommt dann natürlich noch: Keigo, grammatikalische Extremfälle, Business-Sprache und natürlich die Erfahrung, die du nur kriegst, wenn du selbst die Sprache sprichst. Auch so Grenzfälle wie, ich nenns mal "Antike Sprache". Formen we "gozaimasu" sind ja noch so fragmente aus alten Sprachüberbleibseln, wo "saru" die "antike" Form von "desu" ist. Das sind so die Dinge, die man hört wenn man sich solche historischen Dramen ansieht.

Aber, bevor ich hier niedergeschlachtet werde: Das ist meine Persönliche nicht-respektive Meinung. Ich habe nie "richtig" japanisch gelernt, sondern mir im Grunde alles durch abschauen und hier und da mal mit ChatGPT reden beigebracht.

zu den genannten Links, scheint so als würden die alle JMDict verwenden... vermutlich muss ich einfach irgendwie ein besseres Verständnis für die Struktur gewinnen.

Aber andereseits, es ist doch ein Unterschied ob man ein Wörterbuch hat, oder einen Vokabeltrainer. Ein Wörterbuch enthält Erklärungen, Referenzen, Beispiele.
Wenn ich da "Apfel" nachschlage, kommen vielleicht Redewendungen, oder biologische Spezifikationen, aber in eine Lern-App soll da einfach nur "ringo" stehen.

Nachdem ich mich mit dem JMDict solange rumgeschlagen habe zweifle ich ein wenig daran, dass man das korrekt Abbilden kann... Darum würde ich mich ja freuen, wenn es jemanden gäbe, der sich mit dem Datenschema beschäftigt hat
(Dieser Beitrag wurde zuletzt bearbeitet: 31.05.25 21:05 von Kokujou.)
31.05.25 20:43
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.501
Beitrag #4
RE: Wo finde ich downloadbare Vokabellisten?
(31.05.25 20:43)Kokujou schrieb:  Ich hab nie einen Test oder so gemacht, weil ich... mich weigere Kanji zu lernen hoho
Kanji ist gefühlt 99% der Komplexität der japanischen Sprache. Ich konnte mich in Japan halbwegs verständigen. Ich würde so sagen Grundschul bis Mittelschul-Level.

Unterschätz nicht das Japanischniveau von Grund- und Mittelschülern zwinker Die kennen teilweise Sachen, die mir in 15 Jahren Japanischlernen noch nicht untergekommen sind...

Zitat:Mit ein paar Ausnahmen empfinde ich Japan als angenehm einfach. Die japansiche Grammatik ist... sehr einfach zu verstehen. Du hast kaum Flexionen. Die Verben konjugierst du ein wenig, aber auch das ist ziemlich straight forward. Es gibt keine Geschlechter, mitunter nichtmal wirklich Plural, keine 4-Fälle wie im Deutschen.

Ich hab mich heute erst wieder mit einem Japanischlerner unterhalten und wir waren uns einig, dass die japanische Grammatik im Vergleich zur deutschen echt angenehm ist.

Zitat:Natürlich ist das, was jetzt komm hochsimplifiziert, aber ich würde sagen, wenn du dir die Basis-Grammatik drauf schaffst und im Grunde das Wörterbuch auswendig lernst und dich mit der Aussprache arrangierst, kannst du dich fließend auf japanisch Unterhalten.

Ja, theoretisch ist Sprache nur Aussprache, Vokabular und Grammatik. In der Praxis ist Japanisch ziemlich kontextabhängig und du brauchst viel Input / Erfahrung, um natürliches Japanisch zu sprechen. Der einfachste Weg, diesen Input zu bekommen ist Lesen, aber dafür brauchst du halt wieder Kanji...

Zitat:Da oben drauf kommt dann natürlich noch: Keigo, grammatikalische Extremfälle, Business-Sprache und natürlich die Erfahrung, die du nur kriegst, wenn du selbst die Sprache sprichst. Auch so Grenzfälle wie, ich nenns mal "Antike Sprache". Formen we "gozaimasu" sind ja noch so fragmente aus alten Sprachüberbleibseln, wo "saru" die "antike" Form von "desu" ist. Das sind so die Dinge, die man hört wenn man sich solche historischen Dramen ansieht.

Keigo ist erstaunlich einfach, wenn man mal die Basics richtig lernt. Aber natürlich braucht man auch da Übung, um es richtig anwenden zu können (ich hab leider viel zu selten Gelegenheit dazu...)
Wenn du dich für altes Japanisch und die Geschichte der Grammatik interessierst, gibt es da noch klassisches Japanisch und klassisches Chinesisch. Da kommst du dann um Kanji aber nicht mehr herum zwinker



Zitat:zu den genannten Links, scheint so als würden die alle JMDict verwenden... vermutlich muss ich einfach irgendwie ein besseres Verständnis für die Struktur gewinnen.

Meinst du mit der Struktur das XML? Es gibt das Ganze unter dem Namen EDICT auch als mehr oder weniger Plain-Text-File. Bin mir aber nicht sicher, ob das unbedingt einfacher zu parsen ist...

Zitat:Aber andereseits, es ist doch ein Unterschied ob man ein Wörterbuch hat, oder einen Vokabeltrainer. Ein Wörterbuch enthält Erklärungen, Referenzen, Beispiele.
Wenn ich da "Apfel" nachschlage, kommen vielleicht Redewendungen, oder biologische Spezifikationen, aber in eine Lern-App soll da einfach nur "ringo" stehen.

Was ich eigentlich fragen wollte (Sorry, aber in diesem Thread waren viele spannende Sachen): In welche Richtung soll dein Vokabeltrainer gehen? Deutsch -> Japanisch?
Das Wäre subobtimal, da JMdict auf Japanisch -> Englisch und Wadoku auf Japanisch -> Deutsch (steckt ja auch im Namen) optimiert ist.
Sprich für ein japanisches Wort bekommst du eine Menge von möglichen Übersetzungen in der Zielsprache. Andersrum wird es halt schwierig (funktioniert nur bei sehr spezifischen Wörtern, z.B. Fachvokabular, wo es dann nur eine Entsprechung gibt).

Aber auch bei Japanisch -> Deutsch hast du 2 "Probleme":
1. Ein (japanisches) Wort kann mehrere Bedeutungen haben. Einsprachige Wörterbücher listen diese Bedeutungen tatsächlich in einer sinnvollen Reihenfolge (meist nach Verwendungshäufigkeit) auf. Klar ist es sinnvoll, irgendwann alle Bedeutungen zu kennen; als Anfänger will man sich natürlich auf die wichtigste(n) konzentrieren. Hier fällt mir spontan nicht ein, wie man das gescheit maschinell lösen kann.

2. Eine Bedeutung kann mehrere Übersetzungen haben. Gerade bei Wadoku hat man da oft viele Möglichkeiten stehen. Jetzt kommt's drauf an, wie du deinen Vokabeltrainer baust, aber du könntest zum Beispiel schauen, ob der User-Input Teil der Menge von Übersetzungen ist.



Mir fällt gerade ein, dass ich mir tatsächlich mal ne Datenbank von einem Online-Vokabeltrainer gezogen habe mit wahrscheinlich einigen tausenden Einzelwortpaaren (Japanisch-Englisch). Muss mal schauen, ob ich die noch finde...



EDIT:
OK, es waren nur ca. 1200:
https://www.cram.com/flashcards/export/1417775

Und jetzt sehe ich erst, dass man die Dinger einfach exportieren kann. Ich hatte das damals etwas komplizierter gemacht hoho
(Dieser Beitrag wurde zuletzt bearbeitet: 31.05.25 23:25 von vdrummer.)
31.05.25 23:01
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Kokujou


Beiträge: 125
Beitrag #5
RE: Wo finde ich downloadbare Vokabellisten?
(31.05.25 23:01)vdrummer schrieb:  [...]
Ja, theoretisch ist Sprache nur Aussprache, Vokabular und Grammatik. In der Praxis ist Japanisch ziemlich kontextabhängig und du brauchst viel Input / Erfahrung, um natürliches Japanisch zu sprechen. Der einfachste Weg, diesen Input zu bekommen ist Lesen, aber dafür brauchst du halt wieder Kanji...

Teilzitate hier sind ganzschön schwierig. Egal. Naja du musst halt mehrere Bedeutungen von Worten kennen, aber ganz ehrlich, laut meiner jetzigen Erfahrung: SO schlimm ist es auch nicht. Darum will ich ja z.B. die Frequenz-Daten. Nehmen wir "kumo". Solange du nichts mit Insekten zutun hast, ist die Unterscheidung zwischen der Bedeutung Wolke und Spinne nicht SO wichtig. Ich würde die These aufstellen, dass man die Homophone im normalen Sprachgebrauch kaum bis gar nicht merkt und sie mit vergleichbaren Dingen in Deutsch korrelieren kann. Ich meine, stell dir nur die leckeren Pferdeäpfel vor hoho

(31.05.25 23:01)vdrummer schrieb:  Keigo ist erstaunlich einfach, wenn man mal die Basics richtig lernt. Aber natürlich braucht man auch da Übung, um es richtig anwenden zu können (ich hab leider viel zu selten Gelegenheit dazu...)
Wenn du dich für altes Japanisch und die Geschichte der Grammatik interessierst, gibt es da noch klassisches Japanisch und klassisches Chinesisch. Da kommst du dann um Kanji aber nicht mehr herum zwinker

Naja die Basis ist einfach, du hägnst einfach masu und desu überall dran. Aber dann kommen die Spezialfälle. gozaimasu z.B. kommt ja von "Antik"-Japanisch saru = sein. Dann die Frage wann man go- und o- vorne anhängt. und wo überhaupt. Und dann die japanischen Sonderwendungen, die ich bis heute nicht so durchblicke. da kommts sowas wie "biiru kudasai" zu "biru yurushite itadaite yoroshii desu ka?" so oder so ähnlich, hört sich das manchmal an. Verstehen ist einfach weil man den komplexen Teil überhören kann.

(31.05.25 23:01)vdrummer schrieb:  Meinst du mit der Struktur das XML? Es gibt das Ganze unter dem Namen EDICT auch als mehr oder weniger Plain-Text-File. Bin mir aber nicht sicher, ob das unbedingt einfacher zu parsen ist...

Das ist... tatsächlich etwas übersichtlicher und hilft, aber das ist ja nicht das Hauptproblem, in dem jetzigen EDict File z.B. fehlen erstmal die Klassifikationen.
Das Hauptproblem, dass ich tatsächlich habe, ist der Join. Wie verbinde ich verschiedene Datenquellen wenn es keine Uniqueness zwischen Zeichen gibt? Ich bin, als ich angefangen habe, davon ausgegangen dass zumindest die Kombination aus Kanji und Hiragana eindeutig ist. Kumo hat ja andere Kanji für Spinne und Wolke, aber dem ist wohl nicht so... Da fängt es tatsächlich an auszuarten und mich ratlos zu machen.

(31.05.25 23:01)vdrummer schrieb:  Was ich eigentlich fragen wollte (Sorry, aber in diesem Thread waren viele spannende Sachen): In welche Richtung soll dein Vokabeltrainer gehen? Deutsch -> Japanisch?

JMDict hat tatsächlich deutsche Übersetzungen, zumindest das Biest was ich habe mit fast 200MB.
Ich wollte ja eigentlich beide Richtungen abbilden, weil du immer beides brauchen wirst, wenn du Japanisch verstehen willst. Ich muss mir natürlich eine Strategie für die Mehrdeutigkeiten einfallen lassen, aber das ist ja kein Problem. zur not bau ich auf der Vokabelseite so in rot durchgestrichene Worte für die Bedeutungen, die der Benutzer schon kennt und er muss sich dann die neuen Bedeutungen merken.
Schwierig wirds beim Matchen, wenn du nicht Buchstabe für Buchstabe abgleichen willst (und so eine hohe falsch negativ Resultate kriegst). Ich hab schon überlegt mir ein GPT-ähnliches Sprachmodell zu gönnen, dafür gibt's ja kostenlose APIs.

Die UI ist dafür nicht wirklich das Problem, also, noch nicht. Aber überhaupt erstmal saubere "Karteikarten" draus zu basteln ist viel schwieriger, wie gesagt ich will ja für "Apfel" nicht mit "die verbotene Frucht des Adamsbaumes" abgleichen hoho



Also nochmal: Die Einzeldatenquellen sind nicht das Problem, das Problem entsteht wenn ich sie zusammenlege.
Ich hab jetzt z.B. das JMDict/Wadoku/... für die Basis. da stehen die Kanji, das Reading und die deutsche Übersetzung drinne, im JMDict sogar noch der grammatikalische Worttyp und die thematische Kategorie.
Dann hab ich das BCCWJ für die Frequenzen
Und die Listen fürs JLPT (wobei mich da noch Meinungen interessieren würden ob das als "Level"-Info wirklich ausreicht)

Aber wie krieg ich die zusammen?
Es wäre viel einfacher wenn die sequence ID aus dem JMDict auch in den BCCWJ Listen stünde und in den JLPT Listen bist du völlig aufgeschmissen. Beim BCCWJ hast du zumindest noch eine "sub lemma ID" was auch immer das sein soll und wie die definiert ist, aber IRGENDWAS ist da hoho

Der Fakt dass die Kombination aus Kanji und Lesung nicht eindeutig ist, hat mich wirklich umgehauen. Ich meine ganz ehrlich, dann kann man Kanji auch gleich abschaffen XD Das ist ja purer Masochismus. Wobei für künstlerische Dinge würd ich's tatsächlich lassen, weil, sieht schön aus.

Aber darum brauche ich jemanden, der sich mit den Schemata auskennt
01.06.25 09:55
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.501
Beitrag #6
RE: Wo finde ich downloadbare Vokabellisten?
Nur kurz; komplette Antwort kommt später:
Mir ist gerade wieder eingefallen, wie ich damals JLPT-Vokabellisten erstellt habe:

Das Offline-Wörterbuch tagainijisho hat in den Sources ein Mapping von JMdict-IDs auf JLPT-Level!
https://github.com/Gnurou/tagainijisho/t...ore/jmdict

Das sollte dir schon mal weiterhelfen.
01.06.25 10:15
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Kokujou


Beiträge: 125
Beitrag #7
RE: Wo finde ich downloadbare Vokabellisten?
(01.06.25 10:15)vdrummer schrieb:  Nur kurz; komplette Antwort kommt später:
Mir ist gerade wieder eingefallen, wie ich damals JLPT-Vokabellisten erstellt habe:

Das Offline-Wörterbuch tagainijisho hat in den Sources ein Mapping von JMdict-IDs auf JLPT-Level!
https://github.com/Gnurou/tagainijisho/t...ore/jmdict

Das sollte dir schon mal weiterhelfen.

Oh ja das ist großartig, ein mapping auf IDs dürfte präziser sein! hoho danke!
Jetzt brauche ich noch die Frequenzen vom BCCWJ reingejoint.
Und vielleicht jemand der mir Hinweise auf das Parsing des JMDict geben kann..

das EDict oder den Wadoku dump kann ich dafür ja nicht benutzen, denn die haben keine JMDict IDs. Danke schonmal!
01.06.25 10:53
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.501
Beitrag #8
RE: Wo finde ich downloadbare Vokabellisten?
Hast du gerade mal einen Link zur JMDict-XML? Den offiziellen FTP-Server scheint es nicht mehr zu geben und auf meine alten Projekte kann ich gerade nicht zugreifen.

Außerdem: In welcher Sprache willst du das Ganze schreiben? Evtl. kann ich dir Empfehlungen zu Libs geben.
(Dieser Beitrag wurde zuletzt bearbeitet: 01.06.25 11:59 von vdrummer.)
01.06.25 11:59
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Kokujou


Beiträge: 125
Beitrag #9
RE: Wo finde ich downloadbare Vokabellisten?
(01.06.25 11:59)vdrummer schrieb:  Hast du gerade mal einen Link zur JMDict-XML? Den offiziellen FTP-Server scheint es nicht mehr zu geben und auf meine alten Projekte kann ich gerade nicht zugreifen.

Außerdem: In welcher Sprache willst du das Ganze schreiben? Evtl. kann ich dir Empfehlungen zu Libs geben.

http://ftp.ftp.edrdg.org/pub/Nihongo//JMdict.gz
ist n bisl nervig zu downloaden, am besten benutzt du einfach nen CURL befehl
CURL http://ftp.ftp.edrdg.org/pub/Nihongo//JMdict.gz -o JMDict.gz
C#, ich bau das Zeug in ne SQLite Datenbank.
Ich hab ne Bibliothek zum parsen gefunden, aber die hat halt nicht das Schema aufgedröselt, mein Hauptproblem ist halt:
Du hast x kanjis die zu y lesungen zugeordnet sind und z übersetzungen haben. Es existiert für mich aber kein klarer Link zwischen Kanji, Lesung und Übersetzung, also müsste ich das eigentlich auf x*y*z auflösen und dann wäre ich bei mehreren Millionen Einträgen, das wäre Wahnsinn...
01.06.25 13:27
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.501
Beitrag #10
RE: Wo finde ich downloadbare Vokabellisten?
(01.06.25 13:27)Kokujou schrieb:  http://ftp.ftp.edrdg.org/pub/Nihongo//JMdict.gz

Danke. Das Forum kommt scheinbar mit dem FTP-Protokoll nicht klar und hat das auf "http://ftp.ftp. ..." verlinkt hoho
Mit "http://ftp.edrdg.org" hat's aber auch geklappt.

Zitat:C#, ich bau das Zeug in ne SQLite Datenbank.
Ich hab ne Bibliothek zum parsen gefunden, aber die hat halt nicht das Schema aufgedröselt, mein Hauptproblem ist halt:

OK, mit C# hab ich nie was zu tun gehabt; da hab ich leider keine Empfehlungen. SQLite klingt nach einer guten Wahl.
Mit Schema meinst du aber nicht das XML-Schema, oder? Die Struktur ist eigentlich innerhalb der Datei sehr gut dokumentiert und die meisten Tags sind selbsterklärend...

Zitat:Du hast x kanjis die zu y lesungen zugeordnet sind und z übersetzungen haben. Es existiert für mich aber kein klarer Link zwischen Kanji, Lesung und Übersetzung, also müsste ich das eigentlich auf x*y*z auflösen und dann wäre ich bei mehreren Millionen Einträgen, das wäre Wahnsinn...

Kanji * Lesungen * Bedeutungen halte ich für Overkill. Es gibt zum Beispiel 25 Wörter mit der Lesung "koukou". Brauchst du wirklich eine Liste all dieser Bedeutungen?
Gut, wenn du wirklich die Kanji weglassen willst wahrscheinlich ja, aber die sind halt super zum Disambiguieren von solchen Homophonen geeignet.

Ich denke, am sinnvollsten wäre ein Mapping von {Kanji, Lesung} <-> Menge von Bedeutungen.
Im angehängten Screenshot mal als Beispiel die relvanten Wadoku-Resultate für "Hand". Ich finde anhand der jeweiligen Menge der Bedeutungen kann man gut erkennen, welches Kanji / Wort für "Hand" hier gemeint ist.
Bei nem Mapping von "Hand" -> {役, 小手, 手々, ハンド, 手} geht dir halt der ganze Kontext verloren, in dem die jeweiligen Wörter verwendet werden (Wenn du sagen willst, dass du dich an der Hand verletzt hast, kannst du halt nicht 役 benutzen (gut, das liegt an den verschiedenen Bedeutungen des deutschen Begriffes "Hand", aber auch 手々 wäre in diesem Kontext als Erwachsener merkwürdig / unnatürlich, obwohl die Bedeutung korrekt ist (das meinte ich gestern mit "kontextabhängig"))).
Bei dem von mir vorgeschlagenen Mapping hättest du in beide Richtungen (vorrausgesetzt du behältst die Kanji) genug Information, um auf das jeweils andere schließen zu können.


Angehängte Datei(en) Thumbnail(s)
   
01.06.25 15:56
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Wo finde ich downloadbare Vokabellisten?
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema: Verfasser Antworten: Ansichten: Letzter Beitrag
Wo am besten gute Vokabellisten bekommen? Raikou 6 2.620 11.10.21 18:45
Letzter Beitrag: AwesomeSepp
nach Themen sortierte JLPT-Vokabellisten kanji_illustrator 3 2.992 26.01.17 20:44
Letzter Beitrag: senar
Wo finde ich die Hiragana Schreibweise ? Anonymer User 4 3.380 08.02.06 21:41
Letzter Beitrag: zongoku