(31.05.25 23:01)vdrummer schrieb: [...]
Ja, theoretisch ist Sprache nur Aussprache, Vokabular und Grammatik. In der Praxis ist Japanisch ziemlich kontextabhängig und du brauchst viel Input / Erfahrung, um natürliches Japanisch zu sprechen. Der einfachste Weg, diesen Input zu bekommen ist Lesen, aber dafür brauchst du halt wieder Kanji...
Teilzitate hier sind ganzschön schwierig. Egal. Naja du musst halt mehrere Bedeutungen von Worten kennen, aber ganz ehrlich, laut meiner jetzigen Erfahrung: SO schlimm ist es auch nicht. Darum will ich ja z.B. die Frequenz-Daten. Nehmen wir "kumo". Solange du nichts mit Insekten zutun hast, ist die Unterscheidung zwischen der Bedeutung Wolke und Spinne nicht SO wichtig. Ich würde die These aufstellen, dass man die Homophone im normalen Sprachgebrauch kaum bis gar nicht merkt und sie mit vergleichbaren Dingen in Deutsch korrelieren kann. Ich meine, stell dir nur die leckeren Pferdeäpfel vor
(31.05.25 23:01)vdrummer schrieb: Keigo ist erstaunlich einfach, wenn man mal die Basics richtig lernt. Aber natürlich braucht man auch da Übung, um es richtig anwenden zu können (ich hab leider viel zu selten Gelegenheit dazu...)
Wenn du dich für altes Japanisch und die Geschichte der Grammatik interessierst, gibt es da noch klassisches Japanisch und klassisches Chinesisch. Da kommst du dann um Kanji aber nicht mehr herum 
Naja die Basis ist einfach, du hägnst einfach masu und desu überall dran. Aber dann kommen die Spezialfälle. gozaimasu z.B. kommt ja von "Antik"-Japanisch saru = sein. Dann die Frage wann man go- und o- vorne anhängt. und wo überhaupt. Und dann die japanischen Sonderwendungen, die ich bis heute nicht so durchblicke. da kommts sowas wie "biiru kudasai" zu "biru yurushite itadaite yoroshii desu ka?" so oder so ähnlich, hört sich das manchmal an. Verstehen ist einfach weil man den komplexen Teil überhören kann.
(31.05.25 23:01)vdrummer schrieb: Meinst du mit der Struktur das XML? Es gibt das Ganze unter dem Namen EDICT auch als mehr oder weniger Plain-Text-File. Bin mir aber nicht sicher, ob das unbedingt einfacher zu parsen ist...
Das ist... tatsächlich etwas übersichtlicher und hilft, aber das ist ja nicht das Hauptproblem, in dem jetzigen EDict File z.B. fehlen erstmal die Klassifikationen.
Das Hauptproblem, dass ich tatsächlich habe, ist der Join. Wie verbinde ich verschiedene Datenquellen wenn es keine Uniqueness zwischen Zeichen gibt? Ich bin, als ich angefangen habe, davon ausgegangen dass zumindest die Kombination aus Kanji und Hiragana eindeutig ist. Kumo hat ja andere Kanji für Spinne und Wolke, aber dem ist wohl nicht so... Da fängt es tatsächlich an auszuarten und mich ratlos zu machen.
(31.05.25 23:01)vdrummer schrieb: Was ich eigentlich fragen wollte (Sorry, aber in diesem Thread waren viele spannende Sachen): In welche Richtung soll dein Vokabeltrainer gehen? Deutsch -> Japanisch?
JMDict hat tatsächlich deutsche Übersetzungen, zumindest das Biest was ich habe mit fast 200MB.
Ich wollte ja eigentlich beide Richtungen abbilden, weil du immer beides brauchen wirst, wenn du Japanisch verstehen willst. Ich muss mir natürlich eine Strategie für die Mehrdeutigkeiten einfallen lassen, aber das ist ja kein Problem. zur not bau ich auf der Vokabelseite so in rot durchgestrichene Worte für die Bedeutungen, die der Benutzer schon kennt und er muss sich dann die neuen Bedeutungen merken.
Schwierig wirds beim Matchen, wenn du nicht Buchstabe für Buchstabe abgleichen willst (und so eine hohe falsch negativ Resultate kriegst). Ich hab schon überlegt mir ein GPT-ähnliches Sprachmodell zu gönnen, dafür gibt's ja kostenlose APIs.
Die UI ist dafür nicht wirklich das Problem, also, noch nicht. Aber überhaupt erstmal saubere "Karteikarten" draus zu basteln ist viel schwieriger, wie gesagt ich will ja für "Apfel" nicht mit "die verbotene Frucht des Adamsbaumes" abgleichen
Also nochmal: Die Einzeldatenquellen sind nicht das Problem, das Problem entsteht wenn ich sie zusammenlege.
Ich hab jetzt z.B. das JMDict/Wadoku/... für die Basis. da stehen die Kanji, das Reading und die deutsche Übersetzung drinne, im JMDict sogar noch der grammatikalische Worttyp und die thematische Kategorie.
Dann hab ich das BCCWJ für die Frequenzen
Und die Listen fürs JLPT (wobei mich da noch Meinungen interessieren würden ob das als "Level"-Info wirklich ausreicht)
Aber wie krieg ich die zusammen?
Es wäre viel einfacher wenn die sequence ID aus dem JMDict auch in den BCCWJ Listen stünde und in den JLPT Listen bist du völlig aufgeschmissen. Beim BCCWJ hast du zumindest noch eine "sub lemma ID" was auch immer das sein soll und wie die definiert ist, aber IRGENDWAS ist da
Der Fakt dass die Kombination aus Kanji und Lesung nicht eindeutig ist, hat mich wirklich umgehauen. Ich meine ganz ehrlich, dann kann man Kanji auch gleich abschaffen XD Das ist ja purer Masochismus. Wobei für künstlerische Dinge würd ich's tatsächlich lassen, weil, sieht schön aus.
Aber darum brauche ich jemanden, der sich mit den Schemata auskennt