Wo finde ich downloadbare Vokabellisten?

vdrummer · 18.06.25 10:32

Ich verstehe immer noch nicht ganz, was genau dein Ziel ist und wie du mit Disambiguierung umgehen willst.
Wenn ich das richtig verstehe, willst du eine Vokabelliste Japanisch <--> Deutsch, also in beide Richtungen nutzbar und ohne Kanji?

Wie gehst du mit sowas wie
選択せんたく Auswahl
洗濯せんたく Wäsche
um?
Ist dann sowohl "Auswahl" als auch "Wäsche" eine korrekte Antwort auf せんたく?

Bezüglich Senses kann ich verstehen, dass die am Anfang erstmal nervig sind, aber letztendlich sind das ja alles Bedeutungen von dem Wort (genau so wie Lesungen bei Kanji). Willst du also die Senses nach Häufigkeit sortieren?

Leider funktioniert sowas tatsächlich meist nach Wörtern und nicht nach Senses. Das einzige Beispiel, wo man nach Subeigenschaften klassifiziert, das mir gerade einfällt sind Lesungen bei Kanji. Da werden manchmal seltenere Lesungen erst in spätern Schuljahren unterrichtet.

Ein ähnliches Problem wie mit "überflüssigen" Senses hat man übrigens mit der deutschen Übersetzung: Für 食べる findet man bei Wadoku zum Beispiel "essen; speisen; zu sich nehmen; fressen; probieren.", wobei für eine Vokabelliste "essen" an sich ja schon ausreichend wäre.

Kokujou · 23.06.25 19:57

(18.06.25 10:32)vdrummer schrieb: Ich verstehe immer noch nicht ganz, was genau dein Ziel ist und wie du mit Disambiguierung umgehen willst.
...

Ja genau. Vor allem weil es ohnehin auch mit Kanji genug Duplikate gibt. Was per se schon hart genug zu verkraften ist.
Ich meine wenn du sprichst ist es doch genauso. Wenn man Japanisch lernen will helfen dir die Kanji beim sprechen mit Japanern wenig. Der schreibt dir doch nicht extra auf ob er Wäsche oder Auswahl meint. Du nunmal wissen dass "sentaku" sowohl "Wäsche" als auch "Auswahl" bedeuten kann.

Also hätte ich diese Tabelle designt hätte ich es so gemacht:
Du hast einen Entry der auf Kanji + Romaji einzigartig ist.
Dann hast du mehrere Sense Elemente, die wirklich Bedeutungen darstellen, die nichts miteinander zutun haben.
Dann sollte man in dem Sense einzelne Übersetzungs-Zeilen haben die ausschließlich Synonym sein dürfen. Essen. Fressen. Dinieren.
Diese Übersetzungen sollten jeweils mit der Sprache markiert sein.

In JMDict hast du mehrere Sense Elemente PRO Sprache. Was völliger Schwachsinn ist, weil die Bedeutung von "Sense" ist doch gerade eine universelle sprachneutrale "Bedeutung". Und dann hast du zusätzliche Flags wie "slang" oder "Computersprache" nur auf der englischen Übersetzung und du kannst im Grunde das ganze Wörterbuch vergessen.

Slang-Sprache ist hochsensibel, ein Großteil der geflaggten Wörter, Internetsprache, Slangsprache "Frauen-spezifische Sprache" (ja, das gibt es offenbar!). Wenn so etwas überhaupt in einen Vokabeltrainier gehört, darf das nur in spezifischen Lektionen abgefragt werden und darf nicht mit Hochsprache vermischt werden.

Ich will diese Ambiguität folgendermaßen umsetzen:
Du kriegst ein japanisches Wort angezeigt mit Kanji und Hiragana und Romaji. Dann lade ich mir aus meiner Datenbank alle Wörter mit dieser Kombination, sowie alle Bedeutungen. Dann vergleiche ich mit einem Sprachmodell die Ähnlichkeit zwischen der Nutzereingabe und den Auswahlmöglichkeiten. Wenn etwas über einen bestimmten Schwellwert kommt, hat der Nutzer bestanden. Für unklare Antworten, die z.B. relativ hoch, aber nicht ganz über den Schwellwert kommen, lasse ich anzeigen "meintest du vielleicht...?", das muss natürlich alles feinjustiert werden, aber so lassen sich Rechtschreibfehler gut erkennen und das Erlebnis wird flüssiger. Man muss nur aufpassen dass auf "warm" nicht "kalt" geantwortet werden kann, was ja themenähnlich aber halt nicht Synonym ist.

Jetzt füge ich noch folgendes hinzu. Wenn ein Nutzer die App benutzt, dann werden für jeden Übersetzungsversuch Einträge angelegt. Angenommen also ein Nutzer übersetzt "kumo" immer als "Wolke" und wählt dann einen Quiz-Modus für schwere oder unbekannte Worte. Dann sehe ich "okay, Wolke hat er schon oft richtig gehabt, das kennt er, aber die anderen eben nicht", dann bewerte ich sie als Falsch. vielleicht auch mit einem speziellen Ergebnisbildschirm. "Richtig, aber gesucht war..."

Kokujou · 24.06.25 12:18

Ich hab jetzt mal einen letzten verzweifelten Versuch gestartet. Ich habe gehofft, dass man vielleicht sagen könnte, dass die Senses über ihren Index korrelieren. also dass der 1. Sense beim englischen Wort auch der 1. Sense beim deutschen Wort ist. Dem ist nicht so :/ nichtmal die indizes korrelieren in vielen Fällen.

Also im Grunde ist für das JMdict im Deutschen 90% seines Inhalts Ausschuss. Und das meine ich so extrem wie es klingt. Denn es geht nicht nur um Wortmarkierungen. Das <sense> Element hat ja auch Kanji und Reading Restrictions - die sind auch weg! Keine Referenzen, keine Wort-Typen, keine POS, nichts.

Ich muss mich also wohl oder übel wieder an den Wadoku Dump halten, der diese Dinge zu haben scheint, allerdings dann ohne konkrete JLPT-Level-Referenz, die muss ich nach wie vor über die nicht existente Uniqueness ziwschen Kanji und Reading hinzufügen, was eine Menge falsch-positiv ergebnisse erzeugen wird. Leider. Aber andererseits wissen wir ja auch, dass schon die aktuelle Liste der JLPT über die JMDict Entry ID eine Menge falsch positive Ergebnisse erzeugt, weil sie nicht an den Sense gebunden ist. Also "are" als "männliches Geschlechtsorgan" (mein Lieblingsbeispiel), ist sicher nicht JLPT5

Kokujou · 02.07.25 16:39

So... nachdem ich dieses Thema jetzt sehr lange bearbetiet habe, habe ich folgende... nennen wir es "Arbeitshypothese"

Ich benutze den Wadoku XML Dump, joine JLPT Level und BCCWJ Frequenz nach wie vor über Kombination aus Kanji + Romaji so präziese wie ich irgendwie kann und filtere diverse irrelevante flags durch. Im Wadoku Dump ist nämlich noch viel erhalten geblieben.

Interessant ist: nachdem ich alles irrelevante rausgefiltert habe, bin ich im Grunde auf die JLPT Liste gekommen. Es scheint also tatsächlich nicht viele Worte zu geben, die nicht in den JLPT Listen vorhanden sind.

Ich hab noch eine Heuristik zum Duplikate rauszufiltern, aber das sind nur 2-300. Sowas wie "Gefühl" und "Empfindung". Das ging leider nur über das Sprachmodell, das ich sowieso schon benutze, und das ganz gut funktioniert.

Ich mache nun damit weiter und hoffe, dass die Angaben halbwegs korrekt sind.

Möglicherweise verwandte Themen...
Thema:	Verfasser	Antworten:	Ansichten:	Letzter Beitrag
Wo am besten gute Vokabellisten bekommen?	Raikou	6	3.580	11.10.21 18:45 Letzter Beitrag: AwesomeSepp
nach Themen sortierte JLPT-Vokabellisten	kanji_illustrator	3	3.771	26.01.17 20:44 Letzter Beitrag: senar
Wo finde ich die Hiragana Schreibweise ?	Anonymer User	4	4.109	08.02.06 21:41 Letzter Beitrag: zongoku

Wo finde ich downloadbare Vokabellisten?
Verfasser	Nachricht