(18.06.25 10:32)vdrummer schrieb: Ich verstehe immer noch nicht ganz, was genau dein Ziel ist und wie du mit Disambiguierung umgehen willst.
...
Ja genau. Vor allem weil es ohnehin auch mit Kanji genug Duplikate gibt. Was per se schon hart genug zu verkraften ist.
Ich meine wenn du sprichst ist es doch genauso. Wenn man Japanisch lernen will helfen dir die Kanji beim sprechen mit Japanern wenig. Der schreibt dir doch nicht extra auf ob er Wäsche oder Auswahl meint. Du nunmal wissen dass "sentaku" sowohl "Wäsche" als auch "Auswahl" bedeuten kann.
Also hätte ich diese Tabelle designt hätte ich es so gemacht:
Du hast einen Entry der auf Kanji + Romaji einzigartig ist.
Dann hast du mehrere Sense Elemente, die wirklich Bedeutungen darstellen, die nichts miteinander zutun haben.
Dann sollte man in dem Sense einzelne Übersetzungs-Zeilen haben die ausschließlich Synonym sein dürfen. Essen. Fressen. Dinieren.
Diese Übersetzungen sollten jeweils mit der Sprache markiert sein.
In JMDict hast du mehrere Sense Elemente PRO Sprache. Was völliger Schwachsinn ist, weil die Bedeutung von "Sense" ist doch gerade eine universelle sprachneutrale "Bedeutung". Und dann hast du zusätzliche Flags wie "slang" oder "Computersprache" nur auf der englischen Übersetzung und du kannst im Grunde das ganze Wörterbuch vergessen.
Slang-Sprache ist hochsensibel, ein Großteil der geflaggten Wörter, Internetsprache, Slangsprache "Frauen-spezifische Sprache" (ja, das gibt es offenbar!). Wenn so etwas überhaupt in einen Vokabeltrainier gehört, darf das nur in spezifischen Lektionen abgefragt werden und darf nicht mit Hochsprache vermischt werden.
Ich will diese Ambiguität folgendermaßen umsetzen:
Du kriegst ein japanisches Wort angezeigt mit Kanji und Hiragana und Romaji. Dann lade ich mir aus meiner Datenbank alle Wörter mit dieser Kombination, sowie alle Bedeutungen. Dann vergleiche ich mit einem Sprachmodell die Ähnlichkeit zwischen der Nutzereingabe und den Auswahlmöglichkeiten. Wenn etwas über einen bestimmten Schwellwert kommt, hat der Nutzer bestanden. Für unklare Antworten, die z.B. relativ hoch, aber nicht ganz über den Schwellwert kommen, lasse ich anzeigen "meintest du vielleicht...?", das muss natürlich alles feinjustiert werden, aber so lassen sich Rechtschreibfehler gut erkennen und das Erlebnis wird flüssiger. Man muss nur aufpassen dass auf "warm" nicht "kalt" geantwortet werden kann, was ja themenähnlich aber halt nicht Synonym ist.
Jetzt füge ich noch folgendes hinzu. Wenn ein Nutzer die App benutzt, dann werden für jeden Übersetzungsversuch Einträge angelegt. Angenommen also ein Nutzer übersetzt "kumo" immer als "Wolke" und wählt dann einen Quiz-Modus für schwere oder unbekannte Worte. Dann sehe ich "okay, Wolke hat er schon oft richtig gehabt, das kennt er, aber die anderen eben nicht", dann bewerte ich sie als Falsch. vielleicht auch mit einem speziellen Ergebnisbildschirm. "Richtig, aber gesucht war..."