(02.06.25 16:44)梨ノ木 schrieb: [...]
Ich denke es funktioniert einfach nicht (mit vertretbarem Aufwand), und daher bleiben die gängigen Lernmethoden: Kanjilernen und viel Input durch Bücher, Audio und Video.
Naja, das ist vielleicht etwas zu pessimistisch, obwohl ich den Gedanken verstehe. das Problem sind einfach die Datenquellen. Es ist ja theoretisch möglich, die Wörter in Kanji + Reading + Bedeutung einzuordnen und das wäre dann sogar... vielleicht nicht unique, aber in jedem Fall ausreichend.
Wichtig ist ja nur, dass die Relation gewahrt bleibt. Also dass z.B. "Ah!" als Ausruf der Erkenntnis nicht als "Pharmakologie" klassifiziert wird und mit der Häufigkeit "Extrem Selten" belegt wird. Wenn wirklich Duplikate existieren im Sinne von verschiedene Kanji, Readings aber mit derselben Bedeutung, kann man das in einer UI abbilden.
Die Wörterbücher sind aber dafür nicht konzipiert, weil es keinen gemeinsamen Standard dafür gibt. Hätte ein Wörterbuch mal einen Standard vorgelegt und gesagt "so, jedes <sense> Element kriegt eine ID" und diese ID wird jetzt von anderen Quellen, die dies erweitern, wie dem BCCWJ, referenziert, dann wäre das völlig ausreichend. Dem ist aber nicht so.
Das BCCWJ z.B. hat sogar eine subLemma ID, deren Bedeutung sich mir aber völlig entzieht und die man vermutlich auch nicht mit dem JMDict joinen kann, die IDs scheinen nicht zu korrelieren und generell hat das JMDict nur eine SequenceId auf dem Entry, statt auf dem <sense> Element.
Jetzt mal rein auf das "Lernen" bezogen, würde ich tatsächlich sagen, dass man Problemlos durch die richtigen Vokabel-Listen und die Grammatik zu einem Fortgeschrittenen Sprachanwender werden könnte. Wie gesagt, ich kann kein einziges Kanji, aber ich hab in Japan überlebt und die Leute haben mich verstanden. Ob sie dann später gesagt haben "was hat der für einen Kauderwelsch geredet", sei dahingestellt

Mehrdeutigkeiten sind meiner Meinung nach ein Stolperstein für jede Art von Programmierung, aber nicht für Menschen. Hätte ich große KI Rechenkapazitäten wäre das Wörterbuch z.B. schon fertig. Weil eine KI nämlich tatsächlich einfach den "Sinn" von Worten vergleichen könnte und weiß ob "Frucht des Adambaumes" und "Apfel" zusammengehören
(02.06.25 18:09)harerod schrieb: Vorneweg - ich will Dir nichts madig machen. Auch freue ich mich sehr über Betrieb hier im Forum. Allerdings weiß ich nicht, ob Dein Werkzeug einen Mehrwert gegenüber dedizierten Anki-Decks hätte.
Ich weiß nicht, ob ich das klargemacht habe, also vielleicht nochmal: Es geht mir hier weniger darum einen konkreten Mehrwert für die Menschheit zu entwickeln, oder irgendwelche Durchbrüche zu schaffen.
Es ist einfach nur ein privates Programmierprojekt, dass ich mir selbst auferlegt habe, um meine persönlichen Japanisch-Kentnisse gleichzeitig zu meinen Programmierkentnissen zu erweitern.
Meine Motivation ist einfach, dass ich bis jetzt kein Japanisch-Lernprogramm gefunden hab, dass mir eine anständige Heuristik gibt, um zu bestimmen, ob Worte abgefragt werden oder nicht. In dem Sinne, dass wenn der Nutzer z.B. mehrmals etwas falsch rät, dass dies dann öfter abgefragt wird. Und individualisierte Lektionen angeboten werden, basierend auf dem, was der Nutzer tatsächlich schon kennt, statt dass tausendmal dasselbe Wort abgefragt wird. Das alles mit einem spielerischen Charakter mit Konzepten wie "Levelaufstieg" oder "Fortschritt innerhalb von Kategorien". Und die Übersicht, welche Worte häufig vorkommen, sodass sich der Nutzer wirklich sequentiell vorarbeiten kann und nicht plötzlich über Worte wie "Rindfleischettikettierungsüberwachungsaufgabenübertragungsgesetz" stolpert
Mein aktueller Gedanke ist, dass ich vermutlich doch wieder das JMDict aufbaue, dort die oben zur Verfügung gestellte JLPT Liste reinjoine - danke übrigens dafür nochmal <3 - und mir dann halt die Frequenzen über die Uniqueness Kanji + Reading hinein ziehen, und Mehrdeutigkeiten auflöse, indem ich einfach das Maximum verwende... Resultat von falsch-positiv Ergebnissen wäre dann, dass der Nutzer eben ein paar ungebräuchliche Bedeutungen lernen muss, aber ich hege die aufrichtige Hoffnung, dass das nicht zu viele werden. Was mich noch etwas besorgt ist, ob der Join auf Kanji + Reading überhaupt saubere Ergebnisse liefert. Dadurch werden die Ergebnisse ja signifikant verringert. Das heißt es gibt sowohl Ergebnisse im JMDict die nicht im BCCWJ vorhanden sind, als auch, und das ist wichtig, andersrum. Also es gibt Items im BCCWJ die nicht im JMDict sind, es drängt sich mir also die Hypothese auf, dass das JMDict entweder nicht vollständig ist, oder dass die Kanji+Reading Lesung ebenfalls nicht eindeutig zur Identifikation genutzt werden kann, weil es irgendeine Sonderform ist, vielleicht konjugiert oder so...