Wo finde ich downloadbare Vokabellisten?

Kokujou · 01.06.25 15:52

(01.06.25 14:56)vdrummer schrieb: OK, mit C# hab ich nie was zu tun gehabt; da hab ich leider keine Empfehlungen. SQLite klingt nach einer guten Wahl.
Mit Schema meinst du aber nicht das XML-Schema, oder? Die Struktur ist eigentlich innerhalb der Datei sehr gut dokumentiert und die meisten Tags sind selbsterklärend...

Naja viel mehr wie man sie interpretieren soll. Wie gesagt, Theoretisch kann jeder einzelne Eintrag sowohl mehrere Kanji, mehrere Lesungen und mehrere Übersetzungen haben. Und das krieg ich nicht in meinen Kopf. Ich meine, ich hab gerade kein Beispiel, aber stell dir vor da stünde das Wort "kumo" als Eintrag. Und dann steht da das Kanji für Spinne und für Wolke, und Spinne und Wolke als Übersetzung, ohne dass du weißt, welches Kanji zu welchem Wort gehört.
Und das könnte man jetzt noch toppen und sagen es sind nicht nur zwei nicht-korrelierende Übersetzungen sondern auch noch Lesungen. Also kann Kanji A Lesung B und Übersetzung C haben, oder doch Übersetzung A oder... Mein Kopf tut weh >.<

(01.06.25 14:56)vdrummer schrieb: Kanji * Lesungen * Bedeutungen halte ich für Overkill. Es gibt zum Beispiel 25 Wörter mit der Lesung "koukou". Brauchst du wirklich eine Liste all dieser Bedeutungen?

Kommt drauf an. Ich könnte jetzt nicht mit sicherheit sagen, dass diese Bedeutungen nicht relevant sind, bleiben wir mal bei "kumo" das Wort Spinne wie das Wort Wolke sind beide nicht irrelevant. Welches nehmen? Also schon vom Verlust der Bedeutung ist es sonst problematisch.
Aber viel schlimmer ist es ja, wenn du Daten aus anderen Quellen reinjoinen willst, das ist ja gerade mein Hauptproblem. Stell dir z.B. vor ich joine für das JLPT Level rein. In der Bedeutung kumo=Wolke wäre es JLPT5 und in der Bedeutung Spinne wäre es JLPT3. Kategorien. Kumo ist "Natur", Spinne ist Entomologie. Stell dir vor du siehst Kumo=Wolke und daneben "Entomologie" und du denkst... jo.

Da mich Kanji nicht wirklich interessieren würde ich dazu tendieren einfach das erste Kanji in der Liste zu nehmen aber dann erstmal: Was ist die richitge Lesung? Wenn du zwei nicht-korrelierende Listen von Kanji und Lesung hast, was ist die richitge Lesung? je nach Reihenfolge könnte es sein dass plötzlich 手 als "yaku" gelesen wird. Und übersetzt wird es dann mit "kindl. Händchenhalten"

Die Herausforderung, wenn ich die Bedeutung mit in den Join mit einbeziehen will, ist der Wörterbuchcharakter. Es tendiert eben dazu "Beschreibungen" und nicht "Übersetzungen" zu liefern. Und das bedeutet dass man nicht exkat die Deutsche Übersetzung in A auf Datenqulle B mappen kann und selbst wenn, im BCCWJ steht die Übersetzung gar nicht drin. Da würde mich z.B. interessieren, was dieses Sublemma ist und ob ich das irgendwie verwenden konnte. Es scheint eine Art ID zu sein, von der ich aber nirgends etwas habe finden können.

Es könnte z.B. gut sein, dass ich irgendwo ringo habe, und das einmal als Apfel übersetzt wird und einmal... Als "Äpfel". oder "Frucht des Apfelbaums", vielleicht ist es einmal sowas wie "Apfel, der". man bräuchte also einen sinngemäßgen Vergleich, wo wir wieder bei Sprachmodellen wie GPT wären. Unpraktikabel.

梨ノ木 · 02.06.25 15:44

(01.06.25 15:52)Kokujou schrieb: Die Herausforderung, wenn ich die Bedeutung mit in den Join mit einbeziehen will, ist der Wörterbuchcharakter. Es tendiert eben dazu "Beschreibungen" und nicht "Übersetzungen" zu liefern. Und das bedeutet dass man nicht exkat die Deutsche Übersetzung in A auf Datenqulle B mappen kann und selbst wenn, im BCCWJ steht die Übersetzung gar nicht drin.

Habe den Thread hier mit Interesse verfolgt. Die oben von dir erwähnte Problematik bestärkt mich wieder in meiner Ansicht, dass "herkömmliches" Vokabellernen ohne Kontext (und noch dazu ohne Kanji) im Japanischen nicht sonderlich zielführend ist.

Nach einigen Jahren intensiver Beschäftigung mit der Sprache, hat sich für mich klar gezeigt, dass es auf das Mapping von Konzepten (in Ausgangs und Zielsprache) ankommt und einfaches Lernen von Vokabelpaaren sehr oft überhaupt nicht funktioniert (zumindest wenn man natürliches Japanisch produzieren möchte).

Je besser ich Japanisch verstehe, desto öfter habe ich "AHA" Momente, in denen mir das "Konzept-Mapping" auffällt und ich mir denke "aha, so drückt man xyz auf Japanisch aus".

Wenn ich eine richtig gute Idee gehabt hätte, wie man dafür ein Trainingsprogramm entwickelt, hätte ich das vermutlich schon getan.

Ich denke es funktioniert einfach nicht (mit vertretbarem Aufwand), und daher bleiben die gängigen Lernmethoden: Kanjilernen und viel Input durch Bücher, Audio und Video.

harerod · 02.06.25 17:09

Vorneweg - ich will Dir nichts madig machen. Auch freue ich mich sehr über Betrieb hier im Forum. Allerdings weiß ich nicht, ob Dein Werkzeug einen Mehrwert gegenüber dedizierten Anki-Decks hätte. Wie ich auf meiner Webseite beschreibe, habe ich abhängig vom Lernstadium und Erkenntnisstand immer wieder die Deckstruktur angepasst. Mittlerweile nutze ich Anki nur noch als "Briefmarkenalbum" für aktuell knapp 5000 Kanji, zu denen ich Informationen sammle.
Aktueller Stand der Sprachwissenschaft ist, dass "level specific input" durch nichts zu ersetzen ist, außer durch noch mehr Input. Ich denke unser 梨の木 hat das sehr eindrucksvoll mit seinem Spurt von Null nach JLPT N1 demonstriert. (Sein Post kam rein, während ich hier noch am Tippen war. Ich sende meinen Beitrag aber trotzdem ab.)

Im Moment bin ich mir nicht sicher, ob Du weißt, was für ein Fass Du gerade aufmachst. Ich glaube, dass Du versuchst, grundlegende Eigenschaften des Japanischen in einem ungeeigneten Korsett abzubilden. Ich lese hier gerne noch mit und würde mich wirklich freuen, wenn Euch was Vernünftiges einfällt.

Um Denkanstöße zu bekommen, könnte man auch mal in ein Buch schauen, zumindest sich aber mal durch die Wikipedia hangeln. Vorschläge:
http://harerod.de/nihongo/#STUDY <- insbesondere "Offline Quellen (früher hätte man "Bücher" geschrieben)"

- - -
"Kumo ist "Natur", Spinne ist Entomologie." Letzteres ist falsch.
Kerbtiere, die Eingeschnittenen, Insekten -> Entomologie.
- - -
Das Japanische hat einen melodischen Akzent. Bekannte Homonyme wie "kumo" oder "hashi" werden darüber unterschieden. Leider variiert dieser Akzent lokal. Kansai-ben ist gerne mal genau das Gegenteil zum Standardjapanisch. (Zum ganz flachen Einstieg: http://harerod.de/nihongo/#PHONETICS)

Kokujou · 03.06.25 11:04

(02.06.25 15:44)梨ノ木 schrieb: [...]

Ich denke es funktioniert einfach nicht (mit vertretbarem Aufwand), und daher bleiben die gängigen Lernmethoden: Kanjilernen und viel Input durch Bücher, Audio und Video.

Naja, das ist vielleicht etwas zu pessimistisch, obwohl ich den Gedanken verstehe. das Problem sind einfach die Datenquellen. Es ist ja theoretisch möglich, die Wörter in Kanji + Reading + Bedeutung einzuordnen und das wäre dann sogar... vielleicht nicht unique, aber in jedem Fall ausreichend.
Wichtig ist ja nur, dass die Relation gewahrt bleibt. Also dass z.B. "Ah!" als Ausruf der Erkenntnis nicht als "Pharmakologie" klassifiziert wird und mit der Häufigkeit "Extrem Selten" belegt wird. Wenn wirklich Duplikate existieren im Sinne von verschiedene Kanji, Readings aber mit derselben Bedeutung, kann man das in einer UI abbilden.

Die Wörterbücher sind aber dafür nicht konzipiert, weil es keinen gemeinsamen Standard dafür gibt. Hätte ein Wörterbuch mal einen Standard vorgelegt und gesagt "so, jedes <sense> Element kriegt eine ID" und diese ID wird jetzt von anderen Quellen, die dies erweitern, wie dem BCCWJ, referenziert, dann wäre das völlig ausreichend. Dem ist aber nicht so.

Das BCCWJ z.B. hat sogar eine subLemma ID, deren Bedeutung sich mir aber völlig entzieht und die man vermutlich auch nicht mit dem JMDict joinen kann, die IDs scheinen nicht zu korrelieren und generell hat das JMDict nur eine SequenceId auf dem Entry, statt auf dem <sense> Element.

Jetzt mal rein auf das "Lernen" bezogen, würde ich tatsächlich sagen, dass man Problemlos durch die richtigen Vokabel-Listen und die Grammatik zu einem Fortgeschrittenen Sprachanwender werden könnte. Wie gesagt, ich kann kein einziges Kanji, aber ich hab in Japan überlebt und die Leute haben mich verstanden. Ob sie dann später gesagt haben "was hat der für einen Kauderwelsch geredet", sei dahingestellt hoho

Mehrdeutigkeiten sind meiner Meinung nach ein Stolperstein für jede Art von Programmierung, aber nicht für Menschen. Hätte ich große KI Rechenkapazitäten wäre das Wörterbuch z.B. schon fertig. Weil eine KI nämlich tatsächlich einfach den "Sinn" von Worten vergleichen könnte und weiß ob "Frucht des Adambaumes" und "Apfel" zusammengehören hoho

(02.06.25 17:09)harerod schrieb: Vorneweg - ich will Dir nichts madig machen. Auch freue ich mich sehr über Betrieb hier im Forum. Allerdings weiß ich nicht, ob Dein Werkzeug einen Mehrwert gegenüber dedizierten Anki-Decks hätte.

Ich weiß nicht, ob ich das klargemacht habe, also vielleicht nochmal: Es geht mir hier weniger darum einen konkreten Mehrwert für die Menschheit zu entwickeln, oder irgendwelche Durchbrüche zu schaffen.
Es ist einfach nur ein privates Programmierprojekt, dass ich mir selbst auferlegt habe, um meine persönlichen Japanisch-Kentnisse gleichzeitig zu meinen Programmierkentnissen zu erweitern.

Meine Motivation ist einfach, dass ich bis jetzt kein Japanisch-Lernprogramm gefunden hab, dass mir eine anständige Heuristik gibt, um zu bestimmen, ob Worte abgefragt werden oder nicht. In dem Sinne, dass wenn der Nutzer z.B. mehrmals etwas falsch rät, dass dies dann öfter abgefragt wird. Und individualisierte Lektionen angeboten werden, basierend auf dem, was der Nutzer tatsächlich schon kennt, statt dass tausendmal dasselbe Wort abgefragt wird. Das alles mit einem spielerischen Charakter mit Konzepten wie "Levelaufstieg" oder "Fortschritt innerhalb von Kategorien". Und die Übersicht, welche Worte häufig vorkommen, sodass sich der Nutzer wirklich sequentiell vorarbeiten kann und nicht plötzlich über Worte wie "Rindfleischettikettierungsüberwachungsaufgabenübertragungsgesetz" stolpert hoho

Mein aktueller Gedanke ist, dass ich vermutlich doch wieder das JMDict aufbaue, dort die oben zur Verfügung gestellte JLPT Liste reinjoine - danke übrigens dafür nochmal <3 - und mir dann halt die Frequenzen über die Uniqueness Kanji + Reading hinein ziehen, und Mehrdeutigkeiten auflöse, indem ich einfach das Maximum verwende... Resultat von falsch-positiv Ergebnissen wäre dann, dass der Nutzer eben ein paar ungebräuchliche Bedeutungen lernen muss, aber ich hege die aufrichtige Hoffnung, dass das nicht zu viele werden. Was mich noch etwas besorgt ist, ob der Join auf Kanji + Reading überhaupt saubere Ergebnisse liefert. Dadurch werden die Ergebnisse ja signifikant verringert. Das heißt es gibt sowohl Ergebnisse im JMDict die nicht im BCCWJ vorhanden sind, als auch, und das ist wichtig, andersrum. Also es gibt Items im BCCWJ die nicht im JMDict sind, es drängt sich mir also die Hypothese auf, dass das JMDict entweder nicht vollständig ist, oder dass die Kanji+Reading Lesung ebenfalls nicht eindeutig zur Identifikation genutzt werden kann, weil es irgendeine Sonderform ist, vielleicht konjugiert oder so...

vdrummer · 03.06.25 11:40

Nur ein kurzer Gedanke, der mir beim Lesen gekommen ist (auf den Rest antworte ich (wenn das dann überhaupt noch relevant ist) die Tage mal):
Durch das JLPT-Level hast du doch schon ne grobe Häufigkeitsklassifizierung: Häufige Wörter sind eher in niedrigen JLPT-Leveln (N5, N4) zu finden. Je höher es geht, desto spezieller werden die Wörter (N2, N1). Das sind ja keine kumulativen Listen, sondern die sind paarweise verschieden, wenn ich das richtig in Erinnerung habe.
Wörter, die nicht für's JLPT-Level klassifiziert sind, dann eher auch nicht für Anfänger relevant.

Ich hab das JLPT-Level mal als Heuristik genommen, um zu schauen, über welche Kanji ich (bzw. mein Programm) für Anfänger Furigana drüberpackt und das hat eigentlich gut funktioniert.

Durch die Häufigkeit der Wörter wüsstest du (wahrscheinlich; ich hab mir den Datensatz noch nicht angesehen), ob jetzt 銀行 "relevanter" als 言語 ist (beides N5-Vokabeln), aber ist das wirklich so wichtig?

Hast du Beispiele für Wörter aus dem BCCWJ, die nicht im JMdict sind?

harerod · 03.06.25 13:04

(03.06.25 11:04)Kokujou schrieb: ...
Jetzt mal rein auf das "Lernen" bezogen, würde ich tatsächlich sagen, dass man Problemlos durch die richtigen Vokabel-Listen und die Grammatik zu einem Fortgeschrittenen Sprachanwender werden könnte. Wie gesagt, ich kann kein einziges Kanji, aber ich hab in Japan überlebt und die Leute haben mich verstanden.
...

Faszinierend. Dein Hirn funktioniert scheinbar komplett anderes als meines. grins

Die einzigen Japaner die ich kenne, welche kein einziges Kanji kannten und gesprochen haben, waren die Kinder meiner Freunde vor der Einschulung in den Kindergarten.
An der Uni habe ich mal ein Seminar zum Thema L2 Erwerb bei Schulkindern besucht (FAU Erlangen, Prof.Pieske). Mit Deinem Ansatz wärst Du ein interessantes Forschungsobjekt für Sprachwissenschaftler.

Aber ich muss um Entschuldigung bitten, weil ich wohl den typischen Forenfehler begangen habe:
Teilnehmer stellt Frage, anderer Teilnehmer hat Meinung. Insofern, um Deine Frage zu beantworten: Schau Dir die von Jim Breen angestoßenen Arbeiten an (xxDict), inkl. deren Metainfo. Zum Parsen: z.B. Quellen von Anki und 10ten-reader.

Kokujou · 03.06.25 16:03

(03.06.25 11:40)vdrummer schrieb: Nur ein kurzer Gedanke, der mir beim Lesen gekommen ist (auf den Rest antworte ich (wenn das dann überhaupt noch relevant ist) die Tage mal):
Durch das JLPT-Level hast du doch schon ne grobe Häufigkeitsklassifizierung
[...]
Hast du Beispiele für Wörter aus dem BCCWJ, die nicht im JMdict sind?

Das wäre jetzt eine gute Frage: ist dem so? Im JLPT stehen ja nur 8.000 Wörter, im BCCWJ eher so 100.000 das heißt hier werden VIELE Wörter ausgelassen.
Außerdem wäre ich mir nicht sicher, ob das JLPT wirklich eine Häufigkeitsklassifizierung ist, das ist ja nicht der Anspruch, ich sehe das JLPT eher als Level, also wie schwer. Dass JLPT5 z.B. Grundlagen-Wörter enthält und JLPT5 Fachsprache, die ja unterschiedlich oft vorkommen kann.
Wie seht ihr das?

Konkrete Beispiele habe ich nicht, aber wenn man beide Tabellen joint und weniger als das Minimum beider Datenmengen heraus bekommt dann heißt das für gewöhnlich, dass Es Daten gibt die Sowohl in A als auch in B nicht zusammenpassen.

(03.06.25 13:04)harerod schrieb: Faszinierend. Dein Hirn funktioniert scheinbar komplett anderes als meines.
Die einzigen Japaner die ich kenne, welche kein einziges Kanji kannten und gesprochen haben, waren die Kinder meiner Freunde vor der Einschulung in den Kindergarten.
An der Uni habe ich mal ein Seminar zum Thema L2 Erwerb bei Schulkindern besucht (FAU Erlangen, Prof.Pieske). Mit Deinem Ansatz wärst Du ein interessantes Forschungsobjekt für Sprachwissenschaftler.

Höre ich tatsächlich öfter. Ich will deswegen auch dringend raten meine Meinung nicht als respektiv anzusehen hoho

Ich hätte ja Japanisch z.B. auch auf dem offiziellen Wege gelernt aber Sprachschulen für japanisch gab es nicht, als ich noch Schüler war. Weder in meinem Gymnasium noch irgendwo anders. Warum auch... russisch ist ja viel toller *Ironie* Hauptsache das große Latinum haben und kein Wort Latein mehr können hoho

Für konsequentes Online-Lernen fehlte mir immer die Disziplin, also hab ich immer nur mal hier und da was gelernt. Einmal hat man mir ein Buch geschenkt, da war die Grammatik noch auf Romaji geschrieben, so hab ich die gelernt und der Rest lief eigentlich immer so ab: Wort im Anime gehört, oder vielleicht im J-Drama und so baut sich stetisch der Wortschatz auf. Darum konnte ich auch die Intonierung gut. Wobei man da als Deutscher eh einen großen Vorteil hat. Ist ja eigentlich nur das J, das exzentrisch ausgesprochen wird. Und s/z (natürlich wieder reichlich Ausnahmen).

Was ich gerne mache, ist Wörter zu zerlegen, um ihre "Grundbedeutung" herauszufinden. Da recherchiere ich auch mal. Wenn ich Wörter wie "rakugaki" höre überleg ich mir: "Hey, das klingt nach zwei Wörtern, kaku könnte "zeichnen" bedeuten, was heißt raku?"

Aber mal Frage an die anderen: kommt es euch wirklich so vor, als wäre es schwierig nur mit Vokabeln voranzukommen? Mir sind die Mehrdeutigkeiten nie als wirklich "unangenehm" aufgefallen. Meistens sind sie Themen-technisch soweit auseinander, dass sie kaum zu verwechseln sind.

Kokujou · 17.06.25 08:05

Tja also eins kann ich schonmal sagen: Das JMDict ist für alles was über schwach korrelierende Übersetzungen hinaus geht für Deutsch ungebräuchlich.

Ich hab mir das Schema jetzt sehr lange angesehen und wichtige Attribute für die Analyse wie das Part-of-Speech Element, Misc-Attribute die das Verwendungsgebiet anzeigen und vermutlich viel mehr ist für deutsch gar nicht erst definiert. Nur für Englisch.

Es hat einfach zu starken "Wörterbuch" Charakter - was zu erwarten war. Es automatisiert auf "Übersetzungen" zu reduzieren scheint mir im Grunde fast unmöglich.

harerod · 17.06.25 18:25

Danke für die Info. Ich hatte an der Uni mal Kontakt mit einem Deutsch-Japanisch-Lehrbuch und fand das nicht so zugänglich (Grundstudium Japanisch 1/2 - Noriko Katsuki-Pestemer). Englisch-Japanisch ist die Auswahl an Material größer und es finden sich einige gute Werke. Mit Deutsch L1 Japanisch über Englisch zu lernen ist aber sicher nicht jedermanns Fall...

Kokujou · 18.06.25 08:36

(17.06.25 18:25)harerod schrieb: Danke für die Info. Ich hatte an der Uni mal Kontakt mit einem Deutsch-Japanisch-Lehrbuch und fand das nicht so zugänglich (Grundstudium Japanisch 1/2 - Noriko Katsuki-Pestemer). Englisch-Japanisch ist die Auswahl an Material größer und es finden sich einige gute Werke. Mit Deutsch L1 Japanisch über Englisch zu lernen ist aber sicher nicht jedermanns Fall...

Ja es ist ziemlich frustrierend, muss ich ehrlich sagen. Ich kann immer noch nicht glauben, dass so wenig gutes Material im Deutschen existiert. Die Meisten, wenn nicht alle Vokabellisten sind nur JMDict Exports und das Schema von JMDict ist einfach Objektiv schlecht. Ich meine wozu macht man sich die Mühe "sense" Elemente einzuführen, wenn man dann "are" als "Periode bei der Frau" übersetzt, das hat mir gerade so'n bischen den Todesstoß gegeben. Und das ist dann als JLPT5 klassifiziert.

Ich werd mir wohl tatsächlich alles von einer KI generieren lassen müssen oder irgendwie maschinelle Übersetzung von englischen oder deutschen JLPT-Listen machen müssen oder so :/ Alles muss man selber machen... Das zehrt natürlich massiv an der Motivation.

Dabei ist der Algorithmus zur Antwort-Klassifikation endlich im Beta-Stadium und es könnte los gehen :/

Möglicherweise verwandte Themen...
Thema:	Verfasser	Antworten:	Ansichten:	Letzter Beitrag
Wo am besten gute Vokabellisten bekommen?	Raikou	6	2.916	11.10.21 17:45 Letzter Beitrag: AwesomeSepp
nach Themen sortierte JLPT-Vokabellisten	kanji_illustrator	3	3.256	26.01.17 19:44 Letzter Beitrag: senar
Wo finde ich die Hiragana Schreibweise ?	Anonymer User	4	3.610	08.02.06 20:41 Letzter Beitrag: zongoku

Wo finde ich downloadbare Vokabellisten?
Verfasser	Nachricht