Antwort schreiben 
Wo finde ich downloadbare Vokabellisten?
Verfasser Nachricht
Kokujou


Beiträge: 125
Beitrag #11
RE: Wo finde ich downloadbare Vokabellisten?
(01.06.25 15:56)vdrummer schrieb:  OK, mit C# hab ich nie was zu tun gehabt; da hab ich leider keine Empfehlungen. SQLite klingt nach einer guten Wahl.
Mit Schema meinst du aber nicht das XML-Schema, oder? Die Struktur ist eigentlich innerhalb der Datei sehr gut dokumentiert und die meisten Tags sind selbsterklärend...

Naja viel mehr wie man sie interpretieren soll. Wie gesagt, Theoretisch kann jeder einzelne Eintrag sowohl mehrere Kanji, mehrere Lesungen und mehrere Übersetzungen haben. Und das krieg ich nicht in meinen Kopf. Ich meine, ich hab gerade kein Beispiel, aber stell dir vor da stünde das Wort "kumo" als Eintrag. Und dann steht da das Kanji für Spinne und für Wolke, und Spinne und Wolke als Übersetzung, ohne dass du weißt, welches Kanji zu welchem Wort gehört.
Und das könnte man jetzt noch toppen und sagen es sind nicht nur zwei nicht-korrelierende Übersetzungen sondern auch noch Lesungen. Also kann Kanji A Lesung B und Übersetzung C haben, oder doch Übersetzung A oder... Mein Kopf tut weh >.<

(01.06.25 15:56)vdrummer schrieb:  Kanji * Lesungen * Bedeutungen halte ich für Overkill. Es gibt zum Beispiel 25 Wörter mit der Lesung "koukou". Brauchst du wirklich eine Liste all dieser Bedeutungen?

Kommt drauf an. Ich könnte jetzt nicht mit sicherheit sagen, dass diese Bedeutungen nicht relevant sind, bleiben wir mal bei "kumo" das Wort Spinne wie das Wort Wolke sind beide nicht irrelevant. Welches nehmen? Also schon vom Verlust der Bedeutung ist es sonst problematisch.
Aber viel schlimmer ist es ja, wenn du Daten aus anderen Quellen reinjoinen willst, das ist ja gerade mein Hauptproblem. Stell dir z.B. vor ich joine für das JLPT Level rein. In der Bedeutung kumo=Wolke wäre es JLPT5 und in der Bedeutung Spinne wäre es JLPT3. Kategorien. Kumo ist "Natur", Spinne ist Entomologie. Stell dir vor du siehst Kumo=Wolke und daneben "Entomologie" und du denkst... jo.

Da mich Kanji nicht wirklich interessieren würde ich dazu tendieren einfach das erste Kanji in der Liste zu nehmen aber dann erstmal: Was ist die richitge Lesung? Wenn du zwei nicht-korrelierende Listen von Kanji und Lesung hast, was ist die richitge Lesung? je nach Reihenfolge könnte es sein dass plötzlich 手 als "yaku" gelesen wird. Und übersetzt wird es dann mit "kindl. Händchenhalten"

Die Herausforderung, wenn ich die Bedeutung mit in den Join mit einbeziehen will, ist der Wörterbuchcharakter. Es tendiert eben dazu "Beschreibungen" und nicht "Übersetzungen" zu liefern. Und das bedeutet dass man nicht exkat die Deutsche Übersetzung in A auf Datenqulle B mappen kann und selbst wenn, im BCCWJ steht die Übersetzung gar nicht drin. Da würde mich z.B. interessieren, was dieses Sublemma ist und ob ich das irgendwie verwenden konnte. Es scheint eine Art ID zu sein, von der ich aber nirgends etwas habe finden können.

Es könnte z.B. gut sein, dass ich irgendwo ringo habe, und das einmal als Apfel übersetzt wird und einmal... Als "Äpfel". oder "Frucht des Apfelbaums", vielleicht ist es einmal sowas wie "Apfel, der". man bräuchte also einen sinngemäßgen Vergleich, wo wir wieder bei Sprachmodellen wie GPT wären. Unpraktikabel.
01.06.25 16:52
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
梨ノ木


Beiträge: 566
Beitrag #12
RE: Wo finde ich downloadbare Vokabellisten?
(01.06.25 16:52)Kokujou schrieb:  Die Herausforderung, wenn ich die Bedeutung mit in den Join mit einbeziehen will, ist der Wörterbuchcharakter. Es tendiert eben dazu "Beschreibungen" und nicht "Übersetzungen" zu liefern. Und das bedeutet dass man nicht exkat die Deutsche Übersetzung in A auf Datenqulle B mappen kann und selbst wenn, im BCCWJ steht die Übersetzung gar nicht drin.

Habe den Thread hier mit Interesse verfolgt. Die oben von dir erwähnte Problematik bestärkt mich wieder in meiner Ansicht, dass "herkömmliches" Vokabellernen ohne Kontext (und noch dazu ohne Kanji) im Japanischen nicht sonderlich zielführend ist.

Nach einigen Jahren intensiver Beschäftigung mit der Sprache, hat sich für mich klar gezeigt, dass es auf das Mapping von Konzepten (in Ausgangs und Zielsprache) ankommt und einfaches Lernen von Vokabelpaaren sehr oft überhaupt nicht funktioniert (zumindest wenn man natürliches Japanisch produzieren möchte).

Je besser ich Japanisch verstehe, desto öfter habe ich "AHA" Momente, in denen mir das "Konzept-Mapping" auffällt und ich mir denke "aha, so drückt man xyz auf Japanisch aus".

Wenn ich eine richtig gute Idee gehabt hätte, wie man dafür ein Trainingsprogramm entwickelt, hätte ich das vermutlich schon getan.

Ich denke es funktioniert einfach nicht (mit vertretbarem Aufwand), und daher bleiben die gängigen Lernmethoden: Kanjilernen und viel Input durch Bücher, Audio und Video.
02.06.25 16:44
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 693
Beitrag #13
RE: Wo finde ich downloadbare Vokabellisten?
Vorneweg - ich will Dir nichts madig machen. Auch freue ich mich sehr über Betrieb hier im Forum. Allerdings weiß ich nicht, ob Dein Werkzeug einen Mehrwert gegenüber dedizierten Anki-Decks hätte. Wie ich auf meiner Webseite beschreibe, habe ich abhängig vom Lernstadium und Erkenntnisstand immer wieder die Deckstruktur angepasst. Mittlerweile nutze ich Anki nur noch als "Briefmarkenalbum" für aktuell knapp 5000 Kanji, zu denen ich Informationen sammle.
Aktueller Stand der Sprachwissenschaft ist, dass "level specific input" durch nichts zu ersetzen ist, außer durch noch mehr Input. Ich denke unser 梨の木 hat das sehr eindrucksvoll mit seinem Spurt von Null nach JLPT N1 demonstriert. (Sein Post kam rein, während ich hier noch am Tippen war. Ich sende meinen Beitrag aber trotzdem ab.)

Im Moment bin ich mir nicht sicher, ob Du weißt, was für ein Fass Du gerade aufmachst. Ich glaube, dass Du versuchst, grundlegende Eigenschaften des Japanischen in einem ungeeigneten Korsett abzubilden. Ich lese hier gerne noch mit und würde mich wirklich freuen, wenn Euch was Vernünftiges einfällt.

Um Denkanstöße zu bekommen, könnte man auch mal in ein Buch schauen, zumindest sich aber mal durch die Wikipedia hangeln. Vorschläge:
http://harerod.de/nihongo/#STUDY <- insbesondere "Offline Quellen (früher hätte man "Bücher" geschrieben)"

- - -
"Kumo ist "Natur", Spinne ist Entomologie." Letzteres ist falsch.
Kerbtiere, die Eingeschnittenen, Insekten -> Entomologie.
- - -
Das Japanische hat einen melodischen Akzent. Bekannte Homonyme wie "kumo" oder "hashi" werden darüber unterschieden. Leider variiert dieser Akzent lokal. Kansai-ben ist gerne mal genau das Gegenteil zum Standardjapanisch. (Zum ganz flachen Einstieg: http://harerod.de/nihongo/#PHONETICS)
02.06.25 18:09
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Kokujou


Beiträge: 125
Beitrag #14
RE: Wo finde ich downloadbare Vokabellisten?
(02.06.25 16:44)梨ノ木 schrieb:  [...]

Ich denke es funktioniert einfach nicht (mit vertretbarem Aufwand), und daher bleiben die gängigen Lernmethoden: Kanjilernen und viel Input durch Bücher, Audio und Video.

Naja, das ist vielleicht etwas zu pessimistisch, obwohl ich den Gedanken verstehe. das Problem sind einfach die Datenquellen. Es ist ja theoretisch möglich, die Wörter in Kanji + Reading + Bedeutung einzuordnen und das wäre dann sogar... vielleicht nicht unique, aber in jedem Fall ausreichend.
Wichtig ist ja nur, dass die Relation gewahrt bleibt. Also dass z.B. "Ah!" als Ausruf der Erkenntnis nicht als "Pharmakologie" klassifiziert wird und mit der Häufigkeit "Extrem Selten" belegt wird. Wenn wirklich Duplikate existieren im Sinne von verschiedene Kanji, Readings aber mit derselben Bedeutung, kann man das in einer UI abbilden.

Die Wörterbücher sind aber dafür nicht konzipiert, weil es keinen gemeinsamen Standard dafür gibt. Hätte ein Wörterbuch mal einen Standard vorgelegt und gesagt "so, jedes <sense> Element kriegt eine ID" und diese ID wird jetzt von anderen Quellen, die dies erweitern, wie dem BCCWJ, referenziert, dann wäre das völlig ausreichend. Dem ist aber nicht so.

Das BCCWJ z.B. hat sogar eine subLemma ID, deren Bedeutung sich mir aber völlig entzieht und die man vermutlich auch nicht mit dem JMDict joinen kann, die IDs scheinen nicht zu korrelieren und generell hat das JMDict nur eine SequenceId auf dem Entry, statt auf dem <sense> Element.

Jetzt mal rein auf das "Lernen" bezogen, würde ich tatsächlich sagen, dass man Problemlos durch die richtigen Vokabel-Listen und die Grammatik zu einem Fortgeschrittenen Sprachanwender werden könnte. Wie gesagt, ich kann kein einziges Kanji, aber ich hab in Japan überlebt und die Leute haben mich verstanden. Ob sie dann später gesagt haben "was hat der für einen Kauderwelsch geredet", sei dahingestellt hoho Mehrdeutigkeiten sind meiner Meinung nach ein Stolperstein für jede Art von Programmierung, aber nicht für Menschen. Hätte ich große KI Rechenkapazitäten wäre das Wörterbuch z.B. schon fertig. Weil eine KI nämlich tatsächlich einfach den "Sinn" von Worten vergleichen könnte und weiß ob "Frucht des Adambaumes" und "Apfel" zusammengehören hoho

(02.06.25 18:09)harerod schrieb:  Vorneweg - ich will Dir nichts madig machen. Auch freue ich mich sehr über Betrieb hier im Forum. Allerdings weiß ich nicht, ob Dein Werkzeug einen Mehrwert gegenüber dedizierten Anki-Decks hätte.

Ich weiß nicht, ob ich das klargemacht habe, also vielleicht nochmal: Es geht mir hier weniger darum einen konkreten Mehrwert für die Menschheit zu entwickeln, oder irgendwelche Durchbrüche zu schaffen.
Es ist einfach nur ein privates Programmierprojekt, dass ich mir selbst auferlegt habe, um meine persönlichen Japanisch-Kentnisse gleichzeitig zu meinen Programmierkentnissen zu erweitern.

Meine Motivation ist einfach, dass ich bis jetzt kein Japanisch-Lernprogramm gefunden hab, dass mir eine anständige Heuristik gibt, um zu bestimmen, ob Worte abgefragt werden oder nicht. In dem Sinne, dass wenn der Nutzer z.B. mehrmals etwas falsch rät, dass dies dann öfter abgefragt wird. Und individualisierte Lektionen angeboten werden, basierend auf dem, was der Nutzer tatsächlich schon kennt, statt dass tausendmal dasselbe Wort abgefragt wird. Das alles mit einem spielerischen Charakter mit Konzepten wie "Levelaufstieg" oder "Fortschritt innerhalb von Kategorien". Und die Übersicht, welche Worte häufig vorkommen, sodass sich der Nutzer wirklich sequentiell vorarbeiten kann und nicht plötzlich über Worte wie "Rindfleischettikettierungsüberwachungsaufgabenübertragungsgesetz" stolpert hoho

Mein aktueller Gedanke ist, dass ich vermutlich doch wieder das JMDict aufbaue, dort die oben zur Verfügung gestellte JLPT Liste reinjoine - danke übrigens dafür nochmal <3 - und mir dann halt die Frequenzen über die Uniqueness Kanji + Reading hinein ziehen, und Mehrdeutigkeiten auflöse, indem ich einfach das Maximum verwende... Resultat von falsch-positiv Ergebnissen wäre dann, dass der Nutzer eben ein paar ungebräuchliche Bedeutungen lernen muss, aber ich hege die aufrichtige Hoffnung, dass das nicht zu viele werden. Was mich noch etwas besorgt ist, ob der Join auf Kanji + Reading überhaupt saubere Ergebnisse liefert. Dadurch werden die Ergebnisse ja signifikant verringert. Das heißt es gibt sowohl Ergebnisse im JMDict die nicht im BCCWJ vorhanden sind, als auch, und das ist wichtig, andersrum. Also es gibt Items im BCCWJ die nicht im JMDict sind, es drängt sich mir also die Hypothese auf, dass das JMDict entweder nicht vollständig ist, oder dass die Kanji+Reading Lesung ebenfalls nicht eindeutig zur Identifikation genutzt werden kann, weil es irgendeine Sonderform ist, vielleicht konjugiert oder so...
(Dieser Beitrag wurde zuletzt bearbeitet: 03.06.25 12:14 von Kokujou.)
03.06.25 12:04
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.501
Beitrag #15
RE: Wo finde ich downloadbare Vokabellisten?
Nur ein kurzer Gedanke, der mir beim Lesen gekommen ist (auf den Rest antworte ich (wenn das dann überhaupt noch relevant ist) die Tage mal):
Durch das JLPT-Level hast du doch schon ne grobe Häufigkeitsklassifizierung: Häufige Wörter sind eher in niedrigen JLPT-Leveln (N5, N4) zu finden. Je höher es geht, desto spezieller werden die Wörter (N2, N1). Das sind ja keine kumulativen Listen, sondern die sind paarweise verschieden, wenn ich das richtig in Erinnerung habe.
Wörter, die nicht für's JLPT-Level klassifiziert sind, dann eher auch nicht für Anfänger relevant.

Ich hab das JLPT-Level mal als Heuristik genommen, um zu schauen, über welche Kanji ich (bzw. mein Programm) für Anfänger Furigana drüberpackt und das hat eigentlich gut funktioniert.

Durch die Häufigkeit der Wörter wüsstest du (wahrscheinlich; ich hab mir den Datensatz noch nicht angesehen), ob jetzt 銀行 "relevanter" als 言語 ist (beides N5-Vokabeln), aber ist das wirklich so wichtig?

Hast du Beispiele für Wörter aus dem BCCWJ, die nicht im JMdict sind?
03.06.25 12:40
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 693
Beitrag #16
RE: Wo finde ich downloadbare Vokabellisten?
(03.06.25 12:04)Kokujou schrieb:  ...
Jetzt mal rein auf das "Lernen" bezogen, würde ich tatsächlich sagen, dass man Problemlos durch die richtigen Vokabel-Listen und die Grammatik zu einem Fortgeschrittenen Sprachanwender werden könnte. Wie gesagt, ich kann kein einziges Kanji, aber ich hab in Japan überlebt und die Leute haben mich verstanden.
...

Faszinierend. Dein Hirn funktioniert scheinbar komplett anderes als meines. grins
Die einzigen Japaner die ich kenne, welche kein einziges Kanji kannten und gesprochen haben, waren die Kinder meiner Freunde vor der Einschulung in den Kindergarten.
An der Uni habe ich mal ein Seminar zum Thema L2 Erwerb bei Schulkindern besucht (FAU Erlangen, Prof.Pieske). Mit Deinem Ansatz wärst Du ein interessantes Forschungsobjekt für Sprachwissenschaftler.

Aber ich muss um Entschuldigung bitten, weil ich wohl den typischen Forenfehler begangen habe:
Teilnehmer stellt Frage, anderer Teilnehmer hat Meinung. Insofern, um Deine Frage zu beantworten: Schau Dir die von Jim Breen angestoßenen Arbeiten an (xxDict), inkl. deren Metainfo. Zum Parsen: z.B. Quellen von Anki und 10ten-reader.
03.06.25 14:04
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Kokujou


Beiträge: 125
Beitrag #17
RE: Wo finde ich downloadbare Vokabellisten?
(03.06.25 12:40)vdrummer schrieb:  Nur ein kurzer Gedanke, der mir beim Lesen gekommen ist (auf den Rest antworte ich (wenn das dann überhaupt noch relevant ist) die Tage mal):
Durch das JLPT-Level hast du doch schon ne grobe Häufigkeitsklassifizierung
[...]
Hast du Beispiele für Wörter aus dem BCCWJ, die nicht im JMdict sind?

Das wäre jetzt eine gute Frage: ist dem so? Im JLPT stehen ja nur 8.000 Wörter, im BCCWJ eher so 100.000 das heißt hier werden VIELE Wörter ausgelassen.
Außerdem wäre ich mir nicht sicher, ob das JLPT wirklich eine Häufigkeitsklassifizierung ist, das ist ja nicht der Anspruch, ich sehe das JLPT eher als Level, also wie schwer. Dass JLPT5 z.B. Grundlagen-Wörter enthält und JLPT5 Fachsprache, die ja unterschiedlich oft vorkommen kann.
Wie seht ihr das?

Konkrete Beispiele habe ich nicht, aber wenn man beide Tabellen joint und weniger als das Minimum beider Datenmengen heraus bekommt dann heißt das für gewöhnlich, dass Es Daten gibt die Sowohl in A als auch in B nicht zusammenpassen.

(03.06.25 14:04)harerod schrieb:  Faszinierend. Dein Hirn funktioniert scheinbar komplett anderes als meines. grins
Die einzigen Japaner die ich kenne, welche kein einziges Kanji kannten und gesprochen haben, waren die Kinder meiner Freunde vor der Einschulung in den Kindergarten.
An der Uni habe ich mal ein Seminar zum Thema L2 Erwerb bei Schulkindern besucht (FAU Erlangen, Prof.Pieske). Mit Deinem Ansatz wärst Du ein interessantes Forschungsobjekt für Sprachwissenschaftler.

Höre ich tatsächlich öfter. Ich will deswegen auch dringend raten meine Meinung nicht als respektiv anzusehen hoho Ich hätte ja Japanisch z.B. auch auf dem offiziellen Wege gelernt aber Sprachschulen für japanisch gab es nicht, als ich noch Schüler war. Weder in meinem Gymnasium noch irgendwo anders. Warum auch... russisch ist ja viel toller *Ironie* Hauptsache das große Latinum haben und kein Wort Latein mehr können hoho

Für konsequentes Online-Lernen fehlte mir immer die Disziplin, also hab ich immer nur mal hier und da was gelernt. Einmal hat man mir ein Buch geschenkt, da war die Grammatik noch auf Romaji geschrieben, so hab ich die gelernt und der Rest lief eigentlich immer so ab: Wort im Anime gehört, oder vielleicht im J-Drama und so baut sich stetisch der Wortschatz auf. Darum konnte ich auch die Intonierung gut. Wobei man da als Deutscher eh einen großen Vorteil hat. Ist ja eigentlich nur das J, das exzentrisch ausgesprochen wird. Und s/z (natürlich wieder reichlich Ausnahmen).

Was ich gerne mache, ist Wörter zu zerlegen, um ihre "Grundbedeutung" herauszufinden. Da recherchiere ich auch mal. Wenn ich Wörter wie "rakugaki" höre überleg ich mir: "Hey, das klingt nach zwei Wörtern, kaku könnte "zeichnen" bedeuten, was heißt raku?"

Aber mal Frage an die anderen: kommt es euch wirklich so vor, als wäre es schwierig nur mit Vokabeln voranzukommen? Mir sind die Mehrdeutigkeiten nie als wirklich "unangenehm" aufgefallen. Meistens sind sie Themen-technisch soweit auseinander, dass sie kaum zu verwechseln sind.
(Dieser Beitrag wurde zuletzt bearbeitet: 03.06.25 17:10 von Kokujou.)
03.06.25 17:03
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Wo finde ich downloadbare Vokabellisten?
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema: Verfasser Antworten: Ansichten: Letzter Beitrag
Wo am besten gute Vokabellisten bekommen? Raikou 6 2.620 11.10.21 18:45
Letzter Beitrag: AwesomeSepp
nach Themen sortierte JLPT-Vokabellisten kanji_illustrator 3 2.990 26.01.17 20:44
Letzter Beitrag: senar
Wo finde ich die Hiragana Schreibweise ? Anonymer User 4 3.378 08.02.06 21:41
Letzter Beitrag: zongoku