Antwort schreiben 
Doppelte Zeichen aus einem Dokument filtern
Verfasser Nachricht
mrlambda


Beiträge: 88
Beitrag #1
Doppelte Zeichen aus einem Dokument filtern
Hallo,

ich würde gerne aus einem Worddokument doppelte Kanji und alle Kana herausfilter, so dass ich im besten Fall eine Liste der Kanji habe, oder im schlechtesten Fall einfach nur die Anzahl.

Um das ganze zu visualisieren:
陰鬱陰ら中々おを心 -> 陰鬱中心 / 4 Kanji
03.03.16 00:08
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.044
Beitrag #2
RE: Doppelte Zeichen aus einem Dokument filtern
Mit welchem Betriebssystem arbeitest du denn (sag bitte Mac oder Linux zwinker)?
03.03.16 00:14
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
mrlambda


Beiträge: 88
Beitrag #3
RE: Doppelte Zeichen aus einem Dokument filtern
Leider Windows traurig
03.03.16 00:19
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.044
Beitrag #4
RE: Doppelte Zeichen aus einem Dokument filtern
Schade; das wäre sonst ein Einzeiler geworden (wenn auch ein langer).
Sollte das Problem morgen früh noch nicht gelöst sein, mache ich mir noch mal Gedanken drüber, wie man das unter Windows am schönsten hinbekommt.
03.03.16 00:33
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.044
Beitrag #5
RE: Doppelte Zeichen aus einem Dokument filtern
Ich habe mal eine Kleinigkeit programmiert, die aus deinem Beispiel "陰鬱陰ら中々おを心" folgendes macht:

Code:
中: 1
心: 1
陰: 2
鬱: 1
Anzahl verschiedener Kanji: 4
Anzahl Kanji insgesamt: 5

Wäre das so in deinem Sinne? Oder willst du lieber die reine Liste von Kanji haben?
Und natürlich habe ich jetzt (noch) nicht das Kanjiwiederholungszeichen 々 behandelt, wobei auch hier die Frage ist, wie du damit umgehen möchtest.
03.03.16 11:48
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
cat


Beiträge: 940
Beitrag #6
RE: Doppelte Zeichen aus einem Dokument filtern
Wenn der Text nicht zu lange ist, sollte es damit klappen:

http://www.characterfrequencyanalyzer.co.../index.php
03.03.16 12:09
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
mrlambda


Beiträge: 88
Beitrag #7
RE: Doppelte Zeichen aus einem Dokument filtern
(03.03.16 11:48)vdrummer schrieb:  Ich habe mal eine Kleinigkeit programmiert, die aus deinem Beispiel "陰鬱陰ら中々おを心" folgendes macht:

Code:
Anzahl verschiedener Kanji: 4




Wäre das so in deinem Sinne? Oder willst du lieber die reine Liste von Kanji haben?
Und natürlich habe ich jetzt (noch) nicht das Kanjiwiederholungszeichen 々 behandelt, wobei auch hier die Frage ist, wie du damit umgehen möchtest.

Also die Häufigkeit einzelner Zeichen wäre nicht so wichtig. Ich habe mal deinen Vorschlag editiert, wie es mir reichen würde. Wenn das Wiederholungszeichen einfach zu Filtern ist, dann bräuchte ich das nicht. Aber an einem Zeichen soll das ganze jetzt nicht scheitern. Ich habe nicht vor irgendwelche Statistiken zu erstellen.

Das I-Tüpfelchen wäre wenn die Zeichen nach Häufigkeit sortiert sind. Am Rande bemerkt, würden Tabs/Leerzeichen Probleme verursachen?
03.03.16 21:05
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
cat


Beiträge: 940
Beitrag #8
RE: Doppelte Zeichen aus einem Dokument filtern
Hast du dir den Link von mir angesehen? Du kannst unten auch auf Englisch oder Deutsch umschalten, geht trotzdem.

Die Tabelle, die dabei rauskommt, kann man in Excel oder ähnliches kopieren. Dann die Hiragana/Katakana Zeilen am Anfang löschen, dann kannst du auch nach Häufigkeit sortieren.
03.03.16 21:20
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
mrlambda


Beiträge: 88
Beitrag #9
RE: Doppelte Zeichen aus einem Dokument filtern
Sorry Ich habe das irgendwie übersehen. :/ Das scheint als Lösung zu taugen. Vielen Dank!
03.03.16 21:40
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Tommy


Beiträge: 91
Beitrag #10
RE: Doppelte Zeichen aus einem Dokument filtern
Ich habe mir mal mit vdrummer die Freiheit genommen, ein Programm zu schreiben, welches das genannte Problem besser loesen sollte, als die bisher genannten Loesungen.

Benoetigt wird die Java 8 Laufzeitumgebung (Achtung: Bei OpenJDK wird zusaetzlich OpenJFX benoetigt).
Das Programm funktioniert folgendermassen: Im oberen Texteingabefeld wird der japanische Text eingegeben.
Nach einem Klick auf "Process" erscheint das gefilterte und nach absteigender Haeufigkeit sortierte Ergebnis im unteren Textfeld.
Zusaetzlich wird neben dem "Process"-Knopf die Anzahl der paarweise verschiedenen Kanji angezeigt.


Angehängte Datei(en)
.zip  KanjiCounter.zip (Größe: 4,53 KB / Downloads: 98)
(Dieser Beitrag wurde zuletzt bearbeitet: 04.03.16 23:41 von Tommy.)
04.03.16 21:18
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Doppelte Zeichen aus einem Dokument filtern
Antwort schreiben 


Möglicherweise verwandte Themen...
Thema: Verfasser Antworten: Ansichten: Letzter Beitrag
Kanji Karteikarten auf Quizlet.com - brauch Hilfe bei Kanji Zeichen yoshi030 10 2.787 25.11.14 21:01
Letzter Beitrag: yoshi030