Antwort schreiben 
wordfreq und iconv
Verfasser Nachricht
torquato


Beiträge: 2.746
Beitrag #11
RE: wordfreq und iconv
Vielen, vielen Dank @vdrummer! Ist angekommen. grins

Heute morgen hatte ich eine Version erstellt, in der bei den EUC-JP-Problemstellen HEX-Bytewerte statt Konvertierung eingesetzt werden. Der Vollständigkeit halber hier im Thread ein diff dieser und Deiner Fassung:

Code:
78506c78506
< <0xad><0xb1> 2
---
> ⑰ 2
78509c78509
< <0xad><0xa5> 2
---
> ⑤ 2
107091c107091
< <0xad><0xb8> 1
---
> Ⅳ 1
107094c107094
< <0xad><0xb6> 1
---
> Ⅱ 1
107097c107097
< <0xad><0xa6> 1
---
> ⑥ 1
115010c115010
< セブン−イレブン・ジャパン 1
---
> セブン-イレブン・ジャパン 1

Also im Prinzip alles Stellen, die ich sowieso gar nicht hätte haben wollen. huch Aber wer kann das denn auch vorher wissen!? rot

Das B in Rassismus steht für Bildung.
11.07.18 15:30
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
frostschutz
Technik

Beiträge: 1.648
Beitrag #12
RE: wordfreq und iconv
(11.07.18 08:19)torquato schrieb:  Aus der iconv manpage:

Code:
       --unicode-subst=formatstring

       --byte-subst=formatstring

Danke, das hätte ich schon ein paarmal brauchen können, irgendwie nie gesehen. grins

Kannst du noch dazu sagen welche Version von iconv das ist?

Code:
$ iconv --byte-subst
iconv: unrecognized option '--byte-subst'

Edit:

Okay, das glibc-iconv hat das scheinbar nicht, das libiconv-iconv dagegen schon. Super... traurig

Lernen ist wie Rudern gegen den Strom. Sobald man aufhört, treibt man zurück.
(Dieser Beitrag wurde zuletzt bearbeitet: 11.07.18 15:41 von frostschutz.)
11.07.18 15:36
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Phil.


Beiträge: 281
Beitrag #13
RE: wordfreq und iconv
Hallo ihr zwei.
Viel bringt die Datei jedoch nicht.
Es werden nur die Kanji wie auch die Begriffe angezeigt, welche in 4 Jahren im Mainichi Newspaper verwendet wurden.
Also eine Kanji Frequency list.

http://files.meetup.com/86921/kanji.txt

Was bei solchen Dateien doch im Mac fehlt ist dann eine zusaetzliche Textcodierung.
Dann waer das Problem fuer alle folgenden aehnlichen Dateien doch automatisch geloest.
Nur hier das Problem, wie installiert man so etwas bei Mac oder bei Windows?
Aber noch eher, bei Firefox. Da dieser ja die Datei laedt.

Uebrigens hat Safari beim Mac dicke Probleme.
Man kann wohl eine Datei dort abspeichern, aber laden kann man die Datei dann nur mit Safari.
Mit Firefox oder sonst einem Programm, funktioniert das nicht.
Daher sollte man achtgeben und sich das gut ueberlegen.
Ich bevorzuge Firefox. Auch Opera hat damit keine Probleme.

Datenbank mit 1.2 Mio. Datensaetzen. wadoku-4.jar = Prg.
Japanisch Suche mit Kleinbuchstaben, Deutschsuche mit erstem Buchstaben Gross geschrieben. Alles in Romaji, ausser Kanji.
https://www.japanisch-netzwerk.de/attachment.php?aid=1313
11.07.18 20:03
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Phil.


Beiträge: 281
Beitrag #14
RE: wordfreq und iconv
Beim folgenden Link werden einige Programme vorgeschlagen. Koennte da etwas fuer euch dabei sein?
http://ftp.monash.edu.au/pub/nihongo/00INDEX.html

Was sind SKK Systeme?
Hab da eine Seite getroffen, wo man japanische Dateien runterladen kann, fuer SKK Systeme.
http://openlab.ring.gr.jp/skk/wiki/wiki....D%BD%F1#p7

Datenbank mit 1.2 Mio. Datensaetzen. wadoku-4.jar = Prg.
Japanisch Suche mit Kleinbuchstaben, Deutschsuche mit erstem Buchstaben Gross geschrieben. Alles in Romaji, ausser Kanji.
https://www.japanisch-netzwerk.de/attachment.php?aid=1313
(Dieser Beitrag wurde zuletzt bearbeitet: 11.07.18 21:50 von Phil..)
11.07.18 21:28
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
torquato


Beiträge: 2.746
Beitrag #15
RE: wordfreq und iconv
(11.07.18 15:36)frostschutz schrieb:  Kannst du noch dazu sagen welche Version von iconv das ist?

Zitat:$ iconv --version
iconv (GNU libiconv 1.11)
Copyright © 2000-2006 Free Software Foundation, Inc.
This is free software; see the source for copying conditions. There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Bruno Haible.

(11.07.18 15:36)frostschutz schrieb:  Okay, das glibc-iconv hat das scheinbar nicht, das libiconv-iconv dagegen schon. Super... traurig

o_O

Das B in Rassismus steht für Bildung.
13.07.18 07:19
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
wordfreq und iconv
Antwort schreiben