Antwort schreiben 
Zum 29.02.2024: 閏年 [うるうどし]
Verfasser Nachricht
harerod


Beiträge: 396
Beitrag #1
Zum 29.02.2024: 閏年 [うるうどし]
Diesen Artikel muss ich einfach mit Euch teilen. Die Regeln für Schaltjahre tragen in Japan ein interessantes Lokalkolorit:
https://www.fnn.jp/articles/-/664390

Ich finde die Wiki verständlicher: https://ja.wikipedia.org/wiki/%E9%96%8F%E5%B9%B4
(Dieser Beitrag wurde zuletzt bearbeitet: 29.02.24 20:16 von harerod.)
29.02.24 19:56
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.395
Beitrag #2
RE: Zum 29.02.2024: 閏年 [うるうどし]
送り仮名 in Katakana sind überraschend schwer zu lesen... Danke für den Link.
29.02.24 20:41
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 396
Beitrag #3
RE: Zum 29.02.2024: 閏年 [うるうどし]
(29.02.24 20:41)vdrummer schrieb:  送り仮名 in Katakana sind überraschend schwer zu lesen... Danke für den Link.

Und der parser von 10ten (mekab?) hat auch seine Probleme.
Ich habe viel zu lange an dem Meiji-Edict gelesen.
29.02.24 20:49
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.395
Beitrag #4
RE: Zum 29.02.2024: 閏年 [うるうどし]
(29.02.24 20:49)harerod schrieb:  Und der parser von 10ten (mekab?) hat auch seine Probleme.

Das ist echt interessant, sich das mal anzuschauen. Ich habe den FNN-Text (also den Gesetzestext) mal durch mecab gejagt und dabei explizit unbekannte Ausdrücke markieren lassen (by default werden die zu 名詞):

(erste Zeile gekürzt)
Code:
$ mecab -x UNK <<< "神武天皇即位紀元年数ノ...
神武    名詞,固有名詞,人名,一般,*,*,神武,ジンム,ジンム
天皇    名詞,一般,*,*,*,*,天皇,テンノウ,テンノー
即位    名詞,サ変接続,*,*,*,*,即位,ソクイ,ソクイ
紀元    名詞,一般,*,*,*,*,紀元,キゲン,キゲン
年数    名詞,一般,*,*,*,*,年数,ネンスウ,ネンスー
ノ      助詞,格助詞,一般,*,*,*,ノ,ノ,ノ
四      名詞,数,*,*,*,*,四,ヨン,ヨン
ヲ      助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
以      UNK
テ      UNK
整除    名詞,サ変接続,*,*,*,*,整除,セイジョ,セイジョ
シ      名詞,一般,*,*,*,*,シ,シ,シ
得      名詞,一般,*,*,*,*,得,トク,トク
ヘキ    UNK
年      名詞,接尾,一般,*,*,*,年,ネン,ネン
ヲ      助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
閏年    名詞,一般,*,*,*,*,閏年,ウルウドシ,ウルードシ
トス    名詞,サ変接続,*,*,*,*,トス,トス,トス
但      接続詞,*,*,*,*,*,但,タダシ,タダシ
シ      名詞,一般,*,*,*,*,シ,シ,シ
紀元    名詞,一般,*,*,*,*,紀元,キゲン,キゲン
年数    名詞,一般,*,*,*,*,年数,ネンスウ,ネンスー
ヨリ    名詞,固有名詞,一般,*,*,*,ヨリ,ヨリ,ヨリ
六      名詞,数,*,*,*,*,六,ロク,ロク
百      名詞,数,*,*,*,*,百,ヒャク,ヒャク
六      名詞,数,*,*,*,*,六,ロク,ロク
十      名詞,数,*,*,*,*,十,ジュウ,ジュー
ヲ      名詞,固有名詞,一般,*,*,*,ヲ,ヲ,オ
減      名詞,接尾,一般,*,*,*,減,ゲン,ゲン
シテ    UNK
百      名詞,数,*,*,*,*,百,ヒャク,ヒャク
ヲ      助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
以      UNK
テ      UNK
整除    名詞,サ変接続,*,*,*,*,整除,セイジョ,セイジョ
シ      名詞,一般,*,*,*,*,シ,シ,シ
得      名詞,一般,*,*,*,*,得,トク,トク
ヘキモノノ      UNK
中      名詞,接尾,副詞可能,*,*,*,中,チュウ,チュー
更      名詞,形容動詞語幹,*,*,*,*,更,サラ,サラ
ニ      UNK
四      名詞,数,*,*,*,*,四,ヨン,ヨン
ヲ      助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
以      UNK
テ      UNK
商      名詞,接尾,一般,*,*,*,商,ショウ,ショー
ヲ      助詞,格助詞,一般,*,*,*,ヲ,ヲ,ヲ
整除    名詞,サ変接続,*,*,*,*,整除,セイジョ,セイジョ
シ      名詞,一般,*,*,*,*,シ,シ,シ
得      名詞,一般,*,*,*,*,得,トク,トク
サル    名詞,一般,*,*,*,*,サル,サル,サル
年      名詞,接尾,一般,*,*,*,年,ネン,ネン
ハ      UNK
平年    名詞,副詞可能,*,*,*,*,平年,ヘイネン,ヘイネン
トス    名詞,サ変接続,*,*,*,*,トス,トス,トス
EOS

Man sieht, dass hier viele Katakana-"Ausdrücke" nicht erkannt werden, aber so ganz regelmäßig ist das nicht. ノwird als Partikel erkannt, ハ aber nicht... Interessant finde ich auch, dass das Programm bei 似テ komplett versagt.
29.02.24 21:08
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 396
Beitrag #5
RE: Zum 29.02.2024: 閏年 [うるうどし]
(29.02.24 21:08)vdrummer schrieb:  ...
Interessant finde ich auch, dass das Programm bei 似テ komplett versagt.
Danke für den mecap-run. Da werde ich nochmal auf Dich zukommen.

Interessanterweise erkennt 10ten (welches IIRC mecab im Unterbau hat) das "似テ" in Deinem Post - vielleicht wegen der Leerzeichen?
29.02.24 23:32
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
vdrummer


Beiträge: 1.395
Beitrag #6
RE: Zum 29.02.2024: 閏年 [うるうどし]
(29.02.24 23:32)harerod schrieb:  Interessanterweise erkennt 10ten (welches IIRC mecab im Unterbau hat) das "似テ" in Deinem Post - vielleicht wegen der Leerzeichen?

Zumindest das 似 wird erkannt:

Code:
$ mecab -x UNK <<< "似テ"
似      動詞,自立,*,*,一段,連用形,似る,ニ,ニ
テ      UNK
EOS
01.03.24 08:21
Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
harerod


Beiträge: 396
Beitrag #7
RE: Zum 29.02.2024: 閏年 [うるうどし]
(01.03.24 08:21)vdrummer schrieb:  
(29.02.24 23:32)harerod schrieb:  Interessanterweise erkennt 10ten (welches IIRC mecab im Unterbau hat) das "似テ" in Deinem Post - vielleicht wegen der Leerzeichen?

Zumindest das 似 wird erkannt:

Code:
$ mecab -x UNK <<< "似テ"
似      動詞,自立,*,*,一段,連用形,似る,ニ,ニ
テ      UNK
EOS

10ten meldet auch die て-Form...


Angehängte Datei(en) Thumbnail(s)
   
01.03.24 14:24
Webseite des Benutzers besuchen Alle Beiträge dieses Benutzers finden Diese Nachricht in einer Antwort zitieren
Zum 29.02.2024: 閏年 [うるうどし]
Antwort schreiben