Taku Kudo
taku****@chase*****
2006年 2月 3日 (金) 01:02:50 JST
工藤です > ついでと言ってはナニですが, 同様(?)の問題に中点「・」から始まる固有名 > 詞というのもありました. > > % cat test.txt > ・・ダイヤフラム > % mecab test.txt > ・ 記号,一般,*,*,*,*,・,・,・ > ・ダイヤフラム 名詞,固有名詞,一般,*,*,*,* > EOS > > 中点(記号?)が 2 つ以上連続する場合におかしいのか, 中点が 1 つしか無い > 場合は期待通り(?)の動作をします. > > > cat test2.txt > ・ダイヤフラム > > mecab test2.txt > ・ 記号,一般,*,*,*,*,・,・,・ > ダイヤフラム 名詞,固有名詞,一般,*,*,*,* > EOS > > これは, こういうモノなのでしょうか. いちよう辞書の定義どおりですが、やっぱ変ですね。 ー と ・ の扱いは非常にやっかいです。今は両方ともカタカナとして 振舞うように mecab-ipadic の char.def の中で定義されています。 カタカナの未知語は、連続するカタカナを取り出すよう mecab-ipadic で定義されているため 「・ダイヤフラム」 が単語の 候補として切り出されます。最終的には、未知語に与えられたコスト値で 解がきまりますので、コスト値の微妙な大小関係で変な切り 出しになってしまいます。 ・をカタカナにしないというのはアリだと思います。ただ、− はそういうわけに はいかないでしょう。 -- taku