ラベル 自然言語処理 の投稿を表示しています。 すべての投稿を表示
ラベル 自然言語処理 の投稿を表示しています。 すべての投稿を表示

2013-07-25

RMeCab on RServe で頻度情報の抽出方法(複数ファイルを対象)

RMeCab on RServe で複数のファイルを対象にした場合の頻度情報の抽出方法についてです。結果として出力される単語は属性、頻度はデータとして出力されますが、やっかいなのはそれらは全て1次元となっている点です。つまり、抽出された単語数がx、文書数がyであれば、x*yの大きさの1次元配列が出てきます。これらは多次元配列として扱うのが得策でしょう(データクラスを定義するのが一番クールだと思います)



2013-07-20

RMeCab on RServe で頻度情報を抽出する

RMeCab on RServe で頻度情報を抽出してみました。注意事項ですが、Rの出力と行列の関係が異なっています。つまり、結果が列毎に文字列配列として格納されていますので注意して下さい。