2013年7月25日木曜日

RMeCab on RServe で頻度情報の抽出方法(複数ファイルを対象)

RMeCab on RServe で複数のファイルを対象にした場合の頻度情報の抽出方法についてです。結果として出力される単語は属性、頻度はデータとして出力されますが、やっかいなのはそれらは全て1次元となっている点です。つまり、抽出された単語数がx、文書数がyであれば、x*yの大きさの1次元配列が出てきます。これらは多次元配列として扱うのが得策でしょう(データクラスを定義するのが一番クールだと思います)



0 件のコメント:

コメントを投稿