2013-07-25

RMeCab on RServe で頻度情報の抽出方法(複数ファイルを対象)

RMeCab on RServe で複数のファイルを対象にした場合の頻度情報の抽出方法についてです。結果として出力される単語は属性、頻度はデータとして出力されますが、やっかいなのはそれらは全て1次元となっている点です。つまり、抽出された単語数がx、文書数がyであれば、x*yの大きさの1次元配列が出てきます。これらは多次元配列として扱うのが得策でしょう(データクラスを定義するのが一番クールだと思います)

x = c.eval("res");//複数ファイルの頻度情報の結果(式は略)
REXPList temp1 = x._attr();
RList list1 = temp1.asList();
REXP temp = list1.at(1);
RList temp2 = temp.asList();
//区切られた単語が1次元配列に入っている
String[] words =temp2.at(0).asStrings();
//頻度情報が1次元配列で入っている
double[] freq = x.asDoubles();


0 件のコメント:

コメントを投稿