2011年10月22日土曜日

マイニングツールの統合と活用&情報編纂研究会に参加してきました

先日、東京大学で開催された情報編纂研究会に参加してきました。個人的にこの研究会に参加するのは2回目です。別に「情報編纂」をテーマにしているわけではありませんが、関連技術として関心がありまた研究アプローチも含めて勉強したいというのもあって参加しています。

TETDMプロジェクト
今回、特に気になったのは、TETDMというプロジェクト。人工知能学会の近未来チェレンジで選ばれたプロジェクトのようですが、簡単にいえばテキストマイニングのツールやプラットフォームを提供するというものです。まず、実際、このプラットフォームを利用すれば開発がラクになると発表が何件かあり、このプラットフォームに強い関心を持ちました。
また、このプロジェクト自体のアプローチもとても魅力に感じました。現在情報工学関係の研究では扱うデータ(扱うことができるデータ)が大幅に増えており、またそれを扱うシステム開発も容易になりました。しかし、逆にそれは似たようなシステムの乱立につながってきますし、似たようなシステムが各地で繰り返し作られていくという、学術的には無駄なことが起きていると思います。このような問題を学会がイニシアティブをとって解消しようとするのはとても面白い試みだと思います。

データマイニング系のJavaライブラリも充実してきた?
マイニングの研究を一旦止めていたのでちょっと浦島状態なんですが、rjavaとかwekaとかマイニング系ツールのライブラリがかなり使えるようですね。rjavaは数年前に使ったときはいまいちだった気がしますが、バージョンも上がってだいぶ使えるようになってきたようです。再調査が必要ですね。


オレオレフレームワークを排除しよう
今回の発表の中で、TETDMに対応したシステム開発の問題点として、このTETDMを使う敷居の高さについて話題が上がってました。マニュアル環境が不十分というのもあるようですが、この点について学生のモチベーションが上がらない、、特にデキる学生からは「自分でゼロから作ったほうが早い」という意見が出てくる、、、という興味深い話がありました。
このような問題は、TETDMだけの問題ではなく、各種フレームワークを導入する際に出てくる問題ですが、このことについては私見を持っています。私のラボでは、既存のフレームワークを積極的に導入していますが、それは
「フレームワークの理解のコスト<フレームワーク導入による利点」
だからです。最初の学習には時間がかかりますが、理解できたらそれ以降の開発効率は飛躍的に向上します。そして、もっと大切なことは、ある統一したフレームワークに載せることで、技術・リソースの継承が容易になります。「自分で作ったほうが早い」って作られたのはいわゆるオレオレフレームワーク。その場限りのものです。そのフレームワークは本人しかわからないわけで、その本人がずっと研究室にい続けるのであればいいですがそうでないことが多い。卒業後、技術継承されず理解不能なシステムが残っているというケースが多々あるはずです。
研究とはその場限りで終わるようなものではなく、その後も形を変えながら継続されていきます。ソースコードもそうです。学生の卒論・修論は学生のためだけのものではなく、研究室のものでもあるということ。卒業後も自分の研究が生き続けていく、、、それをアシストするのがフレームワークなわけで、TETDMもその1つになると思います。
だから、「自分で作ったほうが早い」なんていう学生がいたら、一喝しますけどね(笑)。もちろん、学生のモチベーションというのは大切な要因ですから無視するわけにはいきませんが、上述の利点を理解してもらえれば十分だと思いますけどね。

「お前はその場限りで捨てられるコードを書きたいのか?研究室に後世に伝えられるコードを残したいと思わないのか?」

P.S
こんなこと書いたら、おちラボではさぞかし技術継承がスムーズにいっているんでしょうな?と思われるかもしれませんが、残念ながらそんなことはないです。ただ、その効果が徐々に出つつある気配がしています。



0 件のコメント:

コメントを投稿