卒業研究編(12月~)

Today's Access -
Yesterday's Access -

研究日誌・卒業研究編。
やりたい研究につけたけども本当にちゃんとできるかな!?

2010/1/28(THU)

今日は資料作りのみって感じで。
あとは、プログラムに関してもそんなに重要でない、やっといたほうがいいことをした。

で、今日やったこと。

  • 報告会の資料作り
  • プログラムの実行進捗状況のログを記録するプログラムを作成
    • メソッドの実行開始を書き込む程度のもの
  • wikiにプログラムの詳細を記述
    • ディレクトリ構成など、ややこしいこと

すくねぇー。
でも、こんなもんしかせんでいいのは今だけなのでせいぜい楽しんでおくことにしよう。

で、明日やること。

  • 報告会
  • 実験を見守る

……明日学校行く意味がわからん。


2010/1/27(WED)

今日はプログラムが一応の区切りを迎えました。
ここまで結構順調に来たのがすごくうれしい反面、これから何かバグが出て来るんではないかとビクビクしております・・・。
とりあえず、データ待ちということでまだまだ気は抜けないようで。

で、今日やったこと。

  • 2つ目の実験の結果出力プログラムを完成
    • パフォーマンス無視wできればよしw
  • プログラムを一通り見直し
    • コメントの確認、main文の見直し
  • 金曜の発表資料作成
    • 6~7割完成
    • 9割は前回の使いまわしw

発表めんどくさいなー。資料作る時間をもっと他のことに当てるほうが有意義だと思うんですけどねー。

ともあれ、当面はプログラムに関しては触るところがないと思うので他に必要なことをしていこうと思います。
がんばりすぎない程度にほどほどにね。

で、明日やること。

  • 発表資料を完成させる
  • プログラムの仕様を確認、wikiにまとめあげる
    • 気になるところをメモしておく(パフォーマンスなどに関連して)
  • SVMなど必要なものの復習

そういえば、まだラベル付けする作業とか残ってるんやったな。これもデータ待ち。
今日確認したら、家で動いてるプログラムは10日間うごきっぱでしたw
データ収集に時間かかりすぎやろ・・・。
・・・なおすべき?


2010/1/26(TUE)

今日は一日ねむかった。寝つきが悪いのが原因だ。
布団に入るといろいろ考え出してしまう癖はなくしたいもんですな…。

ともあれ、今日はやるべきことはやってたわけで。
いろいろ進みました。

で、今日やったこと。

  • Tri-Training完成
    • 学習器を訓練することに特化させることに
    • その他の結果導出などは別クラスで
  • Predictionを完成
    • 随時実験・修正はまだ必要
    • 結果出力まで完成
  • 予備実験を開始
    • まずは記事取得から→なかなか終わらんw

とまあ、プログラムは一段落しました。まだちょこちょこやることはありますが、なんとか完成。
次は実験結果を考察しやすいように出力を工夫するという感じで。
それから、バグチェックとかはもうずっとしなきゃね…。

で、明日やること。

  • ラベル付け直ししたファイルをまとめて、半教師がうまくできているか確認しやすい形に
    • Excelでグラフを作ったときに、時系列でどこが正とされているか色分けする
    • 詳細は研究メモで
  • 予備実験を見守る
  • 実験設定を先生に確認

ちょっと追い込みっぽくなってまいりました。やっとここまで来たか。
しかし、プログラムがうまくいく保証がないので気は抜かないようにしよう。


2010/1/25(MON)

今日はちょいがんばり。気づいたら、9時回ってた…。
おかげで進んだね。

てことで、今日やったこと。

  • 先生とミーティング
    • 半教師付き学習でやりたいことを再確認
    • できる気がしませんw
  • プログラムの続き
    • 確認したやり方がやっていたことと少し違ったので修正
    • Tri-Trainingを実装完了→実験はまだ(とりあえずそれっぽく動いてるのだけ確認)

こして書くと少ないが、Tri-Trainingがやはりしんどかったな。めんどくさいw
アルゴリズムを一通り理解しといてよかったよ。マジで。

ところで、そろそろ予備実験やらなんやらしたいところらしいが間に合う気がしませんw
だって、最後のあたりのデータ作成だけでもえらいかかってるのに、4日でどうしろとw
まあできるところまでやりましょうか。
データ量少なくとかして、とりあえずプログラムが動くことを確認することも大事やからな。

てことで、明日やること。

  • 自宅から今集まってるだけのデータで予備実験開始
    • 期限は金曜朝10時
  • Tri-Trainingの実験
    • データが出来次第
  • 結果表示を考える

結果表示に関してはまだあんまり考えてなかったので、これからってことでw
とりあえず、順調なことに安心。
最後は時間との勝負ですなぁ…。


2010/1/22(FRI)

今日はやる気がなかった。
これはオレだけじゃなかったみたいで、なんかB4みんなダルそうにしてたw
それで作業はあんまり進んでないわけだが、進んだこともあるわけで。

でことでやったこと。

  • プログラムの続き
    • CreateInstanceを改良し、負例も作れるように
    • ブートストラップサンプリングを実装
      • 正例と負例がちゃんと入るように、別々でサンプリング
      • それが果たしていいことかはまだわからない
    • 学習、実験のための前準備
      • ちょっと考えたり、クラス作ってみたりしただけw

まあ少ねぇなwこんな日があってもいいやろw
明日は来るか悩むところ……ってこともなく来ませんw

サンプリングは思ったより簡単にできたけど、この後が結構面倒かもしれん。
サンプリングはしたものの、これの前にラベルありデータとなしデータに分ける必要があったんだった。
さらに、いろいろな学習器で実験できるように実験環境に拡張性を持たせる必要がある。
さらにさらに、ラベル付けの作業が来週待っているような気がする。(データがまだできないてない…)
まあ来週だよ、来週。

で、来週やること。

  • ラベルありデータとラベルなしデータに分けるプログラムを作成
  • 学習器の部分を作る
  • できた記事URLからトレーニングデータ作成まで行う

これだけ見てると、もうやること少ないような気になるから困るw
まだ先は見えないなー。


2010/1/21(THU)

今日はついにいままでやってきたことの集大成を見れた。
まだやることは残っているが一応一安心。…それもちゃんと実験データがそろえばの話ですけどね。
このデータを集めるのはとりあえずこの1月で出きると思うけど、心配だ。

ともあれ、今日やったこと。

  • プログラムの続き
    • トレーニングデータを作成するところまで完成
      • 実験用に4パターンを自動で生成するようにした
      • とりあえず結果が出るだけなので、数値確認などは必要
    • 頻度表作成のプログラムはちゃんと動いてはいるよう
      • しかし、表示される数値でカテゴリの数値がまったくでないことが多いので不安だ…
      • データが悪いのか?
      • ちょいと修正→実験中
        • 話題にしたブロガーを保存したリストを全体とカテゴリで同じようにしていた(原因かわからんw)

ラベル付けにしてもデータ待ちなので次にやることは実験環境の整備となりますな。
あと、トレーニングデータも負例を作れるようにもしなあかんかな。

まだまだやることが残っているということを再確認…。
で、明日やること。

  • 負例を作れるようにCreateInstanceを改良
  • 半教師付き学習の復習
    • イメージを固めて、学習器を含めたプログラムを始められるように
    • 学習器の勉強も
      • 決定木
      • SVMなど
  • 頻度表作成のプログラムを監視

書くと少なく見えるがまったくそんなことはないw
一番重要なラベル付けが終わっていないのがすげー怖い。
はやくデータできあがらんかな。


2010/1/20(WED)

今日はちょっとやったことは少ないかもしれん。
でもまあキリあいいのでよし。思ったよりスムーズにプログラムできてるが、実験用データがまだ集まっていないのが怖い…。
追加でデータ集めるのも時間かかるやろうし、何も起きなきゃいいが。

ともあれ今日やったこと。

  • プログラムの続き
    • 昨日の頻度表を改良
      • 話題を扱ったブロガー数の累計の計算のため
      • 逐一話題を扱ったブロガーを保存・カウントし、重複なく扱ったブロガー数を保持する
      • 期間で話題を扱ったブロガーなどはその値を用いて計算できる
    • 頻度表以外に必要なパラメータの計算
      • 全体とカテゴリごとでの記事数とブロガー数
      • それぞれをファイルにまとめた
    • トレーニングデータ作成プログラムに着手
      • これまで作った頻度表、パラメータデータを読み出すところまで

あとはトレーニングデータにまとめるだけだ!
長かったな…。でもここでしくじるわけにはいかんので慎重にいきまっしょい。

ではあしたやること。

  • トレーニングデータにまとめ上げる部分を作成
    • できたら、実験用に4パターンのトレーニングデータを作れれば
      1. :従来手法
      2. :正規化のみ
      3. :従来手法+新規属性値
      4. :正規化+新規属性値
  • 頻度表作成のプログラムの監視
  • 半教師付き学習のためのラベルの位置を考える

4パターンってのはできたらやれたほうがいいかと思う程度だね。
ていうか、新規属性値のプログラムも作らなあかんのはちょっと骨が折れるかも。
それにこれで終わりじゃなくて、半教師付き学習のための実験部分を作る作業が待っている。
wekaがあってよかったとつくづく思いますw


2010/1/19(TUE)

今日は久々の進捗報告をした。
これといったことは言われず、半教師付きのためのラベル付けに関してもっとつめろとのこと。
考えてはいるけど、具体案は全然やねー。
それよりもプログラムの具体案を出さないといけないのですが…。

まあ、とりあえずやったことを書く。

  • プログラムの続き
    • 昨日作業したところなど、少しずつバグがあったので修正
      • 「{}」(中括弧)がjavaでは「\\{」とかしなあかんのねw初めて知ったわw
      • しかし、replaceで消せないのはなんでやねん→splitで対処
    • 名詞頻度ファイルから話題語の頻度のみを取り出すプログラム完成→実験中
      • 話題語を指定して、日付で全てのファイルをなんども探索
      • 正直時間はかなりかかるが、今回は確実かつ簡単な方法ということに
      • これの出力ファイルにラベルを付けるようにする

行にしたら少ないかもしれんが、プログラムの行にしたら大したもんだと思う。
今にして思うけど、よく3ヶ月ほどでこんなに書けるようになったなと思うな。
びっくりだ。

って、ビックリしてる暇ねぇw明日やること。

  • 実験結果を確認
    • バグチェック
    • 出力のcsvファイルをofficeで開き、グラフにしてみる
  • 他の必要なパラメータを求めるプログラムを作成
    • 記事数、ブロガー数など正規化などに必要なもの
    • TFIDF値はどうしようかな…自分で計算するかなw
  • 以上をもとにトレーニングデータを作るプログラムの作成

正直最後のはいければって感じやね。
今日の実験がうまくいけばってとこだ。たぶん大丈夫やと思うんやけどなー。

とりあえず、ゴールが見えてきた感がある。
ラストスパート!

…にはまだ早いわw


2010/1/18(MON)

今日もずっとプログラムしてた。
ていうか、それしかすることねぇ。それ以外しててどうすんねん、ってとこ。
今日はぼちぼち進みました。
自分で設定したりしときながらなんやけど、ディレクトリ構成ややこしいなぁ。
もう卒業研究の間はこれで押すけど、院になったらなんかしら改良しよう。そうしよう。

てことで、今日やったこと。

  • プログラムの続き
    • 分類結果に基づいた名詞ファイルの移動
      • 先週の実験でCategorizeの分類器の精度があまりにも悪かったので緊急対策
      • Categorizeでの予備実験でした結果をそのまま流用することに(分類精度85%)
    • 早期話題発見のためのTFIDF値計算の下準備(arffファイルの変換)
    • 変換したTFIDF値のファイルからTFIDF値をもとにして早期話題候補をもとめ、ファイルに書き出す
      • 書き出したファイルの中に入ってた名詞はまあ先輩のものとあまり変わりないようで
      • しかし、全角記号や半角カタカナが多すぎる
      • GetNounsのフィルタに手を加える
        • 全角記号、半角カタカナのフィルタを整備→結果良好
        • これをちゃんと名詞抽出時に使えればなかなかいい感じになりそうw

ディレクトリの面倒くささにやられた感じはあるが、着実に進んでいるのでよし。
今週中には早期発見の学習器に手をつけるか、具体的に考え始めるくらいはしたいところだ。

で、明日やること。

  • 話題候補をもとにしてそれの出現頻度をカテゴリ、全体の両方でカウントする
  • 他の必要なパラメータの算出
  • トレーニングデータにまとめる
    • ラベル付けを具体的にどのように行うか
    • 付けたラベルを反映しながら、トレーニングデータにまとめる
    • ってのを考える
  • ラベル付け

下2つは最後までできるわけないと思うけど、3つめは途中までは手をつけるくらいまではやりたいもんだね。
ちょっと先が見えてるようなのでこのまま勢いにまかせよう。
親からのちょっとしたプレッシャーとかもあるし苦しいが…。

なにはともあれ、やるしかねぇ。


2010/1/15(FRI)

今日はプログラムしてた。
ていうてもそんなには進んでいない。
毎度のことながら、ちょっと離れてるとすぐ忘れるし思い出すのに一苦労してしまう。

まあ今日は雑誌会やらなんやらめんどくさいことも多かったからやる気が起きにくかったのが一番の問題ですがw

ともあれ、今日やったこと。

  • 早期話題発見のためのプログラムに着手
    • 名詞データは前に使ったものをそのまま流用
    • Categorizeで作った分類器関連のプログラムをDiscoveryでも使えるように改良
    • Categorizeで使っていた訓練データを使って訓練し、持ってきた名詞データを分類→思った以上に精度が悪すぎる…
      • 今後ラベルの付け直しが必要かも…
    • 名詞データにノイズが多すぎるという感じもあるのでそちらを見直す
      • 結構記号やらなんやら残ってるし、もう少しフィルタリングを強化する必要があるか?
      • で、やったところは以下で
    • トレーニングデータの素性選択をもう少し多くとってみてもいいかもしれない(たとえば10000)とか
    • 今回使ってたデータがたまたまそれに分類させてしまうような内容のものだった場合も考えられる
    • 結局全体としては、名詞ファイルをカテゴリに分けて移動させる手前までできた
  • ブログ記事URL抽出からやり直しておくことにする

GetNouns.javaの変更点
Filterringに以下のものを除去するよう追加
・「半角記号」=(\p{Punct})
・「全角記号」=(‥、…など)
・「小さい”あいうえお”」を「大きい”あいうえお”」に変える
あと、気づいた問題点としては
  • 記号で切ったあと名詞抽出をしているが、その切れ目で連続名詞を結合している場合があるかもしれない
というもの。
これは直さなくては。なぜ気づいたオレ…。

作業としてはあまり進んでないな…。
やらなあかんこと、考えとくべきことが多くて困る。

とりあえず書き出す。

  • プログラムの続き
    • カテゴライズした結果に基づいて名詞ファイルを移動するところから
    • 少し直したGetNouns.javaの実験
      • ちゃんと指定したものをフィルタリングできているか
  • ブログ記事URL抽出から走らせたプログラムの監視

少しずつでも確実に進めていかねば。
ていうか、再来週進捗報告会ってめんどくさすぎるやろ…。
そんなもののために資料作ったりする時間が惜しいわ。何考えてるんやろ…。


2010/1/14(THU)

今日はこれからするプログラムのための前準備をしていた。
もうここからは失敗してる暇はないので、気合を入れていかねば。
研究題目を決めるという雑事もありながらなんとか今日はできるだけ作業をこなした。

で、今日やったこと。

  • 計算サーバー上でデータセット生成のプログラムを走らせる
    • 記事抽出までをするように
    • まだ少し経過を見ながらパラメータの調整は必要なよう
  • 早期発見用トレーニングデータ作成のためのプログラム前準備
    • wekaのクラスをフル活用する方向でプログラムを行うことに
    • このwekaの機能の調査・実験を行う→大体思ったとおりだった
    • wekaの機能を考え合わせてプログラムの方針を全体的に決定
      • やっていくうちに変わるかもしれんが

依然としてプログラムを組んではいないが、その前の設計から大事だと思うのでこれはこれでよし。
思ってたよりwekaが便利なことには正直驚いた。
これでかなりプログラムが楽になる。
あとはどれだけ自分がスムーズにプログラムを組んでいけるかどうかだ。
やるしかねぇ。

で、明日やること。

  • プログラムに着手
    • まずは実験用データの整備(NounsをDiscoveryに配置)
  • サーバー上でのプログラムの動作監視
  • 研究題目決定

まあ最後のは正直さっさと終わらしたいから適当にしてほしいんだが、やっぱりだれかさんが面倒くさかった。
そういうとこだけしっかりしようとすんのやめへんか。


2010/1/13(WED)

今日はほぼというか、まったく研究しなかった。
計算サーバーにmatlabを入れるという作業をしていたのだが、実はちゃんとやるとあっさりおわってしまったというのは内緒。

なにはともあれ今日やったことってなんだったか。

  • サーバーにmatlab導入
    • 最初にやったときにXが必要になるようだったが、installのヘルプを見るとterminalでのインストールモードがあった・・・
    • 先生にライセンスをもらい、適切な方法でやったところあっさりインストール終了
    • しかし、Xを中途半端に使えないのも・・・と思っていたらうちの研究室のジーニアスがさらっと解決してしまった
  • 身の回りの整理整頓
    • 今までまとめ忘れていたりしたwikiの内容を書く
    • 研究に関して考えていたことなどもwikiにメモる

まあ小休止みたいなもんか。
ただ、サーバー関連ではかなり勉強になったのでよしとしよう。
反省点といえば、もっとマニュアルをちゃんと読もうってことかな・・・

では、明日やろうかと思うこと。

  • 早期発見部分のデータベースを計算サーバー上でできるようにセッティング
    • ローカルでやっているが、遅い上に作業をすることでプログラムと作業の両方に悪影響があるようなので
  • トレーニングデータ作成プログラムに着手
    • まずは一般語除去で、注目すべき単語を取り出す部分から

まあやることは決まってるし、どんどん進めていくしかない。
その前に研究題目決めなあかんな。
めんどくせー。
てか、先生なんもいうてこんな・・・。
しっかりせねば。
そして、考えねば。


2010/1/12(TUE)

昨日までの3連休を存分に楽しんだあとの今日。
ちょっと怠けながらも作業をずっとしてました。研究は進んでないw

だが、最後までの方向性は見えてきたのでなんとかなるのかもしれない。
ならない気はすごくする。

では今日やったこと。

  • 研究の方向性を確認
    • 先生のところに行って中間発表のときに言っていた新規性やらのことについて話す
    • なんとかまとまる(頭の中でw)
  • 休み前から動かしていたプログラムの確認
    • 止まってた…(終了していたのではない)
    • ちょいと変えて走らせる
      • URL処理の部分で「?p=1」を入れないようにする
      • データベース作成で、指定した日付まで記事を取得する部分を修正(実験中)
        • 指定した日まで記事がなかった場合に終了する
  • 計算サーバーにmalabを入れる作業を継続
    • 細かい流れは別ページ参照

今日はほとんどmatlab入れるための作業に明け暮れていた。
だがしかし、できない。終わらない。
研究せんとまずいんだが。
これをせんと同期の研究がまずいんだが。

ということで、明日やること。

  • matlabの導入

もうこれをさっさと終わらせなければ。


2010/1/7(THU)

今日も研究自体は進んでない。
でも、それなりに有意義な時間を過ごせてはいるのではなかろうか。

中心になってやったことは発表資料の見直しだが、それに関連してやってることが真の中心であったりする。

てことで今日やったこと。

  • 発表資料の見直し
    • 頭の中で発表練習してみる
      • 20分になるのではないかというしゃべりの多さw
    • 資料中で突っ込まれたらまずい・まだちゃんと理解してないであろうことの復習(これが真の中心)
    • 資料中の表現などの厳密な修正
  • 発表に際して復習したこと
    • バースト検出の従来手法
      • 文書の到着間隔に関する確率を用いた状態予測
      • 上記に関連した確率分布(ポアソン分布と指数分布・「ランダム」の定義)
    • Tri-Training
      • 3つの分類器を用いた半教師付き学習手法
        • 一応実装予定

今日は結構だらだらやってた気がせんでもないので、こんなもんだろう。
明日は発表やし、それ以外はたぶんやる気にならんやろうから来週のこと考えようw

てことで、明日(来週)以降やること。

  • 早期話題発見部分のプログラムに着手
    • まずは、データセットを作るプログラムから
    • 同時にブログデータの取得と、これの格納ディレクトリについて考える
    • あとで混乱してもまずいので、ディレクトリ構成のメモを忘れずに
  • 関連研究についての論文を探して読む
    • 春休み明けの雑誌会でも発表できるようになんか読んでおかんと

あと少しだが間に合う気はあんまりしないな。
いつも言ってることだが、やるしかねぇ。


2010/1/6(WED)

あけました。今年初日誌。
研究は進んではない。
なぜって、年末に新型インフルにやられ中間発表ができず、今週になったことで発表資料作りに追われていたため。
まあそれはできたからいいが、やっぱり発表するとなると緊張はするもんだ。

ま、とりあえずやったこと。

  • 発表資料作り
    • ほとんど先輩の修論まとめただけw
  • プログラムをいじる
    • 前回いじったときからかなりの時間が経過しているので思い出すことを兼ねて
    • 記事更新プログラムのほうでまたバグを見つけたので除去・実験
      • Entriesに「new_~」のファイルが生成される→修正・実験中
      • 今回の修正で「tmp_Update_EntryURL」がいらんようになるかも
  • 研究に関連している知識・手法の勉強しなおし
    • カテゴリ分類のトレーニングデータ作成時に素性選択をするが、それの選択方法である「カイ二乗選択」について勉強
      • 「カイ二乗分布」「カイ二乗検定」から勉強しなおした
    • NaiveBayesの手法を勉強しなおす
      • 簡単にはやっていたが細かいアルゴリズムなどは見たことがなかった

そこそこやってることはやってるような気がする。
明日を含め、今週は発表資料の見直しが中心になるだろうから知識の固めなおしを平行してやっていくことにする。
プログラムは来週からw
まあこれからすることに関して勉強しなあかんことがあるから当たり前の流れではあるがw

てことで、明日以降やること。

  • 発表資料見直し・練習
  • NaiveBayesについて、さらに勉強
    • あまり深くなくやる
    • できたらSVMまで勉強したい
  • 半教師付き学習について勉強
    • どんな手法があるかを確認・勉強する
    • Tri-Trainingを重点的に

この中で一番やるべきは、半教師付き学習の勉強だろうな。
まあ時間とかみながら確実にやっていきましょう。


2009/12/16(WED)

今日は英語の面接のはずだったが、向こうの手違いかなんかでなくなり明日になることに。

しかし、研究のミーティングはやった。疲れた。色々決まった。よかったw
ということで、安心感に包まれたことによってやる気をなくしながらも、プログラムを進めました。

では、今日やったこと。

  • ミーティングによって研究の新規性を確立
    • 半教師付き学習の導入(Tri-Training)
    • 学習データにおける新属性値の導入と従来属性値の正規化
      • 詳細は研究ノート
  • CategorizeプログラムのDiscoveryへのつなぎ
    • 分類はできるようになったので、それをちゃんとDiscovery側で利用できるようにする
    • 詳細は研究メモと研究参照

なんとか進めている。
プログラムのほうもまた少し先が見えてきた感じだ。
属性値の有効性に関しては、実験してみるしかないから早くプログラムを完成させてしまわないといけない。
それにはデータセットをしっかりしたものを用意することも必要だ。
こう思うと、やることやっぱ多いな…。
来週は中間発表もあるし、当面はそっち優先になるだろうな。

まあとりあえず明日やること。

  • 属性値の再考
    • 一応決まったが、もう一回くらい考え直してもいいかも(たぶんしないw)
  • プログラムを進める
    • Discovery側でCategorizeを行うための作業
    • Discoveryでの学習データの作り方などを考えた上でのディレクトリ構成を考える

まあプログラムに関しては、またこの段階での下準備になるが仕様がコロコロ変わるからしょうがないw
その都度どんな状態だったか・このとき何をするべきだったのかをメモすることはかなり大切だ。

それにしても、1人1つもパワポ買ってくれない研究室て。
発表の資料作りどうしようかなー。


2009/12/15(TUE)

昨日今日とずっと論文やらなんやら読んで、考えて、悩んで、頭がパンクしそううgはぃrh;あgひぁwぎ。
もう中間発表でまともなこと言えるかが怪しい感だ。

まあ、やってたからやったことは書こう。

  • 論文を計5本読む
    • 全部日本語だがw
    • バースト検出・最新・話題語抽出というのをキーワードに読み進める
    • バースト単語(話題語)の定義は次のようにする
      • 新鮮さと話題性を持った単語
  • 学習器についての復習
    • 決定木、NaiveBayesなど

書いてみるとすげー少ないが、考えてることも多いので実際にはこんなもんでは収まらない。
それに今手元に研究ノートがないから細かいとこ書けねー。

今は研究のこと考えたくないからこれでいいのだ。
進捗報告もかいたし、実際の進捗はそっち参照って感じだ。

まあ、とりあえず明日やること。

  • 先生に進捗報告を兼ねた相談
  • バースト単語に関する考察を続ける
  • 英語の面接

明日は英会話教室の習熟度チェックのためか、教室まで行かにゃならん。
まんどくせー。


2009/12/11(FRI)

今日はちょっと小休止。
今後のための準備。一応一段落したので。

では、とりあえず今日やったこと。

  • ラベルの確認を終え、分類の実験をした
    • 見事10foldで85%を上回る
    • これでカテゴリ分類に関しては一段落
  • 様々なファイル、クラスファイル、メソッドができてきて少し混乱してきた
    • ファイル・ディレクトリ・メソッドの整理整頓
    • ディレクトリ構造を考え直す
    • mainメソッドの引数制御をちょっくらいじる
    • 各メソッドの見直し、コメントのつけ直し

今日はこんなもんか。
とりあえず進捗報告もしたけど、またのんびりした感じでした。
中間発表に向けてもう少し詰めることができてきたが、なんとかなる気が(ほんの少し)してきた。

そして、これからやること。

  • 先輩の行っていた学習データの属性の考え直し
    • 理論立てて
  • カテゴリ分類をきっちり精査する
    • 学習からカテゴリ分類までをやらせるところまで
  • 最後の分類器の導入

まあ佳境に入ってきた感がありますなw
来週いっぱいは研究するだろうけど、再来週は中間発表の準備するから進めらんないだろうな。

まあ考えるだけならいつでもできるからのほほんと考えておくかな。


2009/12/9(WED)

今日は研究という研究はしていない。
ずっと、ラベル確認してただけだった。

それから、今日で英会話教室が終了した。
また院生に間違えられていたw

明日も引き続きラベル確認です。


2009/12/8(TUE)

気がつけば前回からほぼ1週間。
作業に気をとられて日誌をかけていなかったが、これが頭の整理にいいもんだと今更ながらに気づく。
やっぱ、毎日書くべきだろうな。

しかし、忘れていたものはしょうがない。
でことで、今日までにやったこと。(覚えてる範囲でw)

  • プログラムの再編成
    • カテゴリ分類でも学習器を使うということで、その訓練データと最後のデータの区別をはっきりさせるため
    • main内のメソッド配置、引数なども結構変更
    • mainの中だけでパラメータ設定ができるように
  • ブログのラベル付けの秘策を考える
    • livedoorのカテゴリを利用する
    • カテゴリ一覧から各カテゴリのランキングページを使う
      • これにより、もとから分類されているのでラベル付けの手間が省けた
      • しかし、完璧にカテゴリ分類されているわけではないので、ノイズは自分で除く必要があったが・・・
  • 分類器の導入
    • wekaの使い方の復習と新規学習
      • javaのプログラム内にインポートして使う
      • コマンドラインから直接ファイル処理・学習に使う
  • 一旦ノイズ除去を全くしていない(livedoor頼りのw)訓練データで「NaiveBayes」を訓練・実験
    • NaiveBayesは1つだけ使用(つまり、多クラス分類)
    • 以前決めたカテゴリIDをそのままクラスラベルとして使用

実験結果等は別ページに書くとして、やはりあまり精度はよくなかった。
これが訓練と実験に使ったのが全く同じデータでよくないので、恐ろしいw
オレが考えられるのは、データにノイズが多すぎることなので、とりあえずそのノイズ除去作業を実行中。
これが結構多いみたいで、訓練データがどんどん縮小していくw
大丈夫かな?(゚ω゚)
それに、このノイズ除去のために記事内容をざっと見ていくことをしているが、カテゴリとして不適切またはうまく分類できなさそうなものが見えてきた。
これから順次変更していく必要がありそうだ・・・。

さて、では以上を踏まえて明日からやること。

  • 今ある訓練データのノイズ除去
    • ノイズ除去し終わったときに残ったブロガーは専門性が高いものとし、良質な訓練データの元として記憶し、以降使い続けるものとする
  • 出来上がった訓練データで再度実験
    • 精度があがればいいけど、どうだろうな・・・
  • 訓練データと実際の分類するべきデータを別々にし、保存するプログラムを作成
    • 最終的には、訓練データを作るモードと分類モードとかにできればわかりやすいかもしれん
  • 訓練データ拡大のためのプログラムを考える
    • あとまわしにするかもしれん
  • 最終的な学習部分に着手

早く最後にいきたいが、ここをしっかり作りこんでおかないと後で苦労しそうだ。
が、既に苦労している気がしないでもないw
それに間に合う気がしないのだが、本当に大丈夫なのか、オレ・・・。


2009/12/2(WED)

もう12月になりもうした。
この間研究室に入ったような気が・・・・・・・・・・・・・・せんわw
直接の被害を受けてないマシだが、耐え切れんものがある場所に来てしまったことに今更ながら後悔の念が増して来ている。
いつかキレるかもw

まあしかし、やりたい研究ができていることが不幸中の幸いということでやることはやっていこう。
で、前回から今日までにやったこと。

  • ブロガーへのラベル付け
    • 根気の勝負
    • つまらんことこの上ないw
  • WEKAによるTFIDF値の算出
    • 同期のMによる情報
    • さらっとTFIDF値を算出し、それがarff形式で出力される
    • これをするために、抽出した名詞ファイルをWEKAに入力できる形のarff形式に変換するプログラムを作成
    • これをどうカテゴリ分類に生かしていくべきかが当面の問題
      • 考案した手法はメモ参照

  • 上記2つを行う中で考えたこと
    • 以前取得していたデータからカテゴリ分類のためのラベルありデータを作っていたが、あまりいい感じにそれぞれのカテゴリに属するブログが揃っていない
      • 新規にブログデータを作為的に集めることにする
      • livedoorのカテゴリ一覧のページから、各カテゴリのランキングページを参照する→ランキング上位のブログを得る
        • ランキング上位のブログ=カテゴリ内でも特にその分野に特化+更新頻度◎
    • 既にカテゴリ分類されたところから取得するので、ブロガーのカテゴリ分類は必要なし
      • ただし、ブログの記事ごとにそのカテゴリに属するかのラベル付け作業が必要になる

ここんとこは手法について考えるばっかりで、あんまり作業していない。
だって、つまらんしw
今まで1日やってたことが無駄になりそうな手法を考案しているが、こっちのほうがこれからのことを考えてもいけそうな気がするから、やるしかしょうがない。
でもまずは、考案した手法について先生に相談するのがいいかもしれない。
カテゴリ分類に関しては、ただのNaiveBayesで終わらすつもりが、スタッキングしようかなんてかんがえてるんだからw
もしも先生からゴーサインが出なくても、WEKAを利用する方向で進めておそらく問題はないのでただのNaiveBayesに持っていくのもちょっとは考えといたほうがよさそうだな。

さて、では明日やること。

  • WEKAによるTFIDF値の出力ファイルの各値の確認
    • TFIDF値を算出していることはわかったが、どんな感じで出力しているかをもう一度まとめておく
    • これから学習データとする際にはわかっておかなければならん
  • スタッキングについて先生に相談
    • たぶん「普通のNaiveBayesにせん?」って感じで言われると思うが、言うだけ言うとく
    • 院ではスタッキングにしてやる
  • ブロガーへのラベル付け
    • だれかアルバイト雇えへんかな・・・

まあ、今日の続きですね。
学習器が入ってきたあたりで、ちょっとだけ面白くなってきたなw
ラベル付けという作業がものすごく面白さを殺しているのは間違いないが。


#bf
名前:
コメント:
最終更新:2010年02月12日 21:04
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。