<?xml version="1.0" encoding="UTF-8" ?><rdf:RDF 
  xmlns="http://purl.org/rss/1.0/"
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
  xmlns:dc="http://purl.org/dc/elements/1.1/"
  xml:lang="ja">
  <channel rdf:about="http://www15.atwiki.jp/thiroyoshi/">
    <title>CS611@wiki</title>
    <link>http://www15.atwiki.jp/thiroyoshi/</link>
    <description>CS611@wiki</description>

    <dc:language>ja</dc:language>
    <dc:date>2012-03-21T22:59:47+09:00</dc:date>

    <items>
      <rdf:Seq>
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/1.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/62.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/26.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/61.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/59.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/42.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/21.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/2.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/57.html" />
                <rdf:li rdf:resource="http://www15.atwiki.jp/thiroyoshi/pages/47.html" />
              </rdf:Seq>
    </items>
	
		
    
  </channel>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/1.html">
    <title>トップページ</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/1.html</link>
    <description>
      Today&#039;s Access &amp;counter(today)
Yesterday&#039;s Access &amp;counter(yesterday)

ある大学生の雑記だったものです。

今までの経験とこれからの興味や趣味のプログラムについてまとめていこうかと。

------

ちょっと試しのアフィリエイト。これも経験です。
#amazon2(468x60)


一番下の商品画像も趣味の内。これもまた経験なり。そして、オレの人となりが出る。


ここも試しのニュース表示。テーマは「株」
#gnews(株)

さらにブログ。今度は「ゲーム」
#bf(ゲーム)

そして、コメント。トップに書く意味とは…。
- test  -- thiroyoshi  (2009-05-22 11:39:59)
- 全くいい趣味がでてるぜ・・・写真  -- air  (2009-05-23 18:51:49)
- (*´д｀*)  -- uechi  (2009-05-24 01:06:39)
- さーて、荒らすかー。  -- Ten  (2009-05-24 06:30:24)
#comment()    </description>
    <dc:date>2012-03-21T22:59:47+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/62.html">
    <title>修士編(9月～)</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/62.html</link>
    <description>
      Today&#039;s Access &amp;counter(today)
Yesterday&#039;s Access &amp;counter(yesterday)

研究日誌の修士2年生編。
就活も終わって残りのモラトリアムに全力を尽くしながらの研究覚書。
----
**2011/11/30(WED)
なんかここんとこ体調が優れないというか、絶えず眠い。
最近の土日をずっと外出したりで過ごしているせいだろうか。とにかく研究に対するモチベーションがあがらないのだ。
そろそろやらなければって焦るけど、体はついていかず。ってことを言うてる場合じゃないんやけどな。
とにかく体調を整えよう。

で、今日やったこと。

・全プログラムのリファクタリング
・・特に、ニュース記事回帰について重点的に
・・・EasyAdaptと、MKL?の導入のため
・・各プログラムは、また動作を確認してもうちょいわかりやすくしたいもんですな

というわけで、ほとんどなんもしてないのと一緒やな。
次回につながるという意味ではなにかしたことにはなるのか。が、とりあえず次でEasyAdaptもMKLも実装を済ませたい。

で、明日やること。

・EasyAdaptの実装
・・学習時のニュースデータの拡張
・・テストデータを作成
・MKLの実装
・・学習データ、テストデータの作成メソッド
・・学習アルゴリズムの実装

では、明日がんばろう。ちょっと休む気でもいたけど、ま、明日の気分次第ってことで。
----
**2011/11/22(TUE)
研究は続けていたが、日誌書いてなかった。久々に書いてみる。
この20日間ほどで大分研究は進んだような進んでないような。修論の落としどころには確実に進んではいると信じてる。
で、今日やったこと。

・現行モデルでの再実験完了
・・全ニュースデータを用いた場合での予測モデルについて精度が上がっている（極少し）
・これを検証するための方策を検討
・・t検定による
・・各銘柄で有意差を持っているか
・・どれくらいよくなっているor悪くなっている
・・何が原因？
・・よくなったor悪くなったものの共通点は？

まああんまり進んでないのは時間かけてないからでしょうがない。
とりあえずt検定はできるようになったようで、ちょっと動かしてみたところ、全ニュースデータにおいての結果に有意差は半分以上の銘柄で見られたようだ。
今度はそれについて検証していかなければ。その検証のための結果出力のプログラムも書かなければ。

で、明後日やること。

・t検定による評価を進める
・・どのパターンのどの銘柄で有意差があったorなかったか
・tfidfのプログラムを進める

ちょっとずつ落としどころに進んでいる気がするのはなんか結果が出てきてるからなんだろうな。
でも、この時期に出てる結果はたぶんなんかするための布石にしかならんのだろうな。個人的にもこんなもんで終わりたくない気もするけど、どこまで踏み込むのが、公私のバランスを考えたときに、適切なのかってのがわからん。とりあえずプログラムをきっちり組んでいくことだな。あとちょい。がんばるべ。

----
**2011/11/1(TUE)
今日から11月だー。と世間では大騒ぎですが、俺は個人的にもっと大騒ぎしたいくらいやばい状況になったみたい。
まあ想定内ですが。これからがだるそうだ。

で、今日やったこと。

・ニュースのみによる回帰
・・回帰のためのデータ整理プログラム完成
・・ニュース回帰の部分は一応完成したが、まだバグが残ってるようなので、要調整
・・・一度動かした所、散々とかいうレベルの話ではない
・・・回帰などまったくできていない様子
・・・やはり、参考文献のように、数値とテキストの高い関連性が明白かつ、欠損値なしでないのが痛すぎるようで

まあやったことはこんだけ。
今日はみんなでお茶会しようだのなんだのと画策してそちらに労力がいったので、時間はあまりとってなかったがそれなりに進んだのではなかろうか。と思っておく。

それにしても、予備実験段階だが、非道い結果。
明日調整して、全部の結果がちゃんと出るようにしなければ。

で、明日やること。

・ニュース回帰をできるように
・・バグやエラーで動かない部分を修正
・・結果がでれば、その検証
・・結果を踏まえて今後の方針を今までで行く理由づけ

実は一番大事なのは3番目。これをするために今の実験やってるのにこれで見通しが全く立たないとなれば…。
まあ俺の指導教員の先生は、これから研究変えようなんてバカなことは言わんと思うが、誰かの一声だけが怖い。
そのための理由づけが必要だ。
現行モデルでの実験やり直しが急務。

----
**2011/10/31(MON)
今日は学祭の看板のデザインを決定した。Simple is best!っちゅーことで。
研究もそこそこに。先週の進捗報告会で課題は色々頂いたので、やるべきと思うものを順序よくやっていきたいと思う。
また、学会発表をするにはある程度の目処が立たないといけないが、その申し込み締切りが結構近い。
近日中に目処が立つかが、その境目だ。

まあ、出せんかったら出せんかったでいいんですがw

で、今日やったこと。

・株価をニュース記事のみで回帰するプログラム
・・株価をQ形式に
・・トレーニングデータの出力、仕分けのプログラム
・・ニュース記事の再整形
・・実験手法を考えて実験設定
・PCAの成分分析
・・プログラム作成完了
・・分析はまだ

まあこれまで書いてたプログラムのおかげで、そんなに苦労せずに次のを書けてる。
だが、もうちょっとだけかかりそうな予感。
まあがんばるしかねえや。

で、明日やるとこ。

・株価をニュース記事で回帰するプログラムの続き
・・10-foldクロスバリデーションをニュース記事でできるように

まあ要するに続き。やるだけや。

----
**2011/10/20(THU)
今日で最初の本実験をすることができた。が、思った通り最悪な結果。

とりあえず、今日やったこと。

・各種バグを取り除く
・実験結果評価プログラムを作成
・・評価結果を一つのファイルにまとめる
・・分析対象候補を抽出
・実験開始
・・全て最悪な結果
・・上下の精度は10%ほど
・・誤差においても、SVRのほうが低い場合のほうが多い

想定内といえば、そうだがまあ想定していた中で最も悪い結果の一つではなかろうか。
ニュース回帰項が予測精度を下げている場合が多く見受けられる。ニュース回帰の部分での過学習が起きているようだ。
ただ、SVRのほうはそこそこの汎用性を持っているらしく、それだけでもそこそこ株価時系列の軌跡を追うことはできている。だからこそ、ニュース回帰によって邪魔されている部分があるとわかる。
上記では、ニュース回帰の過学習としたが、実際にそうであるかは断定できない。あくまで推測。が、それにしてもトレーニングデータによるテスト部分はSVRの少し外れた部分を全てほぼ完璧なまでに修正しているところから見て、過学習を起こしているように思うのだ。
まだまだ詳細な分析は終わっていないし、そもそもどんな分析をすべきかも考えきっていないので、明日はその当たりから考えていきたいと思う。

というわけで、明日やること。

・実験結果の分析
・・分析方法、方針から考える
・・・たぶんニュース回帰を改良する形で
・・分析結果をできるだけ、文章や数値として保存しておく
・・今後の戦略を考える

まあこうなるんだろう。
つーか結果悪すぎるから、ベースラインもクソもないな。
今日はなんか朝から疲労困憊やし、明日や明日～。

----
**2011/10/19(WED)
結構久しぶりの日誌だ。が、研究はしていた。ほとんどがバグ除去とデータの作り直しだったので、書く気にもなってなかった。
で、今日はちょっとプログラム書いたから書いてみた。
ここんとこでは一番研究した日なのではなかろうか。

で、今日やったこと。

・予測結果の評価プログラム作成
・・平均二乗誤差と平均絶対誤差のメソッドを改良
・・・評価対象範囲を日付で指定できるように
・・・評価出力を一つのファイルにまとめる
・・・全銘柄の誤差の平均を出力するように
・・株価の上下についての評価メソッドを作成
・・・予測値は四捨五入
・・・上下についての精度、precision、recall、F値を算出
・・・・精度は、予測値とSVRの２つを採用
・・・トレーニングデータでテストした結果を評価したところ、ちゃんと出力できているよう
・株式売買戦略について少し調べる
・・今回の実験で必要かちょっと怪しいと思い始める
・・・が、儲かるかどうかは一つの指標になるので必要か
・・売買タイミングをいつと定義するかが最重要
・・・それによって利益が大きく変わる
・・・が、予測値が終値である以上、売買タイミングは、大引け直前か

ちょっと考えることもしたりで、今日は研究っぽいことした。
ちょっと売買タイミングについてと、戦略は考え物だが、進捗報告までには決めたいところ。

で、明日やること。

・ニュースデータ生成完了を確認して、実験準備
・・出来次第、実験開始-&gt;評価
・売買戦略を考える
・・同時に実装までできるように

それにしても最近先生にずっと放置されている。
好き勝手できるのはいいけど、研究室で研究する意味がわからんという気が大きくなるばかり。
教科書の多くは図書館で手に入るし、論文はネットから入手。払った学費分のお金があるなら、そこそこのパソコンは買えるし、ソフトは基本フリーのもんばっかりでも事足りる。でもって先生には助言が期待できない。
研究室の唯一の利点は、同期や先輩後輩と議論できること。これはでかいが、なんか金返せという気が出てくる。50万分も学校から何かを享受した気がしないもんで。
と文句言っててもしょうがない。50万円×2年で修了証を買えるって思うことにする。前から思ってたけど。しっくりはこないよね。
ま、結局研究するしかないんですが。畜生。

----
**2011/10/7(FRI)
ずっと研究日誌書いてなかったのか。研究してなかったから当たり前か…。
今日も言うほどやってないけど、まあまあやったような気もするから書いておく。

で、今日やったこと。

・リファクタリング
・・全ニュースを使った処理がメモリ14gでも実行不可であった
・・・仕様を見直し処理を変更することで、メモリ1gでも実行可能に
・・・具体的には、arffからcsvへの変換時に、すべてのデータ列を変換して保持していたためデータ量が膨大に膨れ上がった
・・・これをやめ、最後のcsvへの保存時に一時的に生成し、あとで保持しないように
・・データの日付保持部分でのバグ発覚
・・・arffのコメント部に日付を持たしていたが、%で区切るとしていて他のものを区切っている場合があった
・・・対処済み
・修論の緒論を書く
・・前半部分がほとんど参考論文と同じなのだが、大丈夫だろうか…

バグとりは大変なのだが、それにしても今日もあんまりやってないねぃ。
来週こそは！と思うが、その前に英語をがんばらねば。
だがしかし、研究もやばいので早く進めよう。

で、来週やること。

・ニュース記事の処理を確認して、ニュース回帰を行う
・SVRのパラメータ設定
・実験パターン作成
・修論書き進める
・ベースライン決める

毎回同じこと書いてるよな。
これが本筋だからしょうがないか。着実に進めましょう。

----
**2011/9/30(FRI)
今日は雑誌会で久々のコメンテーターやったり、誰かが妄言を言ったり、なんだかなーってな日だった。
研究はというと、スローペースで進めてて、久々の研究であんまり集中できてない。
ただ、着実に進めてはいるので、進捗はある。

で、今日やったこと。

・NewsDataManager
・・業種系と全体系のデータ処理メソッドを整備
・・動作確認はまだ
・NewsRegression
・・業種系と全体系のデータ処理メソッドを整備
・・動作確認はまだ
・TrainingDataManager
・・実験データパターンの整備を進める
・・欠損値処理部を業種、全体でのメソッドを整備
・・動作確認はまだ

全然動作させられてないじゃないか・・・orz
まあ動かすと重いからしょうがないといえばそうなんだが。帰りに回して帰る予定ではある。
また、今週はPCAを行い、トップを含む業種別と全体でのものが完了し、ちゃんと動くことも確認。それと同時並行で、修論の雛形の作成を開始。
こちらは、今まで書いていた研究案を元に書いただけなのでまだまだな部分が多い。当面の目標は、１章と２章ではあるが、できるところをどんどん進めていくほうがいいだろうな。
とりあえず、時間はないのだ。

で、来週やること。

・各実験パターンの整備を進める
・・できれば完了させる
・修論の雛形を進める
・SVRのパラメータ調整
・・やる気が出れば…

やることは多い。時間はない。英語もせな。もっと遊びたい。模擬店の準備もある。
忙しいことだ。
----    </description>
    <dc:date>2011-11-30T19:14:21+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/26.html">
    <title>研究日誌</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/26.html</link>
    <description>
      Today&#039;s Access &amp;counter(today)
Yesterday&#039;s Access &amp;counter(yesterday)

毎日の研究日誌をつけていく。
そのとき何考えてどんなことしてたかのメモ。備忘録。
----

-[[修士編(9月～)]]
-[[修士編(4月～)]]
-[[修士編(10月～)]]
-[[修士編(5月〜)]]

-[[卒業研究編（～11月）]]
-[[卒業研究編（12月～）]]
-[[卒業研究編（2月〜）]]
-[[プログラム輪講編]]

-[[WEBサーバー奮闘記]]

----
#bf(研究日誌)

- ＞2年間を賭けた壮大な嘘　ほんまそれなー  -- uechi  (2009-05-31 18:17:37)
- 本当に嘘にするかはこれからの自分次第やけどねー  -- thiroyoshi  (2009-06-02 23:23:57)
#comment()    </description>
    <dc:date>2011-09-30T16:24:18+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/61.html">
    <title>修士編(4月～)</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/61.html</link>
    <description>
      Today&#039;s Access &amp;counter(today)
Yesterday&#039;s Access &amp;counter(yesterday)

研究日誌の修士2年生編。
就活をしながらする手抜きな研究の覚書。
----
**2011/9/9(FRI)
今日は雑誌会もあり、短時間で集中しなければならなくて、結構やれた。
やっぱりある程度の時間を置くと頭が整理されて、今日はすっきりデータを整理することができたようだ。
置きすぎると忘れるけどw

で、今日やったこと。

・NewsRegressionの改修
・・現在のディレクトリ構成を反映したプログラムに
・・使うデータのパターンで、使うデータを処理することができるように
・・Aを計算したあと、適切なディレクトリへコピーするように
・TrainingDataManagerのリファクタリング
・・変更したディレクトリ構成に対応
・・pattern1_1_1について動作を確認
・TestWithHalf
・・整理したデータで実験をしてみる
・・ちゃんと出力されていた

とりあえず、実験ができるようになりました。よかったよかった。
今後は各実験パターンに対応させていくことが必要になる。それとSVRのパラメータについても決定していかなければ。

で、次回やること。

・各実験パターンに合わせた各クラスにおけるメソッドの作成
・SVRのパラメータ決定

というわけで、今日で一旦休憩。
8月はこのために頑張ってきたといっても過言ではない。さて、死なないように気をつけます。

----
**2011/9/7(WED)
今日はなんか久々の研究。
先週から体調を崩し、旅行先ではゲロったりで、結局研究が予定より進んでいない。先生の言う進捗よりは今は進んでいるが、今後消化されればすこしまずいかもしれんな。

で、今日やったこと。

・ディレクトリ構成の見直し
・・デバッグも含めて、諸々修正
・・現在動作確認中-&gt;うまくいけばそのままデータを利用する
・SVRの改変
・・パラメータ決定時の確認していたスコアが、トレーニングデータで訓練して、トレーニングデータでテストしていたものなので意味なし
・・10-foldCVを行い、スコアを算出するように改変
・・まだパラメータ調整はしていない

やっぱり書いてみると、ほとんどなんも進んでないように見える。実際は色々確認作業が大変で、なかなか進まないのにも理由はあるけど、関係ないよな。ふぅ。
とにかくできるだけ進めるしかない。

で、明日やること。

・データをD集めてみる
・・GatherDatasなどの今後のデータ処理を実行していく
・・PCAが終わり次第
・SVRのパラメータ調整

とにかく、旅行行くギリギリまで進めよう。旅行の準備はできるだけ早く済ませるようにしなければ。
そして、研究もできるだけ早く進めなければ。

----
**2011/8/31(WED)
今日で8月も終わりで、プログラムも終わらせたい。
でも、まだまだやることがあって、終わっても追加されるだろうから適当に進めてる。着実に。

で、今日やったこと。

・NewsDataManagerの修正
・・回帰データ作成部分を更に整理
・・新しいディレクトリ構造に合わせた出力に
・・・動作確認実行中
・NewsRegressionの修正
・・入出力ディレクトリを変更
・TrainingDataの修正
・・入出力ディレクトリを変更
・・実験設定に合わせた出力をできるように

基本的に入出力ディレクトリの構造をちゃんと作っていくというかなり面白くない作業中。
というわけで、書いてみると上記のようになって、細かく書こうとすると、めんどいから書かない。
今前半部分を動かしてみてるので、今日やったことはまた今度確認することになるとして、ゼミ旅行に行く前に動かせるところまで作りたい。
旅行中に動いて、結果出してくれてるとうれしいのだが。

で、明日やること。

・動作確認の経過観察
・実験設定に合わせたメソッドの調整
・SVRのパラメータ調整

明日は動作確認で時間かかりそうなら、SVRのパラメータをひたすら調整してもいいかも。
まあ明日学校行くか怪しいけど…。体調的に。

----
**2011/8/29(MON)
今日は混乱してしまった。
実験パターンに合わせてディレクトリ構成を再構築していたらプログラムがわけわからんことに…。
まあ一応整理はついたようなのだが。

で、今日やったこと。

・提案モデルの実験環境を一応完成
・ニュース記事のマネジメントプログラムを修正
・・主にディレクトリ構成を変更
・・・実験設定５パターンのためのデータ生成
・・・configの設定変更とそれに伴う、プログラム内の変数変更、修正

書いてしまえば、こんなもの。内容的にはそこそこの手術になってて、ややこしいことこの上ない。
とりあえず、現在動作試験中で、これが終わり次第、実験パターン用のデータ生成メソッドに取りかかれるか。

で、明日やること。

・動作確認の経過観察
・動作確認出来次第、実験設定用の５パターンのメソッド作成
・SVRのパラメータ設定

まあ、明日は旅行の準備をする予定なので、そんなに進まないと思うが。
一応、8月中にモデルまで一通りできたので、目標は達成していると思うが、やることはまだまだ山積みなわけで。
とりあえず、今週も頑張って進めなければ。

----
**2011/8/26(FRI)
今日はちょっと集中することができていたらしい。時間を忘れている部分があったので。
まあ順調と言えば順調なのでよし。

で、今日やったこと。

・株価データを扱う部分を半分完成
・・分割データに対する回帰で、Qデータを作るまでを完成
・・SVRは各種パラメータ(C,N,L,gamma)を調整できるように改変
・・パラメータは、対話式で標準入力により設定できるように
・・SVRの評価メソッド（平均絶対誤差）を追加
・・過去に遡った長期間の株価データを扱えるようにコードを再構築
・・・ニュース記事が存在する日付と同じだけある株価データを元にして処理を行う
・・・分割時にはテストデータがニュースと同じ日付のあるデータと同じものになるように
・実験用にデータマネジメントプログラムを作成開始
・・研究ノート上で実験設定を確認
・・・総数42
・・それぞれの実験設定にあったデータ選定を行い、まとめるプログラム


今日は細かいことを色々していたので、全部は書ききれてないけど、おおまかにやったことはこんなもん。
来週一応予備実験ができるかくらいまでは持っていかなければ。ちょっと想定よりも進捗が遅い。サボリ癖が付いてしまったのが問題かもしれんな。ちくしょう。

で、来週やること。

・ニュース記事の処理を確認
・実験できるようにすることを第一に
・・モデルの微調整
・・実験データマネジメント

旅行まで時間もないし、その準備も考えなあかんな。
そのためにも計画どおりきっちり進めていきましょう。

----
**2011/8/24(WED)
今日はやろうと思ってたプログラムはそこそこできた。
が、ちょっとややこしくなって混乱している。ちょっと考えとプログラムを整理して、やるべきことを見分けなければ。

で、今日やったこと。

・Yのデータの欠損値処理プログラムを作成
・・欠損値の処理をしたデータを保存するまで
・ニュースデータによる回帰を試験するプログラムを作成
・・まだ、指定したデータについて標準出力しているだけなので、今後二乗誤差とか出せるようにしてもいいかも
・各種リファクタリング
・・StockPriceRegression
・・・SVRを改変し、学習時のパラメータを様々設定できるように
・・・予備実験部分と、データ作成部分を明確に分離（SVRとSVRForREに）
・・データを作り直す過程で、コメントなどをそれぞれのコードに追加
・・必要ないコードやデータを削除

こうやって見ると、全然進んでない…。ちょっと考えを整理しなければ。
ただ、今日一番の収穫として、SVRのデータ入力時のデータの扱いをオプションで指定できると分かったこと。
そもそも、回帰してみたものの精度が悪すぎで、gammaをいくら調整しても全く漸近しなかった。これを是正するためにパラメータを設定できるようにするなどリファクタリングした。

今後するべきは、
・訓練とテストに分割したデータを使ってテストできる環境を整える
ってことであるはずで、その後に実際の運用時を想定した学習形態を取らせればいい。
が、頭がそっちに行ってしまったりで、混乱してる。

今日はやめにして、明日整理することにする。

で、明日やること。

・訓練とテストに分割したデータを使う環境を整える
・・StockPriveRegressionのSVRを移植する、など

上記につきる。最悪でもこれを今月中に終わらせなければ。

----
**2011/8/23(TUE)
今日はがんばれなかった。
朝から行かないとやはりダメらしい。薄々気づいてはいたが。

でもとりあえず、進めることは進めた。ちょっと結果も出たし。

で、今日やったこと。

・モデル構築
・・一時的なものを完成
・・・入力データ固定
・・・トレーニングデータそのもので予備実験ができるように
・・・ほぼその通りに出力できていた
・・・・どこまで汎用性があるかが問題だ…
・足りないプログラムを把握
・・ニュースデータの訓練とテストの分割
・・Yの時点での欠損値処理をしたファイル処理
・・ニュースデータのみでの誤差時系列の回帰結果出力

まあ課題が見つかったのはいいこと。
それに、トレーニングデータでとはいえ、実験できたのは大きい。しかも思ってたより再現性が高くてビックリ…。
ただ、やはり突飛な変化には付いていけてない様子。そういえば、ガンマとか全然調整してなかったのにな。実験時にはそれもきっちりしてデータ生成しないと。

で、明日やること。

・モデルの完成
・・結果出力メソッド
・・エラー処理
・評価出力
・上記の足りないプログラムを完成

実験に関してはどれだけ汎用性が出せてるかがポイントなので、評価の部分もがんばらねば。
とりあえず、的外れしまくりな結果ではなくてほっとした。

----
**2011/8/22(MON)
今日は朝からやってた。
やっぱり朝からやると、大分気分が乗って進みやすい。

で、今日やったこと。

・ニュース記事回帰項の係数計算が完成
・・QとYのデータを照らし合わせた上で、octaveへ入力できる形に変換
・・・ニュース記事がない日の欠損値処理メソッド作成
・・・・ゼロ詰め
・・・・前日のを引用
・・・・全体の平均
・・・回帰に使用するニュース記事は、予測したい日の前日のデータとするように
・・外部プロセス呼び出しでoctaveを実行できるように
・・・コマンドライン引数を使って、
・・・・読み込むファイルの指定
・・・・正則化パラメータの指定
・ここまでの全体のプログラムの流れをまとめてみる
・・ちょっと見落としてる部分が発覚
・・・株価回帰時のモデルが未保存
・・・欠損値処理をもう一パターン
・・・・前後の日の平均

やっぱり結構やったな。今週はこんな感じでがんばろう。

で、明日やること。

・見落としてた部分を先に作る
・・株価回帰時のモデル保存
・・欠損値処理をもう一パターン
・モデル完成

大きなバグもなく進んでいるのはよいことだ。大分こういうのを組むのも慣れてきたようだが、未だに何がどういうのんかをメモしておかないと忘れる。
当たり前だが。メモしてるのも成果出てるってことかな。
明日もがんばろう。

----
**2011/8/19(FRI)
最近ちょっと乗ってきてるな。
今日も寄り道はしてたけど、ちょっとがんばった。前よりは大分集中できるようになった。
旅行いくまではこれで進捗を稼がなくては。

で、今日やったこと。

・ニュース記事処理について
・・featuresとforRegressionを合わせて主成分スコアを計算するクラスを完成
・株価回帰処理について
・・svrで回帰して、回帰結果と実際の株価を並べて出力するクラスを調整
・・RBFカーネルのガンマを標準入力によって納得いくまで入力やり直しできるように
・ニュース記事回帰項の学習について
・・Aを計算するmファイルを完成
・・octaveを導入し、行列計算をローカルで行えるように
・・・javaのコード内でも使えるように

こうやって書くとやっぱりやったこと少なく見えるな。ちくしょう。
考える時間が多いのが困るところか。もっとすっとコードが思い浮かばんもんか。

で、来週やること。

・株価回帰処理について
・・全銘柄の株価の回帰結果と実際の株価を並べたデータをすべて出力できるように（Qを得る）
・Aの計算を行う
・モデルの完成

と、来週中も予備実験ができるように完成させることを目標に。
ちょっと来週一週間は研究優先でいきましょう。英語は自習でよく聞くようにすることにしてちょっとお休み。

では、来週は今週よりももうちょいがんばりましょう。

----
**2011/8/18(THU)
今日はそれなりにやった。
だが、今日は書いてる時間がないので手短に。

今日やったこと。

・提案モデルの実装
・・モデルの株価回帰の項とニュース記事回帰の項で区別し、実装
・・学習は別でやるように
・・・株価回帰は以前予備実験で使ったもの
・・・ニュース記事回帰は、matlabを使って
・トレーニングデータ作成部のリファクタリング、整理
・・コメントを書いていなかった部分を追加
・・今後のトレーニングデータ作成について方針決定
・・・まずは、データを二分割しての実験をする
・・・・追々、順次更新-&gt;予測という実験形態にできるように
・・matlabで学習するためのデータ作成の方針を確認

今日は大体こんなもん。
明日またもう少しがんばる。

で、明日やること。

・モデル実装の続き
・matlabを使ってのニュース記事回帰の部分を作成
・・matlabのコード
・・入力ファイル作成部

ちょっと気合入れましょう。うぃ。

----
**2011/8/12(FRI)
やはりやる気がなかった俺。全然進んでない。こらマジであかんな。
最近遊びすぎやな、って危機感持ち始めたころに盆休みってタイミング悪いよな…。
盆開けたらちゃんとやる。

で、今日やったこと。

・StockPriceRegressionにおいて
・・株価回帰のために、NewsXmlからの変換を書かなければと思っていたら実は既に作っていたことが発覚
・・・StockDataManager -&gt; 実際にちゃんと使えるようにしていた事を確認
・・回帰データ作成の実行部を修正
・・・ただし、SVRのパラメータ設定部分をもう少しなんとかできるといいかも
・・回帰結果のデータに日付を付与するように
・StockDataManagerにおいて
・・作ったデータをtrainとtestに任意の割合で分けるメソッドを作成

これは思った以上に進んでいない…。やべぇ…。

だがしかし、ちょっと問題に直面。
今後の研究に結構大きく関わってくるところになると思うのだが、訓練データとテストデータをどう扱うかを悩んでいる。

これまでの分類問題などであれば、データを単純にいくつかに分けるだけでよかったのだが、今回は時系列回帰であることから順番が大事になる。
ということは、どこまでを訓練データとし、どこからをテストデータにすればよいのか？
単純に分けるとすれば、ある一点で分割し、前半分でモデルを訓練し、後半でテストをする。これが一番シンプルでわかりやすい。
贅沢を言えば、ある一定まででモデルを訓練した後、一つ予測-&gt;結果を得る-&gt;その日の分も含めてモデルを再訓練-&gt;次の日を予測…ってのも考えられる。

悩むくらいなら両方やればいいんですけどね…。今はモチベーションがなかった。たぶんそんなに難しくないんだろう。たぶん。

で、次回やること。

・実験設定を決めて、データの作成メソッドを完成に近づける
・・両方組んでもよし
・ベースラインの決定

ベースライン決めるのも結構だるい。
とりあえず、盆休みはぐうたらしよう。ここんとこ出ずっぱりなので。体を休めるのも大事だよ…。

----
**2011/8/11(THU)
今日は朝から行ったのにあんまり進んでないと思う。
昼間の集中力のなさはマジで反省すべき。研究室にいる間はきっちりやれよオレ。

で、今日やったこと。

・ニュース記事に関するトレーニングデータ作成部分
・・主成分スコア算出まで完成
・・・銘柄ごとの単語出現数データ読み込み、負荷因子量の読み込み、など
・・・configによる制御の整理
・株価回帰部分の作成
・・トレーニングデータに必要な回帰データ作成部を作ってなかった…
・・数年分のデータによる訓練データ作成部はそのまま使える
・・ニュース記事と同じ日付のデータを使ってのデータ作成部を現在制作中
・・・他のソースを流用すればそんなに難しくなさそう

やっぱりやったこと少ないな。
ちょっとプログラムを考えてた部分もあるけど、それよりも遊んでたことのほうが多い気がするんだよなぁ…。
明日は盆休み前最終日なので、ちょっとがんばろうかな。

で、明日やること。

・回帰データ作成部を完成
・トレーニングデータ作成部を進める
・ベースライン決める

本当はもっと進めばいい。プログラムやってるときに他のことあんまりしたくないからベースラインはまた今度になりそうな。
先生には急かされるやろうけど…。

----
**2011/8/9(TUE)
登校をがんばった今日。
当然ながら、ではないがちょっと進んでいない。やってるうちに確認したり、書かなあかんコードがあったりで考えるほうに時間とられた。

で、今日やったこと。

・matlabの出力結果の確認
・・研究室の天才の力を借り、PCAの出力結果の行列は「行」のほうがひとつひとつの固有ベクトルであることを確認
・トレーニングデータ作成部分について考察
・・ニュース記事に関するトレーニングデータを作るには
・・・入力は、PCAにより得た単語の負荷因子量、各日付各銘柄の単語の出現頻度、各日付の予測誤差（または各日付の株価と各日付の予測株価）
・・・ニュース記事が存在しない日は特徴量どうする？
・・・・ニュースがない -&gt; 単語はどれも出現してない -&gt; 全部0に
・・テストデータとトレーニングデータに分けないと
・・日付で入力するには？
・・・データにちゃんと日付を入れておかないと
・ニュース記事データを修正
・・記事毎の表示であったものを、日付毎に
・・・つまり、同じ日付のデータを一つにまとめる
・PCAの結果確認プログラム
・・主成分の負荷因子量を確認するものを作成
・・主成分の中身は欲しいものがそこそこ入っている

こうして見ると、まだちゃんとやっていたようだ。明日はもうちょいがんばろう。

で、明日やること。

・実装続き
・・トレーニングデータ作成部分
・ベースライン手法考える

実験のためにベースラインを考えなあかんのだが、組むのがだるいからやりたくないよなー、と。でもやらんと、ってことで簡単そうなものを選ばないと。
つーか、あの中でどれ選ぶって基準を考えないと。
どないしょ…。

----
**2011/8/3(WED)
今日も最近にしたら結構進めた。というのも、これから自主休講が続くので仕方ないってだけだが。

で、今日やったこと。

・実装続き
・・ニュース記事処理部分完成
・・・回帰用データ作成のメイン関数の整備
・・・主成分分析で使用した属性(単語)の出現数だけを抽出し、PCAの結果から抽出したファイルと同形式に保存
・・・記事の日付を各ファイルで判別できるように修正
・・・・最終生成物にも日付は入っている
・・・全箇所における動作確認

何が大変って、動作確認が一番つらい。
最終的に数字ばかりになるデータがちゃんと思い通りの場所に出力できているかを確認するのが一苦労。
しかも、ちょっと分かりにくいところもあったりでぎゃーってなってたが、なんとか確認取れました。
次は手法のキモに入っていくわけですが、モデルだけじゃなくて、最適化の式とかまで組まないといけないんだよね。うー。

で、明日以降にやること。

・実装続き
・・提案モデルの実装

まあちょっとずつやっていきましょう。うー。

----
**2011/8/2(TUE)
少しずつ研究の効率が上がっている感じ。
今日はかなり遅くに登校したので、その分頑張ったということにしておく。

で、今日やったこと。

・固有ベクトルのファイルに関する確認
・・列と行のどっちが固有ベクトルになってるのか？
・・つーか、ちゃんと出力できてるかわからんくなってきたぞ…
・固有値、固有ベクトルのファイルがある前提での、回帰部分のプログラム
・・主成分スコアの算出ができるようにファイルを変換
・・・採用する固有ベクトルを選定する部分を作成
・・・固有値1以上、寄与率、累積寄与率とあるが、今回は累積寄与率を採用
・・・・固有値１以上がそもそもほぼない
・・・・固有ベクトルが多すぎて、1つ当たりの寄与率が0.1以下
・・銘柄毎にarffへ変換
・・銘柄ごとのarffをwekaでカウント

最近の中ではかなり頑張れた。
ちょっとどうしようかというのを考える時期を過ぎて、どうしたらいいかが大体わかってきたからだろう。
明日は一日何もないので、ちょっとがんばろうか。
明日研究やり貯める。

で、明日やること。

・matlabによる固有ベクトルの出力を確認
・実装続き

簡単に書くとこうなるか。まあとにかくやるべ。

----
**2011/8/1(MON)
今日から8月。心機一転ちょっと頑張り始めた。
それにしてもモチベーションがあんまり上がってはいない。でも、大学院生でやること一応やってるからって自分の周りには社会人な人も多くて、なんか自分頑張ってないなってちょっと反省。遊びも大事やけど、やれる時間があるならやらねば。遊びも充実せんってもんよ。そんな人に顔向けもできません。

というわけで、今日やったこと。

・プログラムの整理
・・サンプルなど現在は使わないプログラムであったりを整理
・・各プログラムについて簡単なReadMeを作成
・・株価の加工プログラムを一本化
・固有値、固有ベクトルのプログラム
・・matlabで処理したデータを一旦読み込むところまで作成
・・ただし、固有ベクトルのデータの方向を再度確認
・・・逆であれば、matlabのプログラムにおける転置を変更

まあダラダラやってたのでやったことは少ない。
明日も学校来るのは遅くなりそうなので、できることは少なくなりそうだが、まあできるだけ頑張りましょう。

で、明日やること。

・実装続き
・・固有ベクトルのデータ方向確認
・・固有値、固有ベクトルのわかりやすい形式で保存
・・トレーニングデータ作成

そんな人に顔向けできるように、頑張りましょう。

----
**2011/7/27(WED)
今日はめずらしく朝早くに研究室に。
そのせいか、昼からのやる気ゼロ…。一応ちょっとは進めたけど、やる気あるときなら一時間かからずにできるだろうこと。
ま、今はしゃーないとしておこう。

で、今日やったこと。

・実装
・・pcaへのファイル変換プログラムを修正
・・・NewsXmlからarffを作成するときに、一銘柄一文にまとめていたのをやめ、記事一つずつで記述するように
・・・NewsXmlの中に、URLは違うのに記事内容が全く同じものが存在することを発見
・・・・cleanメソッドを作成し、是正済み
・・・configまわりを追加、修正
・・・PCAを試す
・・・・とりあえず動いている模様
・・・・結果がしっかりしてるかは不明
・サーベイ論文を読む
・・基本的に、誰が何使ってる、しか言ってない
・・どれが優れていてなども言っていない
・・この研究分野がどんな傾向かを見極めることはできるので、今後の比較手法やベースラインを決めるのには役立つ
・・しかし、まださらっと読んだだけなので、今後まとめる必要アリ

一応やることはやってる感じだ。

で、明日やること。

・実装続き
・・回帰部分のニュース記事加工
・・・PCAの結果を元にする形で
・サーベイ論文まとめる
・・どんな手法つかってるか、ベースライン、評価方法に関する部分を重点的に

やることはちょっとずつでも進めないとね。
実際は今のうちにさっさと進めておかないといけないんだが。9月は結構いない日あるからね。
がんばろっと。…いや、今はがんばらないw

----
**2011/7/26(TUE)
今日は昨日よりはやった。
ちょっと進んだし。ファイル処理関係書いただけやけど。

で、今日やったこと。

・実装
・・matlabの実行スクリプトを整備
・・実データを使ってのPCA用csvファイル作成試験
・・・ちょっとバグもあったが修正済み
・・・ただし、各銘柄の記事を一文にまとめるという仕様のままなので、変更が必要かも
・・ファイル処理系を整備
・・・configの整理
・・・main関数を整理

ああ、やったこと少ないw
まあいい。明日もこんな感じでまったりやるさ。9月に結構抜けるから今のうちにやっておくべきな気がするが。

で、明日やること。

・実装続き
・・記事を一文にまとめてるあたりを修正
・・pca後のデータを用いる部分に着手
・・matlabを使う当たりの簡単にする方法を考える
・サーベイ読む

と、書いたけど、明日はサーベイ読もうかな。
なんか英語はしゃべりたいけど、読みたい気はしない。全く、困ったもんだ。

----
**2011/7/25(MON)
今日は短い時間だったが、最近では一番まともに研究していた日だった。
といっても以前に比べればまるで大したことのない量ではあるが。

で、今日やったこと。

・実装
・・単語カウントのarffファイルからmatlab入力用のcsvファイルへの変換を実装
・・matlabの実行スクリプトを作成
・・・未完成
・・・ファイル名の制御がまだ

あれ？やったこと少ない？
細かいことを色々進めたから大まかに言うとこうなるのか…。…そういうことにしとく。
まあ明日はもうちょいなんか進めようかと。

で、明日やること。

・英会話
・実装続き
・・matlabの処理完成
・・・novaからのディレクトリマウントなども考える
・・・自分の処理が楽になるようなそんな

まあ明日も明日とてのんびりやるさ。

----
**2011/7/20(WED)
研究いうほどの事をしてないけど、とりあえずやったこと書いとこうかと。
自分でもびっくりするぐらい研究に対するモチベーションが上がらんのだ。コーディングならもうちょいマシかと思ったのにね。
夏休みだからやる気がないのか、やる気がないから夏休みにするってのか、鶏が先か卵が先かみたいな。
……いや、この研究室に夏休みって概念ないから後者か。

で？今日やったこと？

・回帰分析についてちょこっと調べる
・・SVRに用いる説明変数と被説明変数について
・・・株価の対数の差を取ることで、分布が正規化されるだとかでよりよい回帰になるかも？
・・・特に、非線形回帰を線形回帰に変換する場合に利用されることがあるらしいが、全ての非線形関数が線型にならないことから利用できない可能性がある
・・・ただし、過去数日間の分散を説明変数に使うなど、その他の可能性も考えられる
・・・まあ、これは追加実験、追加実装でのお話
・実装
・・arffファイルから単語のカウントができることを確認
・・カウント後のarffファイルの読み込みクラスを作成


回帰分析についてはちょっと面白そうでいろいろ試してみる価値を考えられるから、追加実験は少し楽しくなりそうだの。
ただ、まずは提案手法についてある程度の結果を出さないといけないので、楽しみになるかどうかが怪しいもんだ。

で、明日やること。

・実装続き
・英会話の予習

今週は火曜日に英会話行かなかったので、ちょっと念入りにやらねければ。
実装も「やる気ねぇ～」とか言うてる場合じゃなくなってくるので、そろそろやらねば。

----
**2011/7/15(FRI)
うっとおしい進捗報告会も終わり、今週は研究に対するモチベーションが最悪でした。
先週当たりから先生にも「あんまり進んでないね」と言われるあたりあまりうまく隠せてもいないようw
でも、今は他のことを優先すべきと考えるわけです。

で、今日やったこと。

・提案手法の実装
・・ニュース記事を扱う当たりの実装手順を確認
・・wekaでカウントをするために、arffファイルを作成するまでを作成
・テキストを使わない株価予測手法について調べる
・・あんまり変わらない感じ
・・特に論文自体が多くなく、もっと他の調べ方をしたほうがいいかもしらん
・・・googleじゃなくて、参考文献たどるとか

ほんまやる気ない感じですな。
ただ、予想としては来週はもっとやる気がないと思うんだ。まあ、実装だけはさっさとやらんと。バグとか出たときのこと考えてね。

で、来週やること。

・実装の続き
・テキストを使わない予測手法を更に調査

まあ気長にやる。


----
**2011/7/12(TUE)
先週からほとんど進んでいない実装。
進んで行う遊び。残りわずかなモラトリアム。特に急かされてもいない研究。
何を優先させるかは、自明であったという事で。

で、今日やったこと。

・提案手法の実装
・・実装に必要なものの確認
・・・既に組んでいたもの、新たに組む必要を確認
・・訓練データの作成プログラム
・・・株価回帰は完成
・・・ニュース記事の解析に関しては、まだまだ
・・・・形態素解析は完成
・・・・単語の取捨選択（フィルター）作成
・・・・主成分分析部作成

進まなかった。あんまり。
先週進めてないのも、バレとったwあんな進捗報告じゃ当たり前かw

ちょっとやることを増やされたけど、許容範囲内か。
先生も探り探り言うてきてるのがなんか…。

で、明日やること。

・実装進める
・テキストを使わない株価予測手法のサーベイ
・進捗報告会の資料作成

まったりやること進めつつ、いろんなことするのは悪くないな。
ということで、ここ１年の目標は、残りのモラトリアムを最高のものにすること。
がんばろ～。

----
**2011/7/5(TUE)
今日から実装をじわじわ開始。
ミーティングでもコンポーネントはあるからやろうか、って感じだったので。

で、今日やったこと。

・提案手法の実装開始
・・比較手法とか今まで作った部品を入れられるような形で
・・とりあえず、草案というかフレームのみ
・進捗報告会の準備
・・来週木曜発表予定
・提案手法文書の追記
・・テキストの解析範囲について少々追加

今日は今日とて、やはりあまり進んでいない。
今はええか。
それ以外にやりたいことがあるので、それなりに進めて行きましょう。

で、明後日やること。

・提案手法の実装
・進捗報告会の準備

明日は会社の懇親会があるので、研究しない予定。
明後日はちょっとがんばろうか。朝も夕方も忙しいから集中せんと。

まずは、進捗報告会。
だりー。

----
**2011/7/1(FRI)
今日は久々にコーディング。
なんか今は何進めたらいいかよくわからんので、提案手法をもう実装しようか、みたいな感じで。

他にもやったことはあるけど、とりあえず、今日やったこと。

・キーワード抽出プログラム
・・形態素解析(Sen)
・・・今後の使用に耐えるように、名詞(複合名詞)、動詞、形容詞を抽出できるように
・・・まだもう少し試験してみたほうがいいかも
・・Yahoo!API
・・・キーフレーズ抽出
・・・語の重要度を一緒に返してくれる、精度も○
・・・ただし、名詞しか返ってこない
・提案手法の文書を加筆、修正
・・キーフレーズ抽出関連を追加、修正

まあ最近の感じで見ればやったほうか。まだまだ本調子じゃない。

で、来週やること。

・実装を進める
・・キーフレーズ抽出
・・提案手法のフレーム
・・Matlab
・提案手法について詰める

早く実装を思いっきりしたくなってきたな。早く実験して、ゴリゴリ進めていきたいなー。

----
**2011/6/28(TUE)
前回の進捗報告から1ヶ月とか、ちょっと戦慄した。ほとんど研究してねぇよ。俺一ヶ月もどうしたの！？
と、思ったけど、そういや就活してたわ。
一応提案手法も大分固まって来たので、進んではいるのかな。

で、今日やったこと。

・キーワード抽出手法について調べる
・・やっぱり汎用的に使えそうなのはKeyGraphくらい
・・あとは、特殊ケースでの話で今回の短いニュース記事を対象にするには微妙そう
・・KeyGraph以外でつかえそうなのは、
・・・形態素解析と複合語生成
・・・Yahoo!APIのキーフレーズ抽出APIの利用
・キーフレーズ抽出APIを試す
・・webにあったサンプルを利用してみる
・・tfidfによる単語のスコアも返ってくるので、なにかに使えるかもしれない
・提案手法文書を追加修正
・・提案手法の誤差関数の解を追記
・・キーワード抽出についてKeyGraphを使わないあたりのことを追加

やる気ないなりにできてはいるのか。
とりあえず、色々試して、今後の実装に役立つように進めていきたいと思う。

で、明日やること。

・キーワード抽出について考察
・・モデルに使う場合に、なにをどう使うかを１から考える
・・・KeyGraphを使わない
・・・主成分分析は？などなど

基本はこれだけ。
関連して文書修正したり、いろんなこと調べたりは前からのこと。
6月も終わるし、提案手法を早く固めてとりあえず実装したい。

でも、なんかキーワード抽出以外はノータッチな感じがするので、実装進めてやろうかと思い始めた。
Matlabを勉強するとかしててもいいかもしれないな。

----
**2011/5/27(FRI)
今日は特に研究という研究はしてないけど、一応メモ程度に。

今日やったことは！

・組み上げたSVRを使って色々な株価を回帰してみる
・・３つほどパラメータを簡単に設定して、出力してみるところまで
・読んだ論文についてまとめようと思ったけど、以前読んだのとそう変わらんものだったので簡単に
・・要点としては、文書から抽出した特長量を説明変数として被説明変数を価格として回帰してるところ
・提案手法を考える
・・ほとんどパクリになってるので、もうちょい考えたい
・・式の簡略化とか、学習アルゴリズムのあたり

まあこんなもんか。
進捗報告の体をなすために今日はこれくらいでよしとした。
本当は明日の面接対策をするための日にしてたんだけど、やっぱり丸一日もなんかしてることはないっちゅーのｗ
とりあえず、これから（PM11:00）ちょっと対策を見直して寝ますか。

そして、今後やること。

・論文を読み進める
・・先生にオススメされたやつ
・・KeyGraph
・提案手法を考える

といっても、来週はうまくいけば忙しくなって研究やってられんかもしれんのよな。
忙しくなればいいのに。

----
**2011/5/26(THU)
今日はそこそこプログラム進んだ。
その代わり、面接対策してない。夜はそれに専念せねば。

で、今日やったこと。

・SVRのプログラムを完成
・・csvのファイルをarff形式へ変換
・・arffファイルをプログラム内部で半分にして訓練とテストを行うように
・・SVRのパラメータ設定はconfigからできるように
・・トレーニングに使う特徴量をできるだけ容易に変化させられるような設計に
・銘柄ごとのCSVファイルにするプログラムを再作成
・・間違って消したので…

今日はなかなかプログラムしたな。ちょっと進度が遅い気もするけど、こんなもんだろうか。
パラメータ設定の部分とかちょっと工夫する部分を考えたりしたからなーとか。これが今後の研究に役立ってくれればいいのだが。
つーか組んでみたけど、どうしたらいいんだろう。
どのあたりを評価して、今後使うかーみたいな話しようかな。悩む。

とりあえず、今後やること。

・SVRによって各銘柄の回帰を行い、暫定的なパラメータを決める
・・その結果をまとめて、進捗報告にできればいいなー。
・ガウス過程について調べてみる
・・みんなが結構押してくる。ちょっと詳しめに。
・論文読む
・・読んだ論文についてはwikiにまとめるように
・・既に読んだものもまとめる

こんなもんか。
とりあえず明日は面接のためにモチベーション上げていかないと。
ここが正念場！研究してる場合じゃ本当はないなぁ。

----
**2011/5/25(WED)
今日は今日とて、やることはそれなりにやったようなやらんかったような。
プログラムは全然進んでないので、かなり落ち込んでる。
他におもしろい事もあったし、まあよし。

で、今日やったこと。

・論文読む
・・Trading Tests of Long-Term Market Forecast by Text Mining
・・日銀のレポートの解析結果を元にして、長期国債の動向を予測する
・・利回りや予測精度から精度評価
・SVRのプログラムを組む
・・wekaを利用
・・バージョンが上がったことで、SMOregのカーネルを選択できたり、自由度が上がってた
・・その分使い方が分からず、apiとにらめっこしてやっとできた
・・とりあえず、サンプルは動かせた


ああ、やったこと少ない。
最近結構自分がだらだらやってるのを自覚してる分、自己嫌悪が大きくなってきたかも。
面接も近いけど、いや、だからこそ、もっと気合入れて臨みたい。

で、明日やること。

・SVRのプログラムを完成
・・精度評価しやすいファイルの出力までを行う
・・形式はcsvでおk
・・元の出力＋予測出力＋二乗誤差とか
・・未知データ入力時での精度評価を
・株価データのcsvをarffにするプログラム作成
・・特徴量を可変にできるように工夫する
・・・3日前までを使うか5日前を使うかなどメソッド追加で柔軟にできるように
・面接対策その１


土曜日には自分にとっての人生の岐路その１が待ってるわけで。
明日はそんなに研究ばっかしてられん気もするから、明日はできるところまでと思っておく。
でも、これが癖にならんようには気を付けないと。

----
**2011/5/23(MON)
気づいたらまた一ヶ月も放置してしまっていた。
もうちょい書いていくようにしないといけないなと、反省。
さらに、今日はしょうもないプログラムを組むのにえらい時間をかけてしまった。もっと雑でもよかったのに、この俺の几帳面！

で、今日やったこと。

・過去の株価データを集める
・・2009/8～2011/4
・CSV形式の株価データを銘柄毎にまとめるプログラムを作成→完成

少なすぎる…。久々に日誌を書こうとした日にこれとは、情けない。
明日はもうちょいがんばりたいと思う。
先生もはっきり言わんけど、早く新規手法を確立させないといけない。

で、明日やること。

・株価回帰のプログラムを作成
・・回帰はSVRで行う予定
・論文読む
・・読みかけのものを読み終えたら、先生が推薦してくれたやつを読む

つーか、最近先生とのミーティングがただのお話になってて、ほんまにミーティングなんかわからん。
前の先生よりは大分マシやけど、たくさんの学生を抱えるってやっぱ大変なんやな。
最初からそのつもりもないけど、先生におんぶに抱っこには絶対ならんようにしなければ。

----
**2011/4/26(TUE)
今日はうれしいこともあり、なかなかプログラムが手につかず、ふわふわしてしまっていたw
とりあえず、早くせなあかんことは仕掛けられたしよしとしよう。

で、今日やったこと。
・ニュース記事収集プログラムを完成し、サーバー上に移す
・・動作確認済
・・cronで定期実行
・株価データの収集スクリプトを書く
・・シェルスクリプトで、データをダウンロードし、ファイルを解凍し、必要なところにデータを移し、バックアップも置いておく

もうちょい色々なんかしたほうがよかった気がしたが、できる気もしなかったので今日はよし。
明日の準備もあるので、ってことで、明日やること。

・意見分析エンジンを読む

明日は半日面接とかあるのでそっちがんばる。
間の時間で色々読んだりする気があればしようかなっと。

----
**2011/4/25(MON)
また書き始めてみる。
たぶんそんなに書くことないやろうし、進み具合もかなり遅いと思うけどできるだけ軌跡は残そう。

今日は朝に某空調メーカーの懇談会に行ってからの研究室。
で、今日やったこと。

・git講習会
・・T後輩のありがたいgit講習会を受けて、gitでできることを大体理解
・・とりあえずすぐにgitをインストールし、eclipseのプラグインを入れ、バックアップをとってみるくらいはする
・・これから調べつつ、もっとうまく使えるようになれるとうれしいが
・ニュース記事収集プログラム
・・追加
・・・configファイルを活用するように変更
・・・configファイルなどを書く
・・リファクタリング
・・・取得済みURLかを判別する部分が二重になっているのを解消
・・バグ修正
・・・新規記事を追記すると、それが空白のデータとして追記されるところを修正
・・動作テストではうまくいってるみたい

まあちょっと進んだ程度。
でも、これでサーバーでほっとけばずっと記事を勝手に集められるようにはなっている。
プログラムでの次の課題については、[プログラムの問題点・作業予定]参照で。

で、明日やること。

・プログラムの続き
・意見分析エンジン読む
・エントリーシート？

ぼちぼちメーカーのほうのESも書かないとまずいかもしれん。
幸い、今週はまだ忙しくないのでやらんといかんか。研究のストックも欲しいところやけど。

----    </description>
    <dc:date>2011-09-09T14:48:56+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/59.html">
    <title>お役立ちメモ</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/59.html</link>
    <description>
      なんか気づいた役に立ちそうなこととかをメモる。

*octaveでコマンドライン引数使う
他のコマンドと一緒でコマンドライン引数が使える。ちょっと迷ったのでメモ。

***mファイルを利用する
 octave3.2 aaaa.m

***その他のコマンドライン引数を入れる
 octave3.2 aaaa.m bbbb 1111
octave内では、bbbbと1111はargvの配列に入っている。
これを取り出すには、
 nth(argv,1)
とするとよい。nth(a,b)は、aの配列内のb番目の値を取るというもの。ただし、これは文字列なので、nth(argv,2)で1111は数値ではない。
そこで、次のようにする。
 str2num(nth(argv,2))
str2num()は文字列を数値にする関数である。
これで、コマンドライン引数から自由に値を取ってこれる。

*確率分布がまとめてある!?
そんな表とかなんとか欲しいなって思ってたら、こんなん見つけた。
分布がプヨピョ動いててキモイw

[[確率分布の世界&gt;http://www.ntrand.com/jp/gallary-of-distributions/]]
[[確率分布Navi&gt;http://www.ntrand.com/jp/distribution-navi/]]

*論文執筆時の注意
なぜか、こっちの班だけにまわってきた内容。
これ、班とか研究室とか、むしろ学校すら関係なくするべきことなのでは!?
ちなみにtexのお話です。

以下転載。
----
■ 一般的な注意

句読点は，全角の「．」「，」を使うこと．

英数字は，半角にすること．

数式に出てくる変数名（例：x）に本文中で言及する時は，
数式モード（例：$x$）にすること．

数字には，3桁毎に半角の「,」を入れること．

図表のキャプションの中で改行しないこと．キャプションにも句点「．」を入れること．

括弧「（」および「）」は全角にすること．
＃ 英語要約など，英語の中で使うときはもちろん半角で良い．

英数字のあとの半角括弧の前には半角スペースを入れること．
 誤：「．．．MGI[1]というデータベースが．．．」
 正：「．．．MGI [1]というデータベースが．．．」

 誤：「．．．HMM[1]によって．．．」
 正：「．．．HMM [1]によって．．．」
表のキャプションは表の上，図のキャプションは図の下にすること．

接続助詞の「が」は，順接にも逆接にもなり得るため文が曖昧になる．
なるべく使わないこと．

「～に関して」と「～に対して」の意味は違うので，意識して使い分けること．

日本語では，クォーテションマークではなく，かぎ括弧「」を使うこと．

日本語では，クエスチョンマーク「？」，エクスクラメーションマーク「！」を使わないこと．

書誌情報にもスペルチェックをかけ，フォーマットも整える（統一する）こと．

セクションタイトルやキャプションを付けるとき，「評価実験1」「評価実験2」のような
表現は避けること．タイトル・キャプションを見て内容が想像出来るものにしましょう．

数式を書く時に一行空けると，新しい段落と解釈されて余計なスペースが空いてしまう．
なので，数式は前の段落につけて書くこと．
 誤
 ... by linearly interpolating the two:
                                           &lt;- この空行が余計
 \begin{eqnarray}
     P_E(w|h) = (1-\lambda)\cdot P_B(w|h) + \lambda\cdot P_T(w|h)
 \end{eqnarray}

 正
 ... by linearly interpolating the two:
 \begin{eqnarray}
     P_E(w|h) = (1-\lambda)\cdot P_B(w|h) + \lambda\cdot P_T(w|h)
 \end{eqnarray}
数式を参照する時は，括弧を付けること．ちなみにこの場合の括弧は半角．
 誤：式1
 正：式(1)
著者の所属，肩書きはきちんと調べて書くこと．


----


#comment    </description>
    <dc:date>2011-08-22T17:46:06+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/42.html">
    <title>weka</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/42.html</link>
    <description>
      *モデルの保存
面倒くさいのでソースだけのせる。

モデルの保存
file : 保存ファイル名
svr : 分類器（今回はSVRで作ったから）
	public void save(String file){
 
		try {
			ObjectOutputStream oo = new ObjectOutputStream(new FileOutputStream(file));
			oo.writeObject(svr);
			oo.flush();
			oo.close();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

モデルのロード
file : モデルのファイル
svr : 分類器
	public void load(String file){
 
		System.out.print(&quot;Load Classifier [&quot; + file +&quot;]...&quot;);
		try {
			ObjectInputStream objectInputStream = new ObjectInputStream(new FileInputStream(file));
                        //ここで使う分類器にキャストしないとダメみたい
			svr = (SMOreg) objectInputStream.readObject();
			objectInputStream.close();
		} catch (IOException e) {
			e.printStackTrace();
		} catch (ClassNotFoundException e) {
			e.printStackTrace();
		}
		System.out.println(&quot;complete.&quot;);
	}


*文章分類
***前提
・扱う文章は日本語
・既に文章から名詞のみを抜き出して、以下のようなファイルを作成済み
・・文章から抽出した名詞をそのまま並べたもの
 @relation blog
 
 @attribute line string
 @attribute class {0,1}
 
 @data
 &quot; 名詞1 名詞2 名詞3 .... &quot;,0
 &quot; 名詞9 名詞9 名詞5 .... &quot;,0
 :
 :
・コマンド実行時のディレクトリはweka.jarの存在するディレクトリとする

----

おおまかな流れは以下のようになる。

テキストのarffファイルをTFIDF値を記述したarffファイルに変換
↓
属性値の中で、クラス変数を最後にする
↓
素性選択
↓
モデル生成

----

**TFIDF値で重み付けされたarffファイルを作成
元のファイルは名詞をそのまま記述したファイルなので、これにより名詞の数・記事の数からTFIDF値を算出できる。

コマンド
 java -cp weka.jar weka.filters.unsupervised.attribute.StringToWordVector -C -T -I -N 1 -O -M 0 -W MaxCount -i input.arff -o tmp1.arff

・「-cp」はharファイルを使用するときに必要なjavaのオプション
・-C：：語の出現頻度で表す
・-T：：語の出現頻度を log(1+fij) に変える。fij はi番目の語のj番目の文書での出現頻度
・-l：：語の出現頻度をTFIDF値に変換する
・-N 1：：訓練データの大きさの平均でテストデータを正規化する
・-O：：語の最大数と最小出現頻度
・-M：：語の最小頻度（この数字以下のものは切り捨て）
・-W：：WordVectorの大きさ
・-i：：入力ファイル
・-o：：出力ファイル

**クラスの属性を最後にもっていく
次の手順でする素性選択を行うには、これが不可欠。

コマンド
 java -cp weka.jar weka.filters.unsupervised.attribute.Reorder -R 2-last,first -i input.arff -o tmp2.arff

**素性選択
特徴選択ともいう。次元削減。それぞれのクラスの文章を代表する語を選択する。

コマンド
 java -cp weka.jar weka.filters.supervised.attribute.AttributeSelection 
 -E &quot; weka.attributeSelection.ChiSquaredAttributeEval &quot; 
 -S &quot; weka.attributeSelection.Ranker -T 0.025 -N 1000 &quot; -i input.arff -o output.arff

・-E：：属性の選択方法（上記例ではカイ2乗選択）
・-S：：属性選択の閾値を決める（-T：：値の閾値、-N：：素性数の上限）


**javaのプログラム内で使うには
当然だが、やることは上記コマンドと同じ。
javaのプログラム内で記述するときの流れとしては、
 オプションを指定
 ↓
 クラスのmainを実行

***TFIDF値で重み付けされたarffファイルを作成
 String[] options = {&quot;-C&quot;,&quot;-T&quot;,&quot;-I&quot;,&quot;-N&quot;,&quot;1&quot;,&quot;-O&quot;,&quot;-M&quot;,&quot;0&quot;,&quot;-W&quot;,Integer.toString(MaxCount),&quot;-i&quot;,input,&quot;-o&quot;,middle1};
 StringToWordVector.main(options);


***クラスの属性を最後にもっていく
 String[] options_Re ={&quot;-R&quot;,&quot;2-last,first&quot;,&quot;-i&quot;,middle1,&quot;-o&quot;,middle2};
 Reorder.main(options_Re);

***素性選択		
 String[] options_At = {&quot;-E&quot;,&quot;weka.attributeSelection.ChiSquaredAttributeEval&quot;,
 &quot;-S&quot;,&quot;weka.attributeSelection.Ranker -T 0.5 -N &quot; + Integer.toString(MaxNouns),&quot;-i&quot;,middle2,&quot;-o&quot;,output};
 AttributeSelection.main(options_At);

*話題発見
文章内の出現した単語の数をカウントすることで、どんなことが話題になっているかを判断する。
このためには、言わずもがな、単語のカウントが必要。
ここで使えるのが&amp;bold(){StringToWordVector}。

**StringToWordVector
 wekaのクラスの１つ。
 文章を単語のいろんな特徴を示したベクトルに変換することができる。
 オプションでどんなもんにするか選ぶ。
 
 ・デフォルト：：文章中に単語が出現したかどうかの2値。自動でSparse形式にしてくれるため、特徴量が0のものは記述されない
 ・-C：：文章中での出現頻度
 ・-T：：TF値を算出
 ・-l：：IDF値を算出

***参考URL
[[テキスト処理にWekaを使う（その１：文書のトークン化とTFIDF重みづけ）&gt;http://d.hatena.ne.jp/sleepy_yoshi/20080217/p1]]    </description>
    <dc:date>2011-06-10T12:39:16+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/21.html">
    <title>Linux(ubuntu)</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/21.html</link>
    <description>
      Linuxについてのメモ。

特にubuntuに特化していると思います。（使ってるので…）

**vim
プラグインの参考サイト
http://tech.kayac.com/archive/vim-3-plugin.html

**コマンド
使えそうなものをちょいとメモ

***sshfs
サーバー上の領域を自分の端末にマウントする。
これによって、ローカルではできない大規模なデータの取り扱いなども可能となる。
 sshfs （サーバー上のディレクトリ） （ローカルでのマウント先のディレクトリ）
 例）
 sshfs hiroyoshi@cs611.ac.jp:/ ~/CS611
上記のようにすることで、サーバーcs611上のアカウントhiroyoshiのディレクトリを、ローカルのCS611というディレクトリにマウントする。
アンマウントは、
 fusermount -u ~/CS611
とする。

（2009/11/26追記）
学外から学内の計算サーバーに接続しようとする場合、直接計算サーバーにはアクセスすることができない。
アクセスするには、WEBサーバーに一旦入った後さらに計算サーバーに入る必要がある。

具体的には、計算サーバーcs622サーバーとWEBサーバーcs611とすると
 ssh hiroyoshi@cs611.ac.jp
で、cs611サーバーに接続後
 ssh hiroyoshi@cs622.ac.jp
とする。

これは、sshfsでも同様である。
つまり、cs622のディレクトリを直接マウントすることはできない。よって、上記と同様に以下のようにする。

・まず、WEBサーバーに接続
 ssh hiroyoshi@cs611.ac.jp
・WEBサーバー上で、適当なディレクトリを作る（マウント用、中身は空のままで）
 mkdir HOGE
・WEBサーバー上から計算サーバーのディレクトリをHOGEにマウント
 sshfs hiroyoshi@cs622.ac.jp: ~/HOGE
・自分のローカルPCに戻り、WEBサーバーのディレクトリをマウント
 sshfs hiroyoshi@cs611.ac.jp: ~/HOGE

アンマウントする場合には、ローカルPCとWEBサーバー上の両方をアンマウントする。
コマンドは上記のものと同じ。（sudoはいらない）


**fuse
今回、上記の2段階のマウントを設定したが、このfuseの設定が必要だった。
（以下は正確な記述ではありません。僕個人の感覚に乗っ取った解釈が含まれます。詳しくは他のページを参照）

fuseとは、サーバー上のファイルシステムの１つのことのようで、cdromやhdaとそう変わらない印象を受けた。
これには他のファイルと同様に、実行権限が付与されていて、そのままではroot以外には実行・読み書きができない。
そこですべきことは、２つある。

１、サーバー上のアカウントのグループに「fuse」を追加する
２、fuseの実行権限を変更する

これらを行うことで、root以外の一般のユーザーもsshfsをサーバー上で使用することができるようになる
実際には以下のように行う。

・何もしないままsshfsを使おうとすると、「modprobe fuse」を試せ、と言われるので実行する
 まず、rootになって
 su -
 （パスワード入力）
 modprobe fuse
・もう一度sshfsをしようとすると、「Permission denied」などが出る（この辺は曖昧…）
具体的には、/dev/group/のfuseに自分の名前を追加する
 vi /dev/group
で、編集する
 fuse:100:x:hirosyohi
のようにする
・最後に、fuseの実行権限を変更する
・他のユーザーの読み書きを許可する
 chmod o+rw /etc/fuse
以上でsshfsが実行可能になる

**ソースファイルからコメントのみ削除する
 以下のコマンドには条件があります。
 ・コメントの行がコメントのみで構成されていること
 これは、行単位で処理を行うためであり、以上にあてはまらないファイルである場合にはソースの一部が消えてしまう危険性がある

 grep -v &quot;//&quot; (元ファイル) &gt;&gt; out1.txt | grep -v &quot;*&quot; out1.txt &gt;&gt; (変更後ファイル名) ; rm out1.txt

grepのオプション「-v」でパターンに一致しない行を表示し、それをファイルとして出力するだけの単純なもの。
もっと他にないかな･･･。
パターンを変えたりすればjava以外のソースにも使えそうだし。

**javacのコンパイル前に文字コードエンコーディング
cuiでjavaをコンパイル・実行する場合に役に立つオプションがあった。

javaのソース中に日本語、つまりASCII文字を使っている場合には普通に
 javac ????.java
とすると、めちゃくちゃ怒られる。

そこで次のオプションを使う。
 -encoding ???
???には「EUC-JP」か「UTF-8」を入れる。

これでコンパイル前にエンコーディングしてくれる。
コメントで日本語があっても問題なくコンパイルできる。

**ubuntuのIPアドレスを固定する方法

参考URL
http://plaza.rakuten.co.jp/maskman/diary/200905020000/

----
#bf(Ubuntu)

#comment()

Today&#039;s Access &amp;counter(today)
Yesterday&#039;s Access &amp;counter(yesterday)    </description>
    <dc:date>2011-04-26T00:06:06+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/2.html">
    <title>メニュー</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/2.html</link>
    <description>
      **メニュー
-[[トップページ]]
-[[メニュー]]
-[[研究]]
-[[研究日誌]]
-[[研究メモ]]
-[[お役立ちメモ]]
-[[weka]]
-[[論文メモ]]
-[[HPF講習会]]
-[[Java]]
-[[MySQL]]
-[[C++]]
-[[プログラミング]]
-[[スパコン（スカラー）]]
-[[用語解説]]
-[[Linux(ubuntu)]]
-[[Linux(サーバー)]]
-[[Windows 7]]
-[[研究室にまつわるETC]]
-[[（ﾟωﾟ）]]
-[[趣味と夢と野望と]]
-[[プラグイン紹介&gt;プラグイン]]
-[[まとめサイト作成支援ツール]]

----

// リンクを張るには &quot;[&quot; 2つで文字列を括ります。
// &quot;&gt;&quot; の左側に文字、右側にURLを記述するとリンクになります


**更新履歴
#recent(20)

Today&#039;s Access &amp;counter(today)
Yesterday&#039;s Access &amp;counter(yesterday)    </description>
    <dc:date>2011-02-01T15:54:04+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/57.html">
    <title>修士編(10月～)</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/57.html</link>
    <description>
      Today&#039;s Access &amp;counter(today)
Yesterday&#039;s Access &amp;counter(yesterday)

研究日誌の修士編。
就活も始まりつつあるところからの苦し紛れな覚書。

----
**2010/12/21(TUE)
今日はなぜか体の調子がよかったのか、いつもくらい腹が減った。ここんとこなんか息苦しい感じで腹があんま減らんかった。まあ、よいことではある。
で、今日は最後のプログラム構築ってとこで今日でもう実験に関するプログラムはいじらなくてよさそう。
公開用にはまだまだいじるけどねー。もう趣味でやっていくことにしよう。

で、今日やったこと。

・単語ごとのデータへのラベル付け
・・正例とするのはバーストした日の30日前まで
・プログラム改変
・・単語ごとのデータを分類してみたときのPrecision,Recall,F-measureを出すように
・実験時の負例を減らす
・・昨日増やしたのでは、多すぎる気がするので
・・今後余裕があれば、このバランスについても考察する（たぶん）
・ラベル付け
・論文のなおし

ちょっと想定してたより作りたいデータができるのが遅いので、本実験は明日に回すことにする。
今日は論文のなおしを一通りやって先生にまた提出したので、明日の昼くらいに返ってくることを期待しつつ実験進める。

てなわけで、明日やること。

・本実験
・・考察までやっちゃう
・就活
・・明日下の階の研究室に来るという某企業の説明会にお邪魔する予定

明日でもう実験結果が出てしまえば大分楽やねんけどな。うまくいきますよーに（問題が起こらない的な意味で）。

----
**2010/12/20(MON)
今日は発表会あったりskypeでミーティングしてみたりいろいろとやってきた。
なんか今日は疲れてるからあんまり根詰めてなくて、明日からまたがんばろうと思う。

で、今日やったこと。

・発表会で発表
・・例のごとく、あいつは途中寝てた
・skypeミーティング
・・自分のミスってた部分とか実験設定とか見直せてよかったかと
・プログラム改変
・・ミスってた部分が結構あったので、修正
・・Remakeを修正
・・validationで分けるものを単語単位に

まあなんだかんだでいろいろやってた。
実験は明日またやるとして、ラベル付けるのとかもしていかなあかんな。

で、明日やること。

・ラベル付け
・・単語ごとのデータに正例のラベルをつける
・・・単語へのラベルについて、Precision,Recall,F-measureを出すため
・単語ごとのデータについてのPrecision,Recall,F-measureの算出を追加
・実験
・論文執筆

やっぱりやること多いな。まあ明日からがんばろ。

----
**2010/12/19(Sun)
この曜日だけは書きたくなかったけどしょうがない。
今週一週間は踏ん張るしかなさげです。なんか逆に就活したくなってくるのがやんなっちゃうw

で、今日やったこと。

・ちょっとプログラム改変
・・Precision,Recall,F-measureと一緒に、単語へのラベル付けも一緒にするように
・実験
・・各評価値と実際に単語の時系列にラベル付けをしてみた
・・・評価値あんま関係なさそう…
・・評価値よりも、単語の時系列にラベル付けしたときの評価を定量的にするというのをすればいいかも
・・・単語のデータの前兆とするところを正例としてそれによってPrescision,Recallを出すとか？

今閃いてきた。
評価の仕方とか最後に書いたやつのほうがまっとうなのではなかろうか？
明日資料とか直せたら直そう。できんくても口頭でええやろ。

で、明日やること。

・最後に書いた評価の仕方を考える
・・どこまでを正解にするかも主観っていうのはいかがなもんか
・・アンケートとってみようかな
・Y先生とskypeミーティング
・進捗報告会

結局すべてオレのさじ加減ってどんな研究やw
できる限り機械的にやってるけど、先行研究なさすぎてわけわからんわw

----
**2010/12/17(Fri)
今日はいろいろな人にお世話になって、いろいろできた。
学習器のバグを直したり、考察について助言をもらったり。またなんか聞きに行くと思うけど。

で、今日やったこと。

・学習器のバグ修正
・・アルゴリズムの初期エラー率を間違えていた
・できているデータで実験してみる
・・100クロスバリデーションまで試す
・・testとtrainを逆にしてみる
・・・少量のトレーニングデータで学習し、たくさんテストしてみる
・・・・精度が上がれば、半教師付き学習が有効にできているかも
・・数値は大体、0.9前後で推移
・・データは正例と負例のバランスも大事
・・負例が増えると、FNが大きくなる

前日寝不足という最悪の状況で使えない頭をみなさんに助言をいただいて色々できました。
なんか進捗報告で結果は送ったんで、なんて返ってくるかで論文をどんなもんにするのか変わるな。

で、明日、は土曜日だけどちょっとできてないこと多いんでやるってことで、やること。

・発表会資料作成　
・・20日に割り当てられちゃったんで、さっさと作らんと
・実験を続けてしていく
・・10日前までのものを作ったので、30日前までのものなどを使ってさらに実験を進める

今日はみんなのおかげで助かったので、なんとかできればいいなぁ。

----
**2010/12/13(Mon)
今日はあんまなんもしてないような気がする。
経過発表会があってその準備もしてたけど、それにしてもって感じだ。

で、今日やったこと。

・グラフ画像の文字化けの原因を究明
・・どうやらwekaにファイル変換させたときに文字化けが起こっているらしい
・・weka3-4-11では日本語がまだ扱えるらしいが、3-5-4でもローカルなら日本語が扱えている
・論文を書き始める
・・形を整えただけ
・発表会を消化

発表会は割とあっさり終わったし、特に緊張することもなく終了した。
まあ聞いてる人の中には緊張が緩みっぱなしのやつもいたけどw

で、文字化けのバグはどうやらwekaのStringToWordVectorをかませたときに発生しているらしく、現状打開案がない。
しょうがないので、解析済みの名詞ファイルをローカルですべて集計することにする。
時間がかかるが、この間に実験結果以外の論文が書けると思えば、まあいいのだろうが。

で、明日やること。

・ローカルでの集計を見守る
・・ある程度終わって入れば、ラベル付けしておく
・論文執筆
・・基本的に卒論の引用

なんか論文も実は引用するだけやし、大分時間に余裕がある気がして、みwなwぎwっwてwこないけど。
とりあえず、さっさと終わらせて楽しくのんびりした年末年始にできるようにしよう。

----
**2010/12/10(Fri)
一月近く書いてなかったのか。びっくらこいた。
一時かなり沈んでた時期もあったけど、なんとかこらえてやってこれた。
しかし、これからが正念場らしい。面倒くさい問題にもぶちあたってるみたいやし、もー。

で、今日やったこと。

・Publicationのグラフ作成をサーバーで動作させてみる
・・グラフ画像の文字（日本語）がすべて文字化ける
・・ファイル名だけでない
・研究経過報告会の資料作り

まあ今日はITSpiralもあったしな。
実質今日が最後だったらしく、PCも3月まで借りてていいらしいしかなり助かる。
しかし、あの文字化けなんやねん…
休みの間に調べとこうかな。

で、来週やること。

・Publicationのグラフ画像の文字化けを直す
・もう一回すべてのデータを作り直す

そういえば、停電とネットワーク停止とかあるんだっけか。
こんな時期になぁ。喧嘩売ってるとしか思えんタイミングや。

----
**2010/11/16(TUE)
今日はなんかずっと螺旋の課題してしまった。
もうちょっと早く片付くと思ったのに、ちくしょー。

で、今日やったこと。

・SQL関連
・・データベースへの格納対象を制限することに
・・・TOPIC_STARTとTOPIC_ENDに準ずる
・categorizeの評価算出クラスに着手
・ITSPiralの課題

もう書くことが少ないのなんのって。
つーかオレ論文提出できるんか？もう不安ってレベルじゃねーぞ！

で、明日やること。

・リハビリ
・SPI検査模試
・ITSpiral課題
・categorize評価算出クラス作成
・サーバでのプログラム実行監視

もうコメントなんかねえや。とりあえず、1日24時間ってのは短いと思う。

----
**2010/11/15(MON)
ちゃんとした生活を送っていたはずが、かなり時間が経っているような錯覚に襲われている。
先週の木曜日がえらく前のことのようだ。
で、今日は無駄なことで有名な進捗報告会で、オレはちょっとイラッとしながらも適当にすましたのだが。
まわり言わせると、「教授はなんか（プログラムばっかりで研究してない）言いたそう突っ込んでた」ということらしいが、ほんまか。

ともあれ、時間のあまりない中やったこと。

・trend関連
・・ラベリングツール完成

というだけのことやけど、これで一通りプログラムは終了かと。
一応結果集計のプログラムも考えてはいるが、いざとなったらすぐ作れるやろうし気にしない。

で、明日やること。

・各種ラベル付け
・ITSpiralの課題
・エントリーシート

忙しいことはいっぺんにやってくるんだと、改めて実感。
切羽詰まって後悔せんように結構がんばってたつもりやねんけど、今週は切羽詰まる感じやな…
早くもろもろのこと終わらんやろか。

----
**2010/11/11(THU)
今日はポッキーの日だったらしいが、どうでもいい。という、どうでもいいことを書いてしまった。どうでもいいな。
今日はなんかちょっと変わったことなんかもして、結構進みもした感じで、しかし結構な疲労感だこと。

で、今日やったこと。

・トピック関連
・・everycategoryメソッドを完成
・・・動作未確認
・・・各カテゴリごとにディレクトリに分け、その中に1月ごとにまとめたファイルを作ることに
・・・これで、カテゴリで1月ごとに話題語を抽出することを目指す
・話題語関連
・・ラベリングツール作成中
・・・Frameを使ってGUIで作成
・・・ボタンでラベルをつけるかつけないかの判断をする
・・・現在の問題点はボタンを押すと同時にラベルのフラグを立て、ファイルを再保存し、次のファイルに移行する、って一連の流れを実装すること
・SQL関連
・・ブロガーの追加メソッドの動作を確認


何だかんだでいろいろ手間取ってしまってこれくらいしか進んでいない。
ラベリングツールは完成させたかったが、ちょっとアイデアがいるので考えておくことにする。

で、来週やること。

・話題語関連
・・ラベリングツールの完成
・・結果集計メソッド
・ブロガー分類
・・ラベル付け
・SQL
・・カテゴリ追加以降の動作実験
・サーバー
・・データベース構築

来週には完成するでしょう。なにごともなければね。

----
**2010/11/10(WED)
昨日やらんかった分がんばってみた。
でも、講義がある分やはり時間的には厳しくて、結構やった気はするけどやっぱできてない気もする気持ち悪い心地だ。
つーか、またサーバーが込み始めたらしい。
人数に対して、計算資源が少なすぎるって何回言うたらわかるんやろうか。もう面倒くさくもなってくるわ。
ていうか、オレがゆずらなあかん空気まだあるけど、よく考えたらそんなことねぇんだよなー。

でもま、とりあえず、今日やったこと。

・公開データ作成関連
・・グラフ作成クラス完成
・・・categoryとtotalの出現頻度を合わせてグラフに示すように
・・・totalのデータベースを破棄してしまっていたために、動作確認できず
・・・totalだけのグラフを作れるようにもするべきなのかも
・・表作成クラス完成
・・・csv形式でcategoryとtotalの出現頻度を保存
・・・各行の最後の要素はラベル付与するかのフラグ
・・・・これを利用して、話題候補の学習データを自動で作成する
・サーバー作業
・・形態素解析～開始
・・・今後の計算資源争奪戦激化を懸念して、もう解析を始めることにする

もう面倒くさいことになり始めた。これで結果出んかっても知らんけどなw
「間に合わなかった？1月前からできるだけ回してましたけど？計算機足りないのがいけないんでしょうwww」って感じかw
それにしても進捗が遅いことも一因なだけにそればっかりも押せないなぁ。でも進捗が遅いのはこればっかりしてるわけにいかんからなんやけどなー。

とにかく、一旦足りてないプログラムやらなんやらを整理してみたいと思う。
プログラムの流れの中から確認してみるといいかもしれん。今後追加で気づいたところは、別口でメモする。

・URL収集
・・動作確認済
・・・随時サーバーで実行中（cron）
・記事収集
・・動作確認済
・・・随時サーバーで実行中（cron）
・形態素解析
・・動作確認済
・・・現在サーバーで実行中（screen）
・・最新版のトピック抽出結果からのストップワードの更新はまだ
・カウント
・・動作確認済
・・・現在サーバーで実行待ち（screen、形態素解析が終了次第）
・SQL
・・動作確認中
・・・テーブルの初期作成は確認済
・・・テーブルの追加メソッドの動作が未確認
・・確認出来次第、サーバーでの実行を
・・ただし、blogerのデータベース作成についてはサーバーで実行待ち（screen、カウントが終了次第）
・トピック
・・動作一部未確認
・・未実装メソッドあり（everycategory,all）
・・・早急にeverycategoryだけ実装が必要
・・・・今後実験で必要なのは、実際にはこれだけ
・・TFIDF値の計算過程における素性選択の動作確認はまだ
・ブロガー分類
・・動作一部未確認
・・・分類作業についての本実験はまだ
・・・ラベル付け作業がまだ
・話題語分類
・・実装中
・・・ブロガーのカテゴリ分類、データベースの作成終了を待ってすべての動作確認作業を開始可能
・・未実装部
・・・ラベリングツール
・・・結果集計

こうして見ると意外と結構できてるみたいで安心した。
実行待ちなところが多いのはかなり気になるけど、その間にラベル付けとかすればいいから、時間的にはまあ大丈夫だろう。

で、明日やること。

・話題語関連
・・ラベリングツールの作成
・・・以前のプログラムを参考に
・・・できたら、サンプルデータで動作確認してみる
・・実験結果の視覚化
・・・どこを正例としたかを表すもの
・・ChartとSheetのテスト
・・・totalにサンプルでも入れられればいいんだが

やっぱプログラムはだいぶ減ってきたみたい。
この調子で詰めていくしかねぇな。

----
**2010/11/8(MON)
さて、11月ももう1週間過ぎた。
お金的な意味である問題が発覚し、「こんなときにぃぃいいぃぃいい～～」というのが内心思っていること。
プログラムはまあ順調なよう、というか実際まだまだ作り込まないと実験できないことに今更気づいて微妙に焦り始めたw
qあwせdrftgyふじこlpってなりたいくらいだw

で、きょうやったこと。

・SQL関連
・・ブロガー部での差分登録が動作していることを一応確認
・・・しかし、ちょっとパラメータ間違えてて本当か怪しい部分あるのでやり直す
・trend関連
・・BootStrap完成
・・・動作実験済み
・・TriTraining完成
・・・今後メソッド追加の可能性はアリ
・・・動作実験はまだ
・・Prediction完成
・・・今後メソッド追加の可能性はアリ
・・・動作実験はまだ
・・グラフ、ラベリングツールの開発を考え始めた
・トピック関連
・・TFIDFの計算時にしていなかった素性選択を解禁

まあまあ進んだみたいな感じだ。
今後やらなあかんこととかも随時見えてきて、いつまで経ってもすべてが終わらんというのは結構なストレスになると改めて実感。
つーかほんまに間に合わせられるのかすげー不安になってきた。

で、明日やること。

・trend関連
・・グラフメソッド作成
・・ラベリングツール作成
・topic関連
・・カテゴリごとのトピック抽出メソッド作成
・SQL関連
・・動作確認
・論文概要考える

論文を公然と読む必要がなくなったのはありがたいけど、TOEICやる時間もなくなってて英語論文読んでるのが勉強になると思ってやってたのになー、とかなんとかいいわけしてみた。いいわけなんかもわからん。なんか書いててよくわからんw
いっつも結局ここに落ち着くんやけど、…とにかくやるしかねぇ。

----
**2010/11/5(FRI)
今日は講義やらあったので、作業としてはあまり進んでいない。
予定通りといえばその通りなのだが、今週というスパンで見ればあまり思い通りに進んでいない部分もある。
自分の未熟さと言えばそうかもしれんが、体壊すまでやる必要性もないわけで。

で、今日やったこと。

・SQL関連
・・ブロガーのカウント追加は、未登録の日付のカウントを登録できるように
・・現在動作実験中
・trend関連
・・validationを完成
・・・サンプルデータで動作も確認済み
・・bootstrapに着手
・・・validationを参考にすればすぐに終わりそうな予感
・・ディレクトリが増えてきたことに伴って、ディレクトリ構成を一部変更
・・・それに伴いconfig,Config.java,TrainingData.javaを変更
・・・詳細はReadMe.txtを参照のこと
・Save関連
・・arff形式の保存メソッドで、拡張子の指定するしないが曖昧だったので統一

作業としてはまずまずか。
結構ややこしい作業になってしまっているので、かなり作り直したいところとかあるけど、時間内ので諦める。
研究会への投稿が決まったようなので、そちらのスケジュールも考えないといけなくなってきた。
研究会やし、そこまで神経質になる必要はないみたいやけど、またちゃんと結果が出てくれるかすげー不安。

で、来週やること。

・trend関連
・・bootstrapの完成
・・学習器（tri-training）の完成
・・トレーニングデータの作成メソッド考案
・SQL関連
・・差分登録メソッドの実行結果確認
・・・現在はブロガー部分だけなので、カテゴリと全体の部分を続けて行う
・topic関連
・・candidateの結果からストップワードを登録
・categorize関連
・・動作実験がてらカテゴリ分類をしてみる
・・この実行結果でもってtrendのトレーニングデータ作成の実験をする

さて忙しくなる気しかしないよね。
今すでにダウンしかけたりしたのにもつのか俺…。遊んでる場合なのか？…場合だ！！
そしてこうしてると充実感にあふれるのでよいことだ。
でも、こういうときって時間の流れが早すぎるくらいなんだよねー。
ESとか忘れんようにしよー。

----
**2010/11/4(THU)
さて、今週はしんどかった。ていうかまだ今週終わってない。
今日はやはり体力があまりなかったせいか、ほとんど作業が進まなかった。ちくしょう。
仕様をややこしくしてしまっていた部分もあって整理せんといかん。

で、今日やったこと。

・SQL関連
・・差分処理がちゃんとできるかの動作実験開始
・trend関連
・・validationを作成
・・・今のままではデータ読み込み時にインスタンスが重複する可能性が発覚
・・・・TrainingDataでデータを作成する基本的な考えを忘れていた
・・・・・labeledWords.txtに登録されたデータで毎回データを作成する
・・・・・つまり、ディレクトリ内のすべてのファイルをまとめて読み込むのは無意味
・・bootstrapの作成に着手
・・・基本的に、set1~3をフィールドとして持たせて、それをあーだこーだするということに
・categorize関連
・・動作実験が終了していたので、結果を軽く見た
・・・以前よりはだいぶマシ
・・・けど、やはりノイズが気になりまくる

書いた量は多いけどって回ですな。
やったことはそんなに多くはない。
とりあえず、仕様をまとめておかないととんでもないことになるので、ReadMe.txtに色々追記した。

で、明日やること。

・SQL関連
・・差分登録の実行結果確認
・trend関連
・・validationのデータ読み込み部修正
・・bootstrapの作成
・・machineに取りかかる

なんか研究会に発表しようかみたいなことにマジでなってるので、早く作らないとマジでやばい。
実験に時間をしっかり使えるように準備せねば。
ということで、新研究の優先度は最低レベルになりまーす。…しゃーないわ。

----
**2010/10/28(THU)
もう10月終わりかよ・・・はえーよ・・・。
で、今日は今日で朝にめんどくせー演習の講義があったので朝は作業できず。昼からのみ。
今日はなんか最初の2日間を飛ばしすぎたせいか、あんまり勢いなかった気がする。しかし、色々進んだのでよし。

で、今日やったこと。

・categorize関連
・・ラベル付けのツールにバグがあったので修正
・・・記事を一つ追加するごとに記事のtfidfを計算するという意味のないことをしていたので修正
・・カテゴリを決定
・・・予定どおりおよそ20で
・形態素関連
・・今日の見た限りでは、かなりよくなっている模様
・Cleanup
・・nullurlに指定した記事の削除メソッドを追加
・・・categorizeのラベル付けで記事としてよくないものを判定、削除することが可能に
・trend関連
・・トレーニングデータをファイルとして保存できるようにするメソッドを作成
・・validation、bootstrapのメソッドの構想をする
・新研究
・・読みかけの論文を読み終わる
・・詳細は[[論文メモ]]

いうほどのこともしていない感じになっている。
言うて、そんなに時間もなかった…なんてこともないのでやっぱりあんまり勢いなかったんやろうな。
カテゴリも決めたし、ラベル付けしていかんとなー。

で、来週やること。

・trend関連
・・validation、bootstrapを作り上げる
・・ラベル付けのためのメソッドかクラスを作る
・・・グラフ作成のツール作るかな…
・categorize関連
・・ラベル付けする
・トピック抽出関連
・・形態素解析終了したら抽出してみる
・SQL関連
・・形態素解析終了したら追加してみる
・UI
・・CSSによる色付け
・・JavaScriptによる動き
・新研究
・・論文読む

とまあ色々書いたけど、来週はほとんど時間ない（とらない）のでほとんどできない悪寒。
サーバー上のプログラム実行監視と、論文読むくらいが基本になりそうですねー。
つーか、11月には中間発表やるんやと。
また資料作るのに時間とられるのか。あのちょっと使うのがうざい。12月にも研究科全体のやつがあるのに。どうせほとんど聞き流してるくせに。何が言いたいって、時間の無駄。

----
**2010/10/27(WED)
今日は講義3コマと寝不足（寝つき悪い＋なんか途中で起きた）でしんどいのもあって早めに帰って休む。今日は筋トレもお休み。
講義3コマあったおかげで時間もとれてないので、やったことはほぼ皆無に近いけど、皆無ではないので一応なんかしら書く。

で、今日やったこと。

・トピック抽出結果の確認
・・どうも単語単位でしかなくて連続名詞になってない
・・・連続名詞のチェックに使ってたメソッドがよくなくて、すべての連続名詞が却下されていた
・・・チェックのメソッドを作成し、実験 ＞ 成功
・・以前よりもよさげ
・・・でも、もう一回通して動作させてみてから精度を確認する方向で
・UI
・・CSSをさらに勉強する
・・index.htmlのレイアウトをだいぶマシなものに

1、2時間しかなかったわりには色々したような気もする。
とりあえず、UIのほうがなんか形ができてきてすげー楽しくなってきたw
次は色とか画像入れるのとかやらんとな。見た目に関しては美的センスのある人の意見を取り入れたいと思うw
JavaScriptも実践で勉強できるようにしていかないと。

で、明日やること。

・トピック抽出関連
・・通しの実行結果をチェック
・SQL関連
・・差分登録のメソッドの動作を確認する
・その他プログラムに関しては机のメモ参照
・新研究
・・読みかけの論文から片付ける
・UI（気がむいたら）
・・CSSで色つけとか

明日も一応授業あるけど、昼からはなんもないからまたがんばりまっしょい。
進捗報告も書かなあかんやろうし、なんか今すげー大変なんだと実感してきた。
大変だぁ！！

----
**2010/10/26(TUE)
気合入れ直して2日目。順調に気合が減っていっている。
というかさすがにいきなりやると疲れるな。続ければなんとかなるだろう。
朝がいつもよりちょっと遅いのは気にしない。夜更かししてしまってるのが一因になってるのは内緒。

で、今日やったこと。

・話題語関連
・・トレーニングデータの属性値の正規化メソッドを作成
・・・この正規化の際の分母の値は、tool/Countのメソッドを利用
・・・これに伴い、tool/Countを大幅にアップデート
・・・しかし、テストをしようにもデータをちゃんとしてなかったのでできず＝データ作り直し中
・・トレーニングデータの作成期間を設ける
・・・configなどにも追加済み
・記事取得関連
・・ブログサーバーへの負荷の低減するために各ネットワーク接続終了時にsleep(1000)を入れる
・・・大幅に記事取得などの効率は下がった
・形態素解析関連
・・数字のみの単語をカットすることに
・・話題語として抜き出された段階で、副詞のようなものになっている場合があった
・・・候補として「名詞＋名詞」を生成したあと、さらにそれをもう一度解析にかけて本当に使える単語か判定することに
・新研究
・・論文読んだ（4ページのもの1時間、読みかけ）
・・内容は[[論文メモ]]参照


なんかめっちゃ色々やってるやんwすげーw気合入りまくりんぐw
でも、何回もデータ作り直すのはいい加減やめたい…。
明日が講義があるし、今日みたいに多くのことはできないやろうし、できる限りで濃密にやっていくことにする。

で、明日やること。

・UI作る
・・javascriptをちょっとがんばってみようか
・・本の貸出期限を伸ばしてもらうのを忘れずに
・論文読む
・データ作成の進み具合とか気をつける

まあ明日はこんなもんだろう。
あとプログラム関連でやるべきことは、別途机のメモ参照ってことで。

----
**2010/10/25(MON)
気合を入れ直すことにした今日この頃。
まわりを見回すと、忙しいようで実際にはダラダラ違うこととかしてるやつが目立つ。
みんなそうなら俺もOK？っわけはなくて、みんなはみんな。オレはオレ。そう、よく考えたらいろいろ時間なかったみたいなんだよねー。
というわけで、一行目みたいな。

そして、今日やったこと。

・論文読む=サーベイ
・・詳しい内容や感想は、[[論文メモ]]参照
・・のっけてないけど、ブラウザでちょろっと読んだものもあり
・UI
・・HTMLとCSSについてかじる
・・divとかpとかいろいろわかってきた

言葉にまとめると少ないな。さすがに。
言うても論文は読むのに時間と精神力をかなり使うからしょうがない。だからあんまり好きではない。
でも今後の研究をうまく進めるためには我慢かな。

で、明日やること

・論文読む
・・今日印刷したのとか
・UI
・・CSSを重点的に
・プログラム本体
・・机のメモどおりに

なんかここに詳しいこと書くのが面倒になってきてしまった…。
詳しいことは別口でも書いてるからいいか。ここは日々の個人的な研究に関する日記ってことにしとこう。

----
**2010/10/21(FRI)
プログラムをいじってしまった。
先輩に言われたののもあるけど、システムの挙動で一部おかしな部分があったのは否めないので今日はその対処を。

で、今日やったこと。

・形態素解析部
・・またメモリが異常に蓄積する現象が発生
・・・cabochaの実行制限時間を設けることで対処（動作を完全に確認したわけではない）
・その他意味のないメッセージの表示などを一部修正
・昨日の話題語抽出結果を受けてサーバー上のデータを総入れ替え
・・今日から新たにデータ収集を続ける
・・URLは残っているので、過去のデータが完全に途切れるわけではない

ビデオ講義受けたあとにしたら結構やったほうじゃないだろうか。
だが足りないよねー。論文読んでないし。。。
あとで進捗報告も送らなければ。

で、来週以降やること。

・SQL関連
・・解析しなおしたデータを現在のSQLに差分で格納できるか実験
・その他プログラムは机のメモのとおりに続ける
・新研究
・・とにかく論文読む

ゲームやってる場合じゃないよねー。もうわかってるけどねー。
やることそこそこやってるからいいやんもー。
とりあえず論文はさっさと読もう。つーか長いねんあの論文。ちくしょう。

----
**2010/10/21(THU)
今日はなんだかんだで結構プログラムをいじってる時間が長かった。
いじった量は少ないけどねー。
論文もちょっと読んだくらいで、やりきった感とかは別にない。

で、今日やったこと。

・トピック関連
・・一連の抽出結果が出たので結果を検証してみる
・・・「ゎ」「ッ」などで始まるような単語アリ＝プログラム中のフィルターを修正
・・・「ww」「kwsk」などのフィルターでは除去しきれない単語アリ＝ストップワードに登録
・・・「ご飯みそ汁漬物」などの意味のない連続名詞アリ＝記事抽出の際の文章の区切りに空白（全角、半角、タブ）を追加
・・記事抽出からやり直してみる
・新研究
・・論文読む（2時間で10ページくらい）

今日はなんだかんだで違うことしてる時間も多かった気がしなくもないけど、そんなことはない。
まだまだやり足りないよな。もっとしっかり集中できるようにしていかなければダメな気がする。追い込みすぎもダメな気がする。
ほどほどにしよう。

で明日やること。

・トピック関連
・・実行結果を検証（終わってれば）
・新研究
・・論文の続き読む
・・進捗報告メールを出す

明日はビデオ講義があるから今日よりもなにもできない悪寒。
とりあえずやることやる。

----
**2010/10/20(WED)
今日は朝に授業があったこともあってか…ではなくてこずってしまってあんまり進んでない。
SQLはかなり手探りでやったからかなり中身を複雑にしてしまった。もう組み直すのはだるいのでがんばって使いこなす方向で。

で、今日やったこと。

・SQL関連
・・データの追記メソッド完成
・・・動作実験はまだ
・・・現在ローカルにて動作実験のためのデータ作成中
・・・・登録したものよりも新しい記事データの取得解析
・Dateなどのクラス、メソッドでの各種バグフィックス

いろいろと自分の設計ミスが響いた昨日今日だったな。
次にする部分はもうちょっと軽やかにこなしていきたいと思うが、他のやることもあるので今週はもうちょっと優先度を落としていくかな。

というわけで、明日やること。

・SQL関連
・・追加型メソッドの動作実験
・・・ちゃんと追記できてるかを確認するようにテーブル全体を出力させておくなどする
・Topic関連
・・現在動作実験を進行中
・・実行結果を検証する
・新研究
・・論文読み進める

論文サーベイ全然やってないからねー。さっさとやるべ。
つーか、今更やけど今の状況はあまり好ましくないなぁ。やってもやっても何も終わらない。
モチベーションがああああああ。
っていうけど、結局やらなあかんねやし、やらな終わらんし、とりあえず、やろ。

----
**2010/10/19(TUE)
また気づけば2週間近く放置していたようだ。
途中バグフィックスとかいろいろ細かいことしてたけど、メモってなかったのが実状ですが。
今日は気まぐれに説明会のあとに研究室来るとかしてみて自分の中だけでがんばった感があるな。自己満足万歳。

で、今日やったこと。

・SQL関連
・・ブロガーのデータベース作成部分で以下のようにすることで効率化を図る
・・・初期化時には既にあるテーブルは処理しない（テーブル作成を最優先）
・・・追加のメソッドで既にあるものに関してのみ、未登録の日付のデータの処理を行う（データ登録最優先）
・・カテゴリーデータベース作成部分でカテゴリのテーブルに既に登録したもののリストを作成するように
・・・テーブルを見ただけではどれを登録したかわからないので

少ねー。やったことほとんどないやん。
さっきまでのがんばった感がただの疲労感に早変わりやな。

ともあれ、重要なアップデートであることに変わりはなく。
カテゴリのテーブルについての追加処理をどうするかをちょっと考えないといけないみたい。
処理の効率化も考えながらするとなかなか進まないのー。

てことで明日やること。

・SQL関連
・・カテゴリーのテーブルの追加処理を作成
・・それに伴うconfigの変更なども随時
・新研究のサーベイも

つーかTOEICやる暇ねー。なんかお金の無駄になる気がしてきた。
夜にニュースの英語流し聞くだけでは限界どころか、ちょびーーーーーっとの足しにしかならんよなー。
どないしよ。

----
**2010/10/6(WED)
気づけば半月以上経っている。
その間遊んでいたってのが大半やけども、それでもプログラムなんも触ってなかったｗ
で、今日は久々に触ってまあまあ思ったより進んだみたいな感じで自分でもびっくりｗしかし、そんなには進んではいないっていうね。

で、今日やったこと。

・トレーニングデータ作成部
・・ラベルあり、なしで作成するメソッドを変更
・・・正例＋ラベルなし、負例というメソッド構成に
・・・このほうが、手法に則っててわかりやすく作りやすかった
・・範囲指定なしでの全体での作成メソッドとして完成
・・しかし、まだ結果を標準出力で確認しているだけで、ファイルにまとめたりはしていない

2時間ほどしかしてない中でこれならまだ上出来だな。
ちょっと新研究のための論文のサーベイやら講義始まったりやらでまとまった時間とるのは無理だろうと思うのでこんな感じでだらだら進めていこうと思う。
しかし、ちょっとプログラム以外の決めなあかんことをそろそろ決めないとまずい。カテゴリってやつだ。適当でいいかなー。

とりあえず、次回やること。

・トレーニングデータを作成する日付の範囲を指定できるようにする
・・現在は全体のみのため狙って作れない
・・量が膨大になってしまう
・意味のなさそうなトレーニングデータを作らない
・・出現回数が0のものとか
・話題語の分類のやりやすいUI作成
・・そろそろ管理ページを作成するくらいはしたほうが作業効率的にも必要
・・できたら、ブロガー分類のところも作る

そろそろ大詰めな感は出てきているので慎重に行きましょう。
そしてそろそろいい加減にUI考えないと。外注もできなくなっちまうよ…。

それよりも新研究になりそうなことが思ったより楽しそうでそっちやりたくなってしまうｗ
にしても、複数の作業を並行してやるってのはやっぱしんどいもんやなー。PCのマルチコアってすげーなー。

----
#bf(研究日誌)

#comment()    </description>
    <dc:date>2010-12-21T20:24:14+09:00</dc:date>
  </item>
    <item rdf:about="http://www15.atwiki.jp/thiroyoshi/pages/47.html">
    <title>Java</title>
    <link>http://www15.atwiki.jp/thiroyoshi/pages/47.html</link>
    <description>
      *senでwiki辞書を使う
以下で紹介されてる方法でできるらしい
http://d.hatena.ne.jp/nodchip/20090309/1236615706

*形態素解析
これまで、形態素解析にcabochaを使ってたわけですが、javaでMecabを実装したとかいうのがあったみたいで…。
http://ultimania.org/sen/

つーかYahoo!がそういうのしてくれるAPIを公開していたらしい。アンテナは大きく広げておかないといかんもんだなぁ…
http://developer.yahoo.co.jp/webapi/jlp/da/v1/parse.html
下のサイトはサンプル公開してる。
http://www.nilab.info/zurazure2/001036.html

*形態素解析の辞書
ChasenとMecabの辞書として使えるものだそうな。公開されてる精度がよすぎてびっくり。
http://www.tokuteicorpus.jp/dist/

*Java使う人にはとてもよい
http://nextindex.jp/java/

*Stringの文字エンコーディング
普通にプログラムするには大して問題にならないファイル名の文字コード。
webでデータ公開するとかなるとなんかこれをよくミスる。

で、見つけたよさげなサイト。参考に
http://hp.vector.co.jp/authors/VA017148/java/encoding.html

*デーモンスレッド
使えれば使う

参考URL
http://memolet.blog22.fc2.com/blog-entry-792.html

*GC overhead limit exceeded
調べてみたら、ガベージコレクションに時間かかりすぎやから止まった、ってことらしい。
ガベージコレクション自体はメモリの自動解放とかしてくれるけど、メモリ使用量が多いとかでスワップが多くなったりすると処理がかかるみたいだ。
で、その時間がかかりすぎるとエラー吐いて止まるってのが上のメッセージらしい。
解決にはメモリをしっかり確保すればいいってのは当たり前だが、どうしても頻発する場合などには実行時の引数に以下のものを加えるといい。
 -XX:-UseGCOverheadLimit

参考URL
http://confluence.atlassian.co.jp/display/DOC/Fix+Out+of+Memory+errors+by+Increasing+Available+Memory#FixOutofMemoryerrorsbyIncreasingAvailableMemory-OutOfMemoryError%3AGCoverheadlimitexceeded
http://ameblo.jp/f-o-p/entry-10537149611.html

*MySQLと連携
javaのコードからMySQLを使う場合に、JDBCドライバが必要になる。
これはMySQLのサイトからダウンロードができる。
Javaとの連携なので、downloadの中の「Connector/J」をダウンロードする。
ダウンロードしたファイルを解凍すると、いろいろ入っているが、その中にjarがある。
名前は、「mysql-connector-java-5.0.8-bin.jar」だ。
これのクラスパスを通せば、あとはjavaのファイルの中で適切なコマンドを使っていけばいい。

参考URL
http://mountainbigroad.jp/fc5/mysql_java.html

*MySQLからの日本語が文字化け

まだいろいろ試していないもののメモ。

文字化けなので文字コードに問題があることは明白。
この場合にするべきは、各所での文字コードの設定。

「MySQLのデフォルト設定」
「javaコード内でのurl指定時」

くらいだが、これでも文字化けする場合があるのだ。
これはMySQLのバージョンを下げればいいこともあるらしい。
この問題があるのは、4.1.7でらしい。これをバージョンダウンすれば解消されるとさ。

またちょっとしたコードの書き換えでもいけるらしい。
str = new String(str.getBytes(&quot;ISO-8859-1&quot;), &quot;JISAutoDetect&quot;);
みたまんま、コード変換するみたいだ。これを取得した値に対して行ってやると解消されるとか。
でも、バージョンを下げるとこんなもんは必要ないみたい。

参考URL
http://oshiete.goo.ne.jp/qa/1118005.html

*javaをコマンドラインで
サーバーなどでjavaを動かすために覚えた。
しかし、コマンドを詳しく覚えているはずもなく…

***パスを通す
.bashrcにjarファイルのパスをかたっぱしから通すように指定。
これぐらい重くもなんともないだろ！
実際に使ってるスクリプトは以下
 jars=`ls /home/hiroyoshi/system/jar`
 for jar in ${jars[@]}
 do
 export CLASSPATH=$CLASSPATH:/home/hiroyoshi/system/jar/$jar
 done
やってることは簡単で、jarのファイル名を配列で全部とってきて、それにパスを当てはめてexportしてるだけ。
これでディレクトリjarにjarを追加するだけで、ログインするときに毎回読み込んでくれる。
もうパスを通す必要はない！便利！

***コンパイル
使ったのは実際には以下のコマンド
 javac -sourcepath XX/src -d XX/bin/ XX/src*/*.java
XXはディレクトリ名（プロジェクト名とか）
 javac:javaのコンパイルコマンド
 -sourcepath:ソースファイルの場所指定オプション
 -d:クラスファイルの出力場所指定オプション
これで、srcに保存されいるパッケージでまとめられているjavaソースファイルをきちんとコンパイルできる。
また、このコンパイル時にbin内にパッケージも作られる。
ただし、srcとbinは事前に作っておく必要があるのは言うまでもない。

***実行
ちょっと泥臭い方法になってしまったというか、メモるほどの事ではないが一応。
 java -Xmx1g main/Main
これをbinで行う。ほんとはプロジェクトのホームで実行したかったけど仕方ない…。
ファイルなどを生成するのでも、プログラム内でディレクトリ指定すればbin内には作らなくて済むので。


*RSSリーダー
研究でブログを扱っているので作ってみたところのメモ。
ほとんどコピペやけど、プログラムってそんなもん。

**使ってるライブラリ
 ROME：本プログラムのキモ。RSSを扱うためのメソッドが揃ってるみたい。
基本はこのROMEで処理します。依存とかの関係で
・ROME-Fetcher
・JDOM
も必要です。JDOMはxmlを扱うライブラリで、これがないとROMEは動かない。

それぞれのライブラリはバイナリをダウンロードする。
JDOMは圧縮形式でダウンロードでき、解凍するとディレクトリができる。
この中からjdom.jarを見つけ出す。

サンプル
&gt;public class RSSReader {
&gt;
&gt;　@SuppressWarnings(&quot;unchecked&quot;)
&gt;　public static void main(String[] args) {
&gt;
&gt;　　　//rdfでもxmlでもOK
&gt;　　　String url = &quot;http://blog.livedoor.com/xml/article_ranking.rdf&quot;;
&gt;
&gt;　    try {
&gt;			
&gt;　                     URL feedUrl = new URL(url);
&gt;　                     SyndFeedInput input = new SyndFeedInput();
&gt;　                     SyndFeed feed = input.build(new XmlReader(feedUrl.openStream()));
&gt;			
&gt;　                     ArrayList&lt;SyndEntry&gt; entries = (ArrayList&lt;SyndEntry&gt;) feed.getEntries();
&gt;
&gt;　                     System.out.println(&quot;Blog Title：&quot; + feed.getTitle());
&gt;　                     System.out.println(&quot;=======================&quot;);
&gt;			
&gt;　                     Iterator&lt;SyndEntry&gt; it = entries.iterator();
&gt;　                     SyndEntry entry;
&gt;　                     while(it.hasNext())	{
&gt;　                             entry = it.next();
&gt;　                             System.out.println(&quot;Title：&quot; + entry.getTitle());
&gt;　                             System.out.println(&quot;Date：&quot; + entry.getPublishedDate());
&gt;　                             System.out.println(&quot;Link：&quot; + entry.getLink());
&gt;　                             System.out.println(&quot;URI：&quot; + entry.getUri());
&gt;　                             System.out.println(&quot;Description：&quot; + entry.getDescription().getValue());
&gt;　                             System.out.println(&quot;---------------------&quot;);
&gt;　                     }
&gt;
&gt;　                     System.out.println(&quot;size = &quot; + entries.size());
&gt;			
&gt;　             } catch (FeedException e) {
&gt;　                     e.printStackTrace();
&gt;　             } catch (IOException e) {
&gt;　                     e.printStackTrace();
&gt;　             }
&gt;　     }
&gt;}

参考URL
[[スマートネットワーク開発ブログ  JavaでRSSのパースをしてくれるライブラリ&gt;http://blog.smartnetwork.co.jp/staff/node/19]]
[[ROME&gt;https://rome.dev.java.net/]]

*正規表現
すごく便利な正規表現。でもすごくわかりにくい正規表現。
そんな正規表現のメモ。

***（特にJavaで使えるというものです）

**全角記号
 [^ぁ-んァ-ヴ一-龠0-9０-９a-zA-Zー〜、]
総当たりではあるが、使えるのでよし。
意味は「ひらがなとかカタカナとか以外」

**半角記号
 \p{Punct}
javaのAPIで定義されているものそのまま。
ただし、使うときにはこれをこのまま書くだけだと、「エスケープシーケンスは…」と怒られるので、こいつをエスケープしてやる。
つまり、
 line = line.replaceAll(&quot;\\p{Punct}&quot;,&quot;&quot;);
ってすると、line内の半角記号は一掃される。

**半角カタカナ
 [｡-ﾟ+]
そのまま文字コードにのっとったもの。つまり、意味は
 ｰ｡｢｣､･ｦｧｨｩｪｫｬｭｮｯﾀｱｲｳｴｵｶｷｸｹｺｻｼｽｾｿﾐﾁﾂﾃﾄﾅﾆﾇﾈﾉﾊﾋﾌﾍﾎﾏﾑﾒﾓﾔﾕﾖﾗﾘﾙﾚﾛﾜﾝﾞﾟ
です。


また、正規表現の[a-z]のような「-」(ハイフン)の範囲表現はASCIIコードに準じたものをなっている。（参考URL参照）
例えば、コード表によると「!」から「/」を続けて範囲指定（[!-/]）できるが、「?」までする（[!-?]）と数字も選択されてしまう。


参考URL
[[フジハラボ：Javaで入力チェックに使える正規表現まとめ&gt;http://daipresents.com/weblog/fujihalab/archives/2008/08/java-regex.php]]
[[ASCII文字コード&gt;http://e-words.jp/p/r-ascii.html]]    </description>
    <dc:date>2010-12-18T16:31:16+09:00</dc:date>
  </item>
  </rdf:RDF>

