読者です 読者をやめる 読者になる 読者になる

Jack of all trades

master of none. 多芸は無芸を地で行く、自作自演何でも屋。

Azure Machine Learning できるとこまでやってみよう Vol.1.5

Vol.1.5とか銘打ってますが、要は単なる補足です。

ちなみに前回の記事はこちら↓
Azure Machine Learning できるとこまでやってみよう Vol.1 - Jack of all trades

割と反応があったので、自分でも読み返してみたところ、幾分か説明不足を感じたので補足しておきます。

Azure MLのリファレンス

「日本語のリファレンスが~」みたいなことを書いておきながら、実際のページURLを貼ってませんでした。申し訳なし。
Machine Learning Studio: Algorithm and Module Help
恐らく目的のページにたどり着けない(あるはずのリンクが見えない)ことがあると思うので、そういう時は英語ページ(en-us)に切り替えると何とかなることが結構あります。お試しあれ。

学習データの説明

使用した学習データについて、Project Columnモジュールで項目を絞り込んで、Train Modelモジュールで目標値を選択する、みたいな流れを書いていたと思いますが、少々補足を。

回帰分析(今回のAzure ML上では「Regression」に含まれるモジュールですね)において、取りうる変数は「目的変数(従属変数)」と「説明変数(独立変数)」です。今回の例で言えば、「天気」が晴れの方が「来客数」が多い、「曜日」が土日の方が「来客数」が多いといった具合に説明変数によって目的変数が「説明」されるわけです。まぁ難しく考えず、要因となる幾つかの項目を使って目的の値を算出する、ぐらいで考えていただければ良いかと思います。

で、Azure ML上ではどうやって目的変数と説明変数を設定しているか、です。今回の例でTrain Modelで目標値を選択する的なことを言っていたのは、この目的変数を選択することを言っていたわけです。では、説明変数はどこで設定していたのか。説明変数はTrain Modelに渡されたデータのうち「目的変数に設定された項目以外の項目」です。もうお分かりかと思いますが、Project Columnで項目を絞り込んでいたのは、目的変数でも説明変数でも使用されない項目を除外する為だったわけです。
f:id:sadynitro:20150412122101p:plain

Evaluate Modelモジュールについて

学習済みモデルの性能を数値化してくれるEvaluate Modelモジュールですが、今回使用しなかった謎の接続箇所が存在します(右上の○)
f:id:sadynitro:20150412122330p:plain

これは何のために存在するかというと、同様のデータに対して別の構成で作成した学習モデルを接続して、2つのモデルの性能を比較する為です。
f:id:sadynitro:20150412122747p:plain
こんな感じですね。

以上で補足も終了です。次回Vol.2(その前に別の記事書くかも)でまたお会いしましょう。