はじめに
前回アヤメのデータを簡単な機械学習を体験しました。
今回は機械学習にはどんな種類のものがあるかscikit-learnのサイトに記載されていた
Choosing the right estimatorを元に勉強しました。
機械学習の種類
図1:sicikit-learnのホームページに記載されているアルゴリズムのチャート |
図1のチャートより、機械学習には大きく分けて次の4種類あることがわかります。
- 分類(classification)
- 回帰(regression)
- クラスタリング(clustering)
- 次元削除(dimensionality reducation)
今回はとりあえずこの4種類がどのようなものなのか勉強しました。
1.分類(classfication)
分類とは名前の通りにデータをカテゴリーごとに分類するものです。前回の記事で取り扱ったアヤメのデータを用いた機械学習も分類の1種です。機械学習の観点から見ると、分類問題は教師あり学習の一つで、アヤメの分類でもあったように、データの他にラベルが必要となります。
ちなみに身近な例ではメールのスパム分類やWebページ内の単語を元に、どのような内容の記事かを自動的にタグ付けする機能があるみたいです。
2.回帰(regression)
回帰とは簡単にいうと未来を予測するようなものです。ではなぜ「予測(Prediction)」
という名前ではないのかというと統計学の用語から来ているからみたいです。
こちらも教師あり学習の1つとされています。統計などで利用される最小二乗法も機械学習の回帰分析のアルゴリズムとして紹介されていました。
3.クラスタリング(clustering)
クラスタリングとは、似た性質を持つデータをクラスタという集合に分類することです。分類(classfication)と異なるのは、教師無し学習の手法であるということです。
また、分類では自分でデータの特徴を決めますが、クラスタリングの場合は自分では気が付かないデータの特徴を発見したりすることもできます。
4.次元削除(dimensionality reducation)
これが一番よくわかりませんでした。とりあえず、何となくわかったのは情報の本質を維持しながら、名前の通り次元を削減するものなのかなという感じです。
調べてみると具体例として、特徴抽出、メモリの節約、可視化がありました。
まとめ
今回はscikit-learnで紹介されていた、4つの手法について勉強しました。
個人的にはデータの予測をしたいと思っているので、今後は回帰分析についてより詳しく勉強したいと思っています。
また、他にも強化学習というものもあるみたいなので、別途調べてみたいと思います。
0 件のコメント :
コメントを投稿