どうもリンです。
先日から機械学習系の記事を書き続けているんですが、オススメの教材とかの話は全くしていなかったなと思います。
私自身、色々な本から知識を得ています。機械学習系は本とかネット上でのディスカッションが最先端を走っているような気がしますね。
先日、とある本が発売されました。
それがこちら。
「Kaggleで勝つデータ分析の技術」です!
もちろん私も持っていますよ。
今回は「Kaggleで勝つデータ分析の技術」の書評をしていこうと思います!
書評
そもそもKaggleとは?
Kaggleとは、世界規模で行われている機械学習競技プログラミングプラットフォームのことです。
Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。 モデル作成にクラウドソーシング手法が採用される理由としては、いかなる予測モデリング課題には無数の戦略が適用可能であり、どの分析手法が最も効果的であるか事前に把握することは不可能であることに拠る。 2017年3月8日、GoogleはKaggle社を買収すると発表した。
https://ja.wikipedia.org/wiki/Kaggle
つまり機械学習の予測モデルの精度を競う合うサイト(運営会社)を指しており、世界中のデータサイエンティストが機械学習モデルの精度を競い合う場所となっています。
Kaggleは企業がスポンサーを務め、総額数億円の賞金が用意されることもあります。
日本の企業でもKaggle上位者を欲しがる動きが続いており、社会的課題に対してKaggleでのデータ分析技術が有効だという証明になっています。
機械学習競技サイト「Kaggle」のトップランカーが執筆している信頼性
さて「機械学習」と言うと今流行りの技術なので様々な執筆者がいます。
中には機械学習の「き」の字も分かっていない人が書いたような「まとめ(笑)サイト」のような本まで登場する始末です。
こんな時期だからこそ、執筆者の信頼性はかなり重要な要素になっています。
この「Kaggleで勝つデータ分析の技術」では、阪田隆司さんというKaggle Competitions Grandmasterの称号を持つ方が著者の一人として入っております。
Kaggle Competitions GrandmasterとはKaggleの参加者(通称Kaggler)の中でも最高峰に位置する実績を積んだ人に与えられる称号です。
ワンピースで言うところの「四皇」、鬼滅の刃で言うところの「柱」的なポジションです(わかりにくい)
実績がある(ありすぎる)方が著者ですと、かなり信頼性はありますよね!
画像認識などは無し。あくまでテーブルデータでの「分類・回帰」を解説
さてこの「Kaggleで勝つデータ分析技術」の面白いところは「テーブルデータでの分類・回帰」に的を絞っていることです。
機械学習は「テキストマイニング・画像認識・画像生成」なども含まれるのですが、あくまで「テーブルデータでの分類・回帰」です。
つまり「材料の比率データあげるから完成物の強度を予測して!」みたいな課題ですね。
機械学習は非常に奥が深い技術です。
画像認識系にまで手を伸ばさずに「テーブルデータ」に絞ることで満足度の高い一冊にしたのですね。
モデルの精度を上げる様々なテクニックが掲載
この一冊には様々なテクニックが掲載されています。
- モデルの評価方法は?
- 精度に効く特徴量の作り方は?コツは?
- Kaggleではどんなモデルが使われているか?
- 機械学習で陥りやすい「ワナ」とは?
などなど、タイトル通り「Kaggleで勝つ」ためのテクニックが大量に載っています。
数年前から機械学習系の業務に就いている私でも知らなかったテクニックが多々ありました。
しかもイラストが多いので、よくある重ッ苦しい本ではありません。超読みやすい。
日本の機械学習界隈を活性化させた出来栄え
私も不満に思っていたことですが、日本語では機械学習系の知識ってあまり手に入りません。
やはり最先端の技術は英語でしか引っかからなかったんですよね。
仮に日本語で発信されていても、断片的な情報を上手く繋げなければいけませんでした。
しかしこの一冊は、日本語で機械学習のテクニックがまとまっているのですごーーく効率が良いんですよね。
断片的な情報を繋げる必要が無い。すでに繋がってるもん。
この一冊のおかげで機械学習界隈に参入する障壁がだいぶ低くなったと思います!
私のブログも同じように頑張っております…!
各ハッカーたちのレビュー
うーん。こんなに良い評価をされているのはあまり類を見ない書籍ですね。
まとめ:機械学習入門~玄人までオススメできる良書だった
機械学習系の本って「これが原理じゃ!」みたいな自己完結型の教科書が多かったイメージですが、「Kaggleで勝つデータ分析」は「結果を追求するテクニック」に焦点を当てていました。
「モデルの精度ってどう上げるの!?」って迷った方は購入の価値大だと思いました。
追記:機械学習完全マスター教科書販売中です(980円[期間限定]:24350文字の教科書です)
pythonの一般的な教本と一味違い、
- 第一に機械学習を最短経路で「実装」できる
- 第二に詳しい原理が理解できる
これらを重視して執筆しました。
普通の教本の1/4くらいの値段ですし、誰かに紹介すれば半額の紹介料が入るのですぐ元は取れます
★★★★★この価格でこのクオリティは凄すぎる
大学生ですが、これをつかって実験のレポートのデータ解析などにもつかえそうだと思いました! また、値段が安すぎて恐縮してます汗 凄すぎる…
レビュー欄より
★★★★★ 数ある教材の中でもトップクラスの分かりやすさ
これを機会に一度挫折したpythonを学び直そうと一念発起いたしました。いろいろなお勧めサイトの教材を拝見し購入しては失敗していましたが、ようやく超優良教材見つけました。知りたかった情報がすべて網羅されていて、この価格はなかなか無いと思います。今後の追加情報も期待したいです。
レビュー欄より
↑こんなコメントも頂きました!ありがとうございます(泣)
お役に立てて、必死に執筆した甲斐がありました(泣)(泣)
レビューはモチベに繋がるので、順次追記してコンテンツを増加していきます!乞うご期待!
追記[2020/03/14]:コンテンツ追加しました。
- ランダムフォレスト&LightGBM内部計算の可視化方法
- 内部可視化を基にした原理解説
- 学習の進行による予測分布の変化
- マテリアルズインフォマティクスへの活用方法
Python初心者であれば更に理解が深まり、玄人でも更なる原理や挙動の知見を得ることができるようになりました!
是非一読あれ~
↓リンク
機械学習はこれ一本!pythonインストール~機械学習実装まで完全理解講座
そして世界に革命を起こすこと間違いなしの機械学習全自動化ライブラリ「PyCaret」の使用方法や、今後の社会を予想した
機械学習全自動化!?世界に革命を起こす「PyCaret」完全理解講座
も同時発売中です。
「PyCaret」を使いこなせば、22種類もの機械学習手法と一気に比較したり、ブラックボックスであるモデル内部の解析までわずか10数行のコードで行うことができます!
中身はこんな感じ↓
- Pythonのインストール
- Anaconda「JupyterNotebook」の起動
- 仮想環境構築
- データセット
- 中身の確認
- PyCaretを実装する
- ライブラリのインポート
- データ型を推測させる
- モデルの構築
- モデルの選択
- ハイパーパラメータチューニング
- 学習結果の可視化
- Hyperparameters
- Residuals Plot
- Prediction Error Plot
- Cooks Distance Plot
- Recursive Feature Elimination
- Learnig Curve
- Validation Curve
- Manifold Learning
- Feature importance
- Stackingさせる
- 機械学習の未来について所感
- 機械学習は社会人必須ツールへと昇華(陳腐化)する
- 機械学習自動化で社会はこう変わる
- チームメンバーに求められるスキルも変化する
- データサイエンスとして突出した人材になるには?
- この記事を見たあなたは「先行者利益」を得る
Python初心者でもインストール~全自動ライブラリ実装・解析まで出来るようになります。
980円:11080文字の教科書になっています。
全自動でもいいからパッと機械学習を実装したい!
「PyCaret」のような最新技術を使いこなしたいな。
という方には非常にオススメです。是非一読あれ!
↓リンク
機械学習全自動化!?世界に革命を起こす「PyCaret」完全理解講座
「機械学習の基礎から学びたい人」向けのオススメ記事
Kaggleのような「テーブルデータでの回帰」を一から実装+機械学習の原理を理解できるシリーズを作りました。
非常に分かりやすく、丁寧に書いているので初心者でも機械学習モデルを作ることができます!
是非一読ください。
↓ 第一回はこちら ↓
コメント