Kaggle班の紹介
Kaggle班は、2024年度から新設され活動を始める新しい班です。
Kaggleをはじめとしたデータ分析コンペなどの参加を見据えつつ、機械学習について部員同士で学び、知識を深めることを目的としています。
機械学習とは?
最近では、生成AI, ChatGPT などのワードをSNSやニュースで耳にすることも多くなってきたかもしれません。
これらの、いわゆる AI(人工知能) を実現する上で、現在最も主要なアプローチが機械学習です。
機械学習では、大量のデータを用いた「学習」を行うことで、病気の診断から画像生成、需要の予測や対話まで、様々な知的な作業をコンピュータに行わせることができます。
数学とプログラミングを用いて鮮やかに問題を解くことができるとても楽しい分野です。
Kaggleとは?
Kaggleは、「データ分析コンペ」と呼ばれる競技のプラットフォームの名前です。
いきなり登場した「データ分析コンペ」というのは、ひとことでいうと
「未知の情報を予測する機械学習モデルの精度を競う大会」です。
とはいっても想像がつきにくいと思うので、具体的にどのような大会 (コンペティション) があったのかいくつか紹介してみます。
Mercari Price Suggestion Challange というコンペティションでは、商品名、商品のブランド名、といった情報や、送料は購入者負担か出品者負担か、などという情報などを用いて未知の情報である「商品の売れた価格」を予測する精度を競います。
各参加者は、過去の大量の売買記録からメルカリで売れる商品の値段を予測するモデルを構築します。これがどれくらい正確かをみんなで競うわけです。
例えば、上の画像のモデルが ¥1200と予測したわけですが、実際には¥2000で売れたとします。すると、¥800 分予測と真の値がズレていたことになります。これがこの人の「スコア」になり、小さければ小さいほど上の順位になります。
これが、データ分析コンペの大まかな枠組みになります。
他にも、
- 脳のCT画像を元に頭蓋骨内の出血箇所を発見するコンペティション
- 動画がディープフェイクかどうかを判定するコンペティション
などなど、多種多様なコンペティションが開催されています。
Kaggle以外のプラットフォーム
ここまでさまざまなコンペティションを紹介してきましたが、これらは 「Kaggle」というプラットフォームで開催されたものです。
整理すると、データ分析コンペティションというのは競技の名前で Kaggleはプラットフォームの名前です。イメージとしては、「データ分析コンペ」は「野球」、「Kaggle」は「高野連」、「メルカリコンペ」は「甲子園」みたいな感じで対応しています。
もちろんKaggle以外のプラットフォームも存在して、日本だとsignateやprobspace、Nishika あたりが有名です。他にも常時多くのコンペが開催されているわけではないですが、atmaCupは問題の質・参加者のレベル共に非常に高いことで知られています。
そんな中、やはり著名で規模が大きいのはKaggleです。
Kaggleは2010年に設立され、現在はGoogle傘下で運営されており、これまで500以上のコンペを開催してきました。多くのユーザーを抱えていることもあり、ユーザー間の議論や情報の共有なども非常に活発です。
コンペの魅力
データ分析コンペに参加することで、実際に機械学習を使って問題を解決する実践的な能力を養うことができます。
そのため、就職や転職を行うためのスキルの獲得方法としてKaggleに取り組むという人もいます。
また、多くのコンペティションには賞金が設定されており、上位入賞することで金銭的な報酬を得ることもできます。
しかし、競技そのものにもやはり大きな魅力があります。
データを丁寧に分析し隠された構造を見出すこと、仮説を立ててそれを検証し、評価していくこと─ データ分析には、一種の推理ゲーム的な楽しさがあります。この類が好きな人はきっとデータ分析コンペも楽しめると思います。
さらに、多くのコンペでは実際に企業や研究機関が集めたデータが使われます。実際のデータに触れる機会はそう多くないので、実世界で起きたことを覗き見したり、実社会の問題解決の助けになるのもデータ分析コンペの魅力です。
Kaggle班の活動
さて、Kaggle班はここまで紹介してきたデータ分析コンペを念頭に入れつつも、機械学習全般について扱う班です。
コンペの話題に限らず、例えば生成AIなどのモデルについて学んだり、関連したプログラムに関する話題、より理論的な側面などについても取り上げ、部員同士で機械学習に対する理解を深め合うことを目標にしています。
具体的な活動
具体的には次のような活動が予定されています。
機械学習講習会
機械学習初学者が、機械学習の基本的なアイデアを理解できるようにするために全7回で行う講義形式の講習会です。
この講習会にきちんと参加してもらえれば、Kaggle班での活動を開始できるようになることを目標にしています。
具体的な内容については、昨年度の開催ブログに詳しく書いてあるので、興味がある方は読んでみてください。
部内コンペティション
毎年、夏休みに部員向けのコンペティションを開催しています。
昨年度には、ピクシブ株式会社様からスポンサードしていただいて、表彰や交流会などを行いました。今年度も同様にコンペの開催・企業との交流等ができればと思っています。
勉強会
部員同士で機械学習に関連する本を読んで内容を検討します。
記事