@mkymdk Profile picture

Mukaiyama

@mkymdk

20代SE。python/データサイエンス/数学/統計学/kaggle/将棋/ポーカー/麻雀/react/投資/所有資格:AP/AZ-900/Silver SQL/Java Silver/簿記2級/Googleデータアナリティクス修了/GCI 2022 Winter修了/マナビDX2023修了

Similar User
あきま photo

@akimablog

KI photo

@kiDataScientist

ゆう photo

@ieyasu_ds

ラフ・メーカー photo

@makeeeer

Haru photo

@52ng8PZ

YoYo photo

@Mll4qXh

dst.cogito.y2 photo

@dst_cogit_y2

ことらいん photo

@kotrying

Marc photo

@Euclidian2718

mgb photo

@deeplearnerjp

ぴよひこ photo

@piyoengi

Mukaiyama Reposted

【10月23日発売】最新刊プレゼントキャンペーン ➡下記書籍を抽選で3名様に\プレゼント/🎁 ✅応募方法 ❶当アカウントをフォロー ❷このポストをリポスト 応募締切10/29まで/当選連絡DM📩 『信頼性の高い機械学習』 oreilly.co.jp/books/97848144…

Tweet Image 1

Mukaiyama Reposted

【10月19日発売】最新刊プレゼントキャンペーン ➡下記書籍を抽選で3名様に\プレゼント/🎁 ✅応募方法 ❶当アカウントをフォロー ❷このポストをリポスト 応募締切10/27まで/当選連絡DM📩 『マスタリングAPIアーキテクチャ』 oreilly.co.jp/books/97848144…

Tweet Image 1

久しぶりにzennで記事書きました。基本的かもしれませんが、gitを完全に初期化する方法を調べてもなかなかみつからなかったので、記事にまとめています。 Gitを完全に初期化して、すべてのコミット履歴やステージングの履歴を削除する方法|Mukaiyama zenn.dev/mkymdk/article… #zenn #git


#Python 一時的にパッケージを使いたい場合: !pip 複数のセルで同じパッケージを使いたい場合: %pip JupyterLab などのマルチセッション環境: %pip (カーネル全体で共有されるため)


#Python KNNImputerは、他の手法では補完が難しいような、欠損値が多い場合でも、比較的安定した結果を得られる。scikit-learnの他のモジュールとの連携が容易。パイプラインに組み込むことで、前処理とモデル構築をシームレスに行える。


#Python #機械学習 Target Encoding は、データによっては強力な反面、目的変数をエンコードに用いるためリークも生じやすく扱いが難しい。CatBoostではOrdered TSという方法でターゲットエンコーディングを行っていてリークが起こりにくいらしい。 blog.amedama.jp/entry/target-m…


#Python #LightGBM [LightGBM] [Warning] No further splits with positive gain, best gain: -inf オーバーフィッティングの可能性あり 次の項目に当てはまっていないかチェック。 ・同じデータばかりになっている ・num_leavesを大きくしすぎている ・min_data_in_leafが小さすぎる


Kaggle等のデータ分析コンペ等で使える、 変数間の組み合わせで新しい特徴量を作成する関数 をzennにまとめました。 改善の余地は多いにあるため、 アドバイスいただけると幸いです。 Kaggle 変数間の組み合わせで新しい特徴量を作成|Mukaiyama zenn.dev/mkymdk/article… #zenn #Kaggle


#Python #Tabnet 最近、KaggleでTabnetが流行っているのか。テーブルデータ向けのニューラルネットワークモデルです。 決定木ベースのモデルの解釈可能性を持ちつつ、 大規模なテーブルデータに対して高精度な学習が可能。 qiita.com/ps010/items/ea…


#Python LightGBMは、数値データに対して非常に強い一方、カテゴリカルデータにも対応できる。カテゴリカルデータを多く含むデータセットでは、場合によってはCatBoostの方がより高い性能を発揮するが、データの特性や前処理の方法で結果は異なるため、どちらが優れているかはケースバイケース。


#python #機械学習 LightGBMは数値データを大量に含むデータセットで高い精度を達成できる。 「カテゴリカルスプリット」という機能があり、カテゴリを自動的にエンコードせずに、分岐の際に効果的に利用できる。しかし、これが他のエンコード手法より必ずしも優れているとは限らない。


#python #機械学習 CatBoostの特徴的な点の一つは、カテゴリカルデータを自動的にエンコードする独自の方法を持っていることです。カテゴリカル特徴量をエンコードする際に、ターゲットリーク(ターゲット値が漏れること)を防ぐための特別な手法を用いている。


#python モデルが出力する確率が必ずしも真の確率を表しているとは限らないため、キャリブレーションが必要になる。 プラット・スケーリングは、モデルの出力確率を調整し、真の確率をよりよく反映させるために用いられる手法。 scikit-learnライブラリを使った実装できる。 qiita.com/F8LUUI5kOxLvrm…


#python #機械学習 不均衡データに対するオーバーサンプリング。 やらなくても良い精度でるのでやったことないけど、いつかは勉強したい。 qiita.com/eigs/items/9ed…


#python #機械学習 オリンピック形式みたいに最大値と最小値を除外して平均取って、欠損値を埋める方法もあることを学習。


Mukaiyama Reposted

【8月6日発売】最新刊プレゼントキャンペーン ➡下記書籍を抽選🎯で3名様に\プレゼント/🎁 ✅応募方法 ❶当アカウントをフォロー❷このポストをリポスト 応募締切8/19まで/当選連絡DM📩 『生成 Deep Learning 第2版』 oreilly.co.jp/books/97848144… #生成AI #AI #DeepLearning #マルチモーダル

Tweet Image 1

ローカルでAWSライクな環境を作れるOSSっぽい。 従量課金制がネックで、AWS勉強したくても手をだせていなかったが、localstackをAWS代りに使えるかな? 他にAWS勉強できそうなものあるのかな? #AWS #localstack github.com/localstack/loc… zenn.dev/yunbopiao/arti…


Silver SQL合格しました。 基礎的なSQLやOracleのDBについて 理解できるようになりました。


Mukaiyama Reposted

【5月28日発売】最新刊プレゼントキャンペーン ➡下記書籍を抽選で3名様にプレゼント ✅応募方法 ❶当アカウントをフォロー❷このポストをリポスト 応募締切6/3まで/当選連絡DM 『プロダクトデザインのためのストーリーテリング』 oreilly.co.jp/books/97848144… #ストーリーテリング #プロダクトデザイン

Tweet Image 1

Mukaiyama Reposted

【4月23日発売】最新刊プレゼントキャンペーン ➡下記書籍を抽選で3名様に\プレゼント/ ✅応募方法 ❶当アカウントをフォロー❷このポストをリポスト 応募締切5/6まで/当選連絡はDM 『Real World HTTP 第3版』 oreilly.co.jp/books/97848144… #HTTP #Web開発 #Web技術

Tweet Image 1

Loading...

Something went wrong.


Something went wrong.