「類似選手検索」と「NPB版PECOTA」

2020年3月12日木曜日

セイバーメトリクス

t f B! P L

お久しぶりです。
いずれ色々やりたいと思いつつも忙しかったりプロ野球への関心が薄れたりで長らく放置していました。
なんとか生存してます。

最近作ったものを紹介しておきます。

類似選手検索

こないだまでプログラミングの勉強がてら作っていたwebアプリ。
類似選手検索
成績を入力するとそれと似ている選手の成績を検索してくれるというものです。表で出力されるのでスマホ非推奨。結構重い。
年度版もありますが80年分の選手成績データを読み込んでいるため更に重いです。初回の読み込みに2分くらいかかります。これくらいデータが大きいとフロントで処理するのではなくPHPからDBを叩くのが真っ当なやり方でしたね。

追記:githubに設置してみたら遥かに短い時間で表示されたのでこっち使ってください。。https://nannj.github.io/similarity/



成績予測システム

また、これを利用して新たにNPB版PECOTAを作りました。
詳細な方法論はまた気が向いたら書きますが、以前作ったものと違いデータの参照範囲や係数を改良し、リーグ補正等もかけてちゃんとそれらしい成績を予測するようになっています。

2020年成績予測データ

Excelなどで扱いたい場合はページごとコピペが手っ取り早いかと思われます。
VORPは代替選手レベルに比べて何点分の利得を生むかを表す指標。YoYはその前年比の数字で、データはYoYを降順にしたものを公開しています。
一番右のSimは去年の成績に一番似ていた選手。2020年の成績予測には2019年までの全選手データを使用したので、前年の自身が該当することもそれなりに多いです。ここは除外するべきかどうか判断が難しかったのでsubタブで別に本人を除いたバージョンも用意してます(大きな差はなし)。

過去の成績から未来を予測しようとすると、飛び抜けてだめだった選手ほど良化しやすく、良かった選手ほど悪化しやすい、という点はどれも共通しています。
特に投手は統計的に、前年よりも成績が悪化しやすい傾向にあり、その結果が反映されている感じ。

チーム成績も同じように予測できそうなのでやってみます。

このブログを検索

Twitter

QooQ