2020年順位予想振り返り

2021年1月19日火曜日

セイバーメトリクス 野球の話

t f B! P L

 昨季の開幕前にNPBセ・パリーグの順位を予想しました。 
https://1point02.jp/op/gnav/column/bs/column.aspx?cid=53628
 今回はこれを振り返りたいと思います。  

予測と分析の方法

 今回自分が使用したのは、以前記事にしたNPB版PECOTAです。 
 これを球団別に足し合わせて得点と失点を求め、ピタゴラス勝率(以下P勝率)に換算して順位を予測しました。 

 P勝率というのが味噌で、P勝率をピタリと当てても実際の順位と一致するとは限りません(特に2020年は試合数が少なく、P勝率順と実際の順位にかなり違いが生まれています)。 
 一方で順位と極めて高い相関関係にあることも事実であり、MLBの順位予測もほとんどはP勝率及びそれに準ずる数値を元に算出されています。 

 2013年のソフトバンクがP勝率1位であるにも関わらずBクラスに沈んだ際には「監督の采配のせいだ」とされましたし、逆にP勝率最下位ながらAクラスでフィニッシュした2015年の阪神の和田監督は「名将だ」と言われました。 
 しかし、P勝率と実際の勝率との差は年度ごとの相関が無く、采配能力と結び付けられるものとは考えにくいです。同様に、「リリーフが良いから」「打線が良いから」といった理由付けも考えられますが、それらとP勝率差との相関関係もありません。 
 こういった期待される勝利数と実際の勝利数の差の責任を監督に求める考え方は采配批判に使われることが多いですが、実際には間違いであると言えます。

 P勝率が最も高くなるように編成したのに勝率が奮わないというのは当事者からすればたまったものではありませんから、過去にはこの勝率との差を広げるための研究も行われることもあったようですが、現段階では再現性のない数字だと判断せざるを得ません。 
 結局、上で挙げたソフトバンクは翌年優勝していますし、阪神はP勝率以下の勝率でBクラスに終わっているので、長い目で見れば収束するという判断も出来ます。 
 ちなみに、「その年の勝率と翌年の勝率」と「その年のP勝率と翌年の勝率」を比べた場合、後者のほうが相関が強いです。

 無論、ペナントの順位は結果として受け止めねばなりませんが、そこに至った理由を探り予測モデルを改善する上では、予測されるP勝率を実際のP勝率にどれだけ近付けられたかに焦点を当てる必要があります。 

P勝率と予測勝率

 昨シーズンで実際に記録されたP勝率とシーズン前に自分が計算した予測P勝率とを比較してみましょう。

セ・リーグ

パ・リーグ

 左側が実際のP勝率[1]及びそれを元にした順位、真ん中が自分の予測した順位・P勝率、右が冒頭記事の予想者10人のうち最も多かった予想順位になっています。
 全体的に、実際のシーズン成績は大小はっきりしているのに対して、予測P勝率はチーム間の差が小さいです。これは、成績予測を行う際に各選手は平均的な成績に回帰する、すなわち近年で好成績を残していた選手は成績を落とす割合が多く、低すぎる選手は上がる割合が多いため、トータルでは5割に近くなるのが理由だと考えられます。

 セは4・5・6位は一致しましたが巨人が3位→1位で、DeNAと阪神は繰り下げという形になっています。一方のパは1・5・6は一致しましたが、日ハムは4位に沈み、その分楽天とロッテは繰り上げという形になりました。
 これをもう少し掘り下げてみましょう。

得点数・失点数の比較

 今度は実際の得点・失点と予測された得点・失点とを比較してみます。

セ・リーグ


パ・リーグ



 得失点の予測値と実際の値。どこで大きな違いが生まれているのかがわかります。
 巨人は失点を大きく見積もりすぎており、逆に日ハムは失点を少なく見積もりすぎていたようです。12球団の得点の予測値と実際の値の相関係数は0.75でしたが、失点は0.33と芳しくありませんでした。過去のNPB球団の前年の失点率と翌年の失点率の相関係数が0.6程度であることを考えると、かなり低い数字です。
 原因としては、2020年のペナントレースの特殊性のために選手の運用方法やサンプルサイズに変化が挙げられますが、予測の手法にも問題があったように思います。

 実は選手個々の成績を見ると、2020年の投手成績予測の誤差は例年とあまり変わりません。下の表は投手の各スタッツの予測と実際の成績との二乗平均平方根誤差。

 しかし、元々自分の予測システムは選手個々の打撃成績と投球成績を予測するためのもので、チーム単位の予測は想定していませんでした。今回成績予想のお話をいただきチーム単位の予測にするために急遽辻褄を合わせようとしましたが、その際にいくつかの歪みも生んでしまいました。
 その最たるものが投手成績と守備成績で、投手成績は予測失点率を使ったため守備成績と二重評価になっていしまい、守備成績の方はかなり雑な年齢曲線を当てはめるだけという、総じてお粗末なものでした。
 これらの点が、「選手の成績の誤差は小さいのにチーム単位で見ると大きい」という結果を生んでいるように思いました(他の予想者の方と深刻な差があったわけでもありませんが)。

所感

 セを独走した巨人の優勝を外してしまったのは悔しい結果ですが、意外と当たるもんだなとも感じました。
 コラム内で「山口の退団で巨人の失点は大きく増える」という部分は(理由はどうあれ)外してしまいましたが、一方で「秋山退団に加えて森・外崎は成績が落ち込む」という部分は当たっていました。
 順位予想なんていうのは天気予報のようなもので、当たろうが当たるまいが誰も責任は取ってくれません。ただ順位予想の当たった外れたで一喜一憂するだけなら、ローカル番組で順位予想しているOB達を見ていれば十分楽しめるでしょう。
 しかし、どういった手法でその予想をしたのか、そしてシーズンが終わってから何故当たった・外れたのかを分析し改善に繋げることは有意義な研究と言えるのではないでしょうか。



[1]今回の記事で使用したピタゴラス勝率は、係数に2ではなくNPBの実際の勝率と相関が強いとされる1.64を採用しています。

このブログを検索

Twitter

QooQ