第9回 コレスポンデンス分析の結果を解釈する上での注意点(2008.11.1)


 前回、打者を打ち取った内容(空振り三振、見逃し三振、ゴロアウト、併殺打、内野フライ、外野フライ、ファールフライ)と各投手(両リーグで25人)について、コレスポンデンス分析でポジショニング(マッピング、マップ化)した。その結果について納得できそうな解釈もできたが、今回はコレスポンデンス分析を解釈する上での注意点を述べたいと思う。

 前回のポジショニングの結果を再掲するので、これをもう一度眺めながら考えてみたい。


 前回で私は「ピッチャーの球種(ピッチングスタイル)で分類されている傾向にある」と推測した。
 おそらくこの推測は間違っていないと思うが、ピッチャーの球種(ピッチングスタイル)だけで全てが決まっている訳ではないという点に注意が必要である。
 コレスポンデンス分析というのは2変数間のクロス集計について、各カテゴリー(ここでは投手と打ち取った内容)を数値化してグラフ化したものである。この2変数間のクロス集計というのが肝心なところで、今回のコレスポンデンス分析の元データというのはExcelでは以下のような構成となっている。



 1行目にデータラベル(タイトル)があり、B列からO列までデータが並んでいる。データラベルを見れば何を意味するかはわかると思うが、それぞれを順に述べる。なぜこんなに変数(列)が多いのかと疑問に思うかもしれないが、読み進めれば、その理由もおわかりいただけると思う。なお、A列が空白なのは特に意味はない。
 このような形式で入力していくと全部で65400行になり、Excel2003でのワークシートの限界である65536行に迫るほどのデータ量(ファイルサイズだと20M以上!)になった。

・B列:日付その試合が行われた日付である。
・C列:月B列の日付から月だけに絞ったものである。
3〜4月、5月、6月、7月、8月、9〜10月の6つで分類している。
・D列:所属K列の打者の所属するチームである。言うまでもなく12球団で分類している。
・E列:相手L列の投手の所属するチームである。こちらも12球団で分類している。
・F列:ホームその試合のホームのチームである。同じく12球団で分類している。
・G列:ビジターその試合のビジターのチームである。同じく12球団で分類している。
・H列:球場その試合が開催された球場である。各球団の本拠地球場だけでなく地方球場も含まれている。
・I列:打順その試合のスタメン時の打順である。途中出場の選手は空白にしている。
・J列:守備位置その試合の守備位置である。
スタメンや途中出場関係なく、その試合でついた全ての守備位置を網羅している。
・K列:打者名その試合に出場して打撃機会のあった打者を記載しているので、守備固めで出場して打席に立たなかった選手は含まれない。
・L列:結果その打席での結果である。
単なる安打やアウトの分類だけでなく打球方向なども網羅しているため、全部132通りに分類されている。
コレスポンデンス分析の際には、アウトだけを抜き出して、1塁フライや2塁フライなどはまとめて内野フライアウトに、のように大きなカテゴリーに分類し直している。
・M列:投手名その試合に登板して打者と対戦機会のあった投手を記載している。
・N列:イニングその試合で打者と投手が対戦したイニングを記載している。
言うまでもなく、1回から12回までに分類している。表と裏には分類していない。
・O列:打席その試合で打者と投手が対戦したイニングを記載している。
第1打席から第7打席までの他に、代打出場の場合は別途「代打」として分類している。

 説明がかなり長くなったが、今回のコレスポンデンス分析というのはL列の「結果」とM列の「投手名」の2変数をクロス集計したものに対して実施した。B列からO列までの14変数のうち、たった2変数の情報しか分析に使っていないのである。コレスポンデンス分析を多変量解析(一般的に3変数以上の時の分析を意味する)の一部として捉えていた方は注意していただきたい。多変量解析(重回帰分析、判別分析、主成分分析、因子分析など)では変数相互の相関関係などを考慮して計算されているが、コレスポンデンス分析では2変数しかないので、他の変数との相関関係が反映される余地がない。ここでは残りの12変数についての情報は潜在的には生きていることはあるものの、クロス集計表やコレスポンデンス分析のグラフ上ではその情報が隠れてしまうのである。
 それに上記のExcelでは「球種」に関するデータがないため、私の推測である「ピッチャーの球種(ピッチングスタイル)で分類されている傾向にある」を検証することが不可能である。尤も、仮にあったとしても、このデータ形式では最後の球(野村克也は自身の著書で結果球という言い方をしている)しかデータが残らず、それまでの攻め方(どういうコースにどういう球種で攻めたのか)がわからないので、検証するには不充分なのだが。

 L列の「結果」とM列の「投手名」のクロス集計をすることで、
 ・ダルビッシュ(日本ハム)は奪三振の割合が高い
 ・黒田博樹(広島)はゴロアウトや併殺打の割合が高い
などがわかり、投手ごとのアウトの取り方の違いがわかる。そのアウトの取り方(結果)として、球種が影響していると推測したわけだが、もちろん球種だけでないことは既に述べた。
 球種よりもむしろ、打者の力量やタイプだったり、捕手のリード(ベンチからのサインも含む)だったり、アウトカウントや点差状況だったりなどの上で示したExcelのデータには現れてこない要因(背景)の方が強く影響しているだろうということである。
 例えば、ピッチャーがゴロを打たせるつもりで投げたボールをバッターが当てることもできずに三振することもあるだろうし、いくら速いストレートが持ち味で三振を取るピッチャーがいたとしても全部ストレートでは打たれてしまうのでキャッチャーやベンチは考えてサインを出すだろうし、1点もやれない場面とそうでない場面とでは同じ投球はしないだろうし、・・・などなどが考えられる。全体の結果だけで解釈しようとすると、様々な状況での結果(統計学では層別という言い方をする)を見落としてしまうことがあるので注意が必要である。
 そうは言っても、140試合以上という長い期間を考えれば、偶然の要素(統計学では誤差という言い方をする)が入りにくくなるので、今回のように解釈しやすい結果が出てくることは確かである。層別にこだわりすぎるとデータの数(行の数)が少なくなってしまって正当な評価・解釈ができなくなるので、データはなるべく多く取ることが必要である。
 今回のコレスポンデンス分析の結果を「グラフだけ見て終わり」ではなく、上で述べたようなことも背景にあることを知った上で結果を解釈することが非常に重要である。


 テレビで日本シリーズ第1戦を観戦しながら(現在9回裏)、今回の稿を終わりにする。
 今回は投手から見た結果だったが、K列の「選手名」とL列の「結果」をクロス集計をすれば、打者から見た傾向が出るので、何か面白いものがあったら次回以降で紹介したいと思う。



プロ野球記録回顧部屋に戻る