【翻訳】フィギュアスケートの採点調査 第一部ナショナルバイアス
フィギュアスケートの採点調査
偏向採点とフィギュアスケート:第一部:ナショナル・バイアス
投稿者:FS Judging Review
翻訳者:翻訳班 MK
シニアグランプリシーズンがもうすぐ始まる今、ジャッジの記録を体系的に見るのにふさわしい時期だと考えました。フィギュアスケートのジャッジ達は、若い選手の今後の経歴を決定する上で重要な責任を負っているにもかかわらず、ほとんどその責任を果たしていないことはよく知られています。採点基準がしっかりと文書化されて説明されているにもかかわらず、 偏向採点がはびこり、処罰されるのは最も悪質なものだけです。また、国際スケート連盟(ISU)は、ジャッジの採点の細かい記録を把握しているようには見えません。そこでジャッジは、個々の試合では極端な偏向を見せずに、すべての試合で、度を越さない範囲内の偏向におさめて、調査の目をすり抜けています。
そこで私は、ジャッジの責任問題を改善するために、データを自分で集 めて分析することにしました。今シーズンは、いくつかの問題を検討するつもりです。1.ナショナル・バイアス(国家主義的偏向)。 2. ブロック・ジャッジング。ジャッジが、特定の国のスケーターに有利になるように偏向採点すること。例えば、ロシアのスケーターを有利なるように採点する、旧ソ連諸国のジャッジに見られるようなもの。 3.ライバル国のジャッジによる、トップ選手への下げ採点。例えば、アメリカのジャッジは羽生結弦に低い点をつけているでしょうか?日本のジャッジはネイサン・チェンに対してどうでしょう?ロシアのジャッジは紀平梨花に対してどうでしょう?など。私の願いは、ジャッジに説明責任を持たせることに加えて、ファンが長い間抱きつつも、はっきりとした証拠がなかった疑念を払拭することです。
まず最初に、ナショナル・バイアスについて見ていきます。 統計的に見て、どのジャッジがナショナル・バイアスの証拠を示しているかや、それをどのように判断するかについて説明し、懸念されることとその限界について述べます。
第一部:ナショナル・バイアス
まず最初に私は、skatingscores.comから入手可能なデータを使用し、それを数式によって処理して、各ジャッジが各スケーターをどのように採点したかを確認しながら、ISUチャレンジャーシリーズ、グランプリシリーズ、チャンピオンシップを採点した、国際レベルの上級ジャッジの採点について、採点記録のスプレッドシートを編集しました。また、他の試合、2019年チャンレンジ・カップとワールド・チーム・トロフィーも加えました。(注:この投稿の公開後、判定基準により一貫性をもたせるために、次のアップデートの際にはその2つを削除することにしました。この2つはその試合の重要度を誤解していたため、今回のバージョンには含まれています。)こうすることで、一部のジャッジにフラグが立てられるかもしれません。
現在、データベースには312人のジャッジがおり、そのうち177人に対して、ナショナル・バイアスがあるかを調べました。(他のジャッジには判定するのに十分な記録がありませんでした。)その中の92人から、ナショナル・バイアスに関して統計的に有意な証拠が見つかりました。さらにその中の74人から、重大な証拠が見つかりました。おおむね、ジャッジは他国のスケーターとは全く違うやり方で自国のスケーターを採点していました。たとえば、自国のスケーターと他国のスケーターの採点の平均Zスコア(これについては後述)の表をつくると、次のようになります。
ご覧のとおり、全く異なる2つのパターンがあります。
誰がこういう採点をしているのでしょうか。次のリストでは、ジャッジを連盟ごとに分けてあります。統計的に基準を満たしている者(p <0.05)、より多くの基準を満たしている者(p <0.01)は太字にし、さらに多くの基準を満たしている者(p <0.001)は太字と下線を付けてあります。連盟名の横のカッコ内の数字は、『調査済み』のジャッジの数です(登録してあるジャッジの総数ではなく、データの不足により調査していない場合もあります。)偏向採点がはっきりと証明されるジャッジがいない連盟は、リストに入っていません。
偏向採点の記録を持つジャッジ
Austria (3) | Adrienn Schadenbauer |
Canada (23) | Andre-Marc Allain, Cynthia Benson, Leanne Caron, Reaghan Fawcett, Karen Howard, Leslie Keen, Patty Klein, Nicole Leblanc-Richard, Erica Topolski |
China (5) | Dan Fang, Shi Wei, Fan Yang |
Czech Republic (7) | Frantisek Baudys, Jana Baudysova |
Spain (2) | David Munoz |
Finland (7) | Merja Kosonen, Virpi Kunnas-Helminen, Leo Lenkola |
France (8) | Ronald Beau, Jezabel Dabouis, Elisabeth Louesdon, Philippe Meriguet, David Molina, Florence Vuylsteker |
Great Britain (5) | Christopher Buchanan, Stephen Fernandez, Sarah Hanrahan, Nicholas Russell |
Georgia (1) | Salome Chigogidze |
Germany (13) | Christian Baumann, Ulla Faig, Uta Limpert, Claudia Stahnke, Elke Treitz, Ekaterina Zabolotnaya |
Hungary (2) | Attila Soos, Gyula Szombathelyi |
Israel (2) | Anna Kantor, Albert Zaydman |
Italy (11) | Matteo Bonfa, Rossella Ceccattini, Raffaella Locatelli, Isabella Micheli, Tiziana Miorini, Miriam Palange, Walter Toigo |
Japan (16) | Miwako Ando, Tomie Fukudome, Ritsuko Horiuchi, Akiko Kobayashi, Takeo Kuno, Kaoru Takino, Sakae Yamamoto, Nobuhiko Yoshioka |
Kazakhstan (2) | Yuriy Guskov, Nadezhda Paretskaia |
South Korea (2) | Sung-hee Koh, Jung Sue Lee |
Latvia (1) | Agita Abele |
Lithuania (1) | Laimute Krauziene |
Mexico (1) | Sasha Martinez |
Poland (3) | Malgorzata Grajcar, Malgorzata Sobkow |
Russia (14) | Maira Abasova, Julia Andreeva, Sviatoslav Babenko, Igor Dolgushin, Elena Fomina, Maria Gribonosova-Grebneva, Natalia Kitaeva, Olga Kozhemyakina, Lolita Labunskaiya, Igor Obraztsov, Tatiana Sharkina, Alla Shekovtsova |
Switzerland (3) | Bettina Meier |
Sweden (4) | Inger Andersson, Kristina Houwing |
Ukraine (2) | Yury Balkov, Anastassiya Makarova |
USA (21) | Samuel Auxier, Richard Dalley, Janis Engel, Kathleen Harmon, Taffy Holliday, Laurie Johnson, Hal Marron, Jennifer Mast, John Millier, Sharon Ro |
太字になっていないジャッジが多いことに注目してください。彼らについては、より多くのデータが入って証拠が増えてくると、フラグが立てられると思います。また、調査の最低基準を十分に満たすと、すぐにフラグが立つジャッジも数多くいます。一方で、調査したジャッジの数が非常に多いため、運悪くこのリストに載っているジャッジがいる可能性もあります。(主に非太字の者。太字、太字+下線の者がそうである可能性は極めて低い。)(しかし、このリスト内のジャッジが、実際に公正である可能性はかなり低い。)一般的に言って、フラグを立てるべきジャッジを見逃した確率は、フラグを立てるべきでないジャッジにそうした確率よりも、かなり高いです。
この決定が平均値を基準として行われていることを知っておいてください。ここで偏向採点をしているとマークされた人は、偶然とは言い難い程度に自国のスケーターを上げ採点しますが、それは彼らがすべての試合で、自国のスケーターの一人一人を上げ採点するという意味ではありません。個々の採点はさまざまな要因の影響を受けるため、ジャッジによってかなり異なります。結局のところ、ジャッジには鋭い洞察力があるわけではなく、他のジャッジがどのように採点するかを予測できません。(逆に、採点記録を調べる時は、1つの採点が他ジャッジと異なり、ナショナル・バイアスと一致しているように見える場合があることにも注意しておかねばなりません。そのジャッジが常に偏向しているとか、採点がナショナル・バイアスゆえであるとは言い切れません。)
連盟同志を比較することもできます。ここでは、少なくとも10人のジャッジの連盟を検討し、ジャッジがこれまでの試合で偏向していた程度(ZDifference)を調べます。次の棒グラフは、各連盟のジャッジの何パーセントが、4つの異なるカテゴリーに分類されているかを示しています。具体的には、バイアスなし(0以下)、低バイアス(0-0.5)、中バイアス(0.5-1)、高バイアス(1以上)。このグラフには、情報量が少ないジャッジが含まれることに注意してください。
ご覧のように、カナダや、似た傾向をもつ連盟はありますが、他の連盟(主にロシア)の場合、すべてのジャッジは母国のスケーターを支持しています。ロシアは調査対象の連盟の中で最も高い偏向が見られますが、他の連盟では、偏向の度合いが高いジャッジの割合が多いです。
これらの大きな連盟のうち、オーストラリアだけが、あらゆる根拠に基づいて公平であるように見えます。これは、次のグラフをよく見てみることでより明確になります。これは、前のグラフとわずかに異なる方法で、各連盟のジャッジのZDifferenceの分布を示しています。これまでこのグラフを見たことがない人は、箱型部分が各連盟のジャッジの中央値50%を示していると理解してください。線は各連盟のジャッジの全範囲に伸びています。点では連盟内での外れ値です。
もちろん、これらの数字はシーズンが進んで、より多くの試合がデータに追加されるにつれて変化します。時間の経過とともに、この投稿を更新していくつもりです。(この図は2019年10月17日現在です。)私がどう決定をくだしたか(およびデータを読み取る方法)を理解するために、方法論を述べます。この考察には、おそらく多くの人に馴染みのない統計学の概念が関係するため、説明を加えると共に、ここで使われている統計学的概念へのリンクを提供しようと思います。 私が作成したわけではなく、あらゆる種類のデータを分析するために使用される、標準的な統計ツールを用いました。
方法論
ジャッジの偏向を決定する基本的な考え方は、各ジャッジを選出し、各スケーターの得点を他ジャッジの得点と比較し、ジャッジ全体からどれだけ乖離した得点を出しているかを定量化し、すべての数字を1か所にまとめることです。 そうすることによって、特定のジャッジが他のジャッジと比較して、自国のスケーターをどのように採点したかを見ることができます。次に、ジャッジの記録が偏向を示すはっきりした証拠を把握するために、その違いについて標準的な統計テストを実行しました。
これを行うために、2018年に採点システムが変更されて以来、チャレンジャーシリーズ、グランプリシリーズ、ISUチャンピオンシップのすべての大会で、すべてのジャッジが出した得点を記録することから始めました。また、チャレンジ・カップとワールド・チーム・トロフィーも含めました。(注:前述のように、これらはアップデートで削除し、基準をより一貫性のあるものにするつもりです)。Skatingscores.comによって各ジャッジの採点を検索し、スプレッドシートに手動で入力していきました。試合のスプレッドシートはこちらでご覧いただけます。
スプレッドシートを開くと、次のように表示されます。
Odhran Allen | Doug Williams | Maria Fortescue | Veronique Verrue | Andreas Waldeck | Lorna Schroder | Miwako Ando | Mean | ||
IRL | USA | ISL | FRA | GER | CAN | JPN | |||
Yuzuru Hanyu | JPN | 164.01 | 157.34 | 172.44 | 161.55 | 166.7 | 167.4 | 170.74 | 165.74 |
(2018 ACI男子フリー・スケート。この例は、全くランダムに選びました。)
ご覧のように、ジャッジ、ジャッジの国籍、スケーター、スケーターの国籍、各ジャッジが与えた得点、すべてのジャッジの得点の平均が表示されています。(数字を確認したい場合は、skatingscores.comから取得できます。 このウェブサイトの存在により、自分で計算する必要がなかったため、全体のプロセスがはるかに速くなりました!)
このデータから、私はまず、個々のジャッジの得点をすべての得点の平均から差し引くことにより、各ジャッジが他ジャッジと比較して、スケーターにいかに高い、あるいは低いスコアをつけているかを測りました。これにより、スコア偏差と言えるものを作りました。ここでユヅを例とすると、次の結果が生まれます。
Odhran Allen | Doug Williams | Maria Fortescue | Veronique Verrue | Andreas Waldeck | Lorna Schroder | Miwako Ando | ||
IRL | USA | ISL | FRA | GER | CAN | JPN | ||
Yuzuru Hanyu | JPN | -1.73 | -8.4 | 6.7 | -4.19 | 0.96 | 1.66 | 5 |
すると、オドラン・アレンは他のジャッジよりも1.73ポイント下、ダグ・ウィリアムズは8.4ポイント下の採点をした、等のことがわかります。これは、試合シートの2番目のブロックに示してあります。残念なことに、このデータだけに頼るわけにはいきません。というのも、最も健全なデータを取得するためには、ジャッジが各カテゴリーで、どのようにスケーターを採点するかを比較したいからです。-8.4という数字は、男子のフリーでも大きな差ですが、ショートでは絶大な差であり、男子よりも女子やペアではさらに大きな差となります。したがって、これらのスコアの偏差をより比較可能にするために、それらをZスコアに標準化する必要がありました。これは、データを標準化する一般的な方法です。計算方法は次のとおりです。まず、ジャッジのスコアの標準偏差を決定する必要があります。標準偏差は、一般的な統計的尺度の1つであり、一連の数値が平均からどれだけ広がっているかを示します。そのため、ジャッジの採点の幅が広くなる場合、標準偏差は比較的高くなりますが、採点がほぼ一致する場合には標準偏差は低くなります。この場合、ユヅのスコアの標準偏差は、男子ではかなり典型的な4.85でした。
Zスコアを計算する方法は、それぞれのスコア偏差をユヅのスコアの標準偏差で割るだけです。Zスコアをわかりやすく説明するならば、ジャッジがスケーターを平均より上、または下に採点した標準偏差の数です。ユヅの採点がZスコアに変換されると、スコア偏差はどうなるでしょう。
Odhran Allen | Doug Williams | Maria Fortescue | Veronique Verrue | Andreas Waldeck | Lorna Schroder | Miwako Ando | ||
IRL | USA | ISL | FRA | GER | CAN | JPN | ||
Yuzuru Hanyu | JPN | -0.36 | -1.73 | 1.38 | -0.86 | 0.2 | 0.34 | 1.03 |
Zスコアは通常-2~2の範囲内ですが、ジャッジが他のジャッジと『本当に』意見が合わない場合、その範囲外の数字になることがあります。(これは約5%の頻度で発生します)。下げ採点(他のジャッジより低い採点)はマイナスのZスコアになり、上げ採点(他のジャッジより高い採点)はプラスのZスコアになります。Zスコアを使用すると、実際にはジャッジの寛容さを示すことになります。ジャッジ内で採点について意見の相違がある場合、Zスコアは実際のスコアの差よりも極端ではないため、平均値との大きな差は「カウント」されません。一方で、ジャッジ内でおおむね合意がある場合に、一人だけそこから外れている人は、実際のスコアの差と比べて、より極端なZスコアを示す可能性があります。しかし全体としては、Zスコアにより、偏向した採点を見つけにくくなります。まあそもそも、そういうジャッジが目立たないというわけではありませんが。
これらのZスコアが各ジャッジ、試合、区分ごとに計算されると、特定のジャッジのすべてのZスコアが1つのシート(個々のジャッジのシート)にまとめられます。これらはジャッジの大きなデータベースにあります。 シートでジャッジの名前をクリックすると「ジャッジ」というラベルが付いていて、クリックしたジャッジの個別のシートに移動し、採点したすべての試合でのZスコアを確認できます。
左側には、統計一覧をまとめたものが表示され、右側にZスコアが表示されます。ご覧のとおり、それらはスケーターと国籍によってラベル付けされており、上部には、どの試合とどのカテゴリーか表示されているコードがあります。これは、[年] [試合コード] [カテゴリーコード]で構成されます。試合コードのキーは、ジャッジシートの「チェックリスト」部分にあり、どの試合がデータベースに含まれているかもリストになっています。
このデータは数式によって2つのグループに分割されます。自国のスケーターに対するZスコアと、他国のスケーターに対するZスコアです。自国のスケーターのZスコアは平均化され、左側にZ-homeが作成されます。他国のスケーターのZスコアについても同じで、Z-otherが作成されます。この2つの違いはとても興味深いもので、ZDifferenceとして計算されます。(これらの指標はジャッジ全体の概要にも表示されます)。
ZDifferenceは、ジャッジが自国のスケーターに与えた偏向の度合いを表すものと考えられます。経験則からして、実際のスコアでは、ZDifferenceが1の場合、1試合で男子で約7~8点、女子とペアで6点、アイスダンスで6~7点になります。言い換えると、ZDifferenceが1のジャッジは、自国出身でないスケーターと比べて、男子などで平均して7~8点のボーナス得点を与えているということです。
もちろん、ここでの偏向の度合いは、ジャッジの偏向の大きさを判断するための唯一の資料ではありません。あるジャッジのZDifferenceが1だとして、自国のスケーターを数回しか採点していない場合、ZDifferenceは単に偶然か、その他の要因によるものである可能性があります。一方、ZDifferenceが多くの試合の採点結果である場合、ジャッジが偏向していると確信できます。
ここで、pメトリックの出番になります。pは別の標準的な統計測定法です。データの状況について、pによって、偏向採点をしないジャッジ、つまり、自国のスケーターを他国のスケーターと同じように採点するジャッジが、実際の採点記録と同等かそれ以上の偏向を示す可能性があります。つまり、p値が低いほど、ジャッジが母国のスケーターと他国のスケーターを採点する方法に、何らかの体系的な違いがある可能性が高くなります。
慣例により、0.05未満のp値は統計的に有意であると見なされます。これは、ジャッジにフラグを立てるために使える基準ですが、多くの場合、pはそのしきい値をはるかに下回ることがあります。たとえば、ロシアのジャッジ、Olga Kozhemyakinaの場合、p値は0.000000000000003です。(公平なジャッジが彼女と同じか、それより劣った採点記録を残す可能性は0.0000000000003%であることに注意してください。)
ただし、統計的有意性が2つあるとは考えない方がよいでしょう。p値が低下すれば、ジャッジに対してより不審感が増します。しかし採点記録にフラグが立っていないジャッジの多くは、p値がかなり低いことには注目してください。これらのジャッジの採点記録がより多く入力されると、フラグが立てられると思います。
ZDifferenceとp値の両方を考慮することで、ジャッジの採点記録に対して、完全な評価を行うことができます。ZDifferenceは過去の偏向採点の重大度を示し、p値は偶然に生じた確率を示します。
2つの平均値の違いに対して、私は標準統計テスト‐ウェルチのtテストを使ってp値を計算しました。一方向への偏向だけを探る目的で、テストの片側バージョンを使用しました。多くの採点記録を持つジャッジは、自国と他国のスケーターの得点に不一致がある傾向があることに気づいたため、学生のtテストではなくウェルチのtテストを使いました。(残念ながらこの段落の内容を理解できなくても、問題ありません。p値の計算がいかに詳細に機能するかについては、さらに多くの説明が必要ですから、私にはそれをやり続ける必要があります。自ら学びたい場合は、統計の入門クラスを受講することをお勧めします。)
考察
そもそも、偏向とはどういう意味をもつのでしょうか?私は、実証可能な数学的な差異を用いて、ジャッジが自国のスケーターと他国のスケーターとの間に示す偏向を調べてきました。私は、あるジャッジが「偏向している」と指摘することによって、その人の心理と関連付けるつもりも、偏向採点した理由について何かを主張するつもりも全くありません。意識的なものか、無意識にやったのか、わからないからです。それは結果を操作するための意図的な企みかもしれないし、あるいは、ファンが好きなスケーターのスケートに関してしばしば見せるような、客観性の欠如でしかない可能性があります。個人的には、偏向の原因についてではなく、それが存在することについて心配しています。ジャッジの得点によって、若い選手の未来が決まることを思い出してください。皆さんはどうかわかりませんが、若くて信じられないほど熱心な人々の未来が、客観的でないグループによって決められたくありません。その客観性の欠如が、意図的に腐敗した結果なのか、単に判断が曇った結果なのかに関わらず。
ただし、少なくとも問題があるとは思えない偏向について、いくつかの具体的な説明をしてみましょう。ジャッジを批判から守るためにも。
- 偏向は、単に文化的な好みによるものです。人は文化的に馴染みのあるプログラムをより好意的に見て、より高い得点をつける傾向があります。そして、同じ国のジャッジとスケーターが、互いを文化的に理解できるのは明らかなことです。
まず第一に、同じ国のスケーターが全く異なるスタイルのスケートをして、全く異なった種類のプログラムを滑ることはよくあります。そのため、「ロシア人」や「カナダ人」、その他同じ国籍のスケーターついて、何か典型的なものが存在すると考えると、信用問題になります。サーシャ・トゥルソワ、アリーナ・コストルナヤ、アリーナ・ザギトワのそれぞれのプログラムは、全く異なっていますが、同じ人々によって指導され、振り付けさえされています!
第二に、文化的に類似した国のジャッジが、互いの国のスケーターにより高い得点を与えることと仮定します。たとえば、カナダと米国は文化的に非常に似ているため、カナダのジャッジは米国のスケーターに高い得点を与えるはずで、その逆もしかりです。幸いなことに、シートはこの問題を簡単にテストできるようになっており、(各ジャッジの個々のページ内の国コードを変更するだけで、特定の他国のスケーターの得点を確認できます)実際、そういうことは見当たりません。カナダのジャッジの大多数は、米国のスケーターを公平に採点しています。(このシートをダウンロードして、各ジャッジの国籍を、ある程度文化的に類似した、または地理的に近い国の国籍に切り替えることができます。または、元のシートでジャッジの国籍を自分で切り替えると、各ジャッジのすべての統計が再計算されます(ただし、概要シートではなく、各ジャッジの個別のシート内でこれを行う必要があります)。
これにはいくつかの例外があります。旧ソ連諸国のジャッジは、ロシアのスケーターを高く評価する傾向にありますが、偏向の程度は、自国のスケーターに対してほど深刻ではありません。また、韓国のジャッジは北朝鮮のスケーターに高得点をつけると考えていますが、この2つの国が類似の文化を持っているかには、かなり議論の余地があります。これについては、今後の投稿でさらに詳しく説明しますが、例外についてはもっと良い説明ができると思います。一般的に、文化的に類似した国は、お互いの国のスケーターにより高い得点を与え『ません』。
- 偏ることは人間の本性です。ジャッジも人間であり、ロボットではないことを理解する必要があります。
ジャッジは皆同じではありません。すべてのジャッジが、偏向採点した証拠を持っているわけではありません。たとえば、グレン・フォーティン(カナダ)、カタリーナ・ホイジンガー(ドイツ)、アンドレアス・ワルデック(ドイツ)、小塚あゆみ(日本)、宇垣静子(日本)、リンダ・リーバー(アメリカ)には、合理的な審査記録があります。少なくともナショナル・バイアスに関しては、ジャッジが公平であり得ることを明確にしています。すべての人がこの特定の分野で欠陥を持っているわけではありません。偏向採点をしているジャッジの間でさえ、その度合いにはかなりのばらつきがあります。最も悪質なジャッジ、たとえばサロメ・チゴギツェ(ジョージア)、ニコラス・ラッセル(イギリス)、エレナ・フォミナ(ロシア)は、1.5~2のZDifferencesを持っていますが、統計的に有意な最小値は0.5内にあります。このことは、悪質なジャッジを排除し、偏見の少ないジャッジに置き換えることにより、ジャッジ全体の偏向のレベルを確実に減らすことができることを示しています。低レベルの偏向(たとえば0.5未満)を取り除くのは難しく、対処するには現実的ではない場合もありますが。
- ジャッジの偏向を、ジャッジ全体の平均と比較することが指標になります。それはジャッジの平均値が正しいと仮定していないでしょうか?しかし時として、外れ値のジャッジが正しくて、他のジャッジが間違っていることもあります。
外れ値のジャッジが実際には「正しい」ことは事実かもしれませんが、スケーターが「客観的に」採点された値を評価することは避けました。というのは、こういった評価は非生産的なファンの争いにつながり、私がこの研究で示したくないと個人的に判断するからです。ただし、外れ値のスコアは、予想されるナショナル・バイアスのパターンと一致する場合にのみ、ジャッジに対して「カウント」します。日本人ジャッジがフィリピン人のスケーターを平均よりも高い点数で採点したとして、そのジャッジだけが客観的であり、他のジャッジは別の偏見(評判、小国など)のために下げ採点をした場合、実際には、日本人ジャッジに有利な形で、わずかにカウントします。日本人ジャッジが日本人スケーターの得点を平均より高くした場合のみ、そのジャッジが「偏向している」とカウントします。しかしその場合、少なくとも他の3つのデータのポイントを考慮すべきです。(ジャッジが自国のスケーターを少なくとも4回採点した場合にp値の計算を開始します。)もし、ジャッジが自国のスケーターのスコアを「修正」するパターンのみを示している場合、本当に客観的であるかどうかを疑問に思う必要があります。繰り返しますが、ジャッジは平均から外れたスコアをつけたからといって「偏向」とラベル付けされません。自国のスケーターと他国のスケーターの得点に差がある場合、そのジャッジは「偏向」とラベル付けされます。自国と他国に、平均より2標準偏差分高い得点をつけたジャッジは、たまたま他のジャッジと異なる採点をしたとしても、フラグを立てられることはありません。重要なのは、自国のスケーターと他国のスケーターに対する、ジャッジ自身の採点の違いだけです。
実質的に関心がある唯一の状況は、1人か2人しか自国のスケーターを採点していない小さな連盟のジャッジの場合です。その場合、個人的な好み、あるいは特定のスケーターが下げ採点されているという強い信念から、たまたま、ナショナル・バイアスとして「間違って」フラグが立つ場合があります。これを考えると、小国のジャッジに対してもう少し寛大になるべきかもしれません。ただし、この弁護は、ロシアや米国などの大規模で強力な連盟のジャッジにはほとんど適用されません。彼らは自らの採点履歴を通して自国の多くのスケーターを採点しており、そのスケーターは国籍のために下げ採点されるとは言えないからです。
限度/その他の考察
非常に多くのジャッジが、ここで使用されている方法によってナショナル・バイアスの証拠を示している事実にもかかわらず、そういったジャッジがナショナル・バイアスを理解する能力が、やや欠如していると思います。(この問題がどれほど悪いことかを提示する必要があります。)
まず、ジャッジは「カウントされるとき」、すなわち、採点によってメダルや順位に差異がでる試合でのみ、検出を回避することが簡単にできます。この偏向は、そのジャッジが偏向採点をしていなかった他のすべての試合の平均値に紛れてしまいます。このタイプの偏向が検出可能なのは、ジャッジが極端な採点記録を出した場合のみです。
このメトリックで把握するのが難しい、別のタイプのナショナル・バイアスは、ジャッジが特定の選手を選んで下げ採点し、他の選手は普通に採点する場合です。自国以外のスケーターはすべて平均化されるため、このタイプの偏向はZDifference全体にほとんど影響を与えず、その結果、検出することは非常に困難です。私は将来的には、トップ選手を抱える連盟出身のジャッジが、そのスケーターの直接の競争相手に下げ採点をするかどうかを検討することを考えています。それをお楽しみに。
第三に、スケーターの得点を上げるために、ブロック・ジャッジングが行われているか、または得点の取引きや共謀がある場合、自国のスケーターを採点する際に、他のジャッジとの明らかな違いを減らすことにより、偏向採点の証拠は弱まります。裏返して言えば、選手の得点を下げるための取引きや共謀がある場合、そのスケーターの自国のジャッジの側が、誤って目立った偏向を示すことになります。(それでも、このことによってジャッジに誤ってフラグを立てることについては、あまり心配ないと思っています。なぜなら、特定の連盟から、すべてのスケーターに対する大規模な陰謀がない限り、そのジャッジが出した残りすべての得点と平均した場合、偏向採点の一例は消去されてしまうからです。)ただし、このひと纏りのデータを使用して、ブロック・ジャッジングを少なくとも部分的に見ることができます。これについては、今後の投稿で説明しますので、ご期待ください。
最後に、直接関係ない選手に上げ採点をすることにより、ジャッジが「システムに策略をする」することも可能です。これにより、計算の「Z-other」部分が膨らみます。現在はまだ、これは大きな懸念事項ではないと思いますが、何らかの理由で、これがジャッジの偏向の主な手段となった場合、将来の懸念事項になります。(ジャッジは主に、ランキングが低い選手を上げ採点するためにこの手段を使いますが、評判による偏向に抗うためには、実際には良いことかもしれません)。
まとめ
もっと言いたいことはありますが、私はこの件に永遠に関わったり、長くなりすぎて読みたくない人が出るのは嫌なので、ここで終了し、皆さんからの補足があるならば質問を受けます。結論はとても明確です。フィギュアスケートの採点は、ナショナル・バイアスについて大きな問題を抱えており、多くのジャッジは、自国のスケーターへの好意が露骨です。
このことによって、客観性についてのジャッジの責任について疑問が生じます。典型的なタイプの偏向だけを見てきましたが、最も深刻なタイプの偏向でないのは間違いありません。ある側面での客観性の欠如は、他の側面でも客観性の欠如につながる疑いがあります。
評判による偏向や大きな連盟の偏向など、他の10種類の偏向についてはどうでしょう?ジャッジ達が明らかに一方向に偏っている場合、他方向にも偏っていると疑うことは理にかなっています。
この投稿は、混乱や誤解をくような言葉遣いを改善し、グラフを更新し、いくつかの方法論のポイントを明確にするように、公開以来ずっと編集しています。また、基礎となるジャッジの採点数をskatingscores.comから引用したことを書き忘れていましたが、これは修正しました。また、グラフを作成してくれたplanethanyu.comのVevecoにも感謝します!