相関とかいう因果関係とごっちゃになりがちな代表的勘違い要員についてまとめてみた

|| 現実における勘違いの元凶その3

『２つのものが影響し合ってる』感覚

相関可能性 Correlation Potentiality

|| 連動しているように見えている時点

「相関」と「疑似相関」に分岐する前の状態

$\begin{array}{ccc} 相関可能性 A\leftrightarrow B & \left\{ \begin{array}{ll} 疑似相関 & 共通原理が存在 \\ \\ 相関 & 共通原理が未発見 \end{array} \right. \end{array}$

「 $C\to A,C\to B$ 」の

『共通原理 $C$ の探索』を行う段階で

こういったデータ分布が与えれらた段階を指します。

（この時点では相関か疑似相関かはまだ不明）

調査段階と無相関

このさらに前の段階として

$\begin{array}{lcl} 調査段階 & \left\{ \begin{array}{ll} 相関可能性 & 相関係数を指標に判断 \\ \\ 無相関 & 同様に相関係数を指標とする \end{array} \right. \end{array}$

このような段階があり

こういう「無関係に見える」ような場合では

「無相関」であるとして『相関可能性無し』となります。

（基本的には直感的な相関可能性から始まるのであまり見ない）

疑似相関 Spurious Correlation

|| 相関に見えるが実際には異なる状態

『共通原理』で「相関のように見える」感じ

$\begin{array}{ccc} 疑似相関現象 & \left\{ \begin{array}{lcl} 共通原理 &\to& 現象A \\ \\ 共通原理 &\to& 現象B \end{array} \right. \end{array}$

「相関ではない」状態であり

（この共通原理が『未発見』の場合が相関）

$\begin{array}{lcl} 時計の針 & \left\{ \begin{array}{lcl} 受信による同期 &\to& 電波時計A \\ \\ 受信による同期 &\to& 電波時計B \end{array} \right. \end{array}$

具体的にはこういう状態のことを指します。

（時計Aと時計Bの針は連動しているように見える）

因果関係 Causation

|| ほぼ100%連動するという相関の特例

「法則」と呼ばれるほどの相関がある状態

$\begin{array}{l} 相関 & \left\{ \begin{array}{ll} 相関関係 & 相関係数が高い \\ \\ 因果関係 & 相関係数が1あるいはほぼ1 \end{array} \right. \end{array}$

厳密には後述する「相関係数」で定義でき

$\begin{array}{ccc} 因果関係 &\Longleftrightarrow& 相関係数が1の相関関係 \end{array}$

結果として『相関関係の１例』になります。

（分離する場合もあるがこの関係の方が現実に整合する）

相関係数 Correlation Coefficient

|| 関係を考察するための比率

「まとまってると高くなる感じ」の比率

$\begin{array}{ccl} r&=& \displaystyle \frac{σ_{XY}}{σ_{X}σ_{Y}} \\ \\ &=&\displaystyle \frac{ \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_i-\overline{x_{\mathrm{sample}}})(y_i-\overline{y_{\mathrm{sample}}}) }{\displaystyle \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i -\overline{x_{\mathrm{sample}}} )^2 }\sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y_{\mathrm{sample}}} )^2 } } \end{array}$

この「ピアソンの積率相関係数 $r$ 」が基礎になります。

（直線的な相関を評価できる精度の高い基準の１つ）

相関係数への要請

↑ が初見で分かるわけ無いので

まず「相関係数のやりたいこと」について整理します。

$\begin{array}{lcl} 相関 & \left\{ \begin{array}{lcl} 相関がある &\to& 値が高い \\ \\ 相関が強い &\to& 高い値になる \\ \\ 相関が弱い &\to& 低い値になる \\ \\ 相関が無い &\to& 値が低い \end{array} \right. \end{array}$

そのために『相関係数に求められること』を考えると

それはこんな感じであることが分かり

$\begin{array}{lcl} データの観察 &\to& 線上にまとまってる感じ \\ \\ 多くの相関データ &\to& 直線上にまとまってる感じ \\ \\ &\to& 直線を定義する平均が使えそう \\ \\ &\to& 平均とデータの差をとってみる \\ \\ &\to& 分散の考え方に似ている \end{array}$

また「データの分布の観察」から

こういう感じであることも分かるので

$\begin{array}{lcl} σ_X^2σ_Y^2 が大きい値 &\to& 相関が弱い \\ \\ σ_X^2σ_Y^2 が小さい値 &\to& 相関が強い \end{array}$

まずこういう「原始的な指標」を得ることができます。

（分散は平均との差を集めた値なのでこうなる）

$\begin{array}{lcl} 相関が強い &\to& 高い値になる \\ \\ 相関が弱い &\to& 低い値になる \end{array}$

そしてこの要請から

$\begin{array}{lcl} \displaystyle \frac{1}{σ_X^2σ_Y^2} が大きい &\to& 相関が強い \\ \\ \displaystyle \frac{1}{σ_X^2σ_Y^2} が0に近い &\to& 相関が弱い \end{array}$

こういった「試行の動機」を得ることもできます。

（相関係数で分散の平方根である標準偏差が来る理由）

比較しやすさについての要請

↑ で導かれた値の観察を行うと

$\begin{array}{ccc} 0&<& \displaystyle \frac{1}{σ_X^2σ_Y^2} &<&\infty \end{array}$

その「値が取り得る範囲」はこのようになることから

（分散はデータのとり方でも小さくできる）

$\begin{array}{lcl} 高い &\to& ある値から見て高い \\ \\ 低い &\to& ある値から見て低い \end{array}$

「分かり易い比較」を行うためには

$\begin{array}{ccc} 0&<& \displaystyle \frac{？}{σ_X^2σ_Y^2} &<&100 \\ \\ 0&<& \displaystyle \frac{？}{σ_X^2σ_Y^2} &<&1 \end{array}$

このような形が望ましいということも予想できます。

（？の部分は分散と連動する値であることも推定できる）

共分散 Covariance

以上を踏まえた上で

$\begin{array}{l} 高精度化 & \left\{ \begin{array}{lcl} 基準は維持 &\to& 最大最小は必須 \\ \\ 相関の区別 &\to& 負の値もとりたい \end{array} \right. \end{array}$

こういった要請から導かれたのが

（原始的な指標だと分からない部分の追加）

$\begin{array}{ccl} \mathrm{Cov}(X,Y) &=& E[(X-μ_X)(Y-μ_Y)] \\ \\ σ_{XY} &= &E[(X-μ_X)(Y-μ_Y)] \\ \\ &=& \displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_i-μ_X)(y_i-μ_Y) \end{array}$

この「共分散 $\mathrm{Cov}$ 」と呼ばれる概念になります。

（負の値をとれて標準偏差の概念に近くなる値）

$\displaystyle \frac{1}{n} \Bigl( (x_1-μ_X)(y_1-μ_Y)+…+(x_n-μ_X)(y_n-μ_Y) \Bigr)$

発生起源からして用途が決まっているので

単体で扱われることはあまりありません。

（これは根本的に要請を満たす都合の良いもの）

上限についての要請

要請を満たせる単純なパターンを考えると

$\begin{array}{lcl} 上限の設定 &\to& 割合にしてみる \\ \\ &\to& 1にするなら分散に近い値が必要 \end{array}$

この要請から導けるものとして

$\begin{array}{ccl} 予想できる形 &\to& そのままだと1になるだけ \\ \\ &\to& 分子は少しずれた値にしたい \\ \\ &\to& 分子は分散の積に近い値 \\ \\ \\ 1以下に &\to& いろいろ考えられる \\ \\ &\to& 分散の積の一部をとってくればいい \\ \\ \\ どの一部？ &\to& 分散の2乗の形を考える \\ \\ &\to& a^2+b^2 ≤ (a+b)^2 に繋がる \\ \\ &\to&ベクトルの感覚を使ってみる \\ \\ &\to& 独立同分布などは直交条件 \\ \\ &\to& 相関の調査は独立か不明 \\ \\ &\to& 直交で消えない対角部分 \end{array}$

まずこのような形が想定できます。

（共分散の形はこの要請から導かれている）

$\begin{array}{c} \displaystyle \frac{1}{n^2}\sum_{i=1}^{n} (x_i- \overline{x_{\mathrm{sample}}} )^2(y_i- \overline{y_{\mathrm{sample}}} )^2 \end{array}$

そしてその予想できる形の１つとして

このような形を想定することが可能です。

（あくまで考えられる代表的な可能性の１つ）

上限の確認と指標として使えるか

確認しておくと

$\begin{array}{ccc} \displaystyle \frac{ \displaystyle \frac{1}{n^2}\sum_{i=1}^{n} (x_i- \overline{x_{\mathrm{sample}}} )^2(y_i- \overline{y_{\mathrm{sample}}} )^2 }{ \displaystyle \left( \frac{1}{n}\sum_{i=1}^{n} (x_i- \overline{x_{\mathrm{sample}}} )^2 \right)\left( \frac{1}{n}\sum_{i=1}^{n} (y_i- \overline{y_{\mathrm{sample}}} )^2 \right) } \end{array}$

良さそうなこの形は

$\begin{array}{ccc} 0≤a,b &\to& \displaystyle \frac{ a_1b_1 }{ a_1b_1 } = 1 && n=1 \\ \\ 0≤a,b &\to& \displaystyle \frac{ a_1b_1+a_2b_2 }{ a_1b_1+a_1b_2+a_2b_1+a_2b_2 } ≤1 && n=2 \\ \\ && \vdots \end{array}$

『下の積の方が余計な値を含む』ので

（上の分子は「対角のもの $(a_ib_i)^2$ だけ」になる）

$\begin{array}{ccc} 0 &≤& \displaystyle \frac{ \displaystyle \frac{1}{n^2}\sum_{i=1}^{n} (x_i- \overline{x_{\mathrm{sample}}} )^2(y_i- \overline{y_{\mathrm{sample}}} )^2 }{ \displaystyle \left( \frac{1}{n}\sum_{i=1}^{n} (x_i- \overline{x_{\mathrm{sample}}} )^2 \right)\left( \frac{1}{n}\sum_{i=1}^{n} (y_i- \overline{y_{\mathrm{sample}}} )^2 \right) } &≤& 1 \end{array}$

まずこうなるのは確実です。

（これは単純な不等式と数学的帰納法で確認できる）

『相関の強弱を意味する指標』として機能するか

これについてはちょっと難しいですが

$\begin{array}{lcl} 相関評価 &\to& 要請を満たす式が得られる \\ \\ &\to& 必ず分母は分子以上の値になる \\ \\ &\to& 分散が大きい→分子と分母の差が大きい \\ \\ &\to& 分散が小さい→分子と分母の差が小さい \\ \\ &\to& データ量で精度を上げられる \end{array}$

「論理的に分かるのは」ここまでで

（これは要請と式の形を読み取った当然の結論）

$\begin{array}{lcl} 実際に検証 &\to& 見た目に相関の強い分布 \\ \\ &\to& 1に近い値になった \\ \\ &\to& 見た目に相関が弱い分布 \\ \\ &\to& 0に近い値になった \\ \\ &\to& 評価指標として使える \end{array}$

後は『実際に使ってみた結果』が重視されます。

（ここは実際の感覚と整合するか検証が必要な領域）

相関を区別したいという要請

結論から行くと

この「ピアソンの相関係数 $r$ 」は

↑ の評価指標に ↓ の要請を与えたもので

$\begin{array}{lcl} 情報付加 &\to& 正負の相関の区別ができそう \\ \\ &\to& 2乗から1乗にすればできる？ \\ \\ &\to& 0<x→0<yなら正でy<0なら負 \\ \\ &\to& 次元合わせで分母を標準偏差に \\ \\ &\to& 実際に計算してみる \\ \\ &\to& 良い感じだった \end{array}$

「共分散」という概念は

$\begin{array}{lcl} 分子の形 &\to& あらゆる要請を満たす \\ \\ &\to& 共分散と呼ぶことにする \end{array}$

「事後的に」整理された産物になります。

（つまり共分散は要請を満たした結果出てくる形の１つ）

情報削減型相関係数 Abstract

|| 情報を削減したからこそ分かること

「直線的相関ではカバーできない範囲」を扱える

$\begin{array}{ccl} ρ &=& \displaystyle 1 - \frac{\displaystyle \frac{1}{n}\sum_{i=1}^{n} (データのズレ)_i^2 }{\displaystyle \frac{1}{6}(n-1)(n+1) } \\ \\ \\ τ &=& \displaystyle \frac{(符号一致ペア数)-(符号不一致ペア数)}{{}_n \mathrm{C}_2 } \end{array}$

これはそういう「良い感じの相関係数」です。

（大まかに見るから見えることがある感じ）

直線以外も考えたいという要請

『局所的な切り取り』ができれば

$\begin{array}{ccl} 直線 &\to& 曲線の一部も拡大すれば直線 \\ \\ &\to& 直線以外の相関もそのようになる \\ \\ &\to& 一部を拡大すれば直線で調査可能 \end{array}$

「直線的な相関」で全て説明できますが

（あらゆる相関は膨大な局所相関の集まり）

$\begin{array}{lcl} 相関 &\to& 直線ではない相関 \\ \\ &\to& この時点だといつ分かる？ \\ \\ &\to& 分からなければ直線に分解できない \\ \\ &\to& 分解したとしてもその後が大変 \\ \\ &\to& 膨大な直線相関を扱うことになる \end{array}$

これは『事後的な整理』である上に

「調査が非常に大変」な操作です。

どうにか簡単にできないか

以上の観察から得られた要請

$\begin{array}{lcl} よく見る形 &\to& 直線と指数関数と対数関数の形 \\ \\ &\to& これらは図形的に似ている部分がある \\ \\ &\to& それを共通点として取り出せるはず \end{array}$

その要請から見えてくる

$\begin{array}{lcl} 直線 &\to& xが増えると一定の速度でyが上昇 \\ \\ 指数関数 &\to& xが増えると加速しながらyが上昇 \\ \\ 対数関数 &\to& xが増えると減速しながらyが上昇 \end{array}$

「違い」を取り除いた結果として得られたのが

（負の相関のパターンでも $y$ はいずれも減少する）

$\begin{array}{lcl} 上昇（共通点） &\to& 加速度だけ異なる \\ \\ &\to& 加速度を考えないとする \\ \\ &\to& xの増加でyも増加する \\ \\ &\to& 加速の仕方はなんでもいい \\ \\ &\to& 加速して減速していても良い \\ \\ &\to& これが共通部分として取り出せる \end{array}$

後に「単調相関係数」と呼ばれるものになります。

（増加あるいは減少の大まかな形をカバーできる）

単調相関係数 Spearman

|| 増加と減少の単調性を使った抽象的な相関係数

『増加（あるいは減少）だけで考える相関係数』のこと

$\begin{array}{ccc} ρ &=& 1- \displaystyle \frac{\displaystyle \frac{1}{n}\sum_{i=1}^{n} (データのズレ)_i^2 }{\displaystyle \frac{1}{6}(n-1)(n+1) } \end{array}$

これは上記の要請から導かれたもので

$\begin{array}{ccl} 要請の具体化 &\to& x,yのペアをとる \\ \\ &\to& xの大きさでソートする \\ \\ &\to& xがインデックスとして機能する \\ \\ &\to& インデックス\{1,2,3,...,n\}に変換する \\ \\ \\ yも同様に &\to& yも大小関係でソート \\ \\ &\to& ソート後のyをインデックスに変換する \end{array}$

ここから更にこのような要請を得て

（ $x,y$ は全て $\{1,2,3,...,n\}$ に変換される）

$\begin{array}{ccl} (x,y)の変換 &\to& xを大小関係でインデックスに \\ \\ &\to& yを大小関係でインデックスに \\ \\ \\ 直線評価 &\to& これをピアソンの相関係数で評価 \\ \\ &\to& y_i≤y_{i+1} ならy_{n+1}=y_i +1 になって欲しい \\ \\ &\to& 単調増加ならxの再ソートでy=xに \\ \\ &\to& 単調減少ならxの再ソートでy=1-xに \end{array}$

このように具体化することで

「単調相関係数」は導くことができます。

（データの数値を増減の評価で抽象化している）

具体的な単調相関係数の導出

これは見て分かる通り

$\begin{array}{lcl} 手順 &\to& データのペア(x,y)で整理 \\ \\ &\to& xを大小関係でソート \\ \\ &\to& xをインデックスに置き換える \\ \\ &\to& データが (i_x,y) に変換される \\ \\ &\to& yを大小関係でソート \\ \\ &\to& yをインデックスに置き換える \\ \\ &\to& データが (i_x,i_y) に変換される \\ \\ &\to& xで再ソート後ピアソンの式へ \end{array}$

『データの変換』がメインなので

（ $(1,1),(2,3),(3,2),...$ こういう感じになる）

$\begin{array}{ccc} ρ &=& 1-\displaystyle \frac{\displaystyle \frac{1}{n}\sum_{i=1}^{n} (データのズレ)_i^2 }{\displaystyle \frac{1}{6}(n-1)(n+1) } \end{array}$

これはおまけのようなものなんですが

（整理後の結果なので本質的なものではない）

$\begin{array}{lcl} \overline{x} &\to& \displaystyle \frac{1}{n} \Bigl( 1+2+\cdots +n \Bigr) &=& \displaystyle \frac{1}{n} \cdot \frac{1}{2}n(n+1) \\ \\ \overline{y} &\to& \displaystyle \frac{1}{n} \Bigl( 1+2+\cdots +n \Bigr) &=& \displaystyle \frac{1}{n} \cdot \frac{1}{2}n(n+1) \end{array}$

これでだいぶ整理できるため紹介しておきます。

（具体的な数値ではなくインデックスの話になる）

直線的相関とインデックスの相関

まず整理しておくと

$\begin{array}{ccl} r &=&\displaystyle \frac{ \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y}) }{\displaystyle \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i -\overline{x} )^2 }\sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y} )^2 } } \end{array}$

「直線的な相関」はこうです。

（変換したデータをこれで評価する）

$\begin{array}{lcl} \displaystyle \frac{1}{n}\sum_{i=1}^{n} (x_i -\overline{x} )^2 &=& \displaystyle \left( \frac{1}{n}\sum_{i=1}^{n} x_i^2 \right) - \overline{x}^2 \end{array}$

そして「分散」はこのように変形できますから

（ $x_i\overline{x}$ の総和が平均の2乗になるため）

$\begin{array}{lcl} \displaystyle \sum_{k=1}^{n} k &=& \displaystyle \frac{1}{2}n(n+1) \\ \\ \displaystyle \sum_{k=1}^{n} k^2 &=& \displaystyle \frac{1}{6}n(n+1)(2n+1) \end{array}$

使う道具を整理して適用すると

$\begin{array}{lcl} \displaystyle \left( \frac{1}{n}\sum_{i=1}^{n} x_i^2 \right) - \overline{x}^2 &=& \displaystyle \left( \frac{1}{6}(n+1)(2n+1) \right) - \left( \frac{1}{2}(n+1) \right)^2 \\ \\ &=& \displaystyle (n+1) \left( \frac{1}{6}(2n+1) - \frac{1}{4}(n+1) \right) \\ \\ &=& \displaystyle (n+1)\frac{(n-1)}{12} \end{array}$

まず分母はこのように整理されます。

（ $y$ もインデックスなので $x$ と同じ結果に）

分子の整理とデータのズレ

以上の整理から

$\begin{array}{ccc} \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y}) \end{array}$

後はこれを整理すれば良いだけですが

$\begin{array}{ccc} (x_i-\overline{x})(y_i-\overline{y}) &=& x_iy_i-x_i\overline{y}-\overline{x}y_i +\overline{x}\overline{y} \end{array}$

この式からも分かる通り

$\begin{array}{ccc} 分からん &&総和なら && 総和なら && 分かる \\ \\ x_iy_i &-&x_i\overline{y}&-&\overline{x}y_i &+ &\overline{x}\overline{y} \end{array}$

１か所だけうまく整理できません。

（ここは総和を考えてもよく分からない）

$\begin{array}{lcl} x_iy_iが不明 &\to& 意味はなんとなく分かる \\ \\ &\to& 単調増加なら1になる値 \\ \\ \\ 式の整理 &\to& このままだと計算が大変なまま \\ \\ &\to& これをうまく処理したい \\ \\ &\to& 処理するための何かを考える \end{array}$

なのでこういった要請が考えられて

$\begin{array}{lcl} 指標が欲しい &\to& 式の意味を考えてみる \\ \\ &\to& 分子は共分散的な何か \\ \\ &\to& 一種の指標が来ると考えられる \\ \\ \\ 原型を参考に &\to& 分散的な感覚が理想のはず \\ \\ &\to& 単調相関係数が見る指標とは \\ \\ &\to& ソートは終わっている \\ \\ \\ 図の観察 &\to& 直線になる場合は？ \\ \\ &\to& x_iとy_iが一致している \\ \\ &\to& 不一致の結果どうなるか \\ \\ &\to& x_iとy_iの値がズレている \end{array}$

そこから導かれる可能性の１つとして

$\begin{array}{lcl} ズレの蓄積 &\to& 単純に考える \\ \\ &\to& (x_i-y_i)^2この分散が来る？ \end{array}$

このような形が予想として導かれる。

（この時点ではまだうまくいく保証は無い）

$\begin{array}{ccl} (x_i-y_i)^2 &=& x^2_i-2x_iy_i+y^2_i \\ \\ 2x_iy_i &=& x^2_i+y^2_i -(x_i-y_i)^2 \end{array}$

その結果として

$\begin{array}{lcl} \displaystyle \frac{1}{n} \sum_{i=1}^{n}x_iy_i &=& \displaystyle \frac{1}{n} \sum_{i=1}^{n} \frac{1}{2} \Bigl( x^2_i+y^2_i -(x_i-y_i)^2 \Bigr) \end{array}$

このような式変形が行われ

$\begin{array}{ccc} データのズレ &\Longleftrightarrow& d_i=x_i-y_i \end{array}$

この部分が『データのズレ』として定義できます。

（この相関係数の分散的な指標に当たる）

スピアマンの相関係数

以上を用いて整理してみると

$\begin{array}{lcccccl} \displaystyle \frac{1}{n} \sum_{i=1}^{n} x_i &=& \overline{x} &=& \overline{y} &=& \displaystyle \frac{1}{n} \sum_{i=1}^{n} y_i \\ \\ \displaystyle \frac{1}{n} \sum_{i=1}^{n} x_i^2 &=& \displaystyle \frac{1}{n} \sum_{i=1}^{n} i^2 &=&\displaystyle \frac{1}{n} \sum_{i=1}^{n} i^2&=& \displaystyle \frac{1}{n} \sum_{i=1}^{n} y_i^2 \end{array}$

スピアマンの整理ではこうなるので

（これらは両方インデックスだから成立する）

$\begin{array}{ccl} \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y}) &=& \displaystyle \frac{1}{n} \sum_{i=1}^{n}(x_iy_i-x_i\overline{y}-\overline{x}y_i +\overline{x}\overline{y}) \\ \\ &=& \displaystyle \frac{1}{n} \left( \sum_{i=1}^{n}x_iy_i \right) - \overline{x}^2 \end{array}$

これはこうなって

$\begin{array}{lcl} \displaystyle \frac{1}{n} \sum_{i=1}^{n}x_iy_i &=& \displaystyle \frac{1}{n} \sum_{i=1}^{n} \frac{1}{2} \Bigl( x_i^2+y_i^2-(x_i-y_i)^2 \Bigr) \\ \\ &=& \displaystyle \left( \frac{1}{n} \sum_{i=1}^{n}x_i^2 \right) - \left( \frac{1}{2}\cdot \frac{1}{n} \sum_{i=1}^{n}(x_i-y_i)^2 \right) \end{array}$

この部分がうまい具合にこうなるので

$\begin{array}{ccc} ρ &=&\displaystyle \frac{ \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_i-\overline{x})(y_i-\overline{y}) }{\displaystyle \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i -\overline{x} )^2 }\sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y} )^2 } } \\ \\ &=& \displaystyle \frac{ \displaystyle \left( \frac{1}{n} \sum_{i=1}^{n}x_i^2 \right) -\overline{x}^2 - \left( \frac{1}{2}\cdot \frac{1}{n} \sum_{i=1}^{n}(x_i-y_i)^2 \right) }{\displaystyle \left( \frac{1}{n}\sum_{i=1}^{n} x_i^2 \right) -\overline{x}^2 } \\ \\ &=& 1 - \displaystyle \frac{ \displaystyle \frac{1}{2}\cdot \frac{1}{n} \sum_{i=1}^{n}d_i^2 }{ \displaystyle \frac{1}{12}(n+1)(n-1)} \end{array}$

結果、この形を得ることができます。

（これが後にスピアマンの相関係数と呼ばれる）

符号多数決相関係数 Kendall

|| 増えたか減ったかそのままか

「 $x$ が変わった時 $y$ がどうなるか」だけ見る

$\begin{array}{lcl} τ &=& \displaystyle \frac{ (符号一致ペア数)-(符号不一致ペア数) }{ {}_n \mathrm{C}_2 } \end{array}$

これはスピアマンの要請と途中までは同じで

（単調増加や単調減少に注目するところまで）

$\begin{array}{ccl} ソート可能？ &\to& x,yのペアはデータをとる段階で確定 \\ \\ &\to& ソートはまだできるか不明 \\ \\ &\to& スピアマンのyをソートしない場合 \\ \\ &\to& xは増加が分かるとする \\ \\ \\ yの増減 &\to& xの増加でyがどう変化するか分かる \\ \\ &\to& yの数値は考えず変化したかだけ \\ \\ &\to& 増えるなら1を返すとする \\ \\ &\to& 変化しないなら0 \\ \\ &\to& 減るなら-1を返す \end{array}$

ここから『 $x$ のソートも排除』したものが

$\begin{array}{lcl} ソート無し &\to& xの比較は好きに行える \\ \\ &\to& y同様にx_j-x_iで比較してみる \\ \\ \\ 0<x_j-x_iの場合 &\to& y_jとy_iの比較で+,0,-に分岐 \\ \\ &\to& 0<y_j-y_i なら単調増加 \\ \\ &\to& 他も同様に分かる \end{array}$

「ケンドールの相関係数」と呼ばれるものになります。

（つまりスピアマンとはアプローチが根本的に異なる）

比較と符号

これは最初の部分だけ分かり辛いですが

$\begin{array}{lcl} 単調増加 & \left\{ \begin{array}{lcl} x_i≤x_j &\to& y_i≤y_j \\ \\ x_i≥x_j &\to& y_i≥y_j \end{array} \right. \end{array}$

このような共通点となるデータの観察から

『符号の一致』という指標が得られるので

（一致する場合には必ず単調増加になる）

$\begin{array}{ccc} \mathrm{sign}(x) &=& \left\{ \begin{array}{rcl} 1 && 0<x \\ \\ 0 &&x=0 \\ \\ -1 && x<0 \end{array} \right. \end{array}$

「符号関数 $\mathrm{sign}$ 」を用いることで

$\begin{array}{ccc} \mathrm{sign} (x_j-x_i) \mathrm{sign} (y_j-y_i) \end{array}$

このような形で指標を表現することができます。

（符号のパターンで増加か減少か判定できる）

補足しておくと

$\begin{array}{ccccl} \mathrm{sign} (x_j-x_i) && \mathrm{sign} (y_j-y_i) \\ \\ + & \times & + &\to& 増加 \\ \\ - &\times & - &\to& 増加 \\ \\ + & \times & - &\to& 減少 \\ \\ - & \times & + &\to& 減少 \\ \\ \pm &\times & 0 &\to& 変化無し \end{array}$

これは感覚的にはこのようになっています。

（本質的にはただ符号 $+,-$ の話をしてるだけ）

多数決と平均

ケンドールの相関係数は

この『符号の一致がどれだけ起きるか』を見ていて

$\begin{array}{lcl} 増加したパターンの総数 & - & 減少したパターンの総数 \\ \\ 符号一致パターンの総数 &-& 符号不一致パターンの総数 \end{array}$

この「パターン総数の比較」を行った時の

$\begin{array}{lcl} 全て増加 &\to& 単調増加 \\ \\ 全て減少 &\to& 単調減少 \\ \\ 0に近い &\to& 増加したり減少したり \end{array}$

実際のデータの比較と

$\begin{array}{lcl} 比較 &\to& 2つのデータ(x_i,y_i),(x_j,y_j)をとる \\ \\ &\to& n個のデータから2つのデータを選ぶ \\ \\ &\to& {}_n \mathrm{C}_2 パターンの選び方がある \end{array}$

『平均』の考え方から