相關系數是最早由統計學傢卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母r表示。由於研究對象的不同,相關系數有多種定義方式,較為常用的是皮爾遜相關系數。
相關系數缺點
需要指出的是,相關系數有一個明顯的缺點,即它接近於1的程度與數據組數n相關,這容易給人一種假象。因為,當n較小時,相關系數的波動較大,對有些樣本相關系數的絕對值易接近於1;當n較大時,相關系數的絕對值容易偏小。特別是當n=2時,相關系數的絕對值總為1。因此在樣本容量n較小時,我們僅憑相關系數較大就判定變量x與y之間有密切的線性關系是不妥當的。
相關系數公式
定義式
ρXY=Cov(X,Y)/√[D(X)]√[D(Y)]
公式描述:公式中Cov(X,Y)為X,Y的協方差,D(X)、D(Y)分別為X、Y的方差。
公式
若Y=a+bX,則有:
令E(X) = μ,D(X) = σ
則E(Y) = bμ + a,D(Y) = bσ
E(XY) = E(aX + bX) = aμ + b(σ + μ)
Cov(X,Y) = E(XY) − E(X)E(Y) = bσ