Föreläsning 29

Korrelation och regression

Exempelvis längd och vikt.

Finns det något samband mellan variablerna?
Hus ser detta samband i så fall ut?
Hur starkt är sambandet?

Det finns en positiv kolleration mellan ålder och längd för små barn. Vi kommer att använda oss av räta linjens ekvation.

Man kan påvisa nonsens-samband med hjälp av detta. Exempelvis:
Ökad nativitet i Sverige - ökat antal häckande storkar i Skåne.
Antal lösta radiolicenser och antal personer med mentala defekter.

y = alpha + b x_i + epsilon_i, epsilon_i in N(0, sigma)
y_1,…,y_n är observationer på Y_1,…,Y_n, Y_i in N(mu_i, sigma)
Väntevärde är linjärt mu_i = alpha+beta x_i

Minsta kvadratmedoden: Q(alpha,beta) = sum (y_i - mu_i)^2
MK-metoden är till för att minimera det genomsnittliga felet. Avståndet ("felet") till linjen för varje punkt är epsilon_i=y_i-(alpha+beta x_i) .

Vi vill ha alpha och beta som är maximala/minimala. Dvs vi sätter derivatan till noll.
Incoming flervariabelanalys!

(del Q)/(del alpha) = -2 sum (y_i - alpha - beta x_i) = 0

(del Q)/(del beta) = -2 sum (y_i - alpha - beta x_i) = 0

beta^(**) = S_(xy)/S_(x x)
a^(**) = overline(y) - beta^(**)*overline(x)

Härledning av beta^(**) = S_(x y) / S_(x x) :

sum x_i (y_i - overline(y) - beta overline(x)) - beta x_i = 0
= sum x_i y_i - overline(y) sum x_i - beta overline(x) sum x_i - beta sum x_i^2

Förläng med n :

= sum x_i y_i - overline(y) color(red)(n) sum x_i/color(red)(n) - beta overline(x) color(red)(n) sum x_i/color(red)(n) - beta sum x_i^2 = 0
= sum x_i y_i - n overline(x) overline(y) = beta((sum x_i^2) - n overline(x)^2)
= sum (x_i-overline(x) (y_i-overline(y))) = beta sum (x_i - overline(x))^2

iff beta = sum ((x_i - overline(x)) (y_i - overline(y)))/(sum (x_i - overline(x))^2) = S_(x y) / S_(x x)

Om vi har skattat en linje y = alpha^(**) + beta^(**) x_i så får vi datapunkterna (x_1,mu_1),…(x_n,mu_n). mu är alltså respektive y-värde på linjen för varje x-värde. Man kan fixa ett konfidensintervall för mu_0^(**) = E(y) om man så vill, Excel got ur back. Multiple R = Kollerationskoeffecient.