Regresi Linier - Hitung Manual [1] - Slope Intercept

Kali ini kita akan coba melakukan regresi dengan hitung manual.

Bahan didapat dari Channel Youtube Statistic-101 

NARASI KASUS

Di US sudah menjadi kebiasaan setiap pengunjung restoran memberikan tips buat pegawai restoran yang dikunjungi. Biasanya tips ini berhubungan dengan harga makanan yang di pesan. Makin mahal total harga makanan, makin besar tips yang diberikan pelanggan untuk waiter restoran tsb.

Misalkan kita adalah manager restoran. Kita dapat sample data sebanyak 6 observasi.


x y

BILL TIP

meal-1 5

meal-2 17

meal-3 11

meal-4 8

meal-5 14

meal-6 5

total 60

y rata2 10


Seharusnya variable x itu berisi harga dari meal-1, meal-2 sampai meal-6. Tapi anggap kita tidak tahu harganya. Sehingga dari 6 observasi itu hanya ada data 1 variable saja yaitu TIP.

Total TIP adalah $60, sehingga rata-rata per observasi $10 ($60/6 observasi).

Sekarang kita gambar dalam scatterplot.



Nah, kita sudah punya satu model, untuk memprediksi berapa TIP yang akan diberikan jika ada meal baru, misal meal-7, dst bahwa TIP yang diberikan adalah $10.

Sekarang kita hitung berapa RESIDU atau ERROR dari 6 observasi tsb.



Sekarang kita kuadratkan (di-squrare-kan). Mengapa di kuadratkan?
1. Agar error negatif bisa jadi positif
2. Agar error yang > 1 akan berlipat-lipat sehingga mudah nanti memilahnya (karena nilainya membesar)

x y
BILL TIP Residu (error) error^2
meal-1 5 -5         25
meal-2 17 7         49
meal-3 11 1         1
meal-4 8 -2         4
meal-5 14 4         16
meal-6 5 -5         25
total 60         120 SSE = SST
y rata2 10

Terlihat diatas kita sudah dapat Sum of Square Error (SSE). Dalam hal ini karena variable hanya satu (yaitu dependent variable), maka SSE juga menjadi SST (Sum of Square Total).

SST 120 berarti Error maksimum yang bisa terjadi sebesar 120. Jika di cek pakai STATA sbb.




Tujuan dari pada Linear Regression adalah:

Meminimalkan nilai SSE Residual (atau memaksimalkan nilai SSE Model mendekati SS Total)

Sampai tahap ini dengan model garis lurus (y = 10, untuk x berapapun) kita dapat SSE nya 120 (dalam STATA disebut SS Total).

Sekarang, asumsi kita dapatkan harga dari meal (BILL) dan TIP yang diberikan spt berikut.


x y
BILL TIP
34 5
108 17
64 11
88 8
99 14
51 5
rata2 74 10  (Centroid 74,10)


Jika dilakukan scatter plot untuk 2 variable tsb, akan spt ini.


m = Gradient = Slope = b1
c = b0 = Intercept

Regresi linear upaya untuk adalah menemukan Slope dan Intercept yang tepat sedemikian sehingga SSE (dalam STATA SSE Residual jadi minimal).

Ingat pada model satu variable (hanya ada TIP),  SSE telah dihitung menghasilkan nilai 120. Ini adalah SSE total atau maksimal.

Nah, sekarang jika pakai 2 variable, bagimana cara mencari Slope dan Intercerpt pada garis regresi?


Dengan rumus diatas kita hitung pakai Excel.

a b c=a/74 d=b/10 e=c*d f=c^2 g=e/f
BILL TIP
34 5 -40 -5 200 1600
108 17 34 7 238 1156
64 11 -10 1 -10 100
88 8 14 -2 -28 196
99 14 25 4 100 625
51 5 -23 -5 115 529
74  10 (rata2) 615 4206 0.146219686

didapat slope b1 = 0.146219686

y = b1x + b0
TIP = 0.14621986 BILL + b0

Maknanya: setiap kenaikan harga BILL $1 akan menaikkan TIP $15c ($0.1462). 

Sekarang, bagaimana menghitung Intercept?

Rumusnya sbb:

b0     = y (rata2) - 0.14621986 x (rata2)
       = 10 - 0.146219686 x 74
       -0.820256776

Jika di cek pakai STATA didapat hasil yang sama (kotak biru).



Persamaan garis regresi linear nya  adalah y = mx +c
  
              y = 0.146219686x - 0.820256776 

Jika digambar pakai Excel, garis tsb (beserta formula yang dihitung Excel) tampak sbb.


Terlihat perhitungan Excel terhadap Slope cocok dengan perhitungan manual dan STATA.  

Berapa SSE nya?


Terlihat SSE nya sekarang 30.07489301 (di STATA disebut SSE Residual)

Sehingga SS Residual (SSR) = SST - SSE

SSR = 120 - 30.07489301 = 89.92510699

Jika di cek dengan STATA, hasil perhitungan manual sesuai (kotak kuning).



Sekali lagi disampaikan bahwa Regresi Linier, adalah upaya agar SSR sekecil mungkin (atau SSM sebesar mungkin mendekati SST).

SSM = SST - SSR

KOEFISIEN KORELASI

Sekang kita bertanya: Seberapa besar Korelasi antara BILL dan TIP?

Kita pakai Pearson Correlation.



  Rumus Pearson Corelation

r = b1 . (stdev x) / (stdev y)
b1 -- slope

Kita hitung pakai Excel. Rumus Standar deviation di Excel = STDEV (A1:A6), dan STDEV (B1:B6). 

a b c=a/74 d=b/10 e=c*d f=c^2 g=e/f
BILL TIP
34 5 -40 -5 200 1600
108 17 34 7 238 1156
64 11 -10 1 -10 100
88 8 14 -2 -28 196
99 14 25 4 100 625
51 5 -23 -5 115 529
74 10 615 4206 0.146219686(slope)
29.00344807 4.898979486 (stdev)


Kita pakai rumus Pearson Correlation tsb:

r = 0.146219686 *  29.00344807 / 4.898979486 = 0.865665
r = 0.865665

Jika di cek pakai STATA, hasilnya sesuai.

. pwcorr tip bill

             |      tip     bill
-------------+------------------
         tip |   1.0000 
        bill |   0.8657   1.0000 

Artinya kedua variabel berkorelasi positif cukup kuat sebesar 0.8657.

Lalu kita bertanya, apa makna MS (Mean Square error) untuk Model, Residual, dan Total? Dan apa makna Root Mean Square Error pada output STATA? Baca artikel lanjutan disini.


Comments