Regresi Linear - Hitung Manual [3] - Standardized Regression z
Kali ini kita akan bahas perbedaan Linear Regression dan Standardized Regression.
Dalam situasi nyata, terkadang independent variable datang dalam unit yang berbeda (misal variable semprotan minyak wangi dalam unit mililiter, dengan jumlah air yang diminum dalam satuan liter).
Terkadang kita perlu menormalkan / menstandardkan nya.
Teknik menstandarkan data, adalah dengan mentransformasikan ke domain z, yaitu variance dibagi standar deviasi. Karena unit penyebut dan pembilang sama, maka z ini sudah tidak ada dimensinya (meter, liter, Rp, watt, celcius, dsb).
Secara manual dapat dihitung sbb:
Rumus daripada Variable BILL dan TIP, di transformasikan menjadi variable zBill dan ZTip sbb:
zBill = xi - mean(xi) / stdev (x)
zTip = yi - mean(yi) / stdev (y)
Setelah mendapatkan data point yang baru, kita scatterplot di excel dan dengan memilih show formula. Excel memunculkan formula garis regresi:
y = 0.8657x + 5e-17
Jika zBill dan zTip di regresi kan dengan Stata didapat hasil sbb:
untuk Coefisien slope hasil yang didapat sama dengan Excel 0.8657 (dan ini sekaligus menjadi Pearson Correlation Coefisien). Akan tetapi intercept yang didapat Stata berbeda dengan Excel (walaupun bisa dibilang sama karena -0.00000000478 (Stata) bisa dibilang sama dengan Excel -0.00000000000000005), alias dibulatkan menjadi 0. Dan memang ini benar. Karena standardized regression ini akan melewati titik (0,0).
Jadi bisa dikatakan bahwa linier regression ke standadized regresion, adalah upaya untuk mentransformasikan nilai-nilai ke domain yang baru yang lebih standardized (dimana rentang nilainya lebih dekat satu sama lain).
Ini seperti mentransformasikan daya pemancar radio dalam miliWatt, ke desibel miliWatt (dBm), atau transformasi fourier, dsb.
Bagaimana menggenerate Standardive Value di Stata?
Caranya mudah, generate variable baru dengan perintah egen.
. egen zBill = std (bill)
. egen zTip = std (tip)
. list
+------------------------------------+
| bill tip zBill zTip |
|------------------------------------|
1. | 34 5 -1.379146 -1.020621 |
2. | 108 17 1.172274 1.428869 |
3. | 64 11 -.3447866 .2041242 |
4. | 88 8 .4827012 -.4082483 |
5. | 99 14 .8619665 .8164966 |
6. | 51 5 -.7930092 -1.020621 |
+------------------------------------+
Tampak value dari standardized di zBill dan zTip, sesuai dengan perhitungan manual.
APA YANG TETAP?
Menarik diperhatikan walau data-data di transformasi jadi Standardized (artinya data-data bebas dari measurement unit, spt kg, meter, celcius, dsb), namum antara non-Standardized dengan Standardized, hasil regresi sama, yaitu pada bagian:
F test khususnya untuk:
- R squared akan sama
- Perbandingan SSModel dengan SSResidual akan sama
t test khususnya untuk:
- t value
- P value
Perhatikan gambar berikut.
Dapat dilihat bahwa, hasil F test dan t test sama.
Rasio SS Model dan SS Residual juga sama:
89.925107 / 30.074893 = 2.990039 (non-standardized regression)
3.74687946 / 1.25312046 = 2.990039 (standardied regression)
Yang berbeda adalah slope dan intercept, dan ini memang normal, karena data-data semua sudah ditransmormasikan menjadi data-data normalized.
Comments
Post a Comment