Regresi Linear - Hitung Manual [2] - SS Residual Root MSE

Ini adalah artikel lanjutan dari sebelumnya. Jika Anda belum membacanya harap membaca artikel tsb terlebih dahulu.

MEAN SQUARE ERROR (MS Error)

Rumusnya adalah 

   MSE = SSE / N (N jumlah populasi)

   MSE = SSE / df (df degree of freedom)

   df = n - 2 (n jumlah sample observasi, 2 adalah 2 variable)

Karena kita menggunakan sample (sebanyak 6), bukan populasi, maka:

MSE = 30.07489301 / (6 - 2) = 7.518723252

Nilai ini sesuai dengan hasil STATA kotak warna merah.


ROOT MEAN SQUARE ERROR (s)

Root mean square error, atau kadang disebut standar error dari estimasi (ini mirip-mirip standar deviasi) adalah akar (root) dari MS Error.

Root MSE = sqrt (MSE residual)

Root MSE = sqrt ( 7.518723252 ) = 2.742029039

Root MSE dihitung manual didapat 2.742029039, sesuai dengan hasil STATA kotak warna merah.


Interpretasi:

Jarak rata-rata antara data-point TIP dengan garis regresi adalah senilai $2.742. Artinya jika anda sebagai manager restoran, ingin menetapkan berapa TIP yang pas untuk sebuah menu baru, seharga $20, maka ingat rumus garis regresinya:

y = 0.146 x 20 - 0.82 = $2.1 

Jika RMSE diterapkan +/-  $2.742, maka kisaran TIP maksimal yang masih wajar:

$4.842 sekitar $5.

Jika anak buah Anda kasih TIP $10 misalkan, maka ini bisa dibilang lebay.... :)

Nilai RMSE (atau standar error of the estimate) ini bisa memberikan gambaran seberapa bagus model dapat digunakan untuk bisa membuat prediksi. Apabila RMSE terlalu besar tentu berarti modelnya tidak baik untuk melakukan prediksi.

Selain itu RMSE dapat digunakan juga untuk membuat interval prediksi (dibahas lebih lanjut).

Kesimpulan untuk SSR MSR dan RMSE digambarkan sbb:



Perlu diingat bahwa:

SS Residual, MS Residual berada dalam nilai kuadrat. Sehingga nilainya jangan dibayangkan sebagai US$. Dimana SS Residual adalah nilai total seluruh observasi, sedangkan MS Residual apabila "dilihat" per observasi.

Akan tetapi Root MSE, atau estimasi standar error, ini sudah di lakukan operasi square (akar), sehingga bisa dibanyangkan dalam unit yang sama (yaitu US$).

R-squared (r^2)

Rumus dari R-squared adalah sbb: 

R-squared = SSModel / SSTotal

          89.92510699   /  120

          = 0.749375892 ~ 75%

Apa interpretasi R-squared ini?

Ini berarti model tsb berhasil menjelaskan bahwa variable BILL mempengaruhi variable TIP sebanyak 75%. Sedangkan 25% lagi variable BILL dipengaruhi oleh variable lain yang belum diketahui.  

Ingat kembali perbedaan model dalam ilmu eksak dan sosial adalah bahwa dalam ilmu eksak variable dependent sudah pasti ditentukan oleh variable independent.

Semisal: F = m . a (gaya = massa dikali percepatan)

Tidak ada variable lain yang mempengaruhi F. Ini berarti r^2 akan 100%. Artinya variable mass dan gaya 100% mempengaruhi variabel F.

Dalam ilmu sosial tidak begitu.

Misalkan kita bilang: semangat kerja = gaji x slope + intercept. Apakah semangat kerja dipengaruhi 100% oleh gaji? Tentu tidak. Bisa jadi jarak dari rumah, kemaceten dijalan, dll mempengaruhi semangat kerja.

Artinya nilai r^2 (R squred) nya tidak akan 100%. Misal dalam perhitungan STATA ditemukan r^2 60%, ini berarti, variable gaji mempengaruhi semangat kerja sebanyak 60%, sedangkan 40% nya dipengaruhi faktor lain (variable lain) yang belum diteliti.
 

So far, kesimpulan Regresi Linear

Kita sudah liat dan dapat penjelasan tentang hal-hal yang penting dalam membaca output regresi liner di STATA. Antara lain:

1. SS Model mendekati SS Total 

SS Model haruslah sebesar mungkin mendekati SS Total, dan SS Residual haruslah sekecil mungkin. Jika kondisi ini tidak tercapai maka model garis regresi kita tidak bagus.

2. R-squared yang besar 

R-squared sebaiknya besar. Jika R-squred hanya kecil misal 20%, maka ini menyatakan bahwa variable independent mempengaruhi variable dependent sebanyak 20%. Artinya ada 80% variable lain yang tidak diketahui saat ini. 

3. P > |t| nilainya kurang dari 5% (0.05)

Jika nilai ini > 0.05 maka hipotesis ditolak. Artinya model regresi liner tidak bagus, dan tidak bisa diterima.

4. 95% Conf. Interval tidak mengandung nilai 0

Artinya intervalnya harus >=0  

5. Dapat juga ditambahkan Pearson correlation significant > 0.05, dan Kekuatan korelasinya diatas 0.3 atau diatas .5.

Coefficient ValueStrength of Association
0.1 < | r | < .3small correlation
0.3 < | r | < .5medium/moderate correlation
r | > .5large/strong correlation

  pwcorr Var1 Var2, sig star(.05) obs


EFEK DARI OUTLIER

Sebagai penutup, kita akan liat efek dari outlier.

Data awal adalah sbb:

. list bill tip


     +------------+

     | bill   tip |

     |------------|

  1. |   34     5 |

  2. |  108    17 |

  3. |   64    11 |

  4. |   88     8 |

  5. |   99    14 |

     |------------|

  6. |   51     5 |

     +------------+


Bagaimana kalau kita simulasikan baris ke 2, jika harga Bill 108, maka tip nya $1 (alih-alih $17). Apa yang akan terjadi?


Data kita ubah:

. replace tip = 1 in 2

(1 real change made)


. list bill tip


     +------------+

     | bill   tip |

     |------------|

  1. |   34     5 |

  2. |  108     1 |

  3. |   64    11 |

  4. |   88     8 |

  5. |   99    14 |

     |------------|

  6. |   51     5 |

     +------------+

Dan ini perbandingan hasil regresinya.



Interpretasi:

1. R-squared turun drastis ketika ada oulier, menjadi 1.1% (dari sebelumnya 74.9%). Artinya variable BILL hanya berkontribusi 1.1% terhadap variable TIP, atau dengan kata lain bisa dikatakan TIP dipengaruhi 98.9% oleh variable yang belum diketahui. Tentu ini tidak baik, karena terlalu banyak variable unkwon yang mempengaruhi TIP.

2. SS Model (Sum of Square Error for Model) 1.2, sedangkan SST 109, Residu 108. Padahal model regresi seharusnya menurunkan SS Residu sekecil mungkin menjadi 0. Dengan adanya outlier, maka Error Residu sangat besar.

3. P>|t| menjadi > 0,05, artinya model ini tidak significant

4. Demikian juga intervar dari slope antara nilai minus ke plus, artinya ada nilai 0 diantaranya (slope 0), ini artinya model ditolak






Comments