Problem Colliniearity dalam Regresi

Dalam kalkulasi estimasi, seperti uji regresi kadang ditemukan satu atau beberapa variable independent di ommit oleh Stata. Variable yang diommit ini tidak dilibatkan dalam perhitungan. Salah satu penyebabya adalah collinearity.

Apa itu collinearity?

Collinearity terjadi saat satu atau beberapa variable independent berkaitan erat dengan variable indendent lainnya. Collinearity ini menyebabkan model regresi menjadi bermasalah.

Contoh:

Nilai raport siswa ditentukan oleh uang saku, dan biaya transport.

Yang logis adalah semakin tinggi uang saku maka semakin tinggi nilai raport siswa. Dan semakin tinggi biaya transport semakin rendah nilai raport siswa. 

Logis kan.

Tabel berikut ini saya buat secara imaginer. Nilai (rentang 0 - 100), biayatransport dalam Rupiah x 1000, dan uangsaku dalam Rupiah x 1000.




Persamaan regresi:

nilai = 23.18457 + 0.7823691.uangsaku - 0.8115702.biayatransport


Terlihat bahwa: R-squared 83% cukup tinggi, dan Prob 0.0018 (significant). Disamping itu variable independent uangsaku dan biayatrasport P nya juga significant. Terlihat juga coefisien uangsaku positif dan biayatransport negatif. Ini sesuai dengan asumsi awal kita bahwa semakin tinggi uangsaku siswa semakin tinggi nilai raportnya. Sebaliknya semakin tinggi biayatransport siswa semakin rendah nilai raportnya.

Setiap kenaikan uangsaku 1 (atau Rp. 1000) akan menaikkan nilai raport 0.782. Setiap kenaikan biayatransport 1 (atau Rp. 1000) akan menurunkan nilai raport 0.812.

Nah, sekarang kita coba buat variable baru yaitu infaq.

infaq = uangsaku x 2.5% + 2



Perhatikan ada note di statanya:

note: infaq omitted because of collinearity

Terjadi collinerarity disini yaitu variable infaq ini dia collinier terhadap variable independent lain, bisa terhadap uangsaku bisa terhadap biayatransport.

Untuk memeriksa infaq ini collinier dengan variable independent mana, kita bisa menjadikan dia seolah variable dependent dan melakukan regresi ulang.


terlihat disini R-squared 100%, ini artinya infaq dijelaskan 100% oleh uangsaku dan biaytransport. Dari tabel stata diatas kita bisa tulis persamaan infaq

infaq = 0.025.uangsaku  -  1.55e-18. biayatransport + 2

karena coefisient biayatransport -1.55e-18 kecil sekali = 0, maka persamaan infaq menjadi:

infaq = 0.25.uangsaku + 2


Persamaan yang didapat persis sama dengan persamaan waktu kita menggenerate variable infaq.

Terlihat disini bahwa infaq colinier dengan uangsaku.

Variable yang collinier ini harus dibuang dari model regresi. Kita bisa memilih model regresinya menggunakan salah satu saja apakah uangsaku atau infaq.

Sehingga model regresi yang baik:

regress nilai uangsaku trasport

atau

regress nilai infaq transport

Dalam kehidupan nyata bisa dibayangkan sitiuasi spt ini.

Seorang Bapak disosori oleh anaknya data nilai raport siswa di sekolahnya, berikut dengan data uangsaku, uang transport, dan infaq masing-masing siswa tsb.

Si Bapak melihat ada korelasi positif antara besar uangsaku dan infaq terhadap nilai raport. Semakin tinggi uangsaku atau infaq semakin tinggi nilai raport.

Si Bapak juga melihat korelasi negatif antara biayatransport terhadap nilai raport. Semakin tinggi biaya transport, semakin turun nilai raport.

Menghadapi 3 variabel independen tsb si Bapak memutar 1/3 energi otaknya untuk berpikir bagaimana cara menambah uangsaku anak, 1/3 energi otaknya diperas untuk memikirkan bagaimana menambah infaq si anak, dan sisa energi otaknya 1/3 lagi dia gunakan berpikir keras bagaimana menurunkan biaya transport.

Dalam hal ini si Bapak bisa saja terjebak memikirkan bagaimana menaikkan uangsaku dan infaq, karena jika problem ini solved, menurut si Bapak sudah 2/3 masalah solved.

Si Bapak tidak peduli dg biayatransport.

Bisa jadi keputusan si Bapak, adalah mengurangi jatah dapur untuk menambah uangsaku dan infaq anak.

Padahal, uangsaku dan infaq ini collinear.

Jika si Bapak, mengerti tentang konsep collinear, maka si Bapak akan melihat ada korelasi liniear antara uangsaku dan infaq. Sehingga dia akan pilih salah satu variable saja, yaitu uangsaku.

Si Bapak sekarang dihadapkan pada dua variable saja: uangsaku, dan biayatransport.

Si Bapak akan putar otak 50% memikirkan bagaimana menaikkan uangsaku dan 50% energi otak sisanya memutar otak bagaimana menurunkan biaya transport.

Si Bapak kemudian memutuskan untuk menyelesaikan masalah biayatransport ini. Setelah dia lihat dan analisa, biayatransport ini membengkak karena anaknya harus 3 kali menyambung angkot, sehingga waktu habis, uang habis, sampai sekolah si anak sudah "bete" duluan. Ini berpegaruh negatif terhadap nilai raport.

Akhirnya si Bapak memutuskan meminjamkan motor dia ke anaknya, karena setelah dia hitung-hitung biayanya menggunakan motor jauh lebih murah dibandingkan dengan biaya naik 3 kali angkot, dan juga pakai motor lebih cepat sampai sekolah. Sementara si Bapak memilih ke tempat kerjanya nebeng tetangga, atau naik angkot dengan mengurangi jatah belanja rokok dia.

Setelah setahun berlalu terbukti anaknya jadi ranking satu di sekolahnya. Si Bapak berguman dalam hati: hmmm untung dulu saya analisanya pakai analisa collinearity... sambil menyeruput secangkir kopi hitam...

Comments