Regresi Categorical dengan Dummy Variable

Artikel ini terjemahan dari:

https://stats.idre.ucla.edu/spss/faq/coding-systems-for-categorical-variables-in-regression-analysis-2/

File latihannya download hsb2.xls 

Ringkasan dari artikel tsb:

1. Categorical Variable tidak bisa dimasukkan langsung dalam uji regresi. Uji regresi hanya bisa dilakukan pada variable numerical (continues) maupun variable dichotomous (spt Gender). Variable selain itu (spt variable nominal atau ordinal), tidak bisa dilakukan uji regresi.

2. Agar bisa dilakukan uji regresi maka variable Categorical tsb di recode menjadi variable lain. Ada beberapa teknik recode:

1. Dummy Coding
2. Simple Coding
3. Deviation Coding
4. Difference Coding
5. Helmert Coding
6. Orthogonal Polynomial Coding
7. Repeated Coding
8. Special User-Defined Coding

Teknik yang mana yang cocok digunakan tergantung type variable nya, apakah Ordinal atau Nominal. Ini akan dibahas nanti dengan contoh.

Perlu diingat bahwa saat membuat variable baru, jumlah variable yang dibuat adalah k-1 (dengan k jumlah level dari categorical variable itu).

Sebagai contoh variable race (warna kulit), memiliki 4 level: (1 = Hispanic, 2 = Asian, 3 = African American and 4 = white)

Kita akan lakukan recoding, tapi sebelumnya datanya spt berikut.


Kita akan lakukan regresi antara race (independent) dengan nilai write (dependent).

Sebelumya kita lihata dulu rata-rata dari nilai write berdasarkan race.


Sekarang kita lakukan coding ulang dengan beberapa teknik coding.

DUMMY CODING

Dummy coding adalah teknik coding paling sederhana. Yaitu dengan membuat variable dummy sebanyak k-1. Dalam hal ini kita buat dummy variable x1, x2, x3.

Level of raceNew variable 1 (x1)New variable 2 (x2)New variable 3 (x3)
1 (Hispanic)100
2 (Asian)010
3 (African American)001
4 (white)000
Terlihat bahwa yang dijadikan referensi adalah level 4 (white). Sehingga jika regresi write ke x1, ini bermakna nilai rata-rata score write Hispanic - nilai rata-rara score write white. Demikian juga makna untuk x2, dan x3.


Persamaan regresi:

write = 54.05517 - 7.596839x1 + 7.596839x2 - 5.855172x3

Interpretasi:
1. Model menjelaskan [R-squared] 10.71% dependent variable dijelaskan oleh independent variabels, atau [Adj R-squared] 9.34% (jika jumlah independent variable dimasukkan dalam perhitungan.

2. Model memiliki F 7.83 dengan signifikansi 0.0001 dimana model ini significant dengan alpha value 0.05.

3. Koefisien x1 adalah selisih antara rata-rata level-1 (Hispanic) dengan rata-rata level-4 (white). Demikian juga x2 dan x2, koefisien ini merupakan selisih level-2 (Asian), level-3 (African American) terhadap level-4 (white)

4. Koefisien x1 dan x3 significant, sedangkan x2 tidak significant. Ini bermakna nilai rata-rata write Hispanic significant berbeda dengan white. Demikian juga nilai rata-rata write African American significant bebeda dengan white. Sedangkan Asian tidak significant berbeda dengan white.

to be continued...





Comments