Teknik Coding Dummy Variables

Sebagaimana telah dibahas pada pembahasan sebelumnya, Dummy Variables digunakan semata karena regresi hanya bisa bekerja dengan data numerical. Apabila ingin melakukan regresi pada data categorical (baik nominal, ataupun ordinal) maka satu variable di pecah ke beberapa variable dummy-nya.

Berikut adalah terjemahan ringkas dari artikel "CODING SYSTEMS FOR CATEGORICAL VARIABLES IN REGRESSION ANALYSIS" 

Untuk data-latihan bisa download hsb2.xls

Problem Regresi Pada Categorical Variable

Categorical variable membutuhkan perhatian khusus saat melakukan analisa regresi karena, tidak spt variable dichotomous atau variable continous (yang bisa langsung diterapkan analisa regresi), maka variable catogorical tidak bisa langsung dimasukkan dalam analisa regresi. Variable ini perlu di recode dulu menjadi variable baru yang bisa dimasukkan dalam analisa regresi. Ada banyak metode untuk me-recode variable categorical ini agar bisa digunakan dalam model regresi:

1. Dummy coding
2. Simple coding
3. Deviation coding
4. Difference coding
5. Helmert coding
6. Orthogonal Polinomial coding
7. Repeated coding
8. Special User-Defined coding

Perlu dicatat bahwa beberapa teknik coding diatas ada yang cocok dengan nominal variable, dan ada yang cocok dengan ordinal variable.

Contoh kasus.

Kita akan melakukan model regresi antara warna kulit (race) dengan score menulis (write).

to be continued...


Comments