Sejarah t test

Uji t test adalah sebuah metode untuk menguji hipotesis apakah H0 dapat diterima atau ditolak. 


Pada tahun 1908, William Sealy Gosset menerbitkan penelitian tentang sebuah cara untuk menentukan apakah dua kelompok berbeda rata-rata (mean) nya satu sama lain secara significan atau tidak. Penelitaannya dilakukan di sebuah ladang barley.


Dia mengambil sampel dari ladang barley 1 sebanyak n1 sample, dan dari ladang barley 2 sebanyak n2 sample. Dia pun menghitung yield per sample tsb. Barley ini nanti akan digunakan untuk bahan pembuatan bir.

Dari sample-sample di kedua ladang tsb dia bisa dapatkan rata rata untuk ladang 1 (X1-bar) dan rata-rata yield ladang 2 (X2-bar).

Nah, dari gambar terlihat kurva normal X1 (warna merah) dan kurva normal X2 (warna biru). Sedangkan rata-rata itu vertical putus-putus. Nah, perhatikan. Sudah jelas-jelas mean yield X2 lebih dikanan, artinya lebih besar.

Lalu buat apa dibandingkan?

Wait... tunggu dulu....

Ingat bahwa X2 itu memang lebih tinggi mean nya. Tapi apakah ini PASTI? Apakah ini bisa terjadi secara kebetulan (by chance)? Artinya mungkin saja jika di pilih sample lain di ladang 1 dan ladang 2 maka akan beda hasilnya?

Mungkin saja toh....

Disisi lain, membandingkan 2 mean (X1-bar vs X2-bar) saja tidak cukup. Sebagai bukti berikut gambar 


Contoh diatas, ada 2 sample populasi. Rata-rata (x-bar) nya sama yaitu 100. Tapi sebarannya beda (standar deviasi populasinya beda, s sample berbeda). Yang warna biru lebih spreading, dibandingkan warna merah. Ini contoh Standar Deviasi kedua kelopompok itu berbeda. Biru s = 50, sedangkan merah s = 10. 

Nah, paham kan bahwa membandingkan (atau mengurangkan) dua mean saja tidak cukup (baik itu mean sample x-bar, maupun mean populasi 𝛍). Harus di perhatikan juga standar deviasinya (baik itu standar deviasi populasi 𝝈, maupun standar deviasi sample s).

Lanjut... 

Selisih daripada 2 mean ini lah yang disebug SIGNAL. 

Kembali ke kisah Barley tadi...

Kita sudah paham sekarang, bahwa dalam pengukuran itu pasti ada variasi datanya. Ada data yang tersebar, sehingga standar deviasinya tinggi. Ada data yang lebih terpusat, sehingga standar deviasi rendah.

Nah faktor ini perlu diperhitungkan dalam konteks pengukuran di ladang 1 dan ladang 2 tadi.

Memang betul X2-bar lebih besar dari X1-bar. Tapi.. jangan-jangan standar deviasi X2-bar juga tinggi. Sehingga informasi bahwa mean X2- bar tinggi, ini informasi yang banyak noise nya.

Muncullah konsep Signal to Noise. Dan ini lah t test itu. 

t value = Signal / Noise

Jika t besar, maka Signal jauh lebih kuat dari pada Noise.

Signal adalah selisih mean,yaitu | X1-bar minis X2-bar |, sedangkan Noice adalah akar dari jumlah dari (Standar Deviasi kuadrat dibagi jumlah sample).



Standar Deviasi di kuadradkan ini namanaya Variance. Kenapa SD di kuadradkan? Jawabnya untuk mengamplifikasi (meng-exagerate) deviasinya.

Dari rumus diatas akan didapat t-value.   



Terlihat signal lebih besar dari noise, sehingga t value = SNR (Signal to Noise Ratio) = 2.3388

Pertanyaannya apakah SNR (atau t value) ini sudah cukup menyimpulkan YES, terdapat perbedaan yang significant (dengan confident level 95%, atau alpha value 5%)?

Pada titik ini kita perlu sebuah referensi, t critical (t-test). Jika t-value > t-test maka Reject H0.

H0 : tidak ada perbedaan mean (𝛍 ladang1 = 𝛍 ladang2).

Reject H0 artinya: ada perbedaan mean.

Bagaimana menentukan t cricical (t-test) ini?

Kita harus tau df (degree of freedom) dulu. Dalam case dibawah ini, df = nField1 -1 + nField2 -1

df = 16 - 1 + 16 - 1 = 30.

Selanjutnya kita harus tetapkan p critical = 0.05 (5%). Dan selanjutnya kita bisa melihat tabel t-test.



Dari gambar diatas t-value kita 2.3388 lebih besar dari t-test (t-critical) 2.04, artinya kita Reject H0. 

H0 adalah keyakinan status quo
Ha adalah keyanikan peneliti yang melawan status quo.

Dalam konteks t-test:

H0 : tidak ada perbedaan significant antara mean dua populasi
Ha : ada perbedaan

Dari gambar diatas peneliti akan mengatakan: dari sample Field1 dan Field2 ditemukan bahwa selisih mean antara keduanya ada perbedaan (karena kita Reject H0).

Ada perbedaan yield !

Ini kemudiang bisa menimbulkan pertanyaan lanjutan dari peneliti: Kenapa ada perbedaan hasil panen (yeild)? Apakah pupuk yang di pakai di Field1 sehingga hasil panen (yield) nya berbeda dengan Field2?

Nah bisa lanjut lagi kan penelitannya.... hehehe...

Jika di hitung pakai excel vs stata hasilnya sbb:






Didapatkan hasil yang sama antara hitung manual excel dengan stata.

Terihat ladang2 mean nya 15.68 sedangkan ladang1 mean nya 15.38, terlihat dekeeet banget kan... Tapi apa bisa langsung menyimpulkan bahwa memang nyaris tidak ada beda hasil ladang2 dengan ladang1. Tunggu dulu...

Lihat standar deviasinya berbeda.. ladang2 0.1 sedangkan ladang1 0.78. 

Bisa saja peneliti by chance (secara tidak sengaja) megambil sample yang mean nya berdekatan, tapi variance dari data yang disampling berbeda (terlihat dari standar deviasi yang berbeda).

Dari hasil t-test kesimpulannya: kedua ladang tsb menghasilkan yield yang berbeda.

Tapi tunggu dulu....

Bagaimana kalau p critical nya di set 0.025, artinya level confident 97.5%?

Jika dilihat di tabel t-test, dengan df 30, dan p 0.025, maka t critical di tabel diatas 2.36. Nah dari perhitungan sebelumnya t-value = 2.339, artinya t-value < t-critical, artinya Accept H0.

Nah loh..  beda lagi ya kesimpulannya...

Jika diperhatikan dengan stata:


Terlihat probability 0.0267 juga > dari p 0.025, artinya accept H0.



Kenapa dengan p=0.05 dan p=0.025 hasilnya beda?

probability 5%, confidence level 95% --> Reject H0: kedua kelompok data berbeda
probability 2.5%, confidence level 97.5% --> Accept H0: kedua kelompok data mirip

Karena dengan p 0.05 artinya kita mensyaratkan dalam 1000x sampling ada 50x sampling yang hasilnya berbeda. Sedangkan dengan p 0.025 artinya kita mensyaratkan dalam 1000x sampling ada 25x sampling yang hasilnya berbeda. Syarat pertama lebih ketat sehingga jika tidak terpenuhi, maka H0 di reject (artinya kedua ladang rata-rata yield berbeda).

Keanehan ini sebenarnya bisa terjawab: Jika alpha makin kecil, maka wilayah Accept H0 semakin lebar. Ini yang menyebabkan kenapa pada alpha 0.25, H0 malah di accept.




Cara lain membaca data tsb adalah dengan membandingkan 95% Confidende Level Interval vs 97.5% Convidence Level Interval, (baca Tip & Trik pada artikel selanjutnya) [ Catatan cara ini hanya cocok untuk 2 tailed test, baca artikel ini].

Peratikan bahwa fokus H0 : diff = 0.

Perhatikan di rentang Confidende Levelnya, apakah 0 termasuk dalam rentang itu? Jika iya, maka H0 diterima.




Wah... panjang juga ya pembahasannya...

Lanjut....

PART-2

Dalam hal uji t test terdapat 2 hal yang perlu diperhatikan:

1. Apakah sampelnya paired atau unpaired
2. Apakah t test nya one tail atau two tail

Pair atau Unpaired

Jika ada data sebagai berikut:

catatan: data sampel diatas diambil dari channel youtube.

Intinya, apabila data yang berpasangan tersebut menggambarkan satu objek yang sama, spt pada gambar objeknya: Jonah, Zach Elliot, Sam, dst diukur tingginya ketika berumur 5, dan ketika berumur 15 tahun. Nah, jika data tsb objek yang sama maka ini dikatakan paired.

One Tail atau Two Tail

One tail jika pertanyaan/pernyataan H0 nya adalah: tidak ada perbedaan antara .... A dengan .... B

... bisa mean, proporsi, dsb

Misal dalam contoh diatas:

H0: tidak ada perbedaan rata-rata tinggi populasi boy dengan girl

H0: tidak ada perbedaan rata-rata tinggi populasi ketika populasi berumur 5 tahun dengan 15 tahun 

Jika setelah di hitung p < 0.05, maka H0 ditolak

Two tail jika pernyataan H0 nya mengandung unsur lebih besar atau lebih kecil

Misal dalam contoh diatas:

H0: rata-rata tinggi populasi boy > girl

H0: rata-rata tinggi usia 5 th < usia 15 th

CASE-1


Btw: gambar diatas, di excel dipilih: T.TEST(B3:B22;C3:C22,2,3)
2 adalah two-tail 
3 adalah two sample unequal variance (pilihan lain, 1 = paired, 2 = twosample equal variance)

Apakah ada perbedaan antara rata-rata tinggi belalang jantan atau betina?

H0: tidak ada perbedaan significant antara rata-rata tinggi


p = 0.08295 = 0.0830 

Jika pakai Stata


Terlihat bahwa p 0.0830 diatas dari pada alpha 0.05, artinya H0 diterima

Bisa juga dikatakan, bahwa probabilitas 8.3% data terambil secara random, padahal batas yang dinginkan adalah p < 5%. 

to be continued....

Comments