Regresi Dummy http://oc.its.ac.id/jurusan.php?fid=1&jid=3 Wiwiek Setya Winahju,
[email protected]
Nama lain Regresi Dummy adalah Regresi Kategori. Regresi ini menggunakan prediktor kualitatif (yang bukan dummy dinamai prediktor kuantitatif ). ). Pembahasan pada regresi ini hanya untuk satu satu macam variabel dummy dan dikhususkan pada penaksiran parameter dan kemaknaan pengaruh prediktor. Pembahasan akan dilakukan dengan menggunakan berbagai contoh.
Regression Analysis: Suspended Solid versus pH; Z1; Z2; Z3 * Z3 is highly correlated with other X variables * Z3 has been removed from the equation. The regression equation is Suspended Solid = - 162 + 54,3 pH + 90,0 Z1 + 27,2 Z2
Contoh 1 Suatu penelitian bertujuan memodelkan hubungan antara kandungan Suspended Solids dengan pH pada air yang keluar dari outlet sistim pembersihan batubara. Sistim menggunakan tiga macam Polymer. Model dugaan adalah : Y i = β 0 + β 1 X X 1i1i + β 2 Z Z 1i1i + β 3 Z Z 2i2i + ε i , , i = 1, 2, ... , 18. Polimer sebagai variabel dummy yang terdiri dari tiga level, yaitu 1, 2, dan 3, dinyatakan oleh tiga variabel, yaitu Z1, Z2, dan Z3. Command untuk mendapatkan nilai-nilai variabel dummy dengan MINITAB adalah : MTB MTB MTB MTB
MTB > Regress 'Suspended Solid' 4 'pH' 'Z1' 'Z2' 'Z3'; SUBC> Constant; SUBC> Brief 2.
> > > >
INDICATOR C14 C15 C16 C17 name C15 ‘Z1’ name C16 ‘Z2’ name C17 ‘Z3’
dengan : C14 adalah kolom yang memuat variabel dummy, pada contoh soal ini adalah Polymer. C15 – C17 menyatakan asal Polymer, yang kemudian dinamai Z1, Z2, dan Z3; Z1 bernilai 1 menunjukkan eksperimen menggunakan Polymer 1, begitu pula dengan Z2 dan Z3. Hasil eksperimen beserta nilai-nilai variabel dummy ditampilkan pada tabel berikut:
pH ( X )
Suspended Solid (Y )
Polymer
6,5 6,9 7,8 8,4 8,8
292 329 352 378 392
9,2 6,7
Z
Z
1
2
1 1 1 1 1
1 1 1 1 1
0 0 0 0 0
0 0 0 0 0
410 198
1 2
1 0
0 1
0 0
6,9 7,5
227 277
2 2
0 0
1 1
0 0
7,9 8,7 9,2 6,5 7 7,2 7,6 8,7 9,2
297 364 375 167 225 247 268 288 342
2 2 2 3 3 3 3 3 3
0 0 0 0 0 0 0 0 0
1 1 1 0 0 0 0 0 0
0 0 0 1 1 1 1 1 1
Z3
Sumber : Classical And Modern Regression, Second Edition, oleh Raymond H Myers, 1990, halaman 143. Keluaran pengolahan data adalah sebagai berikut :
Predictor Constant pH Z1 Z2
Coef -161,90 54,294 90,00 27,17
S = 19,0464
SE Coef 37,43 4,755 11,05 11,01
R-Sq = 94,0%
T -4,32 11,42 8,14 2,47
P 0,001 0,000 0,000 0,027
R-Sq(adj) = 92,8%
Analysis of Variance Source Regression Residual Error Total
Source pH Z1 Z2
DF 1 1 1
DF 3 14 17
SS 80182 5079 85260
MS 26727
F 73,68
P 0,000
363
Seq SS 54856 23118 2208
Munculnya Munculnya peringata peringatan n :
* Z3 is highly highly correcorrelated with other X variables, dan * Z3 has
menunjukkan bahwa hanya diperlukan Z1 dan Z2; berarti berarti untuk satu predikto prediktorr dummy dummy dengan dengan tiga level level (pada (pada kasus kasus ini Polymer terdiri dari level 1, 2, dan 3) cukup dinyatakan oleh dua variabel dummy, Z 1 dan Z2. Dengan demikian, pada pengolahan data yang digunakan sebagai prediktor kualitatif adalah Z 1 dan Z2, bukan Polymer. been removed from the equation,
Kemaknaan pengaruh Polymer dideteksi melalui Jumlah Kuadrat Regresi kontribusi Z 1 dan Z2, yang dinotasikan R( β 2 , β 3 | β 0 , β 1 ) , dan didapatkan dengan menjumlahkan SS Sequential Z1 dengan Z2, yaitu : R ( β 2 , β 3
| β 0 , β 1 ) = 23118
+
2208
= 25326
Proses pengujian hipotesis secara lengkap adalah sebagai berikut : i. Perumusan hipotesis, H0 : β 2 = 0 dan β 3 = 0 , berarti pengaruh Polyner terhadap kandungan Suspended Solid tidak bermakna, H1 : β 2 atau β 3 tidak nol. ii. α = 0,05 iii. Statistik Uji : F =
R( β 2 , β 3
| β 0 , β 1 )
MSE MSE
=
25326 363
=
69,77
iv. Bila H0 benar maka F~ F2,14, sehingga titik kritis adalah F2,14, 0,05 = 3,74. v. Kesimpulan : tolak H0, karena statistik statistik uji F >
F2,14, 0,05 , sehingga Polymer berpengaruh pada kandungan SS. Kesimpulan ini berdasarkan pada anggapan bahwa pengaruh prediktor pH dan Polymer bersifat aditif , bukan interaktif. Ciri aditif ialah kemiringan garis regresi sama atau garis regresi ke tiga Polymer sejajar, seperti yang ditampilkan pada Plot berikut ini.
Variable Y Polimer1 Y Polimer2 Y Polimer3
d i 400 l o S d e d 350 n e p s u S 300 n a g n u d 250 n a K
S = 14,5850
200 7,0
7,5
8,0 pH
8,5
9,0
SE Coef 48,52 6,253 68,79 71,05 8,737 9,090
R-Sq = 97,0%
Source Regression Residual Error Total
Source pH Z1 Z2 pH,Z1 pH,Z2 6,5
Coef -158,27 53,824 197,69 -108,74 -13,561 17,394
T -3,26 8,61 2,87 -1,53 -1,55 1,91
P 0,007 0,000 0,014 0,152 0,147 0,080
R-Sq(adj) = 95,8%
Analysis of Variance
Plot SuspendedSolid Pada Polimer1, Polimer2, Polimer3 terhadap pH 450
Predictor Constant pH Z1 Z2 pH,Z1 pH,Z2
DF 1 1 1 1 1
DF 5 12 17
SS 82708 2553 85260
MS 16542 213
F 77,76
P 0,000
Seq SS 54856 23118 2208 1747 779
9,5
Pengujian hipotesis secara lengkap adalah sebagai berikut :
Model dugaan untuk Polymer 1, Polymer 2, dan Polymer 3 masing-masing adalah sebagai berikut : Model pada Polymer 1 didapat dengan cara mensubstitusikan nilai Z1=1 dan Z2=0 pada model regresi hasil pengolahan data,
i. Perumusan hipotesis, H0 :
β 1 = 0 dan β 1 2 = 0 , berarti pengaruh z
z
1
interaksi pH dengan Polymer tidak bermakna. H1 :
Suspended Solid = - 162 + 54,3 pH + 90,0 Suspended Solid = - 72 + 54,3 pH
β 1 atau β 1 2 tidak nol z
z
1
ii. α = 0,05
Model pada Polymer 2 didapat dengan cara mensubstitusikan nilai Z1=0 dan Z2=1 pada model regresi hasil pengolahan data,
iii. Statistik Uji :
Suspended Solid = - 162 + 54,3 pH + 27,2 Suspended Solid = - 134,8 + 54,3 pH
F =
R( β 1 z
1
, β 1z 2 | β 0 , β 1 , β 2 , β 3 ) MSE
=
1747 + 779 213
=
Model pada Polymer 3, Z1=0 dan Z2=1, Suspended Solid = - 162 + 54,3 pH
Selanjutya ingin diketahui pula kemaknaan pengaruh interaksi antara pH dengan Polymer. Dengan demikian terdapat tambahan dua prediktor, yaitu interaksi antara pH dengan masing-masing Z1 dan Z2, dinotasikan X 1Z1 dan X1Z2 . Model dugaan menjadi : Y i
=
β 0
+
β 1i X 1i
β 1 z 2 X 1i Z 1i
+
+
β 2 Z 1i
+
β 3 Z 2 i
+
β 1 z 1 X 1i Z 1i
+
ε i
Pengolahan data dilakukan dengan menuliskan serangkaian command berikut : MTB > let c25=pH*Z1 MTB > name c25 'pH,Z1' MTB > let c26=pH*Z2 MTB > name c26 'pH,Z2' MTB > Regress 'Suspended Solid' 5 'pH' 'Z1' 'Z2' 'pH,Z1' 'pH,Z2'; SUBC> Constant; SUBC> Brief 2.
Didapatkan keluaran sebagai berikut :
Regression Analysis: Suspended Solid versus pH; Z1; Z2; pH,Z1; pH,Z2 The regression equation is Suspended Solid = - 158 + 53,8 pH + 198 Z1 - 109 Z2 - 13,6 pH,Z1 + 17,4 pH,Z2
iv. Bila H0 benar maka F~ F2,14, sehingga titik kritis adalah F2,12, 0,05 = 3,89. v. Kesimpulan : tolak H0, karena statistik uji F > F2,12, 0,05 , sehingga pengaruh interaksi pH dengan Polymer bermakna. Ini berarti pengaruh pH pada setiap Polymer berbeda. Kesimpulan ini menunjukkan bahwa model sebelumnya, dengan anggapan pengaruh prediktor pH dan Polymer bersifat aditif, yaitu : Y i = β 0 + β 1 X 1i + β 2 Z 1i + β 3 Z 2i + ε i kurang sesuai . Model terakhir, yaitu model yang melibatkan efek interaksi, Y i
=
β 0
+
β 1i X 1i
β 1 z 2 X 1i Z 1i
+
+
β 2 Z 1i
+
β 3 Z 2 i
+
β 1 z 1 X 1i Z 1i
ε i
lebih sesuai. Hal ini diperkuat oleh Plot berikut ini :
+
11,86
Plot Suspended Solid terhadap pH Polymer 1
400
2 3
350 d i l o S d 300 e d n e p s u 250 S
Analysis of Variance
Source Regression Residual Error Total
DF SS MS F P 1 759530 759530 2,33 0,158 10 3258588 325859 11 4018118
Scatterplot of Y vs X
200 4000 6,5
7,0
7,5
8,0 pH
8,5
9,0
D 0 1
9,5 3500
Tampak garis yang menggambarkan model setiap Polymer tidak sejajar; ini berarti kemiringan ( slope), yang menggambarkan pengaruh pH pada kandungan Suspended Solid berbeda, tergantung pada jenis Polymer.
Y
3000
2500
2000 10000
Contoh 2 Berikut ini adalah data Pengeluaran Untuk Makanan dan Pendapatan Bersih para Pria dan Wanita lajang. Jenis Kelamin merupakan variabel kategori, dengan Pria diberi nilai 0 dan Wanita diberi nilai 1. Datanya sebagai berikut:
15000
20000
25000 X
30000
35000
Scatterplot of Belanja Maka vs Pendapatan W, Belanja Maka vs Pendapata 4000
Variable Belanja MakananW * PendapatanW Belanja MakananP * Pendapatan P
3500
Pengamatan ke 1 2 3 4 5 6 7 8 9 10 11 12
Pengeluaran untuk makanan Y ($) 1983 2987 2993 3156 2706 2217 2230 3757 3821 3291 3429 2533
Pendapatan Bersih X ($) 11557 29387 31463 29554 25137 14952 11589 33328 36151 35448 32988 20437
Jenis Kelamin D 1 1 1 1 1 1 0 0 0 0 0 0
Scatterplot of Y vs D 4000
a t a 3000 D Y
2500
2000 10000
15000
20000 25000 X-Data
30000
35000
Plot Belanja Makanan terhadap Pendapatan 3800
Variable Belanja Makanan oleh Wanita Belanja Makanan oleh Pria
3600 3400 n a 3200 n a k a M3000 k u t n 2800 u a j 2600 n a l e B 2400 2200 2000
3500
Y
10000
15000
20000 25000 30000 Pendapatan
35000
3000
Jelaskan cara mendapatkan berbagai Plot di atas. Lakukan analitis seperti pada contoh 1.
2500
2000 0.0
0.2
0.4
0.6
0.8
1.0
D
Regression Analysis: Y versus D The regression equation is Y = 3177 - 503 D Predictor Constant D S = 570,840
Coef 3176,8 -503,2
SE Coef 233,0 329,6
R-Sq = 18,9%
T 13,63 -1,53
P 0,000 0,158
R-Sq(adj) = 10,8%