REGRESI POHON
Nama
:
Budi Haryanto
NRP/Mayor
:
G151090121/STK
DEPARTEMAN STATISTIKA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
2009
POHON REGRESI
LATAR BELAKANG Analisis regresi digunakan untuk melihat hubungan antara peubah respon dengan peubah-peubah penjelasnya. Hubungan ini dinyatakan dalam suatu model, baik linear maupun non linear. Metode kuadrat terkecil merupakan metode yang paling sering digunakan dalam penyusunan model regresi. Metode kuadrat terkecil ini memberikan kemudahan perhitungan, tetapi tidak semua permasalahan regresi dapat diselesaikan oleh metode kuadrat terkecil. Banyak asumsi yang harus terpenuhi untuk memberikan landasan keyakinan atas kesimpulan-kesimpulan yang ditarik berdasarkan metode tersebut. Masalah pelanggaran asumsi pada metode regresi linear yang bertumpu pada asumsi-asumsi melahirkan metode lain yang bertujuan sama seperti regresi yaitu untuk menjelaskan hubungan antara peubah respon dengan peubah-peubah penjelasnya. Salah satu d i antaranya adalah metode pohon regresi ( regression trees method ). Guna memenuhi asumsi-asumsi yang menjadi dasar bagi analisis regresi kemudian menimulkan masalah berikutnya pada metode regresi linear yaitu masalah penginterpretasian. Sebuah model regresi linear dengan penelusuran yang ekstensif terhadap asumsi-asumsinya melahirkan model yang terlalu rumit untuk diinterpretasikan. Sebagai contoh, hasil analisis regresi dengan metode kuadrat terkecil menghasilkan model sebagai berikut. 2
log MV a1 a2 RM a3 AGE a4 log DIS a5 log RAD a6 TAX a 7 P T 2
a8 B 63 a9 log LSTAT a10 TAX a11 ZN a12 INDUS a13 CHAS b
a14 NOX (Harrison dan Rubinfield dalam Breiman et. al., 1993) Model di atas sulit untuk diinterpretasikan, bahkan untuk memperoleh nilai dugaan apabila diberikan nilai-nilai tertentu pada peubah penjelas juga tidak mudah.
TUJUAN Pada dasarnya metode regresi berusaha untuk menjelaskan keragaman yang ada pada peubah respon berdasarkan keragaman pada peubah penjelas. Berangkat dari hal tersebut, model dengan pendekatan regresi pohon akan membagi dua peubah penjelas berdasarkan peubah bebas yang akan memaksimalkan penjelasan keragaman peubah bebas berdasarkan peubah penjelas. Regresi
1
pohon dimulai dengan mengelompokkan peubah respon berdasarkan peubah penjelasnya ke dalam dua kelompok yang paling terpisah secara rekursif sehingga peubah respon menjadi mudah untuk diinterpretasikan. Jadi tujuan dari regresi pohon adalah sebagai alat untuk membagi peubah respon ke dalam kelompok-kelompok yang terbentuk oleh nilai-nilai pada peubah bebas sehingga dapat memberikan penjelasan secara lebih mudah untuk diinterpretasikan.
METODE BERSTRUKTUR POHON Metode berstruktur pohon telah digunakan di berbagai riset dalam beberapa tahun terakhir terutama dibidang terapan. Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an dalam buku Breiman et al.(1993) mengusulkan suatu algoritma baru untuk penyusunan pohon yaitu Classification and Regression Tree (CART). CART adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu. Dalam penggunaannya, CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan menghasilkan pohon regresi jika peubah responnya kontinu. Tujuan utama CART adalah untuk melihat hubungan antara peubah respon dengan peubah penjelas melalui pengelompokkan berdasar peubah penjelas. Struktur pohon pada metode ini diperoleh melalui suatu algoritma penyekatan rekursif terhadap ruang penjelas X . Metode penyekatan tersebut dimulai dengan menyekat peubah penjelas menjadi dua anak gugus yang disebut simpul ( node). Selanjutnya anak gugus ini disekat lagi menjadi dua anak gugus yang baru. Penyekatan ini diulang sampai diperoleh sekatan-sekatan yang berdasarkan aturan tertentu tidak dapat disekat lebih lanjut. Sekatan akhir yang dihasilkan disebut simpul akhir (terminal node), sedangkan sekatan yang masih mungkin disekat lebih lanjut dinamakan simpul dalam ( non terminal node). Hasil dari proses penyekatan ini dipresentasikan dalam suatu struktur pohon seperti pada
Gambar 1 berikut.
2
t 1
x1 ?
Tidak
t 2
Node/Simpul Ya
Simpul-cabang
t 3
Simpul Akhir
y t 6 Tidak
t 4 y t 4
x2 ?
Simpul Akhir
Ya
t 5 y t 5
Gambar 1. Diagram Pohon (Breiman et.al, 1 993) Pada Gambar 1 di atas memperlihatkan hasil proses penyekatan yang direpresentasikan dalam struktur pohon. Struktur pohon ini memiliki simpul akar t 1 yang mengandung semua gugus data. Beberapa simpul dalam yang dilambangkan dengan lingkaran ( t 1 dan t 2 ) dan simpul akhir yang dilambangkan dengan persegi ( t3 ,t4 , dan t 5 ). Pada simpul dalam, diberikan pertanyaan untuk melakukan pemisahan. ”Apakah anggota t 1 tidak lebih dari
?” kemudian masing -masing
dikelompokkan ke dalam t2 dan t 3 . Begitu selanjutnya hingga mencapai simpul akhir. Pada simpul akhir diberikan ringkasan statistik bagi peubah respon.
METODE POHON REGRESI Sebagaimana pada regresi parametrik, yang berusaha mencari hubungan peubah respon dengan peubah-peubah penjelasnya, begitu pula dengan pohon regresi. Peubah penjelas yang merupakanpeubah yang berpengaruh dalam metode regresi biasa juga akan merupakan peubah penjelas yang berpengaruh dalam pohon regresi. Pada pohon regresi, peubah yang menentukan pemilahan
(splitting) merupakan peubah yang berpengaruh. Pemilahan tersebut akan
memperlihatkan perbedaan dugaan terhadap peubah respon. Karakteristik dari pohon regresi dijabarkan sebagai berikut:
Ada sebanyak p peubah penjelas X1 ,, X p dan ada satu peubah respon
Peubah penjelas bersifat kategorik atau kontinu
3
Peubah respon bersifat kontinu
Membutuhkan jumlah sampel yang relatif besar
Analisis exploratory dan confirmatory
Pada proses pembentukan pohon regresi, komponen yang diperlukan adalah
(Breiman et.al,
1993): 1. Aturan penyekatan yang akan menyekat amatan masuk ke dalam sub ruang tertentu. 2. Memilih penyekatan terbaik dengan mengevaluasi hasil sekatan yang terbentuk dengan
s ,t sebagai alat evaluasi bagi penyekatan s pada simpul t 3. Kriteria Pemangkasan Pohon ( Prunning) yaitu ukuran yang digunakan untuk menentukan ukuran pohon yang layak ( right sized tree). 4. Statistik yang digunakan sebagai ringkasan dari tiap simpul akhir sebagai pendugaan terhadap peubah respon Berikut ini adalah ilustrasi dari sebuah pohon regresi.
Gambar 2. Pohon regresi mengenai hubungan antara harga mobil dengan kekuatan (horsepower ) dan panjang mobil (wheelbase ) tahun 1993, dengan harga mobil yang sudah distandardisasi sehingga nilai rata-rata keseluruhannya adalah nol. (Shalizi: 2006) Gambar 2 mengilustrasikan penggunaan metode pohon regresi dalam menjelaskan hubungan antara harga mobil (yang terstandardisasi) dengan kekuatan dan panjang mobil. Gambar sebelah kiri adalah pohon regresi yang terbentuk. Gambar sebelah kanan adalah representasi geometris atas pemilahan yang terjadi. Pohon regresi tersebut memperlihatkan bahwa harga mobil terbagi ke
4
dalam 6 sekatan. Nilai-nilai dugaan atas harga ( price) ada pada tiap-tiap sekatan. Pohon regresi juga memperlihatkan adanya faktor interaksi dari kedua peubah penjelas yaitu pada kekuatan di bawah 0.6 sedangkan pada kekuatan di atas 0.6 jarak roda sudah tidak memberikan pengaruh (dugaan terhadap harga hanya dipengaruhi oleh kekua tan saja).
ATURAN PENYEKATAN Pohon regresi dibentuk dari penyekatan data pada tiap simpul ke dalam dua simpul anak. Aturannya adalah sebagai berikut: 1. Tiap penyekatan tergantung pada nilai yang hanya berasal dari s atu peubah penjelas. 2. Apabila X j peubah kontinu, penyekatan yang diperbolehkan berasal dari pertanyaan ”apakah X j c ?” untuk c dan c adalah nilai tengah antara dua nilai amatan peubah
X j yang berurutan yang berbeda. Jadi jika X j mempunyai n nilai yang berbeda maka akan terdapat sebanyak-banyaknya n-1 macam penyekatan. 3. Untuk peubah penjelas kategorik, penyekatan yang terjadi berasal dari semua kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint ). Jika peubah X j merupakan peubah kategorik nominal dengan L kategori, maka L-1
akan ada 2 -1 penyekatan yang mungkin, sedangakan jika berupa peubah kategorik ordinal, maka akan ada L-1 penyekatan yang mungkin.
Proses Penyekatan ( growing tree ) dan Pemilihan Penyekatan Terbaik Pohon regresi dibentuk dengan penyekatan yang rekursif berdasarkan kriteria tertentu sebagaimana tertera dalam aturan penyekatan. Penyekatan dilakukan pada seluruh penyekatan yang mungkin dilakukan. “Penyekatan terbaik” adalah penyekatan yang memaksimumkan ukuran kehomogenan di dalam masing-masing simpul anak relatif terhadap simpul induknya dan yang memaksimumkan ukuran penyekatan ( separation) antara dua simpul anak tersebut. Jumlah kuadrat sisaan (JKS) digunakan sebagai kriteria kehomogenan di dalam masing-masing simpul. Misalkan simpul t berisi anak contoh
X n , Y n , dengan n t adalah banyaknya amatan
dalam simpul t dan rataan respon dalam simpul t adalah
Y t
1
Y n nt xnt
maka jumlah kuadrat sisaan di dalam simpul t adalah:
5
(1)
JKS t
Y
i (t )
Y t
2
(2)
x n t
Dimana Y i t = nilai individu peubah respon pada simpul ke -t
y(t ) = nilai tengah peubah respon pada si mpul ke-t Misalkan ada penyekatan s yang menyekat t menjadi simpul anak kiri t L dan simpul anak kanan t R . Ukuran kehomogenan ditentukan dengan fungsi:.
s, t JKS t JKS t L JKS t R
(3)
dan penyekat terbaik s adalah:
s * , t max s, t s
(4)
Dengan Ω adalah gugus yang berisi semua kemungkinan penyekatan.
Pohon regresi dibentuk melalui penyekatan simpul secara rekursif yang memaksimumkan fungsi di atas. Penyekatan tersebut dihentikan jika banyaknya amatan dalam simpul tersebut berjumlah “tertentu” atau pada saat nilai lebih kecil dari suatu nilai ambang ( treshold ). Pemilihan aturan
penghentian ini tentu saja akan berpengaruh pada ukuran pohon akhir yang terbentuk. Breiman et.al (1993) menetapkan banyaknya amatan pada simpul akhir kurang atau sama dengan 5 sedangkan menurut Schmoor et al. (1993), menetapkan banyaknya amatan kurang dari 25 amatan (dalam Kudus: 1999). Penyekatan terbaik pada sebuah simpul adalah penyekat pada peubah X yang paling mampu memisahkan nilai reson yang besar dan kecil pada dua simpul yang berbeda. Pada setiap simpul dalam t , salah satu dari
PENENTUAN UKURAN POHON Prinsip dasar metode pohon regresi adalah: 1. Tumbuhkan pohon hingga semaksimal mungkin. Buat pohon hingga berhenti pada setiap terminal akhir a.
Memiliki jumlah anggota n(t ) n tertentu yang disyaratkan (Breiman memberikan batasan 5).
6
b. Setiap amatan yang merupakan anggota dari terminal akhir sebisa mungkin ”sama”, sehomogen mungkin.
2. Setelah pohon yang maksimal terbentuk, susun pohon bersarang, pangkas bagian-bagian tertentu guna mengurangi kompleksitas pohon regresi yang terbentuk. Prinsip dasar tersebut analog dengan pencarian model terbaik pada analisis regresi biasa. Makin banyak peubah penjelas yang masuk akan semakin meningkatkan koefisien determinasi, tetapi menjumlahkan peubah secara terus-menerus sebanyak-banyaknya bukanlah hal yang dim au dalam penyusunan model regresi. Pohon yang besar dengan tingkat kedalaman yang panjang akan memberikan kesulitan bagi penginterpretasian model. Pohon yang besar bisa menimbulkan dugaan adanya overfitting. Sebaliknya kasus underfitting terjadi karena tidak adanya penyekatan lebih lanjut akibat adanya
*
tetapan ambang s , t , padahal sebenarnya penyekatan yang terjadi adalah layak. Cara mengatasi masalah ini adalah mencari ukuran pohon yang layak dengan dilakukan pemangkasan ( prunning). Proses pemangkasan terhadap pohon yang terbentuk dilakukan berdasarkan ukuran biaya kompleksitas (Breiman et al. 1993). Dimisalkan suatu pohon yang berukuran besar yaitu Gmax akan dipangkas menjadi pohon yang lebih kecil. Untuk sembarang G yang merupakan subpohon dari
Gmax , didefinisikan ukuran biaya kompleksitas
R G R G G
(5)
Dengan G adalah gugus simpul akhir pada subpohon G dan G adalah banyaknya anggota dari G dan merupakan ukuran kompleksitas subpohon G. Parameter kompleksitas 0 dapat dipandang sebagai biaya yang harus dikeluarkan bagi suatu simpul akhir pada subpohon G. R G didefinisikan sebagai
R G
R g
(6)
g G
dimana R g adalah jumlah kuadrat sisaan pada suatu simpul akhir g . Dalam prosesnya pemangkasan dilakukan terhadap suatu G1 , yaitu pohon terkecil yang memenuhi kondisi:
R Gmax R G1
(7)
7
Guna menemukan G1 dari Gmax dilakukan evaluasi terhadap semua gL dan gR yang merupakan simpul anak kiri dan anak kanan dari simpul g yang diperoleh dari penyekatan simpul g Gmax . Jumlah kuadrat sisaan dari suatu simpul induk g akan selalu lebih besar atau sama dengan total jumlah kuadrat sisaan dari kedua simpul anak yang dihasilkannya R g R gL R gR . Bila diperoleh nilai R g R gL R gR , maka pemangkasan dilakukan pada kedua simpul anak. Pemangkasan pohon ini akan memotong jalur terlemah ( weakest-link ). Untuk sembarang Gg yang merupakan anak cabang dari G1 , didefinsikan
R g
R Gg
(8)
gGg
dengan G g adalah gugus simpul akhir dari Gg
dan ukuran biaya
Untuk sembarang simpul dalam g dari pohon G1 berlaku sifat R g R Gg kompleksitas dari g didenisikan sebagai
(9)
R g R g Ukuran biaya kompleksitas dari subpohon Gg adalah
R Gg R Gg Gg
.
(10) Ukuran biaya kompleksitas suatu simpul g akan bernilai sama dengan ukuran kompleksitas pada subpohon Gg bila
R g R Gg G g 1
(11) Untuk setiap g G1 , didefinisikan suatu fungsi h1 g sebagai berikut
8
R g R Gg ; g G h1 g Gg 1 ; g G (12)
Jalur terlemah dalam G1 dinotasikan dengan g1 adalah simpul yang memenuhi kriteria:
h1 g1 minh1 g gG1
(13)
Sedangkan nilai parameter kompleksitas 2 dihitung sebagai berikut
2 h1 g1
(14)
Selanjutnya dibentuk pohon baru dengan cara memangkas cabang baru dari simpul g1 dan pohon baru ini dinamakan G2 . Jadi pohon G2 diperoleh dengan cara:
G2
G1 Gg
1
dimana Gg1 adalah cabang atau sub-pohon yang simpul utamanya adalah g1 ,
dengan demikian G2 adalah pohon yang memenuhi kriteria biaya kompleksitas minimum dengan parameter kompleksitas 2 . Selanjutnya dilakukan lagi pemangkasan pada sub pohon berikutnya, G2 dengan prosedur yang sama sehingga akhirnya diperoleh deretan pohon yang tersarang dan makin kecil, yaitu
G ,G ,,g 1
2
1
di mana G1
G2 g1 dan
deretan
dalam urutan yang meningkat;
1 0;2 1 dan seterusnya. Langkah terakhir adalah pemilihan pohon terbaik dari deret pohon yang terbentuk. Dalam pemilihan pohon terbaik ini, digunakan sebagai suatu penduga yang dinamakan penduga jujur bagi
R G . Ada dua penduga jujur bagi R G , yaitu penduga uji contoh uji R validasi silang R
CV
G .
ts
G dan
penduga
Penduga contoh uji diperoleh dengan membagi secara acak amatan
9
menjadi dua bagian, yaitu learning sample L1 dan test sample L2 . Melalui proses pemangkasan dibentuk deretan pohon dari L1 sedangkan L2 digunakan untuk membentuk R
ts
G
yang
didefinisikan sebagai
R
ts
G
1 n2
yi y x i
2
ˆ
xi , yi L2
(15) Dengan n2 adalah ukuran dari test sampel L2 dan yk x i adalah dugaan respon dari amatan ke- i ˆ
pada simpul ke- k . Pohon terbaik adalah Gk 0 yang memenuhi
R
ts
ts R Gk Gk 0 min k
(16) CV
Untuk membentuk cross validation estimate R (T) dengan V-fold amatan induk L yang berukuran n dibagi secara acak menjadi V kelompok, yakni L 1, L2,...,LV yang berukuran sama. -v
Learning sample ke-v adalah L =L-LV, v=1,2,...,V yang digunakan untuk membentuk sekuen pohon
{Tk} dan sekuen parameter complexity k . Jika terdapat v sekuen {T k} dan v sekuen k . Kemudian gunakan amatan induk L untuk membentuk sekuen {T k} dan k . Definisikan
k ' k k 1 .
v
Jika y k x n adalah dugaan respon dari amatan ke –n pada pohon yang ˆ
'
bersesuaian dengan k yang dibentuk oleh Leaning sample ke-v, maka
R
CV
T k
1
V
y n
y k v xn
2
n
ˆ
v 1 xn , yn Lv
(17) Pohon terbaik adalah Gk0, yang memenuhi kriteria:
10
R
CV
CV R Gk Gk 0 min k
(18) cross validation estimate dengan 10-fold, menghasilkan resubstitution estimate yang paling kecil
(Breiman et al., 1993).
PENENTUAN NILAI DUGAAN RESPON PADA SETIAP S IMPUL AKHIR. Nilai dugaan respon pada masing-masing kelompok pengamatan yang dihasilkan adalah rataan responnya. Beberapa informasi yang dapat kita peroleh dari pohon regresi antara lain:
Mengetahui peubah penjelas( predictor ) mana yang berpengaruh terhadap peubah respon
Mengetahui apakah data memiliki interaksi atau tidak
Dalam analisis ragam (ANOVA) interaksi terjadi jika respon suatu faktor(peubah) berubah pola (tidak paralel) dari kondisi tertentu ke kondisi yang lain untuk faktor yang lain. Namun dalam pohon regresi interaksi ditemui dengan beberapa indikasi, antara lain:
Cabang dari node yang sama memiliki peubah penyekat yang berbeda
Respon yang dihasilkan tidak memiliki kesimpulan yang sama Gambar berikut mengilustrasikan bentuk pohon yang menunjukkan adanya interaksi dan
pohon tanpa interaksi. Pada pohon A terlihat peubah-peubah penyekat disebelah kiri maupun kanan node adalah sama. Sedangkan pada pohon B, peubah-peubah yang menjadi penyekat disebelah kiri dan sebelah kanan berbeda.
KESTABILAN POHON REGRESI Kestabilan pohon yang terbentuk memiliki arti yang sangat penting (Breiman, et al. 1993). Pohon klasifikasi yang stabil memberikan infornasi yang konsisten tentang hasil pengelompokkan amatan,
11
meskipun jumlah amatannya direduksi. Untuk menyelidiki kestabilan dari sebuah pohon, dilakukan tahapan sebagai berikut: 1. Membagi seluruh amatan menjadi dua kelompok amatan dengan jumlah yang sama. Kelompok amatan pertama disebut building set sedangkan kelompok kedua disebut validating set .
2. Kedua pohon regresi yang terbentuk berdasarkan building set dan validating set diperbandingkan pada seluruh amatan.
CONTOH PENGGUNAAN Sebagai ilustrasi penggunaan pohon regresi, diberikan data mengenai nilai kriminalitas ( crimerate) di beberapa kota (contoh data dari file bostonhousing.sta). Contoh penggunaan pohon regresi ini menggunakan bantuan paket Statistica 7 yang dikeluarkan oleh Statsoft. Peubah respon dalam model ini adalah tingkat kriminalitas yang dihitung dalam indeks per penduduk, sedangkan unit pengamatan adalah kota. Model akan disusun untuk mencari penjelasan mengenai tingkat kriminalitas berdasarkan peubah penjelas berupa: proporsi luas lahan tempat tinggal, proporsi luas lahan tempat bisnis non-retail, apakah kota dibatasi oleh sungai atau tidak, tingkat pencemaran udara (dihitung dengan tingkat nitric oxide dalam ppm), rata-rata jumlah ruang di dalam rumah, proporsi dari kepemilikan rumah, bobot jarak dari pusat pekerjaan di Boston, indeks aksessibilitas ke jalan tol, tingkat pajak, rasio antara siswa dan guru, persentase tingkat warga miskin, nilai tengah dari nilai rumah tempat tinggal.
Gambar 3. Pemilihan peubah dalam menu Interactive Tree guna penyusunan model pohon regresi.
Model pohon pertama disusun dengan aturan penyekatan anggota simpul akhir tidak kurang dari 5 dan simpul induk tidak kurang dari 10.
12
Gambar 4. Penentuan aturan penghentian penyekatan. Hasil yang diperoleh, dengan menggunakan aturan tersebut adalah Tree graph forCrime Rate Num. of non-terminal nodes: 80, Num. of terminal nodes: 81 Model: C&RT
ID=1 N=506
Mu=3.613524 Var:
73.840360
Accessi bit liy
= 1,
2,
3,
6,
7,
8,
t o Hg i hways
.. .
= 24
ID=2 N=374
ID=3 N=132
Mu=0.385606 Var: 0.
Ni tric
Mu=12.759291
3897 14
Var:
Oxi de
Val ueof
<= 0. 759000
> 0. 759000
ID=4 N=358
ID=5 N=16
Mu=0.298327
Mu=2.338462
Var: 0. 20041 7
Ni tri c
Var:
Oxi de
> 0. 531000
ID=6 N=244
Mu=0.126177 Var:
2,
6,
3,
4,
5,
Mu=0.666789
0.01489 4
Accessi bit li y
= 1,
Var: 0.
t o Hg i hways
= 8
Mu=0.371410
0.00638 5
Non -retailBusi ness
acres
Di stanc eto
> 5. 750000
ID=10 N=122
ID=11 N=98
Mu=0.054578 Var:
Di stanc eto
Var: 0.
Emp oyment l Centers
> 4. 630700
ID=12 N=35
ID=13 N=87
Mu=0.079256
Pupil-Teacher
Rati o
Accessi bit li y
> 1 5 . 05 0 00 0
ID=14 N=1
=
1 ,
ID=15 N=34
u=0.210380
Var:
Property Tax Rate
Var: 0.
t o Hghways i
=
<=81 .25 00 00
<=10 .70 00 00
ID=28 N=64
ID=29 N=14
ID=42 N=66
ID=43 N=15
Mu=0.044503
Mu=0.020279
Mu=0.174383
Mu=0.101718
Owner Occupi edUni ts
Var:
ID=18 N=16
ID=19 N=3
% of Lower Status
ID=22 N=13
0.00043 7
Accessi bit liy
ID=23 N=2
3,
Mu=0.057491 Mu=0. 091397 Mu=0.085797 Mu=0.127090 Mu=0.033610 Var: 0.
0000 Var=0.000048 81 Var:
0.00050 Var=0.000145 2 Var: 0.
t o Hg i hways
% of Lower Status Val ueof
=
<=4.945000 >4. 9450 00
7 , 3
t o Hg i hways
2
ID=30 N=23
= 5,
Var: 0.
Accessi bit li y
4
ID=31 N=41
=1,
Var: 0.
t o Hghways i
5=3,
4,
2
ID=36 N=5 ID=37 N=9
Mu=0.050614 Mu=0.013718 Mu=0.023924
00026 0 Var:
0.00043 Var=0.000007 3 Var=0.000051
Occupi edHomes Property Tax Rate
<=35.550000 >35 .550000 <=384.000000 >384.000000 ID=32 N=22
0000 59
ID=33 N=1 ID=34 N=33 ID=35 N=8
0055 16
Accessi bit li y
= 2
Var:
t o Hghways i
= 4 ,
ID=44 N=2
3,
ID=58 N=5 ID=59 N=8
Ni tri c
ID=48 N=4
00070 Var=0.002723 4 Var=0.010908
Occupi edHomes
<=25.700000 >25.700000 ID=52 N=6 ID=53 N=7
0.00138 8
ID=67 N=10
Mu=0.577220 Mu=0.790860 Mu=1.325810 Mu=2.060087
2,
Mu=0.067265
Var: 0.
>
Mu=0.642647
Var=0.253432
Var: 0.
% of Lower Status
ID=77 N=1
Mu=0.165239
<=
ID=78 N=8
>9.
Mu=0.387350
Var:
Val ueof
Val ueof
Occupi edHomes
Var: 0. 04733 1
Di stanc eto
<=18.750000 >18.750000 ID=80 N=4
ID=81 N=11
Var: 0.
Occupi edHomes
ID=96 N=25
Mu=0.457618
Var: 0.
0176 37
Var:
Emp oyment l Centers Val ueof Occupi edHomes Di stanc eto
700000 >20.
ID=92 N=10
Mu=0.171538 Mu=0.116652
Mu=1.263844 Mu=0.898155 Mu=0.725502 Mu=1.028190 Mu=0.533550
Var=0.000965 Var:
Var=0.031588 Var=0.003319 Var: 0.
Val ueof
Occupi edHomes
<=39.000000 >39.000000 ID=46 N=63
ID=47 N=1
AverageRoo ms
Di stanc eto
0.00096 4
Emp oyment l Centers
<=5.832000 >5.832000
<=1.999600 >1.999600
ID=50 N=1 ID=51 N=10
ID=82 N=1 ID=83 N=10
>6.212500 ID=117 N=8
0057 Var=0.000663 61 Var:
Di s t a n c e t o E m poyment l Di sCenters tanc eto
<=4.458300 >4.458300 ID=94 N=6 ID=95 N=4
ID=97 N=5
138.619295
Mu=10.434882 Var:
% of Lower Status Di stanc eto
17.72379 3
1 4. 675000
ID=126 N=1
ID=127 N=10
Ni tri c
Oxi de
<=
ID=135 N=22
5 . 931000
Var=9.723071
ID=136 N=4
Mu=24.686000 Mu=14.394324
Mu=3.008555
Var=15.759312 Var=28.782497
Var=0.224866
<= 2. 283450
ID=137 N=18
ID=144 N=24
Mu=5.009739 Var: 1.
40699 4
Owner Occupi edUni ts
Average Rooms
ID=120 N=9 ID=121 N=7
ID=138 N=11
ID=139 N=7
AverageRoo ms
< = 6 . 7 1 4 5 0 0
ID=147 N=20
ID=154 N=14
Mu=9.161244 Var:
Var=67.443387 Var=18.225172
Var=1.144532 Var=0.639195
Var=3.788126
Mu=0.343719 0074 45
Emp oyment l Val ueof Centers Occupi edHomes
<=1.973400 >1. 9734 <=20.050000 00 >20.05 0000 ID=100 N=7 ID=101 N=8 ID=102 N=4 ID=103 N=6
ID=155 N=3
Mu=8.159813
55780 9
Var=1.306749
Owner Occupi edUni ts
>16.515 0 0 0<=83.850000>83.850000 ID=149 N=16
Var=0.001571
ID=99 N=10
Var: 1.
% of Lower Status
ID=148 N=4
Mu=10.892602
> 6 . 7 1 4 5 0 0
Mu=5.443493
3.72111 3
<=16.51 500 0
Mu=6.443490 Mu=4.991714
58579 7
AverageRoo ms
>6.1735 00
Var=0.507429
Occupi edHomes
Var: 2.
ID=146 N=4
Mu=6.439795
ID=140 N=4 ID=141 N=7
ID=145 N=17
Mu=5.922844
2141 50
<=6.173 500
Mu=5.519633 Mu=4.208479
<=22.000000 >22.000000
> 2. 283450
Mu=8.707669 Var: 4.
Var: 1. 31067 Var=0.507776 5
Val ueof
4212 77
Di s t a n c e t o E m poyment l Centers
>52.550 000
<=85.700000 >85.700000
ID=119 N=4
<=5.639000 >5. 6390 00
Mu=7.552985 Var: 5.
Owner Occupi edUni ts
<=52.55 000 0
5 . 931000 ID=143 N=41
Mu=10.931826
Average Rooms
65.805132 Var=487.846499
>
ID=142 N=9
Mu=4. 645888 Var: 1. 78780 8
<=5.946000>5.946000
Var:
7.88068 5
Average Rooms
>2.0274 00
ID=130 N=7 ID=131 N=4 ID=134 N=6
ID=128 N=2 ID=129 N=8
Var:
Emp oyment l Di stan Centers c eto Emp oyment l Centers
43.1248 Var=4.878306 36 Var=4.438822 Var=19.379818
<=0.663500 >0. 6635 00
Mu=8.161177
6.53488 6
Mu=51.135800 Mu=16.452659 Mu=7.708786 Mu=15.205550 Mu=7.055232
1 4. 675000 ID=133 N=50
Mu=5.162176 Var:
<=11.775000 >11.775000 <=1.460100 >1. 4601 <= 00 2.027 400
Var=0.000000 Var:
>
ID=132 N=28
Mu=22.452300 Mu=13.461081
>2.7371 50
0.08238 3 Var: 0.
210.035482 Var=8.986055
Mu=19.605672 Var:
4672 04
% of Lower Status
<=
Mu=0.151750
Emp oyment l Centers
ID=98 N=15
Var=0.000000 Var: 0.
0.00064 0
acres
>24.815 000
0.06105 7
700000 <=2.737 150
ID=93 N=2
Mu=0.027300 Mu=0.178980 Mu=0.133513 Mu=0.090156 00499 Var=0.002067 2 Var:
ID=115 N=1
166.744838 Var=0.000000
Mu=18.518642 Mu=37.854825
0641 36
<=24.81 500 0
ID=89 N=12
Mu=0.775950
<=4.343200 >4. 3432 00 <=20. ID=90 N=8 ID=91 N=2
35.50000 0
ID=116 N=20
ID=118 N=16
Non -retai lBusi ness
>15.4 00 00 0
Mu=1.190706
00155 4
9 . 020000
Mu=0.406640
0.07378 4
ID=88 N=10
Var=0.002016Var: 0.
>
ID=87 N=30
<=15 .40 00 00
ID=79 N=15
Var=0.000048 Var=0.000314
acres
9 . 020000
Mu=0.964475
Var=0.000000
8500 00
183.052767
<=6.212500
Var:
ID=86 N=22
Non -retailBusi ness acres
<=9.850000
ID=125 N=11
Mu=22.385879Mu=14.058511
1441 72
Non -retai lBusi ness
> 2 6 . 3 3 5 0 0 0
ID=76 N=23
Var=0.154065 Var=0.000000 Var=0.000350 Var=0.000520 Var: 0. 00387 6
5 . 056000 ID=85 N=52
Mu=2.132060
0056 84
>16.7 50 00 0
AverageRoo ms
5 . 056000 ID=84 N=2
< = 2 6 . 3 3 5 0 0 0
Mu=0.228898 Mu=0.131288
ID=49 N=11
<=
Mu=0.174494
0.00110 2
Mu=0.038997 Mu=0.084411
Oxi de
6
Occupi edHomes
ID=124 N=11
ID=114 N=28
Var:
AverageRoo ms
= 2,
Val ueof
<=16 .75 00 00
Mu=20.006631 Mu=45.746100
0.22733 7
ID=123 N=78
Var: 9.
ID=113 N=29
<=35.500000>
ID=71 N=54
> 1. 601300
Mu=7.084612
99.19739 1
> 5. 3 00000
Mu=20.894199
Mu=0.697811
t o Hg i hways
Var:
Occupi edHomes
Var:
40.0143 17
Emp oyment l Centers
Mu=15.020277
Var=0.000000
% of Lower Status
Var:
ID=73 N=24
Mu=2.154828 Mu=1.207420 Mu=0.041446 Mu=0.093084
Emp oyment l Centers Val ueof
Mu=88.976200
248.085917
= 4
5
ID=68 N=9 ID=69 N=1 ID=74 N=5 ID=75 N=5
Var:
t o Hg i hways
6
ID=72 N=10
Var=0.002613 Var=0.000688 Var=0.008100 Var: 0. 21944 1 Var:
ID=122 N=22
Var=0.292440 Var=0.278077 Var=218.581440
0.00672 3
Accessi bit liy
= 1,
<= 1. 601300
ID=111 N=1
Mu=3.399397 Mu=2.390299 Mu=53.136300
21509 0
ID=70 N=34
Var:
<=10.020000 >10.020000 <=2.005800>2.005800 ID=64 N=9 ID=65 N=3 ID=66 N=4
5,
> 6. 8 96000
Mu=22.974334
4725 95
Di stanc eto
ID=110 N=31
ID=106 N=3 ID=107 N=9 ID=112 N=2
Mu=0.142956
2690 91
% of Lower Status Owner Occupi edUni ts
5 ,<=0.425000>0.425000 7
ID=45 N=64
ID=63 N=14
Mu=1.850294 Var: 0.
<=13.285000 >13.285000 <=82.950000 >82.95 0000
Val ueof
>10.7 00 00 0
ID=17 N=15
0.00065 1
0.01068 9
Accessi bit liy
= 1,
% of Lower Status
Var: 0.
Mu=0.091303 Var:
0.01069 Var=0.001331 9
Mu=0.063451 Mu=0.353782 Mu=0.465216
00554 9
Non -retailBusi ness acres
>81.2 50 00 0
ID=62 N=12
acres
>11.775 000
> 25. 0 00000 <=4.385000 >4.385 000 ID=41 N=13
Mu=0.160927 Var: 0.
Residenti alLandZone
>273 .00 00 00
Var:
ID=40 N=81
Var=0.000985
ID=57 N=5
Mu=0.422357 Mu=0.521532
0060 11
<= 25. 0 00000
Mu=0.083602
0.00045 6
ID=56 N=13
Residenti alLandZone
6
ID=27 N=9
ID=55 N=6
0100 70 Var=0.000603 Var:
<=3.661700>3.661700
Mu=0.147446
Var=0.005099
4
5 . 502500 ID=39 N=94
ID=16 N=19
<=88.050000 >88.050000 <=10.725000 >10.725000 = 1,
= 2
5 ,
>
Mu=0.062845 Var: 0. 00022 8
Accessi bit li y
2 ,
Mu=0.040155
0.00061 5
<=27 3.0 00 00 0
3 ,
48325 0 <=11.77 500 0
Var: 0.
Var:
<= 6. 8 96000
<=1.415450 >1.415 <=5. 450 3 00000
Mu=0.483435
5195 23
Di s t a n c e t o E m poyment l Centers % of Lower Di s tStatus a n c e t o E m poyment l Centers
5 . 502500
Mu=0.338728
0006 86
ID=26 N=78
Mu=0.075400 Var:
Var: 0.
ID=38 N=4
Mu=0.044650 Var: 0.
< = 1 5 . 0 5 00 0 0
ar=0.000000
<=
Var: 0.
Mu=0.449906 Mu=0.135922 Mu=0.630630
0074 06
AverageRoo ms
<= 4. 630700
>5.
ID=54 N=18
Mu=0.155254
0.00105 0
Var: 0. 00110 3
ID=61 N=88
Emp oyment l Centers Non-retai lBusi ness
<=5.483250
Di stanc eto
> 15. 000000
Mu=1.287372
Var: 0. 02618 8
<= 5. 750000
Rati o
ID=60 N=26
ID=109 N=100
Mu=8.830458
372.211782
AverageRo oms
ID=105 N=12
Var=0.036944 Var: 0.
<= 15. 000000
ID=9 N=24
Mu=0.099424 Var:
Var:
Mu=1.426130 Mu=2.642573
39830 9
Pupil-Teacher
. ..
ID=8 N=220
0.64113 2
ID=104 N=4
> 10. 950000
ID=108 N=32
<=14.560000 >14.560000
ID=7 N=114
Occupi edHomes
<= 10. 950000
Mu=25.036893
% of Lower Status
<= 0. 531000
168.783676
ID=156 N=3
ID=157 N=11
Mu=8.728404 Mu=7.214853 Mu=4.960395 Var:
2.76760 9 Var=1.193425Var: 0.
AverageRoo ms
<=6.438000>6.438000 ID=150 N=11
ID=151 N=5
Mu=8.097880 Mu=10.115558 Var: 2.
44589 Var=0.676561 0
Owner Occupi edUni ts
<=96.550000 > 9 6 . 550000 ID=152 N=4 ID=153 N=7
56806 1
% of Lower Status
<=15.460000 >15.460000 ID=158 N=1
ID=159 N=10
Mu=6.801170 Mu=4.776317 Var=0.000000 Var:
Val ueof
0.25213 7
Occupi edHomes
<=17.850000 >17.85 0000
ID=20 N=4 ID=21 N=12
ID=24 N=3 ID=25 N=10
ID=160 N=7 ID=161 N=3
Mu=0.048945 Mu=0.060340
Mu=0.109497 Mu=0.078687
Mu=0.031999 Mu=0.069050 Mu=0.045393 Mu=0.072153
Mu=0.175965 Mu=0. 368940
Mu=0.141030 Mu=0.085069
Mu=0.169020 Mu=0.111415
Mu=0.781333 Mu=0.641755
Mu=0.334967 Mu=0.707310 Mu=0.269685 Mu=0.393075
Mu=7.004840 Mu=8.722474
Mu=5.031017 Mu=4.182017
Var=0.000043 Var=0.000061
Var=0.000386 Var=0.000318
Var=0.000212 Var=0.000000 Var=0.000356 Var=0.000174
Var=0.004489 Var=0.000000
Var=0.000000 Var=0.000419
Var=0.000000 Var=0.000759
Var=0.001597 Var=0.000318
Var=0.008486 Var=0.082345 Var=0.000821 Var=0.005771
Var=1.035061 Var=2.179254
Var=0.108067 Var=0.083740
Gambar 5. Pohon regresi tingkat kriminalitas di suatu kota berdasarkan peubah-peubah penjelasnya.
Gambar pohon di atas memperlihatkan bahwa peubah penjelas utama y ang berpengaruh terhadap tingkat kriminalitas adalah akses terhadap jalan tol. Model pohon tersebut adalah model pohon yang tidak efisien, terlalu rumit untuk dijelaskan. Agar pohon tersebut dapat diinterpretasikan dengan lebih mudah, diperlukan usaha pemangkasan ( prunning). Pemangkasan dilakukan dengan memperhatikan keragaman data pada peubah respon yang dapat dijelaskan oleh peubah penjelas. Sebagaimana dijelaskan di awal, penentuan penyekatan dilakukan dengan memperhitungan penurunan yang maksimal pada jumlah kuadrat simpul. Dengan memperhitungan penurunan keragaman yang maksimum untuk simpul yang sesedikit mungkin, diperoleh pohon yang optimum.
13
Gambar 6. Biaya kompleksitas dalam struktur pohon bersarang yang dihasilkan
Dari gambar 6 terlihat biaya yang kompleksitas yang minimum diperoleh pada pohon bersarang ke 140. Pohon regresi nomor 140 yang diperoleh adalah: Tree 140 graph for Crim e Rate Num. of non-termina l nodes: 3, Num. of termina l nodes: 4 ID=1
N=506 Mu=3.613524 Var=73.840360
Accessibility to Highways = 24 ID=2
= Other(s) N=132
ID=3
Mu=12.759291 Var=168.783676
Mu=0.385606 Var=0.389714
Value of Occupied Homes <= 10.950000 ID=4
> 10.950000 N=32
ID=5
Mu=25.036893 Var=372.211782
<= 6.896000 ID=6
> 6.896000 N=31
Mu=22.974334 Var=248.085917
N=100 Mu=8.830458 Var=40.014317
Average Rooms
ID=7
N=1 Mu=88.976200 Var=0.000000
14
N=374
Gambar 7. Pohon regresi dari tingkat kriminalitas hasil pemangkasan
INTERPRETASI ATAS POHON REGRESI Pohon regresi hasil pemangkasan dapat diinterpretasikan sebagai berikut. 1. Nilai aksesibilitas ke jalan tol merupakan peubah penjelas yang paling berpengaruh terhadap tingkat kriminalitas. Peubah nilai aksesibilitas ini adalah peubah bertipe ordinal. Dari pohon regresi diketahui bahwa pertama-tama tingkat kriminalitas dibagi menjadi dua berdasarkan peubah nilai aksesibilitas ke jalan tol. Nilai aksesibilitas sama dengan 24 dipisahkan dengan nilai aksesibilitas yang lain. 2. Amatan dengan nilai aksesibilitas selain 24 akan dikelompokkan kembali menjadi dua kelompok berdasarkan nilai rumah tempat tinggal, dengan pemisahaan ( splitting) pada nilai 10.95. Nilai rumah yang lebih tinggi dari 10.95 memiliki tingkat kriminalitas yang lebih rendah, dari pada kelompok sampel dengan nilai rumah tempat tinggal yang kurang dari atau sama dengan 10.95. Sampel dengan nilai rumah yang lebih tinggi dari 10.95 menempati simpul akhir, tidak dibagi lagi menjadi simpul-simpul anakan. 3. Sampel kota dengan nilai rumah tempat tinggal yang tidak lebih dari 10.95 dibagi menjadi dua simpul akhir, yang dipisahkan berdasarkan pertanyaan apakah “rata-rata jumlah ruangan dalam rumah lebih dari 6.896? ”. Sampel dengan rata-rata jumlah ruangan dalam rumah lebih besar dari 6.896 memiliki tingkat kriminalitas yang lebih tinggi daripada rumah dengan rata-rata jumlah 4. Pendugaan tingkat kriminalitas suatu kota berdasarkan peubah penjelas dapat disajikan ke dalam tabel berikut (diurutkan berdasarkan tingkat kriminalitas yang terendah).
No Simpul
N
Rata-rata Tingkat
Peubah Penciri
kriminalitas
1
3
374
0.385
2
5
100
8.830
Nilai akses ke Jalan Tol (Highway) sebesar 1, 2, dst (selain 24) Nilai akses ke jalan tol adalah 24 dan nilai rumah tempat tinggal > 10.95 Nilai akses ke jalan tol adalah 24, nilai rumah
3
6
31
22.974
tempat tinggal ≤ 10.95 dan rata-rata jumlah ruangan dalam rumah ≤ 6.896
Nilai akses ke jalan tol adalah 24, nilai rumah 4
7
1
88.976
tempat tinggal ≤ 10.95 dan rata-rata jumlah
ruangan dalam rumah > 6.896
KESIMPULAN Peubah penjelas yang memiliki pengaruh terhadap tingkat kriminalitas adalah nilai aksesibilitas ke jalan tol, nilai dari rumah tempat tinggal, dan rata-rata jumlah ruangan dalam rumah.
15
Tingkat kriminalitas yang tertinggi ada pada kelompok amatan dengan nilai aksesibilitas ke jalan tol sebesar 24 dan nilai harga rumah yang rendah, hal ini memperlihatkan wilayah yang mudah terjangkau oleh jalur jalan tol (highway) yang memungkinkan pertukaran orang asing yang lebih tinggi dan dengan tingkat ekonomi penduduk yang rendah (ditandai dengan harga rumah tempat tinggal yang rendah) memiliki nilai kriminalitas yang paling tinggi dibandingkan dengan kelompok amatan yang lain. Sedangkan kota dengan tingkat kriminalitas yang paling rendah adalah kota dengan tingkat aksesibilitas ke jalan tol selain 24. Berdasarkan pohon regresi tersebut, apabila diinginkan untuk mencari tempat tinggal dengan tingkat kriminalitas paling kecil, hindarilah tempat dengan tingkat akses ke jalan tol yang sangat tinggi. Pohon regresi memberikan cara interpretasi yang lebih mudah daripada model regresi linear, terutama apabila dibandingkan dengan model regresi linear yang melibatkan banyak peubah dan banyak transformasi atas peubah-peubahnya. Hal ini menjelaskan bahwa metode pohon regresi ini cocok untuk dipergunakan sebagai alat eksplorasi data. Semakin dalam suatu pohon, interpretasi semakin sulit untuk dilakukan, hal ini analog dengan model regresi linear biasa yang akan semakin sulit diinterpretasikan apabila model semakin banyak dan banyak transformasi pada peubahpeubahnya.
DAFTAR PUSTAKA Denis White, Jean C. Sifneos, Regression Tree Cartography. Journal of Computational and Graphical Statistics 11(3):600-614, 2002. Leland Wilkinson, Tree Structured Data Analysis: AID, CHAID and CART . Illinois: SPSS Inc., Department of Statistics, Northwestern University. Breiman L., Friedman J.H., Olshen R.A., Stone C.J., Classification and Regression Tree , New York: Chapman & Hall, 1993. Kudus, A. 1999. Penerapan Metode Regresi Berstruktur Pohon pada Pendugaan Masa Rawat Kelahiran Bayi (Studi Kasus di Rumah Sakin Hasan Sadikin Bandung ). [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor Hutabarat, I.M. 2005. Pohon Klasifikasi dan Pohon Regresi Keberhasilan Mahasiswa Pascasarjana Program Studi Statistika IPB [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Timofeev R., Classification and Regression Tree (CART) Theory and Application , Berlin: Center of Statistics and Economics, Hamboldt University, 2004.
16