Pohon Regresi

REGRESI POHON

Nama

:

Budi Haryanto

NRP/Mayor

:

G151090121/STK

DEPARTEMAN STATISTIKA SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

2009

POHON REGRESI

LATAR BELAKANG Analisis regresi digunakan untuk melihat hubungan antara peubah respon dengan peubah-peubah penjelasnya. Hubungan ini dinyatakan dalam suatu model, baik linear maupun non linear. Metode kuadrat terkecil merupakan metode yang paling sering digunakan dalam penyusunan model regresi. Metode kuadrat terkecil ini memberikan kemudahan perhitungan, tetapi tidak semua permasalahan regresi dapat diselesaikan oleh metode kuadrat terkecil. Banyak asumsi yang harus terpenuhi untuk memberikan landasan keyakinan atas kesimpulan-kesimpulan yang ditarik berdasarkan metode tersebut. Masalah pelanggaran asumsi pada metode regresi linear yang bertumpu pada asumsi-asumsi melahirkan metode lain yang bertujuan sama seperti regresi yaitu untuk menjelaskan hubungan antara peubah respon dengan peubah-peubah penjelasnya. Salah satu d i antaranya adalah metode pohon regresi ( regression trees method ). Guna memenuhi asumsi-asumsi yang menjadi dasar bagi analisis regresi kemudian menimulkan masalah berikutnya pada metode regresi linear yaitu masalah penginterpretasian. Sebuah model regresi linear dengan penelusuran yang ekstensif terhadap asumsi-asumsinya melahirkan model yang terlalu rumit untuk diinterpretasikan. Sebagai contoh, hasil analisis regresi dengan metode kuadrat terkecil menghasilkan model sebagai berikut. 2

log  MV   a1  a2  RM   a3  AGE   a4 log DIS   a5 log RAD   a6 TAX   a 7 P T  2

a8  B  63  a9 log  LSTAT   a10 TAX   a11 ZN   a12 INDUS   a13 CHAS  b

a14  NOX    (Harrison dan Rubinfield dalam Breiman et. al., 1993) Model di atas sulit untuk diinterpretasikan, bahkan untuk memperoleh nilai dugaan apabila diberikan nilai-nilai tertentu pada peubah penjelas juga tidak mudah.

TUJUAN Pada dasarnya metode regresi berusaha untuk menjelaskan keragaman yang ada pada peubah respon berdasarkan keragaman pada peubah penjelas. Berangkat dari hal tersebut, model dengan pendekatan regresi pohon akan membagi dua peubah penjelas berdasarkan peubah bebas yang akan memaksimalkan penjelasan keragaman peubah bebas berdasarkan peubah penjelas. Regresi

1

pohon dimulai dengan mengelompokkan peubah respon berdasarkan peubah penjelasnya ke dalam dua kelompok yang paling terpisah secara rekursif sehingga peubah respon menjadi mudah untuk diinterpretasikan. Jadi tujuan dari regresi pohon adalah sebagai alat untuk membagi peubah respon ke dalam kelompok-kelompok yang terbentuk oleh nilai-nilai pada peubah bebas sehingga dapat memberikan penjelasan secara lebih mudah untuk diinterpretasikan.

METODE BERSTRUKTUR POHON Metode berstruktur pohon telah digunakan di berbagai riset dalam beberapa tahun terakhir terutama dibidang terapan. Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an dalam buku Breiman et al.(1993) mengusulkan suatu algoritma baru untuk penyusunan pohon yaitu Classification and Regression Tree (CART). CART adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu. Dalam penggunaannya, CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan menghasilkan pohon regresi jika peubah responnya kontinu. Tujuan utama CART adalah untuk melihat hubungan antara peubah respon dengan peubah penjelas melalui pengelompokkan berdasar peubah penjelas. Struktur pohon pada metode ini diperoleh melalui suatu algoritma penyekatan rekursif terhadap ruang penjelas X . Metode penyekatan tersebut dimulai dengan menyekat peubah penjelas menjadi dua anak gugus yang disebut simpul ( node). Selanjutnya anak gugus ini disekat lagi menjadi dua anak gugus yang baru. Penyekatan ini diulang sampai diperoleh sekatan-sekatan yang berdasarkan aturan tertentu tidak dapat disekat lebih lanjut. Sekatan akhir yang dihasilkan disebut simpul akhir (terminal node), sedangkan sekatan yang masih mungkin disekat lebih lanjut dinamakan simpul dalam ( non terminal node). Hasil dari proses penyekatan ini dipresentasikan dalam suatu struktur pohon seperti pada

Gambar 1 berikut.

2

t 1

x1   ?

Tidak

t 2

Node/Simpul Ya

Simpul-cabang

t 3

Simpul Akhir

y  t 6  Tidak

t 4 y  t 4 

x2   ?

Simpul Akhir

Ya

t 5 y  t 5 

Gambar 1. Diagram Pohon (Breiman et.al, 1 993) Pada Gambar 1 di atas memperlihatkan hasil proses penyekatan yang direpresentasikan dalam struktur pohon. Struktur pohon ini memiliki simpul akar t 1 yang mengandung semua gugus data. Beberapa simpul dalam yang dilambangkan dengan lingkaran ( t 1 dan t 2 ) dan simpul akhir yang dilambangkan dengan persegi ( t3 ,t4 , dan t 5 ). Pada simpul dalam, diberikan pertanyaan untuk melakukan pemisahan. ”Apakah anggota t 1 tidak lebih dari



?” kemudian masing -masing

dikelompokkan ke dalam t2 dan t 3 . Begitu selanjutnya hingga mencapai simpul akhir. Pada simpul akhir diberikan ringkasan statistik bagi peubah respon.

METODE POHON REGRESI Sebagaimana pada regresi parametrik, yang berusaha mencari hubungan peubah respon dengan peubah-peubah penjelasnya, begitu pula dengan pohon regresi. Peubah penjelas yang merupakanpeubah yang berpengaruh dalam metode regresi biasa juga akan merupakan peubah penjelas yang berpengaruh dalam pohon regresi. Pada pohon regresi, peubah yang menentukan pemilahan

(splitting) merupakan peubah yang berpengaruh. Pemilahan tersebut akan

memperlihatkan perbedaan dugaan terhadap peubah respon. Karakteristik dari pohon regresi dijabarkan sebagai berikut: 

Ada sebanyak p peubah penjelas X1 ,, X p dan ada satu peubah respon



Peubah penjelas bersifat kategorik atau kontinu

3



Peubah respon bersifat kontinu



Membutuhkan jumlah sampel yang relatif besar



Analisis exploratory dan confirmatory

Pada proses pembentukan pohon regresi, komponen yang diperlukan adalah

(Breiman et.al,

1993): 1. Aturan penyekatan yang akan menyekat amatan masuk ke dalam sub ruang tertentu. 2. Memilih penyekatan terbaik dengan mengevaluasi hasil sekatan yang terbentuk dengan

  s ,t  sebagai alat evaluasi bagi penyekatan s pada simpul t 3. Kriteria Pemangkasan Pohon ( Prunning) yaitu ukuran yang digunakan untuk menentukan ukuran pohon yang layak ( right sized tree). 4. Statistik yang digunakan sebagai ringkasan dari tiap simpul akhir sebagai pendugaan terhadap peubah respon Berikut ini adalah ilustrasi dari sebuah pohon regresi.

Gambar 2. Pohon regresi mengenai hubungan antara harga mobil dengan kekuatan (horsepower ) dan panjang mobil (wheelbase ) tahun 1993, dengan harga mobil yang sudah distandardisasi sehingga nilai rata-rata keseluruhannya adalah nol. (Shalizi: 2006) Gambar 2 mengilustrasikan penggunaan metode pohon regresi dalam menjelaskan hubungan antara harga mobil (yang terstandardisasi) dengan kekuatan dan panjang mobil. Gambar sebelah kiri adalah pohon regresi yang terbentuk. Gambar sebelah kanan adalah representasi geometris atas pemilahan yang terjadi. Pohon regresi tersebut memperlihatkan bahwa harga mobil terbagi ke

4

dalam 6 sekatan. Nilai-nilai dugaan atas harga ( price) ada pada tiap-tiap sekatan. Pohon regresi juga memperlihatkan adanya faktor interaksi dari kedua peubah penjelas yaitu pada kekuatan di bawah 0.6 sedangkan pada kekuatan di atas 0.6 jarak roda sudah tidak memberikan pengaruh (dugaan terhadap harga hanya dipengaruhi oleh kekua tan saja).

ATURAN PENYEKATAN Pohon regresi dibentuk dari penyekatan data pada tiap simpul ke dalam dua simpul anak. Aturannya adalah sebagai berikut: 1. Tiap penyekatan tergantung pada nilai yang hanya berasal dari s atu peubah penjelas. 2. Apabila X j peubah kontinu, penyekatan yang diperbolehkan berasal dari pertanyaan ”apakah X j  c ?” untuk c   dan c adalah nilai tengah antara dua nilai amatan peubah

X j yang berurutan yang berbeda. Jadi jika X j mempunyai n nilai yang berbeda maka akan terdapat sebanyak-banyaknya n-1 macam penyekatan. 3. Untuk peubah penjelas kategorik, penyekatan yang terjadi berasal dari semua kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint ). Jika peubah X j merupakan peubah kategorik nominal dengan L kategori, maka L-1

akan ada 2 -1 penyekatan yang mungkin, sedangakan jika berupa peubah kategorik ordinal, maka akan ada L-1 penyekatan yang mungkin.

Proses Penyekatan ( growing tree ) dan Pemilihan Penyekatan Terbaik Pohon regresi dibentuk dengan penyekatan yang rekursif berdasarkan kriteria tertentu sebagaimana tertera dalam aturan penyekatan. Penyekatan dilakukan pada seluruh penyekatan yang mungkin dilakukan. “Penyekatan terbaik” adalah penyekatan yang memaksimumkan ukuran kehomogenan di dalam masing-masing simpul anak relatif terhadap simpul induknya dan yang memaksimumkan ukuran penyekatan ( separation) antara dua simpul anak tersebut. Jumlah kuadrat sisaan (JKS) digunakan sebagai kriteria kehomogenan di dalam masing-masing simpul. Misalkan simpul t berisi anak contoh

 X n , Y n , dengan n t  adalah banyaknya amatan

dalam simpul t dan rataan respon dalam simpul t adalah

Y t  

1



Y n nt  xnt

maka jumlah kuadrat sisaan di dalam simpul t adalah:

5

(1)

JKS t  

 Y

i (t )

 Y t 

2

(2)

x n t

Dimana Y i  t  = nilai individu peubah respon pada simpul ke -t

y(t ) = nilai tengah peubah respon pada si mpul ke-t Misalkan ada penyekatan s yang menyekat t menjadi simpul anak kiri t L dan simpul anak kanan t R . Ukuran kehomogenan ditentukan dengan fungsi:.

 s, t   JKS t    JKS t L   JKS t R 

(3)



dan penyekat terbaik s adalah:





 s * , t  max  s, t  s

(4)

Dengan Ω adalah gugus yang berisi semua kemungkinan penyekatan.

Pohon regresi dibentuk melalui penyekatan simpul secara rekursif yang memaksimumkan fungsi  di atas. Penyekatan tersebut dihentikan jika banyaknya amatan dalam simpul tersebut berjumlah “tertentu” atau pada saat nilai  lebih kecil dari suatu nilai ambang ( treshold ). Pemilihan aturan

penghentian ini tentu saja akan berpengaruh pada ukuran pohon akhir yang terbentuk. Breiman et.al (1993) menetapkan banyaknya amatan pada simpul akhir kurang atau sama dengan 5 sedangkan menurut Schmoor et al. (1993), menetapkan banyaknya amatan kurang dari 25 amatan (dalam Kudus: 1999). Penyekatan terbaik pada sebuah simpul adalah penyekat pada peubah X yang paling mampu memisahkan nilai reson yang besar dan kecil pada dua simpul yang berbeda. Pada setiap simpul dalam t , salah satu dari

PENENTUAN UKURAN POHON Prinsip dasar metode pohon regresi adalah: 1. Tumbuhkan pohon hingga semaksimal mungkin. Buat pohon hingga berhenti pada setiap terminal akhir a.

Memiliki jumlah anggota n(t )  n tertentu yang disyaratkan (Breiman memberikan batasan 5).

6

b. Setiap amatan yang merupakan anggota dari terminal akhir sebisa mungkin ”sama”, sehomogen mungkin.

2. Setelah pohon yang maksimal terbentuk, susun pohon bersarang, pangkas bagian-bagian tertentu guna mengurangi kompleksitas pohon regresi yang terbentuk. Prinsip dasar tersebut analog dengan pencarian model terbaik pada analisis regresi biasa. Makin banyak peubah penjelas yang masuk akan semakin meningkatkan koefisien determinasi, tetapi menjumlahkan peubah secara terus-menerus sebanyak-banyaknya bukanlah hal yang dim au dalam penyusunan model regresi. Pohon yang besar dengan tingkat kedalaman yang panjang akan memberikan kesulitan bagi penginterpretasian model. Pohon yang besar bisa menimbulkan dugaan adanya overfitting. Sebaliknya kasus underfitting terjadi karena tidak adanya penyekatan lebih lanjut akibat adanya



*



tetapan ambang  s , t , padahal sebenarnya penyekatan yang terjadi adalah layak. Cara mengatasi masalah ini adalah mencari ukuran pohon yang layak dengan dilakukan pemangkasan ( prunning). Proses pemangkasan terhadap pohon yang terbentuk dilakukan berdasarkan ukuran biaya kompleksitas (Breiman et al. 1993). Dimisalkan suatu pohon yang berukuran besar yaitu Gmax akan dipangkas menjadi pohon yang lebih kecil. Untuk sembarang G yang merupakan subpohon dari

Gmax , didefinisikan ukuran biaya kompleksitas

R  G   R  G    G

(5)

Dengan G adalah gugus simpul akhir pada subpohon G dan G adalah banyaknya anggota dari G dan merupakan ukuran kompleksitas subpohon G. Parameter kompleksitas   0 dapat dipandang sebagai biaya yang harus dikeluarkan bagi suatu simpul akhir pada subpohon G. R  G  didefinisikan sebagai

R G  

 R  g 

(6)

g G

dimana R  g  adalah jumlah kuadrat sisaan pada suatu simpul akhir g . Dalam prosesnya pemangkasan dilakukan terhadap suatu G1 , yaitu pohon terkecil yang memenuhi kondisi:

R  Gmax   R  G1 

(7)

7

Guna menemukan G1 dari Gmax dilakukan evaluasi terhadap semua gL dan gR yang merupakan simpul anak kiri dan anak kanan dari simpul g yang diperoleh dari penyekatan simpul g  Gmax . Jumlah kuadrat sisaan dari suatu simpul induk g akan selalu lebih besar atau sama dengan total jumlah kuadrat sisaan dari kedua simpul anak yang dihasilkannya R  g   R  gL   R  gR   . Bila diperoleh nilai R  g   R  gL   R  gR   , maka pemangkasan dilakukan pada kedua simpul anak. Pemangkasan pohon ini akan memotong jalur terlemah ( weakest-link ). Untuk sembarang Gg yang merupakan anak cabang dari G1 , didefinsikan

    R  g 

R Gg

(8)

gGg

dengan G g adalah gugus simpul akhir dari Gg

  dan ukuran biaya

Untuk sembarang simpul dalam g dari pohon G1 berlaku sifat R  g   R Gg kompleksitas dari g didenisikan sebagai

(9)

R g  R  g    Ukuran biaya kompleksitas dari subpohon Gg adalah

 

 

R Gg  R Gg   Gg

.

(10) Ukuran biaya kompleksitas suatu simpul g akan bernilai sama dengan ukuran kompleksitas pada subpohon Gg bila

 

 

R  g   R Gg G g  1

(11) Untuk setiap g  G1 , didefinisikan suatu fungsi h1  g  sebagai berikut

8

 R  g   R  Gg  ; g  G   h1  g    Gg  1  ; g  G  (12)

Jalur terlemah dalam G1 dinotasikan dengan g1 adalah simpul yang memenuhi kriteria:

h1  g1   minh1  g  gG1

(13)

Sedangkan nilai parameter kompleksitas  2 dihitung sebagai berikut

 2  h1  g1 

(14)

Selanjutnya dibentuk pohon baru dengan cara memangkas cabang baru dari simpul g1 dan pohon baru ini dinamakan G2 . Jadi pohon G2 diperoleh dengan cara:

G2

 G1  Gg

1

dimana Gg1 adalah cabang atau sub-pohon yang simpul utamanya adalah g1 ,

dengan demikian G2 adalah pohon yang memenuhi kriteria biaya kompleksitas minimum dengan parameter kompleksitas  2 . Selanjutnya dilakukan lagi pemangkasan pada sub pohon berikutnya, G2 dengan prosedur yang sama sehingga akhirnya diperoleh deretan pohon yang tersarang dan makin kecil, yaitu

G ,G ,,g  1

2

1

di mana G1

 G2    g1  dan

deretan



dalam urutan yang meningkat;

1  0;2   1 dan seterusnya. Langkah terakhir adalah pemilihan pohon terbaik dari deret pohon yang terbentuk. Dalam pemilihan pohon terbaik ini, digunakan sebagai suatu penduga yang dinamakan penduga jujur bagi

R  G  . Ada dua penduga jujur bagi R  G  , yaitu penduga uji contoh uji R validasi silang R

CV

G  .

ts

 G  dan

penduga

Penduga contoh uji diperoleh dengan membagi secara acak amatan

9

menjadi dua bagian, yaitu learning sample L1 dan test sample L2 . Melalui proses pemangkasan dibentuk deretan pohon dari L1 sedangkan L2 digunakan untuk membentuk R

ts

G 

yang

didefinisikan sebagai

R

ts

G  

1 n2



yi  y  x i 

2

ˆ

 xi , yi  L2

(15) Dengan n2 adalah ukuran dari test sampel L2 dan yk  x i  adalah dugaan respon dari amatan ke- i ˆ

pada simpul ke- k . Pohon terbaik adalah Gk 0 yang memenuhi

R

ts

ts R Gk  Gk 0   min k

(16) CV

Untuk membentuk cross validation estimate R (T) dengan V-fold amatan induk L yang berukuran n dibagi secara acak menjadi V kelompok, yakni L 1, L2,...,LV yang berukuran sama. -v

Learning sample ke-v adalah L =L-LV, v=1,2,...,V yang digunakan untuk membentuk sekuen pohon

{Tk} dan sekuen parameter complexity  k  . Jika terdapat v sekuen {T k} dan v sekuen  k  . Kemudian gunakan amatan induk L untuk membentuk sekuen {T k} dan  k  . Definisikan

 k '   k  k 1 .

v

Jika y k  x n  adalah dugaan respon dari amatan ke –n pada pohon yang ˆ

'

bersesuaian dengan  k yang dibentuk oleh Leaning sample ke-v, maka

R

CV

T k  

1

V

  y n 

 y k v  xn 

2

n

ˆ

v 1  xn , yn  Lv

(17) Pohon terbaik adalah Gk0, yang memenuhi kriteria:

10

R

CV

CV R Gk  Gk 0   min k

(18) cross validation estimate dengan 10-fold, menghasilkan resubstitution estimate yang paling kecil

(Breiman et al., 1993).

PENENTUAN NILAI DUGAAN RESPON PADA SETIAP S IMPUL AKHIR. Nilai dugaan respon pada masing-masing kelompok pengamatan yang dihasilkan adalah rataan responnya. Beberapa informasi yang dapat kita peroleh dari pohon regresi antara lain: 

Mengetahui peubah penjelas( predictor ) mana yang berpengaruh terhadap peubah respon



Mengetahui apakah data memiliki interaksi atau tidak

Dalam analisis ragam (ANOVA) interaksi terjadi jika respon suatu faktor(peubah) berubah pola (tidak paralel) dari kondisi tertentu ke kondisi yang lain untuk faktor yang lain. Namun dalam pohon regresi interaksi ditemui dengan beberapa indikasi, antara lain: 

Cabang dari node yang sama memiliki peubah penyekat yang berbeda



Respon yang dihasilkan tidak memiliki kesimpulan yang sama Gambar berikut mengilustrasikan bentuk pohon yang menunjukkan adanya interaksi dan

pohon tanpa interaksi. Pada pohon A terlihat peubah-peubah penyekat disebelah kiri maupun kanan node adalah sama. Sedangkan pada pohon B, peubah-peubah yang menjadi penyekat disebelah kiri dan sebelah kanan berbeda.

KESTABILAN POHON REGRESI Kestabilan pohon yang terbentuk memiliki arti yang sangat penting (Breiman, et al. 1993). Pohon klasifikasi yang stabil memberikan infornasi yang konsisten tentang hasil pengelompokkan amatan,

11

meskipun jumlah amatannya direduksi. Untuk menyelidiki kestabilan dari sebuah pohon, dilakukan tahapan sebagai berikut: 1. Membagi seluruh amatan menjadi dua kelompok amatan dengan jumlah yang sama. Kelompok amatan pertama disebut building set sedangkan kelompok kedua disebut validating set .

2. Kedua pohon regresi yang terbentuk berdasarkan building set dan validating set diperbandingkan pada seluruh amatan.

CONTOH PENGGUNAAN Sebagai ilustrasi penggunaan pohon regresi, diberikan data mengenai nilai kriminalitas ( crimerate) di beberapa kota (contoh data dari file bostonhousing.sta). Contoh penggunaan pohon regresi ini menggunakan bantuan paket Statistica 7 yang dikeluarkan oleh Statsoft. Peubah respon dalam model ini adalah tingkat kriminalitas yang dihitung dalam indeks per penduduk, sedangkan unit pengamatan adalah kota. Model akan disusun untuk mencari penjelasan mengenai tingkat kriminalitas berdasarkan peubah penjelas berupa: proporsi luas lahan tempat tinggal, proporsi luas lahan tempat bisnis non-retail, apakah kota dibatasi oleh sungai atau tidak, tingkat pencemaran udara (dihitung dengan tingkat nitric oxide dalam ppm), rata-rata jumlah ruang di dalam rumah, proporsi dari kepemilikan rumah, bobot jarak dari pusat pekerjaan di Boston, indeks aksessibilitas ke jalan tol, tingkat pajak, rasio antara siswa dan guru, persentase tingkat warga miskin, nilai tengah dari nilai rumah tempat tinggal.

Gambar 3. Pemilihan peubah dalam menu Interactive Tree guna penyusunan model pohon regresi.

Model pohon pertama disusun dengan aturan penyekatan anggota simpul akhir tidak kurang dari 5 dan simpul induk tidak kurang dari 10.

12

Gambar 4. Penentuan aturan penghentian penyekatan. Hasil yang diperoleh, dengan menggunakan aturan tersebut adalah Tree graph forCrime Rate Num. of non-terminal nodes: 80, Num. of terminal nodes: 81 Model: C&RT

ID=1 N=506

Mu=3.613524 Var:

73.840360

Accessi bit liy

= 1,

2,

3,

6,

7,

8,

t o Hg i hways

.. .

= 24

ID=2 N=374

ID=3 N=132

Mu=0.385606 Var: 0.

Ni tric

Mu=12.759291

3897 14

Var:

Oxi de

Val ueof

<= 0. 759000

> 0. 759000

ID=4 N=358

ID=5 N=16

Mu=0.298327

Mu=2.338462

Var: 0. 20041 7

Ni tri c

Var:

Oxi de

> 0. 531000

ID=6 N=244

Mu=0.126177 Var:

2,

6,

3,

4,

5,

Mu=0.666789

0.01489 4

Accessi bit li y

= 1,

Var: 0.

t o Hg i hways

= 8

Mu=0.371410

0.00638 5

Non -retailBusi ness

acres

Di stanc eto

> 5. 750000

ID=10 N=122

ID=11 N=98

Mu=0.054578 Var:

Di stanc eto

Var: 0.

Emp oyment l Centers

> 4. 630700

ID=12 N=35

ID=13 N=87

Mu=0.079256

Pupil-Teacher

Rati o

Accessi bit li y

> 1 5 . 05 0 00 0

ID=14 N=1

=

1 ,

ID=15 N=34

u=0.210380

Var:

Property Tax Rate

Var: 0.

t o Hghways i

=

<=81 .25 00 00

<=10 .70 00 00

ID=28 N=64

ID=29 N=14

ID=42 N=66

ID=43 N=15

Mu=0.044503

Mu=0.020279

Mu=0.174383

Mu=0.101718

Owner Occupi edUni ts

Var:

ID=18 N=16

ID=19 N=3

% of Lower Status

ID=22 N=13

0.00043 7

Accessi bit liy

ID=23 N=2

3,

Mu=0.057491 Mu=0. 091397 Mu=0.085797 Mu=0.127090 Mu=0.033610 Var: 0.

0000 Var=0.000048 81 Var:

0.00050 Var=0.000145 2 Var: 0.

t o Hg i hways

% of Lower Status Val ueof

=

<=4.945000 >4. 9450 00

7 , 3

t o Hg i hways

2

ID=30 N=23

= 5,

Var: 0.

Accessi bit li y

4

ID=31 N=41

=1,

Var: 0.

t o Hghways i

5=3,

4,

2

ID=36 N=5 ID=37 N=9

Mu=0.050614 Mu=0.013718 Mu=0.023924

00026 0 Var:

0.00043 Var=0.000007 3 Var=0.000051

Occupi edHomes Property Tax Rate

<=35.550000 >35 .550000 <=384.000000 >384.000000 ID=32 N=22

0000 59

ID=33 N=1 ID=34 N=33 ID=35 N=8

0055 16

Accessi bit li y

= 2

Var:

t o Hghways i

= 4 ,

ID=44 N=2

3,

ID=58 N=5 ID=59 N=8

Ni tri c

ID=48 N=4

00070 Var=0.002723 4 Var=0.010908

Occupi edHomes

<=25.700000 >25.700000 ID=52 N=6 ID=53 N=7

0.00138 8

ID=67 N=10

Mu=0.577220 Mu=0.790860 Mu=1.325810 Mu=2.060087

2,

Mu=0.067265

Var: 0.

>

Mu=0.642647

Var=0.253432

Var: 0.

% of Lower Status

ID=77 N=1

Mu=0.165239

<=

ID=78 N=8

>9.

Mu=0.387350

Var:

Val ueof

Val ueof

Occupi edHomes

Var: 0. 04733 1

Di stanc eto

<=18.750000 >18.750000 ID=80 N=4

ID=81 N=11

Var: 0.

Occupi edHomes

ID=96 N=25

Mu=0.457618

Var: 0.

0176 37

Var:

Emp oyment l Centers Val ueof Occupi edHomes Di stanc eto

700000 >20.

ID=92 N=10

Mu=0.171538 Mu=0.116652

Mu=1.263844 Mu=0.898155 Mu=0.725502 Mu=1.028190 Mu=0.533550

Var=0.000965 Var:

Var=0.031588 Var=0.003319 Var: 0.

Val ueof

Occupi edHomes

<=39.000000 >39.000000 ID=46 N=63

ID=47 N=1

AverageRoo ms

Di stanc eto

0.00096 4


<=5.832000 >5.832000

<=1.999600 >1.999600

ID=50 N=1 ID=51 N=10

ID=82 N=1 ID=83 N=10

>6.212500 ID=117 N=8

0057 Var=0.000663 61 Var:

Di s t a n c e t o E m poyment l Di sCenters tanc eto

<=4.458300 >4.458300 ID=94 N=6 ID=95 N=4

ID=97 N=5

138.619295

Mu=10.434882 Var:

% of Lower Status Di stanc eto

17.72379 3

1 4. 675000

ID=126 N=1

ID=127 N=10

Ni tri c

Oxi de

<=

ID=135 N=22

5 . 931000

Var=9.723071

ID=136 N=4

Mu=24.686000 Mu=14.394324

Mu=3.008555

Var=15.759312 Var=28.782497

Var=0.224866

<= 2. 283450

ID=137 N=18

ID=144 N=24

Mu=5.009739 Var: 1.

40699 4


Average Rooms

ID=120 N=9 ID=121 N=7

ID=138 N=11

ID=139 N=7

AverageRoo ms

< = 6 . 7 1 4 5 0 0

ID=147 N=20

ID=154 N=14

Mu=9.161244 Var:

Var=67.443387 Var=18.225172

Var=1.144532 Var=0.639195

Var=3.788126

Mu=0.343719 0074 45

Emp oyment l Val ueof Centers Occupi edHomes

<=1.973400 >1. 9734 <=20.050000 00 >20.05 0000 ID=100 N=7 ID=101 N=8 ID=102 N=4 ID=103 N=6

ID=155 N=3

Mu=8.159813

55780 9

Var=1.306749


>16.515 0 0 0<=83.850000>83.850000 ID=149 N=16

Var=0.001571

ID=99 N=10

Var: 1.

% of Lower Status

ID=148 N=4

Mu=10.892602

> 6 . 7 1 4 5 0 0

Mu=5.443493

3.72111 3

<=16.51 500 0

Mu=6.443490 Mu=4.991714

58579 7

AverageRoo ms

>6.1735 00

Var=0.507429

Occupi edHomes

Var: 2.

ID=146 N=4

Mu=6.439795

ID=140 N=4 ID=141 N=7

ID=145 N=17

Mu=5.922844

2141 50

<=6.173 500

Mu=5.519633 Mu=4.208479

<=22.000000 >22.000000

> 2. 283450

Mu=8.707669 Var: 4.

Var: 1. 31067 Var=0.507776 5

Val ueof

4212 77

Di s t a n c e t o E m poyment l Centers

>52.550 000

<=85.700000 >85.700000

ID=119 N=4

<=5.639000 >5. 6390 00

Mu=7.552985 Var: 5.


<=52.55 000 0

5 . 931000 ID=143 N=41

Mu=10.931826

Average Rooms

65.805132 Var=487.846499

>

ID=142 N=9

Mu=4. 645888 Var: 1. 78780 8

<=5.946000>5.946000

Var:

7.88068 5

Average Rooms

>2.0274 00

ID=130 N=7 ID=131 N=4 ID=134 N=6

ID=128 N=2 ID=129 N=8

Var:

Emp oyment l Di stan Centers c eto Emp oyment l Centers

43.1248 Var=4.878306 36 Var=4.438822 Var=19.379818

<=0.663500 >0. 6635 00

Mu=8.161177

6.53488 6

Mu=51.135800 Mu=16.452659 Mu=7.708786 Mu=15.205550 Mu=7.055232

1 4. 675000 ID=133 N=50

Mu=5.162176 Var:

<=11.775000 >11.775000 <=1.460100 >1. 4601 <= 00 2.027 400

Var=0.000000 Var:

>

ID=132 N=28

Mu=22.452300 Mu=13.461081

>2.7371 50

0.08238 3 Var: 0.

210.035482 Var=8.986055

Mu=19.605672 Var:

4672 04

% of Lower Status

<=

Mu=0.151750


ID=98 N=15

Var=0.000000 Var: 0.

0.00064 0

acres

>24.815 000

0.06105 7

700000 <=2.737 150

ID=93 N=2

Mu=0.027300 Mu=0.178980 Mu=0.133513 Mu=0.090156 00499 Var=0.002067 2 Var:

ID=115 N=1

166.744838 Var=0.000000

Mu=18.518642 Mu=37.854825

0641 36

<=24.81 500 0

ID=89 N=12

Mu=0.775950

<=4.343200 >4. 3432 00 <=20. ID=90 N=8 ID=91 N=2

35.50000 0

ID=116 N=20

ID=118 N=16

Non -retai lBusi ness

>15.4 00 00 0

Mu=1.190706

00155 4

9 . 020000

Mu=0.406640

0.07378 4

ID=88 N=10

Var=0.002016Var: 0.

>

ID=87 N=30

<=15 .40 00 00

ID=79 N=15

Var=0.000048 Var=0.000314

acres

9 . 020000

Mu=0.964475

Var=0.000000

8500 00

183.052767

<=6.212500

Var:

ID=86 N=22

Non -retailBusi ness acres

<=9.850000

ID=125 N=11

Mu=22.385879Mu=14.058511

1441 72

Non -retai lBusi ness

> 2 6 . 3 3 5 0 0 0

ID=76 N=23

Var=0.154065 Var=0.000000 Var=0.000350 Var=0.000520 Var: 0. 00387 6

5 . 056000 ID=85 N=52

Mu=2.132060

0056 84

>16.7 50 00 0

AverageRoo ms

5 . 056000 ID=84 N=2

< = 2 6 . 3 3 5 0 0 0

Mu=0.228898 Mu=0.131288

ID=49 N=11

<=

Mu=0.174494

0.00110 2

Mu=0.038997 Mu=0.084411

Oxi de

6

Occupi edHomes

ID=124 N=11

ID=114 N=28

Var:

AverageRoo ms

= 2,

Val ueof

<=16 .75 00 00

Mu=20.006631 Mu=45.746100

0.22733 7

ID=123 N=78

Var: 9.

ID=113 N=29

<=35.500000>

ID=71 N=54

> 1. 601300

Mu=7.084612

99.19739 1

> 5. 3 00000

Mu=20.894199

Mu=0.697811

t o Hg i hways

Var:

Occupi edHomes

Var:

40.0143 17


Mu=15.020277

Var=0.000000

% of Lower Status

Var:

ID=73 N=24

Mu=2.154828 Mu=1.207420 Mu=0.041446 Mu=0.093084

Emp oyment l Centers Val ueof

Mu=88.976200

248.085917

= 4

5

ID=68 N=9 ID=69 N=1 ID=74 N=5 ID=75 N=5

Var:

t o Hg i hways

6

ID=72 N=10

Var=0.002613 Var=0.000688 Var=0.008100 Var: 0. 21944 1 Var:

ID=122 N=22

Var=0.292440 Var=0.278077 Var=218.581440

0.00672 3

Accessi bit liy

= 1,

<= 1. 601300

ID=111 N=1

Mu=3.399397 Mu=2.390299 Mu=53.136300

21509 0

ID=70 N=34

Var:

<=10.020000 >10.020000 <=2.005800>2.005800 ID=64 N=9 ID=65 N=3 ID=66 N=4

5,

> 6. 8 96000

Mu=22.974334

4725 95

Di stanc eto

ID=110 N=31

ID=106 N=3 ID=107 N=9 ID=112 N=2

Mu=0.142956

2690 91

% of Lower Status Owner Occupi edUni ts

5 ,<=0.425000>0.425000 7

ID=45 N=64

ID=63 N=14

Mu=1.850294 Var: 0.

<=13.285000 >13.285000 <=82.950000 >82.95 0000

Val ueof

>10.7 00 00 0

ID=17 N=15

0.00065 1

0.01068 9

Accessi bit liy

= 1,

% of Lower Status

Var: 0.

Mu=0.091303 Var:

0.01069 Var=0.001331 9

Mu=0.063451 Mu=0.353782 Mu=0.465216

00554 9

Non -retailBusi ness acres

>81.2 50 00 0

ID=62 N=12

acres

>11.775 000

> 25. 0 00000 <=4.385000 >4.385 000 ID=41 N=13

Mu=0.160927 Var: 0.

Residenti alLandZone

>273 .00 00 00

Var:

ID=40 N=81

Var=0.000985

ID=57 N=5

Mu=0.422357 Mu=0.521532

0060 11

<= 25. 0 00000

Mu=0.083602

0.00045 6

ID=56 N=13

Residenti alLandZone

6

ID=27 N=9

ID=55 N=6

0100 70 Var=0.000603 Var:

<=3.661700>3.661700

Mu=0.147446

Var=0.005099

4

5 . 502500 ID=39 N=94

ID=16 N=19

<=88.050000 >88.050000 <=10.725000 >10.725000 = 1,

= 2

5 ,

>

Mu=0.062845 Var: 0. 00022 8

Accessi bit li y

2 ,

Mu=0.040155

0.00061 5

<=27 3.0 00 00 0

3 ,

48325 0 <=11.77 500 0

Var: 0.

Var:

<= 6. 8 96000

<=1.415450 >1.415 <=5. 450 3 00000

Mu=0.483435

5195 23

Di s t a n c e t o E m poyment l Centers % of Lower Di s tStatus a n c e t o E m poyment l Centers

5 . 502500

Mu=0.338728

0006 86

ID=26 N=78

Mu=0.075400 Var:

Var: 0.

ID=38 N=4

Mu=0.044650 Var: 0.

< = 1 5 . 0 5 00 0 0

ar=0.000000

<=

Var: 0.

Mu=0.449906 Mu=0.135922 Mu=0.630630

0074 06

AverageRoo ms

<= 4. 630700

>5.

ID=54 N=18

Mu=0.155254

0.00105 0

Var: 0. 00110 3

ID=61 N=88

Emp oyment l Centers Non-retai lBusi ness

<=5.483250

Di stanc eto

> 15. 000000

Mu=1.287372

Var: 0. 02618 8

<= 5. 750000

Rati o

ID=60 N=26

ID=109 N=100

Mu=8.830458

372.211782

AverageRo oms

ID=105 N=12

Var=0.036944 Var: 0.

<= 15. 000000

ID=9 N=24

Mu=0.099424 Var:

Var:

Mu=1.426130 Mu=2.642573

39830 9

Pupil-Teacher

. ..

ID=8 N=220

0.64113 2

ID=104 N=4

> 10. 950000

ID=108 N=32

<=14.560000 >14.560000

ID=7 N=114

Occupi edHomes

<= 10. 950000

Mu=25.036893

% of Lower Status

<= 0. 531000

168.783676

ID=156 N=3

ID=157 N=11

Mu=8.728404 Mu=7.214853 Mu=4.960395 Var:

2.76760 9 Var=1.193425Var: 0.

AverageRoo ms

<=6.438000>6.438000 ID=150 N=11

ID=151 N=5

Mu=8.097880 Mu=10.115558 Var: 2.

44589 Var=0.676561 0


<=96.550000 > 9 6 . 550000 ID=152 N=4 ID=153 N=7

56806 1

% of Lower Status

<=15.460000 >15.460000 ID=158 N=1

ID=159 N=10

Mu=6.801170 Mu=4.776317 Var=0.000000 Var:

Val ueof

0.25213 7

Occupi edHomes

<=17.850000 >17.85 0000

ID=20 N=4 ID=21 N=12

ID=24 N=3 ID=25 N=10

ID=160 N=7 ID=161 N=3

Mu=0.048945 Mu=0.060340

Mu=0.109497 Mu=0.078687

Mu=0.031999 Mu=0.069050 Mu=0.045393 Mu=0.072153

Mu=0.175965 Mu=0. 368940

Mu=0.141030 Mu=0.085069

Mu=0.169020 Mu=0.111415

Mu=0.781333 Mu=0.641755

Mu=0.334967 Mu=0.707310 Mu=0.269685 Mu=0.393075

Mu=7.004840 Mu=8.722474

Mu=5.031017 Mu=4.182017

Var=0.000043 Var=0.000061

Var=0.000386 Var=0.000318

Var=0.000212 Var=0.000000 Var=0.000356 Var=0.000174

Var=0.004489 Var=0.000000

Var=0.000000 Var=0.000419

Var=0.000000 Var=0.000759

Var=0.001597 Var=0.000318

Var=0.008486 Var=0.082345 Var=0.000821 Var=0.005771

Var=1.035061 Var=2.179254

Var=0.108067 Var=0.083740

Gambar 5. Pohon regresi tingkat kriminalitas di suatu kota berdasarkan peubah-peubah penjelasnya.

Gambar pohon di atas memperlihatkan bahwa peubah penjelas utama y ang berpengaruh terhadap tingkat kriminalitas adalah akses terhadap jalan tol. Model pohon tersebut adalah model pohon yang tidak efisien, terlalu rumit untuk dijelaskan. Agar pohon tersebut dapat diinterpretasikan dengan lebih mudah, diperlukan usaha pemangkasan ( prunning). Pemangkasan dilakukan dengan memperhatikan keragaman data pada peubah respon yang dapat dijelaskan oleh peubah penjelas. Sebagaimana dijelaskan di awal, penentuan penyekatan dilakukan dengan memperhitungan penurunan yang maksimal pada jumlah kuadrat simpul. Dengan memperhitungan penurunan keragaman yang maksimum untuk simpul yang sesedikit mungkin, diperoleh pohon yang optimum.

13

Gambar 6. Biaya kompleksitas dalam struktur pohon bersarang yang dihasilkan

Dari gambar 6 terlihat biaya yang kompleksitas yang minimum diperoleh pada pohon bersarang ke 140. Pohon regresi nomor 140 yang diperoleh adalah: Tree 140 graph for Crim e Rate Num. of non-termina l nodes: 3, Num. of termina l nodes: 4 ID=1

N=506 Mu=3.613524 Var=73.840360

Accessibility to Highways = 24 ID=2

= Other(s) N=132

ID=3

Mu=12.759291 Var=168.783676

Mu=0.385606 Var=0.389714

Value of Occupied Homes <= 10.950000 ID=4

> 10.950000 N=32

ID=5

Mu=25.036893 Var=372.211782

<= 6.896000 ID=6

> 6.896000 N=31

Mu=22.974334 Var=248.085917

N=100 Mu=8.830458 Var=40.014317

Average Rooms

ID=7

N=1 Mu=88.976200 Var=0.000000

14

N=374

Gambar 7. Pohon regresi dari tingkat kriminalitas hasil pemangkasan

INTERPRETASI ATAS POHON REGRESI Pohon regresi hasil pemangkasan dapat diinterpretasikan sebagai berikut. 1. Nilai aksesibilitas ke jalan tol merupakan peubah penjelas yang paling berpengaruh terhadap tingkat kriminalitas. Peubah nilai aksesibilitas ini adalah peubah bertipe ordinal. Dari pohon regresi diketahui bahwa pertama-tama tingkat kriminalitas dibagi menjadi dua berdasarkan peubah nilai aksesibilitas ke jalan tol. Nilai aksesibilitas sama dengan 24 dipisahkan dengan nilai aksesibilitas yang lain. 2. Amatan dengan nilai aksesibilitas selain 24 akan dikelompokkan kembali menjadi dua kelompok berdasarkan nilai rumah tempat tinggal, dengan pemisahaan ( splitting) pada nilai 10.95. Nilai rumah yang lebih tinggi dari 10.95 memiliki tingkat kriminalitas yang lebih rendah, dari pada kelompok sampel dengan nilai rumah tempat tinggal yang kurang dari atau sama dengan 10.95. Sampel dengan nilai rumah yang lebih tinggi dari 10.95 menempati simpul akhir, tidak dibagi lagi menjadi simpul-simpul anakan. 3. Sampel kota dengan nilai rumah tempat tinggal yang tidak lebih dari 10.95 dibagi menjadi dua simpul akhir, yang dipisahkan berdasarkan pertanyaan apakah “rata-rata jumlah ruangan dalam rumah lebih dari 6.896? ”. Sampel dengan rata-rata jumlah ruangan dalam rumah lebih besar dari 6.896 memiliki tingkat kriminalitas yang lebih tinggi daripada rumah dengan rata-rata jumlah 4. Pendugaan tingkat kriminalitas suatu kota berdasarkan peubah penjelas dapat disajikan ke dalam tabel berikut (diurutkan berdasarkan tingkat kriminalitas yang terendah).

No Simpul

N

Rata-rata Tingkat

Peubah Penciri

kriminalitas

1

3

374

0.385

2

5

100

8.830

Nilai akses ke Jalan Tol (Highway) sebesar 1, 2, dst (selain 24) Nilai akses ke jalan tol adalah 24 dan nilai rumah tempat tinggal > 10.95 Nilai akses ke jalan tol adalah 24, nilai rumah

3

6

31

22.974

tempat tinggal ≤ 10.95 dan rata-rata jumlah ruangan dalam rumah ≤ 6.896

Nilai akses ke jalan tol adalah 24, nilai rumah 4

7

1

88.976

tempat tinggal ≤ 10.95 dan rata-rata jumlah

ruangan dalam rumah > 6.896

KESIMPULAN Peubah penjelas yang memiliki pengaruh terhadap tingkat kriminalitas adalah nilai aksesibilitas ke jalan tol, nilai dari rumah tempat tinggal, dan rata-rata jumlah ruangan dalam rumah.

15

Tingkat kriminalitas yang tertinggi ada pada kelompok amatan dengan nilai aksesibilitas ke jalan tol sebesar 24 dan nilai harga rumah yang rendah, hal ini memperlihatkan wilayah yang mudah terjangkau oleh jalur jalan tol (highway) yang memungkinkan pertukaran orang asing yang lebih tinggi dan dengan tingkat ekonomi penduduk yang rendah (ditandai dengan harga rumah tempat tinggal yang rendah) memiliki nilai kriminalitas yang paling tinggi dibandingkan dengan kelompok amatan yang lain. Sedangkan kota dengan tingkat kriminalitas yang paling rendah adalah kota dengan tingkat aksesibilitas ke jalan tol selain 24. Berdasarkan pohon regresi tersebut, apabila diinginkan untuk mencari tempat tinggal dengan tingkat kriminalitas paling kecil, hindarilah tempat dengan tingkat akses ke jalan tol yang sangat tinggi. Pohon regresi memberikan cara interpretasi yang lebih mudah daripada model regresi linear, terutama apabila dibandingkan dengan model regresi linear yang melibatkan banyak peubah dan banyak transformasi atas peubah-peubahnya. Hal ini menjelaskan bahwa metode pohon regresi ini cocok untuk dipergunakan sebagai alat eksplorasi data. Semakin dalam suatu pohon, interpretasi semakin sulit untuk dilakukan, hal ini analog dengan model regresi linear biasa yang akan semakin sulit diinterpretasikan apabila model semakin banyak dan banyak transformasi pada peubahpeubahnya.

DAFTAR PUSTAKA Denis White, Jean C. Sifneos, Regression Tree Cartography. Journal of Computational and Graphical Statistics 11(3):600-614, 2002. Leland Wilkinson, Tree Structured Data Analysis: AID, CHAID and CART . Illinois: SPSS Inc., Department of Statistics, Northwestern University. Breiman L., Friedman J.H., Olshen R.A., Stone C.J., Classification and Regression Tree , New York: Chapman & Hall, 1993. Kudus, A. 1999. Penerapan Metode Regresi Berstruktur Pohon pada Pendugaan Masa Rawat Kelahiran Bayi (Studi Kasus di Rumah Sakin Hasan Sadikin Bandung ). [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor Hutabarat, I.M. 2005. Pohon Klasifikasi dan Pohon Regresi Keberhasilan Mahasiswa Pascasarjana Program Studi Statistika IPB [Tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Timofeev R., Classification and Regression Tree (CART) Theory and Application , Berlin: Center of Statistics and Economics, Hamboldt University, 2004.

16

Pohon Regresi

Recommend Documents