ANALISIS ANAL ISIS KOMPO OMPONEN NEN UT UTAMA (PrincipalComponentAnalysis) JURUSAN BIOLOGI FMIPA UNIVERSITAS UNIVERSITAS TANJUNGPURA 2014
Sub Pokok Bahasan
Pendahuluan
Principal Component Analysis
Metode PCA
Contoh dan Interpretasi Hasil
Analisis dengan R
(PCA)
Pendahuluan
Salah satu kajian yang sering menarik perhatian para peneliti biologi adalah kajian untuk melihat bagaimana struktur komunitas suatu ekosistem dalam wilayah yang diteliti dan bagaimana hubungannya dengan faktor lingkungan
Pernyataan lain yang mungkin ingin dijawab oleh peneliti adalah “bagaimanakah interaksi antar spesies dalam memperebutkan sumberdaya yang tersedia?” atau “apakah interaksi ini akan tercermin dalam struktur komunitas yang diamati?”
Analisis yang umum digunakan untuk mengkaji hal seperti ini adalah apa yang disebut sebagai analisis klaster (ada juga menyebutnya klasifikasi) dan ordinasi
Pendahuluan
Tujuan dari analisis klaster adalah untuk mendapatkan gambaran secara umum bagaimana sampel mengelompok (secara alamiah) dalam sebuah wilayah
Pengelompokan ini terjadi karena sampel tersebut memiliki kemiripan yang sama dibandingkan dengan sampel dari kelompok yang lain, sedangkan
Ordinasi adalah sebuah peta dari sampel yang digambarkan dalam dua atau tiga dimensi, yang penempatan sampel bukanlah untuk menunjukkan lokasi geografis dari sampel tersebut, melainkan mencerminkan kemiripan komunitas secara biologik
dalam ordinasi dicoba untuk sesuai dengan ketidakmiripan dalam struktur komunitas, dengan perkataan lain titik-titik yang berdekatan mencerminkan komunitas yang sama, atau sampel yang jauh terpisah memiliki sedikit spesies yang sama
Jarak antar sampel
PrincipalComponentAnalysis(PCA)
PCA merupakan salah satu kajian analisis mulivariat
Multivariate Analysis (MA) : Metode analisis yang berkenaan dengan sejumlah besar variabel yang datanya diperoleh secara simultan dari setiap
obyek pengamatan
Hubungan-hubungan antar variabel secara simultan ( = Analisis Peubah Ganda) dimana Proses perhitungannya sangat kompleks
Dalam proses perhitungannya menggunakan pendekatan matrik seperti Determinan Matriks, Pangkat Matriks, Matriks Kebalikan, Eigen Value, Eigen Vector, dll
PrincipalComponentAnalysis(PCA) (PCA) digunakan untuk menjelaskan struktur matriks varians-kovarians dari suatu set variabel melalui kombinasi linier dari
Principal Component Analysis
variabel-variabel tersebut
Secara umum komponen utama dapat berguna untuk reduksi dan interpretasi variabel-variabel.
PCA sering digunakan sebagai kajian ekologi untuk melihat hubungan antara variabel yang di kaji
PrincipalComponentAnalysis(PCA)
Penelitian ekologi umumnya akan melibatkan data biotis maupun abiotis. Data biotis yang dikumpulkan biasanya disajikan dalam bentuk matriks data (spesies × stasiun)
PrincipalComponentAnalysis(PCA)
Notasi variabel biasanya dinyatakan sebagai X1, X2, ....., Xp, dimana p menunjukkan banyaknya variabel (banyaknya spesies atau stasiun)
Data yang dikumpulkan dalam sebuah penelitian bisa berbentuk kualitatif atau kuantitatif
Untuk data biotis, contoh data yang berbentuk kualitatif adalah jika data matriks berisikan data presence/absence (ada atau tidak ada)
Data yang berbentuk kuantitatif , data yang dikumpulkan adalah data kelimpahan (yang umum digunakan) atau dapat juga berbentuk persentase
PrincipalComponentAnalysis(PCA)
Pada dasarnya PCA adalah suatu metode untuk mengekspresikan kembali data multivariat.
PCA adalah metode untuk mentransformasikan variabel lama menjadi variabel baru yaitu melakukan orientasi kembali terhadap data yang dikumpulkan sehingga bisa diperoleh dimensi yang lebih sedikit namun memberikan informasi sebesar-besarnya dari data aslinya
Adanya pengurangan dimensi ini maka visualisasi data, tampak lebih sederhana dan lebih mudah mengelolanya
Jika dalam analisis klaster atau klasifikasi yang digunakan sebagai data dasarnya adalah indeks kemiripan antar sampel , maka untuk perhitungan PCA konsep yang digunakan adalah jarak Euclidian.
Metode PCA
Misal kita mempunyai variabel X1, X2,..., Xp (spesies atau faktor lingkungan). Berdasarkan variabel ini kita dapat membangun kombinasi linear untuk menghasilkan variabel baru yang disebut sebagai komponen utama.
dengan
Wi adalah bobot atau koefisien untuk variabel ke i
Xi adalah
variabel ke i Y adalah kombinasi linier dari variabel X
Metode PCA
Dalam analisis komponen utama ditentukan suatu metode untuk mendapatkan nilai-nilai koefisien atau bobot dari kombinasi linier variabel-variabel pembentuknya dengan ketentuan sebagai berikut Ada sebanyak p komponen utama, yaitu sebanyak variabel yang diamati dan setiap komponen utama adalah kombinasi linier dari variabel-variabel tersebut Setiap komponen utama saling ortogonal (tegak lurus) dan saling bebas. Komponen utama dibentuk berdasarkan urutan varians dari yang terbesar hingga yang terkecil
Metode PCA Maksud komponen utama dibentuk berdasarkan urutan varians dari yang terbesar hingga yang Terkecil adalah
komponen utama pertama (PC1) merupakan kombinasi linier dari seluruh variabel
komponen utama kedua (PC2) merupakan kombinasi linier dari seluruh variabel yang
komponen utama ketiga (PC3) merupakan kombinasi linier dari seluruh variabel yang
komponen utama ke p (PCp) merupakan kombinasi linier dari seluruh variabel yang diamati yang bersifat ortogonal terhadap PC1, PC2 , … , PC (p-1)dan memiliki varians
yang diamati dan memiliki varians terbesar diamati yang bersifat ortogonal terhadap PC 1 dan memiliki varians kedua terbesar diamati yang bersifat ortogonal baik terhadap PC 1maupun PC2, dan memiliki varians ketiga terbesar
yang terkecil.
Metode PCA
Selanjutnya Z1 disebut sebagai komponen utama pertama, Z2 komponen utama kedua dan seterusnya
Urutan ini merupakan cerminan dari besarnya varians yang dimiliki oleh masing-masing variabel atau secara matematis dinotasikan sebagai var(Z1 ) ≥ var(Z2 ) ≥... ≥ var(Zp ), dimana var(Zi ) adalah varians dari Zi dalam kumpulan data yang dipelajari
Metode PCA Untuk mendapatkan koefisien komponen utama secara bersamaan dapat menggunakan salah satu cara berikut ini
Dekomposisi eigen value dan eigen vector dari matriks korelasi atau kovarians dari variabel-variabel yang diamati. Dalam hal ini eigen value merupakan varians setiap komponen utamanya dan eigen vector merupakan koefisien-koefisien komponen utamanya
Dekomposisi nilai singular dari matriks data yang berukuran n x p.
Metode PCA Untuk keperluan reduksi variabel tentu harus ditentukan berapa banyak komponen utama yang mesti diambil. Ada beberapa cara untuk menentukan berapa banyak komponen utama yang harus diambil diantaranya adalah
menggunakan scree plot. Banyak komponen yang diambil adalah pada titik kurva tidak lagi menurun tajam atau mulai melandai.
Menggunakan proporsi kumulatif varians terhadap total varians
Metode PCA Dalam analisis komponen utama diperoleh beberapa ukuran-ukuran berikut
Nilai total varians merupakan informasi dari seluruh variabel asal yang dapat dijelaskan oleh komponen-komponen utamanya
proporsi varians komponen utama ke k terhadap total varians menunjukkan besarnya persentase informasi variabel-variabel asal yang terkandung dalam komponen utama ke-k
Nilai koefisien korelasi antara komponen utama dengan variabelnya
Contoh Soal
Interpretasi Hasil
Eigenvalues yang ditunjukkan dalam tabel di atas sebenarnya adalah varians
dari masing-masing komponen utama
Persentase variasi menunjukkan berapa besar muatan “informasi” yang terdapat pada masing-masing sumbu komponen dan diperoleh dari ( λi/p ×100%)
Berdasarkan Tabel 4 di atas tampak bahwa persentase varians untuk komponen utama pertama (Z1) adalah yang paling tinggi yaitu sebesar 83,6% disusul oleh Z2, Z3 dan Z4
Interpretasi Hasil
eigenvector yaitu koefisien-koefisien yang membentuk kombinasi linier dari komponen utama
Analisis PCA dengan R > data(iris)
> str(iris); summary(iris[1:4]) > pairs(iris[1:4],main="Iris Data", pch=19, col=as.numeric(iris$Species)+1) > mtext("Type of iris species: red-> setosa; green-> versicolor; blue-> virginica", 1, line=3.7,cex=.8) > iris.stand <- as.data.frame(scale(iris[,1:4])) > pca <- prcomp(iris.stand,scale=T)
Analisis PCA dengan R > summary(pca)
> pca$sdev > screeplot(pca, type="lines",col=3) > pca$rotation > biplot(pca,cex=0.8)
> bline(h = 0, v = 0, lty = 2, col = 8) > abline(h = 0, v = 0, lty = 2, col = 8)