rumus KNN

2.12.1 KNN Classifier klasifikasi klasifikasi tetangga terdekat, terdekat, juga dikenal sebagai K-nea K-nearest rest neighbors neighbors (KNN) adalah dida didasar sarka kan n bahw bahwaa ide ide dari dari KKN KKN adal adalah ah pola pola terd terdek ekat at terha terhada dap p pola pola targe targett x’, x’, KNN KNN memberikan memberikan kelas label mayoritas mayoritas pola K-terdekat K-terdekat di ruang data. leh karena itu, kita harus dapat menentukan ukuran kesamaan dalam ruang data. !i " #, itu adalah untuk menggunakan metrik $inkowski (p-norm) x

¿ ( x i ) −(¿ −(¿ ¿ i ) j ¿ p '

q

¿ ∑ = i

1

¿ ¿ ¿ ∨¿ p= ¿ ¿∨ x ' − x j ¿

yang sesuai dengan jarak %u&lidean untuk p ' . !alam ruang data lain, fungsi jarak yang &ukup harus dipilih, misalnya, jarak amming di * #. !alam kasus klasifikasi biner, label di set + ' , - digunakan, dan KNN dengan ukuran tetangga K dan dengan set indeks N K (x’) (x’) dari pola K-terdekat. didefinisikan sebagai berikut /

' f KNN ( x x ) =

{

yi ≥ 0 ∑( ) yi≥ (2.2 ) −1 if ∑ yi <0 ( ) 1 if

i ∈ NK x'

i ∈ NK x '

0ilihan K mendefinisikan lokalitas KNN. 1ntuk K ' , lingkungan ke&il mun&ul di daerah-daerah, di mana pola dari kelas yang berbeda yang tersebar. 1ntuk ukuran lingkungan yang lebih besar, misalnya K ' 2, pola dengan label minoritas diabaikan. 3ambar .4 menggambarkan perbedaan dalam klasifikasi antara KNN dengan K '  dan K ' 2 pada set data sederhana  dimensi yang terdiri dari dua awan data yang tumpang tindih terdapat 52 3aussian sampel merah dan biru. 6okasi ruang data yang akan diklasifikasikan sebagai biru ditampilkan ditampilkan warna biru &erah, sementara sementara daerah diklasifikasikan diklasifikasikan sebagai merah ditunjukkan ditunjukkan dalam putih. 1ntuk K ' , prediksi lokal. $isalnya, titik biru yang merupakan outlier dari kelas biru terletak terletak di pusat awan merah. 1ntuk K besar, besar, &lassifier generalisasi mengabaikan mengabaikan pola ke&il aglomerasi. KNN menginduksi 7o 7oronoi tessellation di ruang data. !alam kasus set data yang besar, KNN harus men&ari K-terdekat pola di seluruh ruang, tapi sudah dapat

menghasilkan pendekatan yang baik berdasarkan pada K-tetangga terdekat dalam subset yang dis&an.

3ambar .4 0erbandingan klasifikasi KNN 3ambar . 0erbandingan klasifikasi KNN pada dua awan berbasis data 3aussian untuk dua jenis tetangga ((a) K '  dan (b) K ' 2). 1ntuk nilai K yang ke&il, KNN &enderung o8erfit menjadi lokal, sementara KNN untuk mengabaikan generalisasi, nilai K lebih besar. 0ertanyaannya mun&ul, bagaimana memilih nilai K terbaik, yaitu, yang ukuran lingkungan men&apai hasil klasifikasi terbaik. $asalah ini juga dikenal sebagai model seleksi, dan berbagai teknik seperti &ross-8alidasi dapat digunakan untuk memilih model terbaik dan parameter. 2.12.2 Multi-class K-Nearest Neighbors KNN juga dapat diterapkan untuk masalah klasifikasi multi kelas. 1ntuk pola yang tidak diketahui x’, KNN untuk klasifikasi multi-kelas memprediksi label kelas mayoritas pola Kterdekat di ruang data. dengan fungsi indikator 9 (:) yang mengembalikan satu, jika argumen benar  dan nol sebaliknya. !efinisi ini juga akan digunakan untuk &lassifier ensemble.

f KNN ( x ) = '

argmax

∑ I ( y = y ) (2.3)

y ∈ γ i ∈ N K ( x' )

i

2.12.3 Nearest Neighbor Variants KNN adalah teknik dengan prnghitungan panjang. 0ertama kal i disebutkan oleh ;ix dan odges pada tahun lima puluhan di sekolah o8er dan art

in8estigasi pendekatan eksperimental pada tahun enam puluhan. al menarik telah ditemukan, misalnya / *ahwa nilai K '  dan N ?, KNN mengalami dua kali tingkat kesalahan *ayes. *anyak 8arian KNN telah disajikan di masa lalu. !ua 8arian disajikan berikut ini, dan modifikasi semi-diawasi KNN sebagai berikut / 2.12.3.1 Model dasar KNN 9de KNN berbasis model untuk menggantikan pelatihan yang ditetapkan oleh satu set titik referensi (atau 8ektor &odebook) yang men&apai hasil prediksi yang sama. Koleksi landmark poin disebut $odel. 0emilihan satu set landmark sebagai masalah optimasi, yaitu, kita harus men&ari subset optimal landmark 8ektor yang men&apai hasil tetangga sama terdekat seperti KNN pada set lengkap pola. 0ertama, matriks kesamaan dari kumpulan data dihitung. =emua label y i ditetapkan untuk dikelompokkan. Kemudian kita men&ari tetangga yang meliputi jumlah terbesar dari tetangga dengan label yang sama. label mereka diatur untuk dikelompokkan. 6angkah terakhir diulang sampai semua label ditetapkan untuk dikelompokkan. $odel yang dihasilkan berisi pilihan untuk 8ektor penting yang dapat digunakan sebagai pengganti untuk model KNN asli. 

2.12.3.2

Distance-Weighted KNN KNN menginduksi output lokal konstan. !ari perspektif optimasi, ini berarti kita mendapatkan output dengan plato tinggi/ untuk ukuran dari tetangga K dan pola N dalam

regresi KNN,

() K N

nilai output yang berbeda yang mungkin. 0lato dapat menghambat

metode optimasi dari perkiraan &epat dari solusi optimal, karena tidak banyak informasi tentang arah pen&arian dapat diperoleh selama optimasi. *ailey dan @ain memperkenalkan aturan KNN distan&e-weighted di akhir tahun tujuh puluhan untuk kelan&aran fungsi prediksi '

pembobotan prediksi dengan persamaan

∆ ( x , x i )

dari pola terdekat xi dengan

i ∈ N K ( x ' ) untuk target x ' '

x , x j

¿ ¿ ∆¿

∑

¿

j ∈ N K ( x ) ' '

∆ ( x , x i )

¿

f w KNN ( x )= '

∑

¿ '

i ∈ N K ( x )

0ola dekat dengan target harus memberikan kontribusi lebih untuk prediksi dari pola yang lebih jauh. Kesamaan dapat didefinisikan dengan jarak antara pola, misalnya /

∆ ( x , x i ) =

2

1

'

‖ x − x ‖ '

( 2.5 )

i

$odel f wKNN memperkenalkan output yang berkesinambungan. 3ambar .A menunjukkan KNN prediksi berdasarkan regresi KNN di 8arian bobot pada fungsi trigonometri. *obot KNN regresi interpolates antara titik-titik berbeda dengan 8arian yang sama.

(a) (b) 3ambar .A 9llustration of weighted KNN regression for (a) K '  and (b) K ' 5

f w KNN K = N ( x )= '

∑ = i

1

2

‖ x − x i‖ '

N

N

‖ x − x ‖ ∑ =

2

'

y i ( 2.6 )

j

j

1

*obot KNN untuk sejumlah diskrit solusi. akurasi mesin dapat membatasi ruang output sampai BC dalam kasus BC bit yang digunakan. Kesamaan KNN membatasi jumlah kemungkinan nilai output

() N K

. =ebagai &atatan terakhir, kami menyatakan

bahwa untuk K ' N kita mengambil setiap pola dan menghitungnya menghasilkan penyederhanaan yang tidak mampu dihitung jarak antara tetangga terdekat.

rumus KNN

Recommend Documents