2.12.1 KNN Classifier klasifikasi klasifikasi tetangga terdekat, terdekat, juga dikenal sebagai K-nea K-nearest rest neighbors neighbors (KNN) adalah dida didasar sarka kan n bahw bahwaa ide ide dari dari KKN KKN adal adalah ah pola pola terd terdek ekat at terha terhada dap p pola pola targe targett x’, x’, KNN KNN memberikan memberikan kelas label mayoritas mayoritas pola K-terdekat K-terdekat di ruang data. leh karena itu, kita harus dapat menentukan ukuran kesamaan dalam ruang data. !i " #, itu adalah untuk menggunakan metrik $inkowski (p-norm) x
¿ ( x i ) −(¿ −(¿ ¿ i ) j ¿ p '
q
¿ ∑ = i
1
¿ ¿ ¿ ∨¿ p= ¿ ¿∨ x ' − x j ¿
yang sesuai dengan jarak %u&lidean untuk p ' . !alam ruang data lain, fungsi jarak yang &ukup harus dipilih, misalnya, jarak amming di * #. !alam kasus klasifikasi biner, label di set + ' , - digunakan, dan KNN dengan ukuran tetangga K dan dengan set indeks N K (x’) (x’) dari pola K-terdekat. didefinisikan sebagai berikut /
' f KNN ( x x ) =
{
yi ≥ 0 ∑( ) yi≥ (2.2 ) −1 if ∑ yi <0 ( ) 1 if
i ∈ NK x'
i ∈ NK x '
0ilihan K mendefinisikan lokalitas KNN. 1ntuk K ' , lingkungan ke&il mun&ul di daerah-daerah, di mana pola dari kelas yang berbeda yang tersebar. 1ntuk ukuran lingkungan yang lebih besar, misalnya K ' 2, pola dengan label minoritas diabaikan. 3ambar .4 menggambarkan perbedaan dalam klasifikasi antara KNN dengan K ' dan K ' 2 pada set data sederhana dimensi yang terdiri dari dua awan data yang tumpang tindih terdapat 52 3aussian sampel merah dan biru. 6okasi ruang data yang akan diklasifikasikan sebagai biru ditampilkan ditampilkan warna biru &erah, sementara sementara daerah diklasifikasikan diklasifikasikan sebagai merah ditunjukkan ditunjukkan dalam putih. 1ntuk K ' , prediksi lokal. $isalnya, titik biru yang merupakan outlier dari kelas biru terletak terletak di pusat awan merah. 1ntuk K besar, besar, &lassifier generalisasi mengabaikan mengabaikan pola ke&il aglomerasi. KNN menginduksi 7o 7oronoi tessellation di ruang data. !alam kasus set data yang besar, KNN harus men&ari K-terdekat pola di seluruh ruang, tapi sudah dapat
menghasilkan pendekatan yang baik berdasarkan pada K-tetangga terdekat dalam subset yang dis&an.
3ambar .4 0erbandingan klasifikasi KNN 3ambar . 0erbandingan klasifikasi KNN pada dua awan berbasis data 3aussian untuk dua jenis tetangga ((a) K ' dan (b) K ' 2). 1ntuk nilai K yang ke&il, KNN &enderung o8erfit menjadi lokal, sementara KNN untuk mengabaikan generalisasi, nilai K lebih besar. 0ertanyaannya mun&ul, bagaimana memilih nilai K terbaik, yaitu, yang ukuran lingkungan men&apai hasil klasifikasi terbaik. $asalah ini juga dikenal sebagai model seleksi, dan berbagai teknik seperti &ross-8alidasi dapat digunakan untuk memilih model terbaik dan parameter. 2.12.2 Multi-class K-Nearest Neighbors KNN juga dapat diterapkan untuk masalah klasifikasi multi kelas. 1ntuk pola yang tidak diketahui x’, KNN untuk klasifikasi multi-kelas memprediksi label kelas mayoritas pola Kterdekat di ruang data. dengan fungsi indikator 9 (:) yang mengembalikan satu, jika argumen benar dan nol sebaliknya. !efinisi ini juga akan digunakan untuk &lassifier ensemble.
f KNN ( x ) = '
argmax
∑ I ( y = y ) (2.3)
y ∈ γ i ∈ N K ( x' )
i
2.12.3 Nearest Neighbor Variants KNN adalah teknik dengan prnghitungan panjang. 0ertama kal i disebutkan oleh ;ix dan odges pada tahun lima puluhan di sekolah o8er dan art
in8estigasi pendekatan eksperimental pada tahun enam puluhan. al menarik telah ditemukan, misalnya / *ahwa nilai K ' dan N ?, KNN mengalami dua kali tingkat kesalahan *ayes. *anyak 8arian KNN telah disajikan di masa lalu. !ua 8arian disajikan berikut ini, dan modifikasi semi-diawasi KNN sebagai berikut / 2.12.3.1 Model dasar KNN 9de KNN berbasis model untuk menggantikan pelatihan yang ditetapkan oleh satu set titik referensi (atau 8ektor &odebook) yang men&apai hasil prediksi yang sama. Koleksi landmark poin disebut $odel. 0emilihan satu set landmark sebagai masalah optimasi, yaitu, kita harus men&ari subset optimal landmark 8ektor yang men&apai hasil tetangga sama terdekat seperti KNN pada set lengkap pola. 0ertama, matriks kesamaan dari kumpulan data dihitung. =emua label y i ditetapkan untuk dikelompokkan. Kemudian kita men&ari tetangga yang meliputi jumlah terbesar dari tetangga dengan label yang sama. label mereka diatur untuk dikelompokkan. 6angkah terakhir diulang sampai semua label ditetapkan untuk dikelompokkan. $odel yang dihasilkan berisi pilihan untuk 8ektor penting yang dapat digunakan sebagai pengganti untuk model KNN asli.
2.12.3.2
Distance-Weighted KNN KNN menginduksi output lokal konstan. !ari perspektif optimasi, ini berarti kita mendapatkan output dengan plato tinggi/ untuk ukuran dari tetangga K dan pola N dalam
regresi KNN,
() K N
nilai output yang berbeda yang mungkin. 0lato dapat menghambat
metode optimasi dari perkiraan &epat dari solusi optimal, karena tidak banyak informasi tentang arah pen&arian dapat diperoleh selama optimasi. *ailey dan @ain memperkenalkan aturan KNN distan&e-weighted di akhir tahun tujuh puluhan untuk kelan&aran fungsi prediksi '
pembobotan prediksi dengan persamaan
∆ ( x , x i )
dari pola terdekat xi dengan
i ∈ N K ( x ' ) untuk target x ' '
x , x j
¿ ¿ ∆¿
∑
¿
j ∈ N K ( x ) ' '
∆ ( x , x i )
¿
f w KNN ( x )= '
∑
¿ '
i ∈ N K ( x )
0ola dekat dengan target harus memberikan kontribusi lebih untuk prediksi dari pola yang lebih jauh. Kesamaan dapat didefinisikan dengan jarak antara pola, misalnya /
∆ ( x , x i ) =
2
1
'
‖ x − x ‖ '
( 2.5 )
i
$odel f wKNN memperkenalkan output yang berkesinambungan. 3ambar .A menunjukkan KNN prediksi berdasarkan regresi KNN di 8arian bobot pada fungsi trigonometri. *obot KNN regresi interpolates antara titik-titik berbeda dengan 8arian yang sama.
(a) (b) 3ambar .A 9llustration of weighted KNN regression for (a) K ' and (b) K ' 5
f w KNN K = N ( x )= '
∑ = i
1
2
‖ x − x i‖ '
N
N
‖ x − x ‖ ∑ =
2
'
y i ( 2.6 )
j
j
1
*obot KNN untuk sejumlah diskrit solusi. akurasi mesin dapat membatasi ruang output sampai BC dalam kasus BC bit yang digunakan. Kesamaan KNN membatasi jumlah kemungkinan nilai output
() N K
. =ebagai &atatan terakhir, kami menyatakan
bahwa untuk K ' N kita mengambil setiap pola dan menghitungnya menghasilkan penyederhanaan yang tidak mampu dihitung jarak antara tetangga terdekat.