Hank Koerner % Dataset dari TWC koleksi panggilan awal untuk FME Aug2012 % Termasuk atribut merangkum 13 bulan perilaku koleksi % H. Koerner, Varolii Corp, Oct2012 @relation Koleksi @attribute ProductID tali tanggal @attribute CycleDate "yyyy-MM-dd" @attribute TREATMENT_ID {TREAT_110, TREAT_111, TREAT_112, TREAT_119, TREAT_120, TREAT_122, TREAT_124, TREAT_125, TREAT_126} @attribute DUNNING_GROUP {<200,> 200, = 200} @attribute DRPs numerik @attribute MOU numerik @attribute Upaya numerik @attribute Interact numerik @attribute CURRBAL numerik @attribute DELQ_AMT numerik @attribute DELQ_DAYS numerik @attribute Pasar { "Los Angeles", "San Diego", "National", "Texas"} @attribute Jenis Kelamin {F, M, U} @attribute CABLE {Y, N} @attribute BROADBAND {Y, N} @attribute PHONE {Y, N} numProducts @attribute numerik @attribute MinServiceType {F, G, M, P, S, U} @attribute Umur numerik @attribute Tenure numerik NumPmts @attribute numerik @attribute PmtAmt numerik @attribute PmtThisMo numerik @attribute BrokenPromThisMo numerik @attribute DelqLast12Mos numerik @attribute PmtsLast12Mos numerik @attribute BrokenPromLast12Mos numerik @attribute interactsLast12Mos numerik @attribute DelqLastMo numerik @attribute PmtsLastMo numerik @attribute BrokenPromLastMo numerik @attribute interactsLastMo numerik @attribute PmtCycleDayLastMo numerik @attribute Minage numerik @attribute minTenure numerik @attribute sumAttempts numerik @attribute sumCost numerik @attribute sumDRPs numerik sumLateFees @attribute numerik @attribute sumMOU numerik @attribute avgCURRBAL numerik @attribute avgDELQ_AMT numerik @attribute avgPmtAmt numerik @attribute avgPmtCycleDay numerik @data 8260130020000157, "2012/07/09", TREAT_110,> 200,0,0,0,0,183.92,91.96,43, "Texas", M, Y, N, N, 1, G, 0,24.5,1,183.92,1 ,
0,2,2,0,0,0,0,0,0,0,10.75,23.75,4,0.49575,3,5.99,4.5,176.82,88.41,176.82,35 8260130020004621, "2012/07/07", TREAT_120,> 200,0,0,0,0,334.93,163.23,47, "Texas", F, Y, Y, Y, 3, G, 0,5.75,2,363.72,1 , 0,5,5,0,1,1,1,0,0,34,10.5,4.75,15,1.457875,5,11.98,27.25,248.38,91.748,146.63 6,35 8260130020010081, "2012/06/17", TREAT_120,> 200,2,5.25,6,0,378.54,249.84,43, "Texas", F, Y, Y, Y, 3, G, 0,12,1,124.98,1 , 0,7,3,0,0,1,0,0,0,0,10.75,11.25,57,3.961125,13,5.99,70.75,259.2428,114.3342,6 9.86,31 8260130020012749, "2012/07/08", TREAT_120,> 200,0,0,0,0,382.07,177.15,47, "Texas", M, Y, Y, Y, 3, G, 0,13.5,1,382.07,1 , 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.00,0,0.00,0.00,0.00,0 @RELATION data1 @ATTRIBUTE attribute_0 {"T,"N,"A,"C,"V} @ATTRIBUTE attribute_1 REAL @ATTRIBUTE attribute_2 {""VRoot"",""0""",""1""",""Hide1"",1,10001",1",10002",10003",10004",10005",10 006",10007",10008",10009",10010",10011",10012",10013",10014",10015",10016",10 017",10018",10019",10020",10021",10022",10023",10024",10025",10026",10027",10 0
Convert CSV to ARFF using WEKA 3.6
This is step to convert CSV to Arff using weka 3.6
1.. Download Weka 3.6 (you can download it from http://www.cs.waikato.ac.nz/ml/weka/ , it is a free source)
2.. Install Weka 3.6
3.. Run Weka 3.6 you will face this window
click tools -> ArffViewer.
4.. then you will face this window
File->open
Open the CSV file (dont forget to change files of type become : CSV)
5.. then save as the file
in the file name delete ".csv" and c hange it to ".arff", then save it.
Finish, you already convert CSV file to Arff file :) Posted by sHouLdLiNe_31 at 2:58 AM Labels: Tutorial
DATA MINING MENGGUNAKAN WEKA 9:25:00 PM TUTORIAL 7 comments
Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin keakuratan formulasi yang diharapkan.
Empat tombol diatas dapat digunakan untuk menjalanankan Aplikasi :
1. Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA 2. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistic skema
belajar 3. Knowledge Flow digunakan untuk pengetahuan pendukung 4. Simple CLI antar muka dengan menggunakan tampilan command-line yang memungkinkan langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara langsung
Pada bagian atas window, tepatnya pada bawah judul bar. Terdapat deretan data, seperti Prepocess,Classify,Cluster,Associate,Select Attributes Visualize. Namun yang aktif hanya Prepocess ini dikarenakan sebelum menggunakan algoritma diatas pastikan sudah melakukan set file yang akan dieksekusi Berikut langkah-langkahnya :
Buka file yang akan dieksekusi oleh Weka, pergunakan extensi file .csv (Command Separated Values). Perlu diingat bahwa sebelumnya kita sudah harus menyediakan data-data pada file tersebut. Disini menggunakan contoh TRANSAKSI.csv sebagai berikut
Disini terdapat atribut sebagai berikut ini : • Kode_pelanggan, • warna merah, putih, pink, biru, hitam, • ukuran small, medium, large, extra-large, • bahan cotton, wol, • harga 15.000, 15.000-20.000, 20.000-25.000, 30.000. Kemudian pilih algoritma yang akan digunakan seperti tampilan berikut ini :
Algoritma yang akan digunakan adalah J48. Perbedaan ID3, C4.5 dan J48 sebagai berikut ini: ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan, dengan memanfaatkan Teori
Informasi atau Information Theory milik Shanon. ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3. Idenya, adalah membuat pohon dengan percabangan awal adalah atribut yang paling signifikan. Maksudnya signifikan adalah yang paling bisa mempartisi antara iya dan tidak. Bisa dilihat, bahwa atribut “patron” membagi 3, dimana hasil pembagiannya cukup ideal. Maksudnya ideal adalah setiap cabang terdiri dari hijau saja atau merah saja. Memang, untuk cabang “full” tidak satu warna (hijau saja atau merah saja). Tapi, pemilihan atribut patro n jelas lebih baik daripada atribut type. Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang pohon, digunakanlah teori informasi. Pada WEKA, ada pilihan untuk menggunakan ID3 ini, dengan nama yang sama. Namun, jelas semua atribut harus bertipe nominal, dan tidak boleh ada yang kosong Sedangkan, C4.5 merupakan pengembangan dari ID3. Beberapa perbedaannya antara lain : 1. Mampu menangani atribut dengan tipe diskrit atau kontinu. 2. Mampu menangani atribut yang kosong (missing value) 3. Bisa memangkas cabang. Dan J48 merupakan implementasi C4.5 di WEKA.
Jadi, ketika ingin melakukan klasifikasi dengan menggunakan WEKA, akan ada 4 (empat) buah pilihan, yang disebut dengan test options. Test options ini digunakan untuk mengetes hasil dari klasifikasi yang telah dilakukan. Berikut penjelasan mengenai masing-masing option. 1. Use training set Pengetesan dilakukan dengan menggunakan data training itu sendiri. 2. Supplied test set
Pengetesan dilakukan dengan menggunakan data lain. Dengan menggunakan option inilah, kita bisa melakukan prediksi terhadap data tes. 3. Cross-validation Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai default-nya adalah 10. Mekanisme-nya adalah sebagai berikut: Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali. Kemudian, error dari k tes tersebut akan dihitung rata-ratanya. 4. Percentage split Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user. Untuk melihat decision tree-nya liat tampilan sebagai berikut ini :
Akan muncul decision sebagai berikut ini :
Penjelasan : Bahwa dari decision tree tersebut maka root node pada pink menunjukkan cabang sebelah kiri untuk False dengan harga 15000-20000, dimana yang true dengan harga tersebut adalah kode pelanggan dengan A05 sebanyak 4 dan false dengan kode pelanggan A01 sebanyak 6. Sedangkan disebelah kanan menunjukkan True dengan warna node selanjutnya putih dimana disebelah kiri dengan node warna merah yang disebelah kiri menunjukkan True untuk kode pelanggan A04 sebanyak 2, dan sebelah kanan menunjukkan False dengan kode pelanggan A03 sebanyak 3. Artinya bahwa pelanggan lebih menyukai warna pink kemudian diikuti warna putih selanjutnya diikuti dengan warna merah dimana tidak dengan harga 15000-20000 per pakaian.
Secondary menu Skip to content You are here: Home / 2013 / October / 01 / Eksplorasi Data Mining Weka
Eksplorasi Data Mining Weka Published on October 1, 2013 by cahyo
Ketika mengekesplorasi data mining menggunakan weka kita tdk akan lepas dari mengklasifikasikan data terlebih dahulu. jadi, ketika ingin melaku kan klasifikasi dengan menggunakan WEKA, akan ada 4 (empat) buah pilihan, yang disebut dengan test options. Test options ini digunakan untuk mengetes hasil dari klasifikasi yang telah dilakukan. Berikut penjelasan mengenai masing-masing option. 1. Use training set Pengetesan dilakukan dengan menggunakan data t raining itu sendiri. 2. Supplied test set Pengetesan dilakukan dengan menggunakan data lain. Dengan menggunakan option inilah, kita bisa melakukan prediksi terhadap data tes. Akan dijelaskan di postingan selanjutnya. 3. Cross-validation Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai default -nya adalah 10. Mekanisme-nya adalah sebagai berikut : Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali. Kemudian, error dari k tes tersebut akan dihitung rata-ratanya.
4. Percentage split Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user .
Kalau untuk penjelasan kenapa ketika menggunakan use training set lebih tinggi nilai akurasinya dari cross-validation, saya sendiri belum begitu tahu juga. Belum mengeksplor lebih jauh tepatnya. Apakah hanya kebetulan, atau memang konsisten seperti itu untuk semua data. Hipotesis awal saya, karena use training set diuji dengan dia sendiri , sementara cross validation data yang digunakan untuk membentuk hasil klasifikasi dan untuk mengetesnya berbeda.
Setelah melakukan pemilihan metode untuk melakukan klasifikasi, dan sudah menemukan metode yang paling cocok, tentu kita akan menggunakan hasilnya untuk memprediksi hasil klasifikasi dari sekumpulan data yang baru. Di sini, akan dijelaskan mengenai cara menggunakan hasil klasifikasi tersebut di WEKA. Anggaplah kita sudah menemukan metode yang pas. Misal, dalam kasus ini, dengan J48 alias pohon C4.5. Catatan : kalau gambarnya tidak jelas, bisa diklik untuk memperbesar. 1.) Pilih test options – > supplied test set – >klik set option
Test options 2.) Pilih file yang akan diprediksi
Pilih file Kita bisa menggunakan file dari komputer kita atau dari jaringan. Untuk contoh kali ini, akan menggunakan file lokal. File yang bisa digunakan sebagai data, harus memiliki atribut yang sama dengan data training. Mulai dari banyak atribut dan tipe atribut. Untuk data tes yang akan diprediksi kelasnya, isi kelas yang akan diprediksi dengan tanda tanya “?” Klik close untuk melanjutkan. 3.) Kemudian klik start untuk memulai prediksi
Start saya tandai dengan warna merah. Setelah mengklik start, WEKA akan melakukan proses, dan memunculkan sesuatu di bagian output (warna biru). Tapi, kok semuanya 0 ? Tenang saja, memang seperti itu. Kita belum selesai. 4.) Klik kanan pada result list
Klik kanan, Visualize Classifier Error Selanjutnya, pada kolom result list, klik kanan pada hasil yang baru saja Anda jalankan. Selanjutnya, pilih “Visualize Classifier Error “ 5.) Muncul jendela baru
Untuk kali ini, tidak usah pedulikan gambar-gambar aneh tersebut. Cukup lanjutkan dengan klik save. Dan simpan sesuai dengan nama favorit Anda. . Saya menyimpan dengan nama tes.arff. 6.) Selesai – Baca hasil Setelah langkah 5, sebenarnya sudah selesai. Tapi, kita lanjutkan untuk melihat prediksi dari si WEKA ini. Cari file yang baru saja Anda simpan. Bisa langsung Anda buka dengan notepad++ atau cara yang lebih enak dilihat 7.) Cara lebih enak – ARFF viewer.
Buka lagi jendela WEKA yang paling pertama muncul ketika Anda menjalankan WEKA. Pilih
tab tools – > pilih ARFF viewer. 8.) Pilih file yang akan dibuka Akan muncul jendela baru. Langsung pilih file->open->pilih file Anda
Bisa dilihat, kolom yang saya warnai merah merupakan prediksi yang dilakukan oleh WEKA Setelah melakukan pemilihan metode untuk melakukan klasifikasi, dan sudah menemukan metode yang paling cocok, tentu kita akan menggunakan hasilnya untuk memprediksi hasil klasifikasi dari sekumpulan data yang baru. Di sini, akan dijelaskan mengenai cara menggunakan hasil klasifikasi tersebut di WEKA.
This is step to convert CSV to Arff using weka 3.6
1.. Download Weka 3.6 (you can download it from http://www.cs.waikato.ac.nz/ml/weka/ , it is a free source)
2.. Install Weka 3.6
3.. Run Weka 3.6 you will face this window
click tools -> ArffViewer.
4.. then you will face this window
File->open
Open the CSV file (dont forget to change files of type become : CSV)
5.. then save as the file
in the file name delete ".csv" and change it to ".arff", then save it.
Finish, you already convert CSV file to Arff file :)
Overview ARFF files have two distinct sections. The first section is the Header information, which is followed the Data information.
The Header of the ARFF file contains the name of the relation, a list of t he attributes (the columns in the data), and their types. An example header on the standard IRIS dataset looks like this: % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher
% (b) Donor: Michael Marshall (MARSHALL%
[email protected] a.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versic olor,Iris-virginica} The Data of the ARFF file looks like the following: @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa 5.0,3.4,1.5,0.2,Iris-setosa 4.4,2.9,1.4,0.2,Iris-setosa 4.9,3.1,1.5,0.1,Iris-setosa Lines that begin with a % are comments. The @RELATION, @ATTRIBUTE and @DATA declarations are
case insensitive.
Examples Several well-known machine learning datasets are distributed with W eka in the $WEKAHOME/data directory as ARFF files.
The ARFF Header Section The ARFF Header section of the file contains the relation declaration and attribute declarations.
The @relation Declaration The relation name is defined as the first line in the ARFF file. The format is: @relation
where is a string. The string must be quoted if the name includes spaces. Furthermore,
relation names or attribute names (see below) cannot begin with
a character below \u0021 '{', '}', ',', or '%'
Moreover, it can only begin with a single or double quote if there is a corresponding quote at the end of the name.
The @attribute Declarations Attribute declarations take the form of an ordered sequence of @attribute statements. Each attribute in the data set has its own @attribute statement which uniquely defines the name of that attribute and its data type. The order the attributes are declared indicates the column position in the data section of the file. For example, if an attribute is the third one declared then Weka expects that all that attributes values will be found in the third comma delimited column. The format for the @attribute statement is: @attribute where the must adhere to the constraints specified in the above section on the
@relation declaration. The can be any of the four types supported by Weka:
numeric integer is treated as numeric real is treated as numeric string date [] relational for multi-instance data (for future use)
where and are defined below. The keywords numeric, real, integer, string and date are case insensitive.
Numeric attributes Numeric attributes can be real or integer numbers.
Nominal attributes Nominal values are defined by providing an listing the possible values: {, , , ...} For example, the class value of the Iris dataset can be defined as follows: @ATTRIBUTE class {Iris-setosa,Iris-versi color,Iris-virginica} Values that contain spaces must be quoted.
String attributes String attributes allow us to create attributes containing arbitrary textual values. This is very useful in text-mining applications, as we can create datasets with string attributes, then write Weka Filters to manipulate strings (like StringToWordVectorFilter ). String attributes are declared as follows: @ATTRIBUTE LCC
string
Date attributes Date attribute declarations take the form: @attribute date [] where is the name for the attribute and is an optional string specifying how date
values should be parsed and printed (this is the same format used by SimpleDateFormat). The default format string accepts the ISO-8601 combined date and time format: yyyy-MM-dd'T'HH:mm:ss . Check out the Javadoc of the java.text.SimpleDateFormat class for supported character patterns. Dates must be specified in the data section as the corresponding string re presentations of the date/time (see example below).
Relational attributes Relational attribute declarations take the form: @attribute relational @end For the multi-instance dataset MUSK1 the definition would look like this ( "..." denotes an omission): @attribute molecule_name {MUSK-jf78,...,NON-MUSK-199} @attribute bag relational @attribute f1 numeric ... @attribute f166 numeric @end bag
@attribute class {0,1} ...
The ARFF Data Section The ARFF Data section of the file contains the data declaration line and the actual instance lines.
The @data Declaration The @data declaration is a single line denoting the start of the data segment in the file. The format is: @data
The instance data Each instance is represented on a single line, with carriage returns denoting the end of the instance. A percent sign (%) introduces a comment, which continues to the end of the line. Attribute values for each instance can be delimited by commas or tabs. A comma/tab may be followed by zero or more spaces. Attribute values must appear in the order in which they were declared in the header section (i.e., the data corr esponding to the nth @attribute declaration is always the nth field of the attribute). A missing value is represented by a single question mark, as in: @data 4.4,?,1.5,?,Iris-setosa Values of string and nominal attributes are case sensitive, and any that contain space or the comment-
delimiter character % must be quoted. (The code suggests that double-quotes are acceptable and that a backslash will escape individual characters.) An example follows: @relation LCCvsLCSH @attribute LCC string @attribute LCSH string @data AG5, 'Encyclopedias and dictionaries.;Twentieth century.' AS262, 'Science -- Soviet Union -- History.' AE5, 'Encyclopedias and dictionaries.'
AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Phases.' AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Tables.' Dates must be specified in the data section using the string representation specified in the attribute
declaration. For example: @RELATION Timestamps @ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss" @DATA "2001-04-03 12:12:12" "2001-05-03 12:59:55" Relational data must be enclosed within double quotes " . For example an instance of the MUSK1 dataset
("..." denotes an omission): MUSK-188,"42,...,30",1
Sparse ARFF files Sparse ARFF files are very similar to ARFF files, but data with value 0 are not be explicitly represented. Sparse ARFF files have the same header (i.e @relation and @attribute tags) but the data section is different. Instead of representing each value in order, like this: @data 0, X, 0, Y, "class A" 0, 0, W, 0, "class B" the non-zero attributes are explicitly identified by attribute number and their value stated, like this: @data {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"} Each instance is surrounded by curly braces, and the format for each entry is:
where index is the attribute index (starting from 0). Note that the omitted values in a sparse instance are 0, they are not "missing" values! If a value is unknown, you must explicitly represent it with a question mark (?). Warning: There is a known problem saving SparseInstance objects from datasets that have string
attributes. In Weka, string and nominal data values are stored as numbers; these numbers act as indexe s into an array of possible attribute values (this is very efficient). However, the first string value is assigned index 0: this means that, internally, this value is store d as a 0. When a SparseInstance is written, string instances with internal value 0 are not output, so their string value is lost (and when the arff file is read again, the default value 0 is the index of a different string value, so the attribute value appears to change). To get around this problem, add a dummy string value at index 0 that is never used whenever
you declare string attributes that are likely to be used in SparseInstance objects and saved as Sparse ARFF files.
Instance weights in ARFF files This feature exists in versions of Weka >= 3 .5.8. A weight can be associated with an instance in a standard ARFF file by appending it to the end of the line for that instance and enclosing the value in c urly braces. E.g: @data 0, X, 0, Y, "class A", {5} For a sparse instance, this example would look like: @data {1 X, 3 Y, 4 "class A"}, {5} Note that any instance without a weight value spec ified is assumed to have a weight of 1 for backwards
compatibility.
Apa itu .ARFF dan cara membuatnya dari file excel .csv 19 Juni 2011 Ismail Sunni Tinggalkan komentar Go to comments Saya sedang mencoba untuk menggunakan tools untuk melakukan data mining, yang konon sangat hebat. Nama tool-nya adalah WEKA. Open source, dengan GNU Public License. Hmm, saya tidak akan membahas tentang WEKA dan tetek bengeknya, maklum, masih mencoba. Saya hanya ingin share tentang format .ARFF yang dipakai sebagai file input ketika menggunakan WEKA Sungguh, saya menghabiskan waktu sejam lebih dikit untuk trial and error, agar WEKA tidak protes. Apa itu .ARFF ?
.ARFF adalah format file yang digunakan dalam WEKA> Dibuat oleh Andrew Donkin. Konon, ARFF ini singkatan dari “Andrew’s Ridiculos File Format”. Icon file ini adalah gambar burung WEKA (sama seperti aplikasinya). Berikut contoh file .ARFF yang pe rnah saya buat :
Contoh file .arff Maaf, kalau terlalu kecil. Jadi, dalam file .arff, ada 2 bagian, Yakni, header, dan data. Dalam file di atas, kotak pertama adalah header, dan kotak ke dua adalah data. Untuk header, menunjukan nama relasi, kasus di atas, relasinya bernama “WillWait”. Sedangkan untuk baris-baris selanjutnya adalah @attribute[spasi][nama atribut][spasi][tipe data]. Dalam WEKA, ada 4 jenis tipe data, yakni : 1. numeric tipe untuk bilangan bulat atau real. Untuk menggunakannya, cukup tulis numeric 2. nominal spesification Semua atribut dalam contoh di atas adalah bertipe ini. Semacam enumerasi pada database. Untuk menggunakan atribut ini, gunakan kurung kurawal dan koma untuk mengenumerasi nila-nilai yang mungkin. Contoh :@attribute type {French,Thai,Burger,Italian} 3. string Untuk merepresentasikan tipe string. Cara penulisannya, cukup tulis string 4. date[] Untuk merepresentasikan date. Saya sendiri belum pernah menggunakan tipe ini. Pada bagian ke dua, yakni data, cukup dituliskan “@data” dan selanjutnya, menulis tiap baris dengan isi data. Tiap atribut dipisahkan dengan tanda koma. Lihat contoh. Untuk atribut yang belum diketahui, cukup diganti dengan tanda tanya “?”. Sedangkan untuk tipe string, gunakan tanda petik tunggal untuk mengapitnya. Cara membuatnya ?
Cara pertama, manual. He… jelas, rentan salah ketik dan sangat capek. Care ke dua, membuat dari file .csv, atau comma separated files. WEKA masih mau menerima format .csv ini. Tapi… Ada tapinya. Sebelumn ya, sekilas tentang .csv ini. Untuk mudahnya, .csv merupkana representasi sebuah file yang berisi data (tabel) yang dipisahkan dengan tanda comma untuk tiap kolomnya. Biar gampang dibayangkan, coba buka salah satu file excel Anda, lalu simpan sebagai (save-as) file .csv. Lalu, buka melalu n otepad, maka akan kelihatan tanda pemisahnya. Sebenarnya, file .csv ini bisa diterima oleh WEKA sebagai input. Namun sialnya, ada 2 standar .csv, yakni yang menggunakan ‘,’ dan ‘;’. Nah, si WEKA ini ngotot menggunakan “,”, sementara ketika kita menyimpan ke .csv, ada yang menggunakan “;”. Jelas, tidak terbaca dan ditolak. Oleh, karenanya, kita harus secara manual mengubah “;” menjadi “,”. Caranya ? Buka di notepad, dan gunakan fungsi replace. Tapi, ingat, ubah dulu semua tanda “,” menjadi “.”. Supaya tidak salah arti. Ketika Anda menjalankan WEKA, pilih open file, lalu pilih dengan tipe .csv. Pilih file .csv Anda. Lalu, muncul di WEKA-nya. Nah, sekarang, save sebagai .ARFF. SELESAI. Jelas, cara ke dua lebih mudah diterapkan. Karena, micorsoft excel lebih manusiawi daripada notepad. Nah, segitu dulu untuk masalah kecil seperti ini. Nanti, saya lanjutkan lagi untuk di WEKAnya.
Membuat file .arff untuk data WEKA [Data Mining] Untuk dapat sharing data antar pengguna menggunakan WEKA dibutuhkan sebuah file yang berformat .arff, dengan itu kita dapat bertukar data dengan mudah. berikut merupakan cara membuat file berformat .arff
1. buka notepad 2. copy-paste code berikut pada notepad
@relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal,
atyp_angina}
@attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present
3. save kedalam format .arff pada colom save as type...
keterangan: 1. @relation -> nama relasi yang akan kita buat dengan memberi nama sesuai yang kita inginkan setelah command @relation 2. @attribute -> attribut/kolom yang akan kita buat, dengan sintax @attibut diikuti nama attribut dan d akhiri dengan tipe data.
Terdapat dua tipe data yang dapt kita gunakan dalam membuat file .arff ini, yaitu numerik dan nominal. jika tipe data yang digunakan merupakan numerik, maka tipe data langsung ditulis numerik. jika tipe data berupa nominal, maka pengelompokan datanya tersebut yang langsung ditulis. contoh tipe data nominal { present, not_present} 3. penulisan data yang akan dimasukan langsung dituliskan berjajar dan dipisahkan dengan comma, dan sebelum data ditulis di inisialisasikan terlebih dahulu dengan command @data contoh, jika terdapat enam attribute: ,,,,, ~sekian~