Đại học Quốc Gia Thành ph ố Hồ Chí Minh Trường Đại học Khoa Học Tự Nhiên Khoa Công Nghệ Thông Tin Bộ môn Khoa Học Máy Tính
Khai thác dữ liệu và ứng dụng
Tài liệu tham khảo
HƯỚNG D ẪN SỬ DỤNG WEKA EXPLORER 3.6.3
_____________________ ________________________________ ________________________ ________________ ___
_____________________ ________________________________ ________________________ ________________ ___
Tháng 8/2011
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
MỤC LỤC 1. Giới thiệu .........................................................................................................................................................................1 1.1. Các chức năng của Weka Explorer...............................................................................................................1 1.2. Khảo sát dữ liệu....................................................................................................................................................1 2. Tiền xử lý dữ liệu .........................................................................................................................................................3 3. Tập phổ biến & luật k ết hợp....................................................................................................................................5 4. Phân loại...........................................................................................................................................................................8 5. Gom cụm ....................................................................................................................................................................... 10 6. Một số định dạng t ập tin ........................................................................................................................................ 12
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
1. Giới thiệu 1.1. Các chức năng của Weka Explorer
Các chức năng chính của Weka Explorer th ể hiện trong các thẻ (tab) c ủa màn hình chính, bao gồm:
Preprocess: Cho phép mở, điều chỉnh, lưu một t ập tin dữ liệu, thẻ này chứa các thuậtt toán áp dụng trong tiền xử lý dữ liệu. Classify: Cung cấp các mô hình phân lo ại dữ liệu hoặc hồi quy. Cluster: Cung cấp các mô hình gom cụm. Associate: Khai thác t ập phổ biến và luật k ết hợp. Select Attributes: Lựa chọn các thuộc tính thích hợp nhất trong t ập dữ liệu Visualize: Thể hiện dữ liệu dưới dạng biểu đồ
1.2. Khảo sát dữ liệu
Sử dụng thẻ Preprocess
(1) Open file…: Mở một t ập tin dữ liệu.
(2) Edit…: Hiển thị và chỉnh sửa dữ liệu bằng tay nếu cần thiết.
(3) Save…: Lưu dữ liệu hiện t ại ra t ập tin. Weka Explorer h ỗ trợ một số định dạng trong đó có 2 đị nh dạng chính cần quan tâm là *.arff và *.csv (Xem phần 6) (4) Filter: Các tác vụ tiền xử lý được gọi là các bộ lọc, (xem phần 2).
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 1
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
(5) Selected attribute: Thông tin về thuộc tính đang được chọn: o Type: Kiểu dữ liệu của thuộc tính (Numeric: Dạng số, Nominal: Dạng rời rạc/phi số). o Missing: Số mẫu thiếu giá trị trên thuộc tính đang xét o Distinct: Số giá trị phân biệt o Unique: Số mẫu không có giá trị trùng với mẫu khác o Bảng thống kê: Dạng phi số: Thể hiện các giá trị và t ần suất của mỗi giá trị
Dạng số: Thể hiện một số đại lượng thống kê như giá trị nhỏ nhất, lớn nhất, giá trị trung bình và độ lệch chuẩn.
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 2
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
2. Tiền xử lý dữ liệu
Choose: Chọn một bộ lọc.
Textbox: Các tham số của bộ lọc đã chọn, click vào đây để thay đổi tham số.
o
o o
Thông thường, với những bộ lọc có thể áp dụng trên các thuộc tính riêng lẻ sẽ cho phép lựa chọn t ầm ảnh hưởng của bộ lọc đối với những thuộc tính người dùng quan tâm. More: Hiển thị thông tin chi tiết về bộ lọc. Capabilities: Các yêu c ầu cần thiết đối với dữ liệu để thực hiện bộ lọc.
Apply: Thực thi bộ lọc với các tham số đã xác định trên dữ liệu hiện t ại.
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 3
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
Ví dụ: Unsupervised.Attribute.Discretize o Hình bên dưới là màn hình điề u chỉnh tham số cho phương pháp chia giỏ , trong đó có các tham số như số lượng giỏ (bins), chia giỏ theo độ rộng/độ sâu (useEqualFrequency),…
Ví dụ: Unsupervised.Attribute.Normalize: Chuẩn hóa min-max với tham số giới hạn (scale) và giá trị nhỏ nhất (translation).
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 4
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
3. Tập phổ biế n & luật k ế t hợp
Sử dụng thẻ Asscociate
Associator: Phương pháp khai thác luậ t k ết hợp. o Choose: Lựa chọn một phương pháp o Textbox: Thay đổi tham số cho phương pháp đã lự a chọn
Ví dụ: Apriori: Khai thác t ập phổ biến và luật k ết hợp. o [lowerBoundMinSupport, upperBoundMinSupport]: Độ phổ biến của các t ập hạng mục khai thác được sẽ nằm trong khoảng này. o metricType: Độ đo tính lý thú của luật k ết hợp, gồm có Confidence, Lift, Leverage, Conviction. o minMetric: Các luật khai thác được sẽ có độ đo thỏa giá trị này.
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 5
Weka Explorer 3.6.3
numRule và delta: Thuật toán luôn khởi động với mức độ lý thú mục tiêu cao nhất. Khi số luật đạt con số numRule, thuật toán sẽ dừng, ngược lại giá trị của minMetric sẽ giảm một lượng delta để tìm các luật có độ đo lý thú thấp hơn. outputItemsets: Kết xuất t ập phổ biến trong k ết quả.
o
o
CTT305 – Khai thác dữ liệu & Ứng dụng
Thể hiện k ết quả: o Tập phổ biến: Danh sách các hạng mục và độ phổ biến
o
Luật k ết hợp: Luật và độ đo lý thú.
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 6
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
Ví dụ: FP-Growth, Khai thác luật k ết hợp Ngoài các tham số như của Apriori, FP-Growth trong Weka còn đượ c hỗ trợ một số tiện ích khác: o findAllRulesForSupportedLevel: Khai thác t ất cả các luật với độ đo đã lượng chọn. o maxNumberofItems: Số hạng mục t ối đa trong lụât khai thác đượ c. o rulesMustContain và transactionsMustContain: Chỉ khai thác trên các hạng mục được quan tâm.
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 7
CTT305 – Khai thác dữ liệu & Ứng dụng
Weka Explorer 3.6.3
4. Phân loại Sử dụng thẻ Classify. (1): Classifier: Lựa chọn bộ phân loại và các tham số. (2): Test Options: Các tùy chọn để kiểm thử mô hình: o Use training set: Sử dụng chính t ập dữ liệu huấn luyện để kiểm nghiệm. o Supplied test set: Sử dụng một t ập dữ liệu khác. o Cross-validation: Chia dữ liệu thành nhiều phần (Folds) để thực hiện nhiều lần đánh giá kết quả. o Percentage split: Chia dữ liệu thành 2 phần theo t ỉ lệ %, một phần dùng để xây dựng mô hình, ph ần còn lại dành cho kiểm thử. o More Options: Điều chỉnh một số tham số khác:
- Output predictions: Trả ra k ết quả phân loại chi tiết cho t ừng mẫu trong dữ liệu kiểm nghiệm. - Preserve order for % Split: Chia các mẫu vào t ập huấn luyện và ki ểm thử không theo cách lựa chọn ngẫu nhiên. Thứ t ự như trong dữ liệu hiện t ại được giữ nguyên. - Điều chỉnh việc k ế t xuất một số thông tin.
(3): Result list: Danh sách k ết quả các lần chạy thuật toán, có thể tương tác trên danh sách này để thực hiện một các chức năng phụ.
- Load model, Save model: Mở/Lưu mô hình phân loại ra t ập tin. - Visualize tree: Một số bộ phân loại sử dụng cây quyết định có thể cho hình ảnh cây.
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 8
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
(4): Classifier output: Kết quả sau được liệt kê bằng văn bả n với những phần phân biệt như sau: o Run information: Thông tin chung về thuật toán được sử dụng, t ập dữ liệu. o Classifier model
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 9
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
Chi tiết mô hình phân loại, tuy nhiên đối với một số bộ phân loại thì mô hình phân loại không thể hiện đầy đủ thông tin bằng văn bản được. Summary Liệt kê thông tin t ổng quát về mức độ chính xác của bộ phân loại trong thử nghiệm vừa thực thi.
o
o
Detailed Accuracy By Class và Confusion Matrix Chi tiết k ết quả độ chính xác của bộ phân loại trên t ừng phân l ớp.
5. Gom cụm Sử dụng thẻ Cluster. (1): Clusterer: Lựa chọn mô hình gom c ụm và các tham số. (2): Cluster mode: Các tùy chọn để kiểm thử mô hình: o Use training set: Sử dụng chính t ập dữ liệu huấn luyện để kiểm nghiệm. o Supplied test set: Sử dụng một t ập dữ liệu khác. o Percentage split: Chia dữ liệu thành 2 phần theo t ỉ lệ %, một phần dùng để xây dựng mô hình, ph ần còn lại dành cho kiểm thử. o Classes to clusters evaluation: Gom cụm trên toàn bộ dữ liệu và đánh giá vớ i tiêu chí độ lỗi là thấp nhất. Với phương pháp này ta có thể áp dụng các phương pháp đánh ngoài để khảo sát chất lượng gom cụm. Ignore attributes: Bỏ qua các thuộc tính chỉ định khi tiến hành gom cụm.
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 10
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
(3): Clusterer output: Chứa các k ết quả gom cụm. o Thông tin mô hình: Được thể hiện tùy theo bộ gom cụm được sử dụng Ví dụ đối với thuật toán Farthest First thì thông tin đượ c hiển thị bao g ồm trọng tâm của các nhóm, còn với thuật toán HAC thì là danh sách các nhóm qua mỗi vòng lặp. Trong k ết quả của thuật toán Kmeans còn có thông tin v ề chỉ số SSE.
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 11
Weka Explorer 3.6.3
o
CTT305 – Khai thác dữ liệu & Ứng dụng
K ết quả gom cụm: Thể hiện số mẫu gom c ụm được/không gom cụm được. Đối với phương pháp đánh giá Classes to clusters evaluation thì còn có thông tin về số mẫu bị gom cụm sai.
6. Một số định dạng t ập tin
Attribute-Relation File Format (*.arff) o Là t ập tin văn bả n, gồm 2 ph ần:
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Phần khai báo (header)
Trang 12
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
Phần
o
dữ liệu (data)
Phần khai báo: @relation @attribute @attribute
… o
o
@attribute Các kiểu dữ liệu Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor} String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string Date Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date Dữ liệu thiếu được ký hiệu bằng dấu chấm hỏi “?” Phần dữ liệu: Mỗi mẫu dữ liệu được đặt trên một dòng, giá tr ị của các thuộc tính được liệt kê theo thứ t ự t ừ trái qua phải và ngăn cách bở i dấu phẩy “,”
Comma Separated Values (*.csv) o Là t ập tin văn bả n o Cấu trúc tương tự phần dữ liệu của t ập tin arff: Các m ẫu được lưu trên mộ t dòng, các thuộc tính được ngăn cách bằ ng dấu phẩy. o Dòng đầu tiên chứa tên các thuộc tính. Ví dụ: Một t ập tin csv có nội dung như sau:
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 13
Weka Explorer 3.6.3
CTT305 – Khai thác dữ liệu & Ứng dụng
Có nghĩa là dữ liệu này gồm có 14 mẫu và 5 thu ộc tính (outlook, temperature, humidity, windy, play). Hiển thị t ập tin này bằng arffViewer:
Bộ môn KHMT | Khoa CNTT | ĐH KHTN TP HCM
Trang 14