0% found this document useful (0 votes)
348 views101 pages

M3 DS21-Data Mining Dan Statistik - Rev

Team teaching on data mining and statistics at Gunadarma University. The agenda includes concepts of data mining, the main roles of data mining, and tools for data mining and statistics. References and textbooks on the topics are also provided.

Uploaded by

rin
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PPTX, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
348 views101 pages

M3 DS21-Data Mining Dan Statistik - Rev

Team teaching on data mining and statistics at Gunadarma University. The agenda includes concepts of data mining, the main roles of data mining, and tools for data mining and statistics. References and textbooks on the topics are also provided.

Uploaded by

rin
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PPTX, PDF, TXT or read online on Scribd
You are on page 1/ 101

UG

Team Teaching
DATA MINING & STATISTIK
SAINS DATA DAN ANALISIS BIG DATA

UNIVERSITAS GUNADARMA
Agenda
 KONSEP DATA MINING
 PERAN UTAMA DATA MINING
 TOOL-TOOL DATA MINING & STATISTIK
KONSEP DATA MINING

 Apa itu Data Mining?


 Sejarah dan Penerapan Data Mining

SESSION 1
TEXTBOOKS
REFERENSI
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third Edition,
Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools
and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and Business
Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining, John
Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook Second
Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining of
Enterprise Data: Algorithms and Applications, World Scientific, 2007
HUBUNGAN DS-BD-AI-ML-DL DEWASA INI

Source: adaptation from Ian Goodfellow, et.al 2016 & and Matthew Mayo, 2016
MANUSIA MEMPRODUKSI DATA
Manusia memproduksi beragam data yang
jumlah dan ukurannya sangat besar
• Astronomi
• Bisnis
• Kedokteran
• Ekonomi
• Olahraga
• Cuaca
• Financial
• …
PERTUMBUHAN DATA
kilobyte (kB) 103
Astronomi megabyte (MB) 106
 Sloan Digital Sky Survey gigabyte (GB) 109
 New Mexico, 2000 terabyte (TB) 1012
 140TB over 10 years petabyte (PB) 1015
exabyte (EB) 1018
 Large Synoptic Survey Telescope zettabyte (ZB) 1021
 Chile, 2016 yottabyte (YB) 1024
 Will acquire 140TB every five days

Biologi dan Kedokteran


 European Bioinformatics Institute (EBI)
 20PB of data (genomic data doubles in size each year)
 A single sequenced human genome can be around 140GB in size

8
PERUBAHAN KULTUR DAN PERILAKU

9
PERUBAHAN KULTUR DAN PERILAKU

10
DATANGNYA TSUNAMI DATA
 Mobile Electronics market
 5B mobile phones in use in 2010 kilobyte (kB) 103
 150M tablets was sold in 2012 (IDC) megabyte (MB) 106
 200M is global notebooks shipments in 2012 (Digitimes gigabyte (GB) 109
terabyte (TB) 1012
Research)
petabyte (PB) 1015
 Web and Social Networks generates amount of exabyte (EB) 1018
data zettabyte (ZB) 1021
 Google processes 100 PB per day, 3 million servers yottabyte (YB) 1024
 Facebook has 300 PB of user data per day
 Youtube has 1000PB video storage
 235 TBs data collected by the US Library of Congress
 15 out of 17 sectors in the US have more data stored per
company than the US Library of Congress

11
MENGAPA DATA MINING

We are drowning in data, but starving for


knowledge!

12
APA ITU DATA MINING ?

13
APA ITU DATA MINING ?
 Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan
atau menemukan pola dari suatu data yang besar

 Ekstraksi dari data ke pengetahuan:


 Data: fakta yang terekam dan tidak membawa arti
 Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

 Nama lain data mining:


 Knowledge Discovery in Database (KDD)
 Knowledge extraction
 Pattern analysis
 Information harvesting
 Business intelligence
14
APA ITU DATA MINING ?

Metode Data
Himpunan Data Pengetahuan
Mining

15
DEFINISI DATA MINING
 Melakukan ekstraksi untuk mendapatkan informasi penting yang
sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data
(Witten et al., 2011)
 Kegiatan yang meliputi pengumpulan, pemakaian data historis
untuk menemukan keteraturan, pola dan hubungan dalam set
data berukuran besar (Santosa, 2007)
 Extraction of interesting (non-trivial, implicit, previously unknown
and potentially useful) patterns or knowledge from huge amount
of data (Han et al., 2011)

16
DATA – INFORMASI - PENGETAHUAN
NIP TGL DATANG PULANG
1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:00
1173 02/12/2004 08:00 15:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00

Data Kehadiran Pegawai


17
DATA – INFORMASI - PENGETAHUAN
NIP Masuk Alpa Cuti Sakit Telat

1103 22

1142 18 2 2

1156 10 1 11

1173 12 5 5

1180 10 12

Informasi Akumulasi Bulanan Kehadiran Pegawai


18
DATA – INFORMASI - PENGETAHUAN

Senin Selasa Rabu Kamis Jumat

Terlambat 7 0 1 0 5

Pulang Cepat 0 1 1 1 8

Izin 3 0 0 1 4

Alpa 1 0 2 0 2

Pola Kebiasaan Kehadiran Mingguan Pegawai


19
DATA - INFORMASI – PENGETAHUAN - KEBIJAKAN

 Kebijakan penataan jam kerja karyawan khusus untuk hari


senin dan jumat

 Peraturan jam kerja:


 Hari Senin dimulai jam 10:00
 Hari Jumat diakhiri jam 14:00
 Sisa jam kerja dikompensasi ke hari lain

20
HUBUNGAN DENGAN BERBAGAI BIDANG

Computing
Statistics
Algorithms

Pattern Database
Recognition Technology

Machine Data High


Performanc
Learning
Mining e Computing

21
DATA MINING PADA BUSINESS INTELLIGENCE
Increasing potential
to support business
End User
decisions Decision
Making

Data Presentation Business Analyst


Visualization Techniques
Data Mining Data Analyst
Information Discovery

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses


DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems

22
MASALAH-MASALAH DI DATA MINING
 Tremendous amount of data
 Algorithms must be highly scalable to handle such as tera-bytes of data
 High-dimensionality of data
 Micro-array may have tens of thousands of dimensions
 High complexity of data
 Data streams and sensor data
 Time-series data, temporal data, sequence data
 Structure data, graphs, social networks and multi-linked data
 Heterogeneous databases and legacy databases
 Spatial, spatiotemporal, multimedia, text and Web data
 Software programs, scientific simulations
 New and sophisticated applications
23
SEJARAH DAN PENERAPAN DATA MINING

24
EVOLUTION OF SCIENCES
 Before 1600: Empirical science
 1600-1950s: Theoretical science
 Each discipline has grown a theoretical component
 Theoretical models motivate experiments and generalize understanding

 1950s-1990s: Computational science


 Most disciplines have grown a third, computational branch (e.g. empirical, theoretical, and computational ecology, or physics, or
linguistics.)
 Computational Science traditionally meant simulation. It grew out of our inability to find closed-form solutions for complex
mathematical models

 1990-now: Data science


 The flood of data from new scientific instruments and simulations
 The ability to economically store and manage petabytes of data online
 The Internet makes all these archives universally accessible
 Data mining is a major new challenge!
 Jim Gray and Alex Szalay, The World Wide Telescope:
An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002 25
CONTOH PENERAPAN DATA MINING
 Penentuan kelayakan aplikasi peminjaman uang di bank
 Penentuan pasokan listrik PLN untuk wilayah Jakarta
 Prediksi profile tersangka koruptor dari data pengadilan
 Perkiraan harga saham dan tingkat inflasi
 Analisis pola belanja pelanggan
 Memisahkan minyak mentah dan gas alam
 Menentukan kelayakan seseorang dalam kredit KPR
 Penentuan pola pelanggan yang loyal pada perusahaan operator telepon
 Deteksi pencucian uang dari transaksi perbankan
 Deteksi serangan (intrusion) pada suatu jaringan
26
A BRIEF HISTORY OF DATA MINING SOCIETY
 1989 IJCAI Workshop on Knowledge Discovery in Databases
 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)

 1991-1994 Workshops on Knowledge Discovery in Databases


 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)

 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining


(KDD’95-98)
 Journal of Data Mining and Knowledge Discovery (1997)

 ACM SIGKDD conferences since 1998 and SIGKDD Explorations

 More conferences on data mining


 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), WSDM (2008), etc.

 ACM Transactions on KDD (2007)

27
CONFERENCES AND JOURNALS ON DATA MINING
 KDD Conferences  Other related conferences
 ACM SIGKDD Int. Conf. on Knowledge  DB conferences: ACM SIGMOD, VLDB, ICDE,
EDBT, ICDT, …
Discovery in Databases and Data Mining
(KDD)  Web and IR conferences: WWW, SIGIR, WSDM
 SIAM Data Mining Conf. (SDM)  ML conferences: ICML, NIPS
 PR conferences: CVPR,
 (IEEE) Int. Conf. on Data Mining (ICDM)
 European Conf. on Machine Learning and
Principles and practices of Knowledge  Journals
Discovery and Data Mining (ECML-PKDD)  Data Mining and Knowledge Discovery (DAMI
or DMKD)
 Pacific-Asia Conf. on Knowledge
 IEEE Trans. On Knowledge and Data Eng.
Discovery and Data Mining (PAKDD) (TKDE)
 Int. Conf. on Web Search and Data  KDD Explorations
Mining (WSDM)  ACM Trans. on KDD
28
MAIN JOURNALS PUBLICATIONS
 ACM Transactions on Knowledge Discovery from Data (TKDD)
 ACM Transactions on Information Systems (TOIS)
 IEEE Transactions on Knowledge and Data Engineering
 Springer Data Mining and Knowledge Discovery
 International Journal of Business Intelligence and Data Mining
(IJBIDM)

29
PERAN UTAMA DATA MINING

SESSION 2
PERAN UTAMA DATA MINING

1. Estimasi

5. Asosiasi 2. Prediksi

4. Klastering 3. Klasifikasi
31
DATASET (HIMPUNAN DATA)
Attribute/Feature Class/Label/Target

Record/
Object/
Sample/
Tuple

Nominal

Numerik
32
33
JENIS ATRIBUT

34
TIPE DATA
Jenis Atribut Deskripsi Contoh Operasi
Ratio • Data yang diperoleh dengan cara pengukuran, dimana • Umur geometric mean,
(Mutlak) jarak dua titik pada skala sudah diketahui • Berat badan harmonic mean, percent
• Mempunyai titik nol yang absolut • Tinggi badan variation
(*, /) • Jumlah uang

Interval • Data yang diperoleh dengan cara pengukuran, dimana • Suhu 0°c-100°c, mean, standard deviation,
(Jarak) jarak dua titik pada skala sudah diketahui • Umur 20-30 tahun Pearson's correlation, t
• Tidak mempunyai titik nol yang absolut and F tests
(+, - )

Ordinal • Data yang diperoleh dengan cara kategorisasi atau • Tingkat kepuasan pelanggan median, percentiles, rank
(Peringkat) klasifikasi (puas, sedang, tidak puas) correlation, run tests, sign
• Tetapi diantara data tersebut terdapat hubungan atau tests
berurutan
(<, >)
Nominal • Data yang diperoleh dengan cara kategorisasi atau • Kode pos mode, entropy,
(Label) klasifikasi • Jenis kelamin contingency correlation,
• Menunjukkan beberapa object yang berbeda • Nomer id karyawan 2 test
(=, ) • Nama kota

35
PERAN UTAMA DATA MINING

1. Estimasi

5. Asosiasi 2. Prediksi

4. Klastering 3. Klasifikasi
36
1. ESTIMASI WAKTU PENGIRIMAN PIZZA
Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)

1 3 3 3 16
2 1 7 4 20
3 2 4 6 18 Label
4 4 6 8 36
...
1000 2 4 2 12

Pembelajaran dengan
Metode Estimasi (Regresi Linier)

Waktu Tempuh (T) = 0.48P + 0.23TL + 0.5J Pengetahuan

37
CONTOH: ESTIMASI PERFORMANSI CPU
 Example: 209 different computer configurations
Cycle time (ns) Main memory (Kb) Cache Channels Performance
(Kb)
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269

208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45

 Linear regression function


PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
38
OUTPUT/POLA/MODEL/KNOWLEDGE
1. Formula/Function (Rumus atau Fungsi Regresi)
 WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Korelasi dan Asosiasi

4. Rule (Aturan)
 IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)
39
2. PREDIKSI HARGA SAHAM
Label

Dataset harga saham dalam


bentuk time series (rentet
waktu)

Pembelajaran dengan
Metode Prediksi (Neural Network)

40
PENGETAHUAN BERUPA RUMUS NEURAL NETWORK

Prediction Plot

41
3. KLASIFIKASI KELULUSAN MAHASISWA
Label
NIM Gender Nilai Asal Sekolah IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat
UN Waktu
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak
10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak
10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya
...
...
11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

Pembelajaran dengan
Metode Klasifikasi (C4.5)

42
PENGETAHUAN BERUPA POHON KEPUTUSAN

43
CONTOH: REKOMENDASI MAIN GOLF
 Input:

 Output (Rules):
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes
44
CONTOH: REKOMENDASI MAIN GOLF
 Output (Tree):

45
4. KLASTERING BUNGA IRIS

Dataset Tanpa
Label

Pembelajaran dengan
Metode Klastering (K-Means)

46
PENGETAHUAN BERUPA KLASTER

47
5. ATURAN ASOSIASI PEMBELIAN BARANG

Pembelajaran dengan
Metode Asosiasi (FP-Growth)

48
PENGETAHUAN BERUPA ATURAN ASOSIASI

49
CONTOH ATURAN ASOSIASI
 Algoritma association rule (aturan asosiasi) adalah algoritma yang
menemukan atribut yang “muncul bersamaan”
 Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan
belanja di supermaket ABC, dimana:
 200 orang membeli Sabun Mandi
 dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta
 Jadi, association rule menjadi, “Jika membeli sabun mandi, maka
membeli Fanta”, dengan nilai support = 200/1000 = 20% dan nilai
confidence = 50/200 = 25%
 Algoritma association rule diantaranya adalah: A priori algorithm,
FP-Growth algorithm, GRI algorithm
50
METODE LEARNING PADA ALGORITMA DM

Supervised Semi-Supervised Unsupervised


Learning
Learning Learning

51
1. SUPERVISED LEARNING
 Pembelajaran dengan guru, data set memiliki target/label/class
 Sebagian besar algoritma data mining (estimation, prediction/
forecasting, classification) adalah supervised learning
 Algoritma melakukan proses belajar berdasarkan nilai dari
variabel target yang terasosiasi dengan nilai dari variable
prediktor

52
DATASET DENGAN CLASS
Attribute/Feature Class/Label/Target

Nominal

Numerik
53
2. UNSUPERVISED LEARNING
 Algoritma data mining mencari pola dari semua variable
(atribut)
 Variable (atribut) yang menjadi target/label/class tidak
ditentukan (tidak ada)
 Algoritma clustering adalah algoritma unsupervised learning

54
DATASET TANPA CLASS
Attribute/Feature

55
3. SEMI-SUPERVISED LEARNING
 Semi-supervised learning adalah metode data mining yang
menggunakan data dengan label dan tidak berlabel sekaligus
dalam proses pembelajar-annya
 Data yang memiliki kelas digunakan untuk membentuk model
(pengeta-huan), data tanpa label digunakan untuk membuat
batasan antara kelas

56
3. SEMI-SUPERVISED LEARNING
 If we consider the labeled examples, the
dashed line is the decision boundary that
best partitions the positive examples from
the negative examples

 Using the unlabeled examples, we can


refine the decision boundary to the solid
line

 Moreover, we can detect that the two


positive examples at the top right corner,
though labeled, are likely noise or outliers

57
ALGORITMA DATA MINING (DM)
1. Estimation (Estimasi):
 Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):
 Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):
 Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression,
etc

4. Clustering (Klastering):
 K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):
 FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

58
OUTPUT/POLA/MODEL/KNOWLEDGE
1. Formula/Function (Rumus atau Fungsi Regresi)
 WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Tingkat Korelasi

4. Rule (Aturan)
 IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)
59
TOOL DATA MINING DAN STATISTIK

SESSION 3
MAGIC QUADRANT FOR ADVANCED ANALYTICS PLATFORM
(GARTNER, 2015)

61
MAGIC QUADRANT FOR ADVANCED ANALYTICS PLATFORM
(GARTNER, 2015)

62
BIG DATA ANALYTICS SOLUTION 2015 (THE FORRESTER WAVE)

63
SEJARAH RAPIDMINER
 Pengembangan dimulai pada 2001 oleh Ralf
Klinkenberg, Ingo Mierswa, dan Simon Fischer di
Artificial Intelligence Unit dari University of Dortmund,
ditulis dalam bahasa Java
 Open source berlisensi AGPL (GNU Affero General
Public License) versi 3
 Meraih penghargaan sebagai software data mining dan
data analytics terbaik di berbagai lembaga kajian,
termasuk IDC, Gartner, KDnuggets, dsb
64
FITUR RAPIDMINER

 Menyediakan prosedur data mining dan machine


learning termasuk: ETL (extraction, transformation,
loading), data preprocessing, visualisasi, modelling
dan evaluasi
 Proses data mining tersusun atas operator-operator
yang nestable, dideskripsikan dengan XML, dan
dibuat dengan GUI
 Mengintegrasikan proyek data mining Weka dan
statistika R 65
ATRIBUT PADA RAPIDMINER

1. Atribut: karakteristik atau fitur dari data yang


menggambarkan sebuah proses atau situasi
 ID, atribut biasa
2. Atribut target: atribut yang menjadi tujuan untuk diisi
oleh proses data mining
 Label, cluster, weight

66
TIPE NILAI ATRIBUT PADA RAPIDMINER
1. nominal: nilai secara kategori
2. binominal: nominal dua nilai
3. polynominal: nominal lebih dari dua nilai
4. numeric: nilai numerik secara umum
5. integer: bilangan bulat
6. real: bilangan nyata
7. text: teks bebas tanpa struktur
8. date_time: tanggal dan waktu
9. date: hanya tanggal
10. time: hanya waktu 67
DATA DAN FORMAT DATA
 Data menyebutkan obyek-obyek dari sebuah konsep
 Ditunjukkan sebagai baris dari tabel
 Metadata menggambarkan karakteristik dari konsep
tersebut
 Ditunjukkan sebagai kolom dari tabel
 Dukungan Format data
 Oracle, IBM DB2, Microsoft SQL Server, MySQL,
PostgreSQL, Ingres, Excel, Access, SPSS, CSV files dan
berbagai format lain
68
REPOSITORI
 Menjalankan RapidMiner untuk pertama kali, akan
menanyakan pembuatan repositori baru
 Repositori ini berfungsi sebagai lokasi penyimpanan terpusat
untuk data dan proses analisa kita

69
PERSPEKTIF DAN VIEW

1. Perspektif Selamat Datang


(Welcome perspective)
2. Perspektif Desain
(Design perspective)
3. Perspektif Hasil
(Result perspective)

70
PERSPEKTIF DESAIN
 Perspektif pusat di mana
semua proses analisa dibuat
dan dimanage
 Pindah ke Perspektif Desain
dengan:

 Klik tombol paling kiri


 Atau gunakan menu
View → Perspectives → Design

71
VIEW OPERATOR
 Process Control
Untuk mengontrol aliran proses, seperti loop atau conditional branch
 Utility
Untuk mengelompokkan subprocess, juga macro dan logger
 Repository Access
Untuk membaca dan menulis repositori
 Import
Untuk membaca data dari berbagai format eksternal
 Export
Untuk menulis data ke berbagai format eksternal
 Data Transformation
Untuk transformasi data dan metadata
 Modelling
Untuk proses data mining yang sesungguhnya seperti klasifikasi,
regresi, clustering, aturan asosiasi dll
 Evaluation
Untuk menghitung kualitas dan perfomansi dari model

72
VIEW REPOSITORI
Layanan untuk manajemen proses analisa, baik data,
metadata, proses maupun hasil

73
VIEW PROSES

74
VIEW PARAMETER
 Operator kadang memerlukan parameter untuk bisa berfungsi
 Setelah operator dipilih di view Proses, parameternya ditampilkan di
view ini

75
VIEW HELP DAN VIEW COMMENT
 View Help menampilkan deskripsi dari operator
 View Comment menampilkan komentar yang dapat diedit terhadap
operator

76
VIEW PROBLEMS AND VIEW LOG

77
OPERATOR DAN PROSES
 Proses data mining pada dasarnya adalah proses
analisa yang berisi alur kerja dari komponen data
mining
 Komponen dari proses ini disebut operator, yang
didefinisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan
78
OPERATOR DAN PROSES
 Sebuah operator bisa disambungkan melalui port masukan (kiri)
dan port keluaran (kanan)

 Indikator status dari operator:


 Lampu status: merah (tak tersambung), kuning (lengkap tetapi belum dijalankan), hijau (sudah behasil
dijalankan)
 Segitiga warning: bila ada pesan status
 Breakpoint: bila ada breakpoint sebelum/sesudahnya
 Comment: bila ada komentar
 Subprocess: bila mempunyai subprocess

79
MEMBUAT PROSES BARU
 Pilih menu File → New

 Pilih repositori dan lokasi, lalu beri nama


80
STRUKTUR REPOSITORI
• Repositori terstruktur ke dalam proyek-proyek
• Masing-masing proyek terstruktur lagi ke dalam data,
processes, dan results

81
MENJALANKAN PROSES

82
MENJALANKAN PROSES
Proses dapat dijalankan dengan:
• Menekan tombol Play
• Memilih menu Process → Run
• Menekan kunci F11

83
MELIHAT HASIL

84
PROSES
Data Mining

2. Metode Data 3. Pengetahuan 4. Evaluation


1. Himpunan Data Mining
(Pemahaman dan
Pengolahan Data) (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC, RMSE, Lift
Sesuai Karakter Data) Tree/Rule/Cluster) Ratio,…)

DATA PRE-PROCESSING Estimation


Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Data Transformation Association
85
INSTALASI DAN REGISTRASI LISENSI RAPIDMINER
 Install Rapidminer versi terbaru
 Registrasi account di rapidminer.com, dan lakukan dapatkan lisensi Educational Program
untuk mengolah data tanpa batasan record

86
87
1. Lakukan training pada data golf (ambil dari repositories
rapidminer) dengan menggunakan algoritma decision tree
2. Tampilkan himpunan data (dataset) dan pengetahuan (model
tree) yang terbentuk

88
89
90
91
92
93
94
95
96
STATISTIK DI DATA MINING :
EVALUASI DAN VALIDASI TERHADAP MODEL YANG
TERBENTUK

97
Data Mining

2. Metode Data 3. Pengetahuan 4. Evaluation


1. Himpunan Data Mining
(Pemahaman dan
Pengolahan Data) (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC, RMSE, Lift
Sesuai Karakter Data) Tree/Rule/Cluster) Ratio,…)

DATA PRE-PROCESSING Estimation


Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Data Transformation Association
98
EVALUASI DATA MINING
1. Estimation:
 Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
Receiver Operating Characteristics adalah
2. Prediction/Forecasting (Prediksi/Peramalan): semacam alat ukur performance untuk
classification problem dalam menentukan
 Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc threshold dari suatu model
3. Classification:
 Confusion Matrix: Accuracy
 Receiver Operating Characteristics (ROC) Curve: Area Under Curve (AUC)
4. Clustering:
 Internal Evaluation: Davies–Bouldin index, Dunn index,
 External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion
matrix
5. Association:
 Lift Charts: Lift Ratio
 Precision and Recall (F-measure)

99
PENGUJIAN MODEL DATA MINING
 Pembagian dataset:
 Dua bagian: data training dan data testing
 Tiga bagian: data training, data validation dan data testing

 Data training untuk pembentukan model, dan data testing


digunakan untuk pengujian model

 Pemisahan data training dan testing


1. Data dipisahkan secara manual
2. Data dipisahkan otomatis dengan operator Split Data
3. Data dipisahkan otomatis dengan X Validation

100
Terima Kasih

You might also like