M3 DS21-Data Mining Dan Statistik - Rev
M3 DS21-Data Mining Dan Statistik - Rev
Team Teaching
DATA MINING & STATISTIK
SAINS DATA DAN ANALISIS BIG DATA
UNIVERSITAS GUNADARMA
Agenda
KONSEP DATA MINING
PERAN UTAMA DATA MINING
TOOL-TOOL DATA MINING & STATISTIK
KONSEP DATA MINING
SESSION 1
TEXTBOOKS
REFERENSI
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third Edition,
Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools
and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and Business
Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining, John
Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook Second
Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining of
Enterprise Data: Algorithms and Applications, World Scientific, 2007
HUBUNGAN DS-BD-AI-ML-DL DEWASA INI
Source: adaptation from Ian Goodfellow, et.al 2016 & and Matthew Mayo, 2016
MANUSIA MEMPRODUKSI DATA
Manusia memproduksi beragam data yang
jumlah dan ukurannya sangat besar
• Astronomi
• Bisnis
• Kedokteran
• Ekonomi
• Olahraga
• Cuaca
• Financial
• …
PERTUMBUHAN DATA
kilobyte (kB) 103
Astronomi megabyte (MB) 106
Sloan Digital Sky Survey gigabyte (GB) 109
New Mexico, 2000 terabyte (TB) 1012
140TB over 10 years petabyte (PB) 1015
exabyte (EB) 1018
Large Synoptic Survey Telescope zettabyte (ZB) 1021
Chile, 2016 yottabyte (YB) 1024
Will acquire 140TB every five days
8
PERUBAHAN KULTUR DAN PERILAKU
9
PERUBAHAN KULTUR DAN PERILAKU
10
DATANGNYA TSUNAMI DATA
Mobile Electronics market
5B mobile phones in use in 2010 kilobyte (kB) 103
150M tablets was sold in 2012 (IDC) megabyte (MB) 106
200M is global notebooks shipments in 2012 (Digitimes gigabyte (GB) 109
terabyte (TB) 1012
Research)
petabyte (PB) 1015
Web and Social Networks generates amount of exabyte (EB) 1018
data zettabyte (ZB) 1021
Google processes 100 PB per day, 3 million servers yottabyte (YB) 1024
Facebook has 300 PB of user data per day
Youtube has 1000PB video storage
235 TBs data collected by the US Library of Congress
15 out of 17 sectors in the US have more data stored per
company than the US Library of Congress
11
MENGAPA DATA MINING
12
APA ITU DATA MINING ?
13
APA ITU DATA MINING ?
Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan
atau menemukan pola dari suatu data yang besar
Metode Data
Himpunan Data Pengetahuan
Mining
15
DEFINISI DATA MINING
Melakukan ekstraksi untuk mendapatkan informasi penting yang
sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data
(Witten et al., 2011)
Kegiatan yang meliputi pengumpulan, pemakaian data historis
untuk menemukan keteraturan, pola dan hubungan dalam set
data berukuran besar (Santosa, 2007)
Extraction of interesting (non-trivial, implicit, previously unknown
and potentially useful) patterns or knowledge from huge amount
of data (Han et al., 2011)
16
DATA – INFORMASI - PENGETAHUAN
NIP TGL DATANG PULANG
1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:00
1173 02/12/2004 08:00 15:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00
1103 22
1142 18 2 2
1156 10 1 11
1173 12 5 5
1180 10 12
Terlambat 7 0 1 0 5
Pulang Cepat 0 1 1 1 8
Izin 3 0 0 1 4
Alpa 1 0 2 0 2
20
HUBUNGAN DENGAN BERBAGAI BIDANG
Computing
Statistics
Algorithms
Pattern Database
Recognition Technology
21
DATA MINING PADA BUSINESS INTELLIGENCE
Increasing potential
to support business
End User
decisions Decision
Making
Data Exploration
Statistical Summary, Querying, and Reporting
22
MASALAH-MASALAH DI DATA MINING
Tremendous amount of data
Algorithms must be highly scalable to handle such as tera-bytes of data
High-dimensionality of data
Micro-array may have tens of thousands of dimensions
High complexity of data
Data streams and sensor data
Time-series data, temporal data, sequence data
Structure data, graphs, social networks and multi-linked data
Heterogeneous databases and legacy databases
Spatial, spatiotemporal, multimedia, text and Web data
Software programs, scientific simulations
New and sophisticated applications
23
SEJARAH DAN PENERAPAN DATA MINING
24
EVOLUTION OF SCIENCES
Before 1600: Empirical science
1600-1950s: Theoretical science
Each discipline has grown a theoretical component
Theoretical models motivate experiments and generalize understanding
27
CONFERENCES AND JOURNALS ON DATA MINING
KDD Conferences Other related conferences
ACM SIGKDD Int. Conf. on Knowledge DB conferences: ACM SIGMOD, VLDB, ICDE,
EDBT, ICDT, …
Discovery in Databases and Data Mining
(KDD) Web and IR conferences: WWW, SIGIR, WSDM
SIAM Data Mining Conf. (SDM) ML conferences: ICML, NIPS
PR conferences: CVPR,
(IEEE) Int. Conf. on Data Mining (ICDM)
European Conf. on Machine Learning and
Principles and practices of Knowledge Journals
Discovery and Data Mining (ECML-PKDD) Data Mining and Knowledge Discovery (DAMI
or DMKD)
Pacific-Asia Conf. on Knowledge
IEEE Trans. On Knowledge and Data Eng.
Discovery and Data Mining (PAKDD) (TKDE)
Int. Conf. on Web Search and Data KDD Explorations
Mining (WSDM) ACM Trans. on KDD
28
MAIN JOURNALS PUBLICATIONS
ACM Transactions on Knowledge Discovery from Data (TKDD)
ACM Transactions on Information Systems (TOIS)
IEEE Transactions on Knowledge and Data Engineering
Springer Data Mining and Knowledge Discovery
International Journal of Business Intelligence and Data Mining
(IJBIDM)
29
PERAN UTAMA DATA MINING
SESSION 2
PERAN UTAMA DATA MINING
1. Estimasi
5. Asosiasi 2. Prediksi
4. Klastering 3. Klasifikasi
31
DATASET (HIMPUNAN DATA)
Attribute/Feature Class/Label/Target
Record/
Object/
Sample/
Tuple
Nominal
Numerik
32
33
JENIS ATRIBUT
34
TIPE DATA
Jenis Atribut Deskripsi Contoh Operasi
Ratio • Data yang diperoleh dengan cara pengukuran, dimana • Umur geometric mean,
(Mutlak) jarak dua titik pada skala sudah diketahui • Berat badan harmonic mean, percent
• Mempunyai titik nol yang absolut • Tinggi badan variation
(*, /) • Jumlah uang
Interval • Data yang diperoleh dengan cara pengukuran, dimana • Suhu 0°c-100°c, mean, standard deviation,
(Jarak) jarak dua titik pada skala sudah diketahui • Umur 20-30 tahun Pearson's correlation, t
• Tidak mempunyai titik nol yang absolut and F tests
(+, - )
Ordinal • Data yang diperoleh dengan cara kategorisasi atau • Tingkat kepuasan pelanggan median, percentiles, rank
(Peringkat) klasifikasi (puas, sedang, tidak puas) correlation, run tests, sign
• Tetapi diantara data tersebut terdapat hubungan atau tests
berurutan
(<, >)
Nominal • Data yang diperoleh dengan cara kategorisasi atau • Kode pos mode, entropy,
(Label) klasifikasi • Jenis kelamin contingency correlation,
• Menunjukkan beberapa object yang berbeda • Nomer id karyawan 2 test
(=, ) • Nama kota
35
PERAN UTAMA DATA MINING
1. Estimasi
5. Asosiasi 2. Prediksi
4. Klastering 3. Klasifikasi
36
1. ESTIMASI WAKTU PENGIRIMAN PIZZA
Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)
1 3 3 3 16
2 1 7 4 20
3 2 4 6 18 Label
4 4 6 8 36
...
1000 2 4 2 12
Pembelajaran dengan
Metode Estimasi (Regresi Linier)
37
CONTOH: ESTIMASI PERFORMANSI CPU
Example: 209 different computer configurations
Cycle time (ns) Main memory (Kb) Cache Channels Performance
(Kb)
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269
…
208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45
4. Rule (Aturan)
IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
39
2. PREDIKSI HARGA SAHAM
Label
Pembelajaran dengan
Metode Prediksi (Neural Network)
40
PENGETAHUAN BERUPA RUMUS NEURAL NETWORK
Prediction Plot
41
3. KLASIFIKASI KELULUSAN MAHASISWA
Label
NIM Gender Nilai Asal Sekolah IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat
UN Waktu
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak
10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak
10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya
...
...
11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya
Pembelajaran dengan
Metode Klasifikasi (C4.5)
42
PENGETAHUAN BERUPA POHON KEPUTUSAN
43
CONTOH: REKOMENDASI MAIN GOLF
Input:
Output (Rules):
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes
44
CONTOH: REKOMENDASI MAIN GOLF
Output (Tree):
45
4. KLASTERING BUNGA IRIS
Dataset Tanpa
Label
Pembelajaran dengan
Metode Klastering (K-Means)
46
PENGETAHUAN BERUPA KLASTER
47
5. ATURAN ASOSIASI PEMBELIAN BARANG
Pembelajaran dengan
Metode Asosiasi (FP-Growth)
48
PENGETAHUAN BERUPA ATURAN ASOSIASI
49
CONTOH ATURAN ASOSIASI
Algoritma association rule (aturan asosiasi) adalah algoritma yang
menemukan atribut yang “muncul bersamaan”
Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan
belanja di supermaket ABC, dimana:
200 orang membeli Sabun Mandi
dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta
Jadi, association rule menjadi, “Jika membeli sabun mandi, maka
membeli Fanta”, dengan nilai support = 200/1000 = 20% dan nilai
confidence = 50/200 = 25%
Algoritma association rule diantaranya adalah: A priori algorithm,
FP-Growth algorithm, GRI algorithm
50
METODE LEARNING PADA ALGORITMA DM
51
1. SUPERVISED LEARNING
Pembelajaran dengan guru, data set memiliki target/label/class
Sebagian besar algoritma data mining (estimation, prediction/
forecasting, classification) adalah supervised learning
Algoritma melakukan proses belajar berdasarkan nilai dari
variabel target yang terasosiasi dengan nilai dari variable
prediktor
52
DATASET DENGAN CLASS
Attribute/Feature Class/Label/Target
Nominal
Numerik
53
2. UNSUPERVISED LEARNING
Algoritma data mining mencari pola dari semua variable
(atribut)
Variable (atribut) yang menjadi target/label/class tidak
ditentukan (tidak ada)
Algoritma clustering adalah algoritma unsupervised learning
54
DATASET TANPA CLASS
Attribute/Feature
55
3. SEMI-SUPERVISED LEARNING
Semi-supervised learning adalah metode data mining yang
menggunakan data dengan label dan tidak berlabel sekaligus
dalam proses pembelajar-annya
Data yang memiliki kelas digunakan untuk membentuk model
(pengeta-huan), data tanpa label digunakan untuk membuat
batasan antara kelas
56
3. SEMI-SUPERVISED LEARNING
If we consider the labeled examples, the
dashed line is the decision boundary that
best partitions the positive examples from
the negative examples
57
ALGORITMA DATA MINING (DM)
1. Estimation (Estimasi):
Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression,
etc
4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
58
OUTPUT/POLA/MODEL/KNOWLEDGE
1. Formula/Function (Rumus atau Fungsi Regresi)
WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
3. Tingkat Korelasi
4. Rule (Aturan)
IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
59
TOOL DATA MINING DAN STATISTIK
SESSION 3
MAGIC QUADRANT FOR ADVANCED ANALYTICS PLATFORM
(GARTNER, 2015)
61
MAGIC QUADRANT FOR ADVANCED ANALYTICS PLATFORM
(GARTNER, 2015)
62
BIG DATA ANALYTICS SOLUTION 2015 (THE FORRESTER WAVE)
63
SEJARAH RAPIDMINER
Pengembangan dimulai pada 2001 oleh Ralf
Klinkenberg, Ingo Mierswa, dan Simon Fischer di
Artificial Intelligence Unit dari University of Dortmund,
ditulis dalam bahasa Java
Open source berlisensi AGPL (GNU Affero General
Public License) versi 3
Meraih penghargaan sebagai software data mining dan
data analytics terbaik di berbagai lembaga kajian,
termasuk IDC, Gartner, KDnuggets, dsb
64
FITUR RAPIDMINER
66
TIPE NILAI ATRIBUT PADA RAPIDMINER
1. nominal: nilai secara kategori
2. binominal: nominal dua nilai
3. polynominal: nominal lebih dari dua nilai
4. numeric: nilai numerik secara umum
5. integer: bilangan bulat
6. real: bilangan nyata
7. text: teks bebas tanpa struktur
8. date_time: tanggal dan waktu
9. date: hanya tanggal
10. time: hanya waktu 67
DATA DAN FORMAT DATA
Data menyebutkan obyek-obyek dari sebuah konsep
Ditunjukkan sebagai baris dari tabel
Metadata menggambarkan karakteristik dari konsep
tersebut
Ditunjukkan sebagai kolom dari tabel
Dukungan Format data
Oracle, IBM DB2, Microsoft SQL Server, MySQL,
PostgreSQL, Ingres, Excel, Access, SPSS, CSV files dan
berbagai format lain
68
REPOSITORI
Menjalankan RapidMiner untuk pertama kali, akan
menanyakan pembuatan repositori baru
Repositori ini berfungsi sebagai lokasi penyimpanan terpusat
untuk data dan proses analisa kita
69
PERSPEKTIF DAN VIEW
70
PERSPEKTIF DESAIN
Perspektif pusat di mana
semua proses analisa dibuat
dan dimanage
Pindah ke Perspektif Desain
dengan:
71
VIEW OPERATOR
Process Control
Untuk mengontrol aliran proses, seperti loop atau conditional branch
Utility
Untuk mengelompokkan subprocess, juga macro dan logger
Repository Access
Untuk membaca dan menulis repositori
Import
Untuk membaca data dari berbagai format eksternal
Export
Untuk menulis data ke berbagai format eksternal
Data Transformation
Untuk transformasi data dan metadata
Modelling
Untuk proses data mining yang sesungguhnya seperti klasifikasi,
regresi, clustering, aturan asosiasi dll
Evaluation
Untuk menghitung kualitas dan perfomansi dari model
72
VIEW REPOSITORI
Layanan untuk manajemen proses analisa, baik data,
metadata, proses maupun hasil
73
VIEW PROSES
74
VIEW PARAMETER
Operator kadang memerlukan parameter untuk bisa berfungsi
Setelah operator dipilih di view Proses, parameternya ditampilkan di
view ini
75
VIEW HELP DAN VIEW COMMENT
View Help menampilkan deskripsi dari operator
View Comment menampilkan komentar yang dapat diedit terhadap
operator
76
VIEW PROBLEMS AND VIEW LOG
77
OPERATOR DAN PROSES
Proses data mining pada dasarnya adalah proses
analisa yang berisi alur kerja dari komponen data
mining
Komponen dari proses ini disebut operator, yang
didefinisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan
78
OPERATOR DAN PROSES
Sebuah operator bisa disambungkan melalui port masukan (kiri)
dan port keluaran (kanan)
79
MEMBUAT PROSES BARU
Pilih menu File → New
81
MENJALANKAN PROSES
82
MENJALANKAN PROSES
Proses dapat dijalankan dengan:
• Menekan tombol Play
• Memilih menu Process → Run
• Menekan kunci F11
83
MELIHAT HASIL
84
PROSES
Data Mining
86
87
1. Lakukan training pada data golf (ambil dari repositories
rapidminer) dengan menggunakan algoritma decision tree
2. Tampilkan himpunan data (dataset) dan pengetahuan (model
tree) yang terbentuk
88
89
90
91
92
93
94
95
96
STATISTIK DI DATA MINING :
EVALUASI DAN VALIDASI TERHADAP MODEL YANG
TERBENTUK
97
Data Mining
99
PENGUJIAN MODEL DATA MINING
Pembagian dataset:
Dua bagian: data training dan data testing
Tiga bagian: data training, data validation dan data testing
100
Terima Kasih