0% found this document useful (0 votes)

348 views101 pages

M3 DS21-Data Mining Dan Statistik - Rev

Team teaching on data mining and statistics at Gunadarma University. The agenda includes concepts of data mining, the main roles of data mining, and tools for data mining and statistics. References and textbooks on the topics are also provided.

Uploaded by

rin

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

348 views101 pages

M3 DS21-Data Mining Dan Statistik - Rev

Uploaded by

rin

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 101

UG

Team Teaching
DATA MINING & STATISTIK
SAINS DATA DAN ANALISIS BIG DATA

UNIVERSITAS GUNADARMA
Agenda
 KONSEP DATA MINING
 PERAN UTAMA DATA MINING
 TOOL-TOOL DATA MINING & STATISTIK
KONSEP DATA MINING

 Apa itu Data Mining?

 Sejarah dan Penerapan Data Mining

SESSION 1
TEXTBOOKS
REFERENSI
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third Edition,
Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools
and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and Business
Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining, John
Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook Second
Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining of
Enterprise Data: Algorithms and Applications, World Scientific, 2007
HUBUNGAN DS-BD-AI-ML-DL DEWASA INI

Source: adaptation from Ian Goodfellow, et.al 2016 & and Matthew Mayo, 2016
MANUSIA MEMPRODUKSI DATA
Manusia memproduksi beragam data yang
jumlah dan ukurannya sangat besar
• Astronomi
• Bisnis
• Kedokteran
• Ekonomi
• Olahraga
• Cuaca
• Financial
• …
PERTUMBUHAN DATA
kilobyte (kB) 103
Astronomi megabyte (MB) 106
 Sloan Digital Sky Survey gigabyte (GB) 109
 New Mexico, 2000 terabyte (TB) 1012
 140TB over 10 years petabyte (PB) 1015
exabyte (EB) 1018
 Large Synoptic Survey Telescope zettabyte (ZB) 1021
 Chile, 2016 yottabyte (YB) 1024
 Will acquire 140TB every five days

Biologi dan Kedokteran

 European Bioinformatics Institute (EBI)
 20PB of data (genomic data doubles in size each year)
 A single sequenced human genome can be around 140GB in size

8
PERUBAHAN KULTUR DAN PERILAKU

9
PERUBAHAN KULTUR DAN PERILAKU

10
DATANGNYA TSUNAMI DATA
 Mobile Electronics market
 5B mobile phones in use in 2010 kilobyte (kB) 103
 150M tablets was sold in 2012 (IDC) megabyte (MB) 106
 200M is global notebooks shipments in 2012 (Digitimes gigabyte (GB) 109
terabyte (TB) 1012
Research)
petabyte (PB) 1015
 Web and Social Networks generates amount of exabyte (EB) 1018
data zettabyte (ZB) 1021
 Google processes 100 PB per day, 3 million servers yottabyte (YB) 1024
 Facebook has 300 PB of user data per day
 Youtube has 1000PB video storage
 235 TBs data collected by the US Library of Congress
 15 out of 17 sectors in the US have more data stored per
company than the US Library of Congress

11
MENGAPA DATA MINING

We are drowning in data, but starving for

knowledge!

12
APA ITU DATA MINING ?

13
APA ITU DATA MINING ?
 Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan
atau menemukan pola dari suatu data yang besar

 Ekstraksi dari data ke pengetahuan:

 Data: fakta yang terekam dan tidak membawa arti
 Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

 Nama lain data mining:

 Knowledge Discovery in Database (KDD)
 Knowledge extraction
 Pattern analysis
 Information harvesting
 Business intelligence
14
APA ITU DATA MINING ?

Metode Data
Himpunan Data Pengetahuan
Mining

15
DEFINISI DATA MINING
 Melakukan ekstraksi untuk mendapatkan informasi penting yang
sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data
(Witten et al., 2011)
 Kegiatan yang meliputi pengumpulan, pemakaian data historis
untuk menemukan keteraturan, pola dan hubungan dalam set
data berukuran besar (Santosa, 2007)
 Extraction of interesting (non-trivial, implicit, previously unknown
and potentially useful) patterns or knowledge from huge amount
of data (Han et al., 2011)

16
DATA – INFORMASI - PENGETAHUAN
NIP TGL DATANG PULANG
1103 02/12/2004 07:20 15:40
1142 02/12/2004 07:45 15:33
1156 02/12/2004 07:51 16:00
1173 02/12/2004 08:00 15:15
1180 02/12/2004 07:01 16:31
1183 02/12/2004 07:49 17:00

Data Kehadiran Pegawai

17
DATA – INFORMASI - PENGETAHUAN
NIP Masuk Alpa Cuti Sakit Telat

1103 22

1142 18 2 2

1156 10 1 11

1173 12 5 5

1180 10 12

Informasi Akumulasi Bulanan Kehadiran Pegawai

18
DATA – INFORMASI - PENGETAHUAN

Senin Selasa Rabu Kamis Jumat

Terlambat 7 0 1 0 5

Pulang Cepat 0 1 1 1 8

Izin 3 0 0 1 4

Alpa 1 0 2 0 2

Pola Kebiasaan Kehadiran Mingguan Pegawai

19
DATA - INFORMASI – PENGETAHUAN - KEBIJAKAN

 Kebijakan penataan jam kerja karyawan khusus untuk hari

senin dan jumat

 Peraturan jam kerja:

 Hari Senin dimulai jam 10:00
 Hari Jumat diakhiri jam 14:00
 Sisa jam kerja dikompensasi ke hari lain

20
HUBUNGAN DENGAN BERBAGAI BIDANG

Computing
Statistics
Algorithms

Pattern Database
Recognition Technology

Machine Data High

Performanc
Learning
Mining e Computing

21
DATA MINING PADA BUSINESS INTELLIGENCE
Increasing potential
to support business
End User
decisions Decision
Making

Data Presentation Business Analyst

Visualization Techniques
Data Mining Data Analyst
Information Discovery

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems

22
MASALAH-MASALAH DI DATA MINING
 Tremendous amount of data
 Algorithms must be highly scalable to handle such as tera-bytes of data
 High-dimensionality of data
 Micro-array may have tens of thousands of dimensions
 High complexity of data
 Data streams and sensor data
 Time-series data, temporal data, sequence data
 Structure data, graphs, social networks and multi-linked data
 Heterogeneous databases and legacy databases
 Spatial, spatiotemporal, multimedia, text and Web data
 Software programs, scientific simulations
 New and sophisticated applications
23
SEJARAH DAN PENERAPAN DATA MINING

24
EVOLUTION OF SCIENCES
 Before 1600: Empirical science
 1600-1950s: Theoretical science
 Each discipline has grown a theoretical component
 Theoretical models motivate experiments and generalize understanding

 1950s-1990s: Computational science

 Most disciplines have grown a third, computational branch (e.g. empirical, theoretical, and computational ecology, or physics, or
linguistics.)
 Computational Science traditionally meant simulation. It grew out of our inability to find closed-form solutions for complex
mathematical models

 1990-now: Data science

 The flood of data from new scientific instruments and simulations
 The ability to economically store and manage petabytes of data online
 The Internet makes all these archives universally accessible
 Data mining is a major new challenge!
 Jim Gray and Alex Szalay, The World Wide Telescope:
An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002 25
CONTOH PENERAPAN DATA MINING
 Penentuan kelayakan aplikasi peminjaman uang di bank
 Penentuan pasokan listrik PLN untuk wilayah Jakarta
 Prediksi profile tersangka koruptor dari data pengadilan
 Perkiraan harga saham dan tingkat inflasi
 Analisis pola belanja pelanggan
 Memisahkan minyak mentah dan gas alam
 Menentukan kelayakan seseorang dalam kredit KPR
 Penentuan pola pelanggan yang loyal pada perusahaan operator telepon
 Deteksi pencucian uang dari transaksi perbankan
 Deteksi serangan (intrusion) pada suatu jaringan
26
A BRIEF HISTORY OF DATA MINING SOCIETY
 1989 IJCAI Workshop on Knowledge Discovery in Databases
 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)

 1991-1994 Workshops on Knowledge Discovery in Databases

 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)

 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining

(KDD’95-98)
 Journal of Data Mining and Knowledge Discovery (1997)

 ACM SIGKDD conferences since 1998 and SIGKDD Explorations

 More conferences on data mining

 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), WSDM (2008), etc.

 ACM Transactions on KDD (2007)

27
CONFERENCES AND JOURNALS ON DATA MINING
 KDD Conferences  Other related conferences
 ACM SIGKDD Int. Conf. on Knowledge  DB conferences: ACM SIGMOD, VLDB, ICDE,
EDBT, ICDT, …
Discovery in Databases and Data Mining
(KDD)  Web and IR conferences: WWW, SIGIR, WSDM
 SIAM Data Mining Conf. (SDM)  ML conferences: ICML, NIPS
 PR conferences: CVPR,
 (IEEE) Int. Conf. on Data Mining (ICDM)
 European Conf. on Machine Learning and
Principles and practices of Knowledge  Journals
Discovery and Data Mining (ECML-PKDD)  Data Mining and Knowledge Discovery (DAMI
or DMKD)
 Pacific-Asia Conf. on Knowledge
 IEEE Trans. On Knowledge and Data Eng.
Discovery and Data Mining (PAKDD) (TKDE)
 Int. Conf. on Web Search and Data  KDD Explorations
Mining (WSDM)  ACM Trans. on KDD
28
MAIN JOURNALS PUBLICATIONS
 ACM Transactions on Knowledge Discovery from Data (TKDD)
 ACM Transactions on Information Systems (TOIS)
 IEEE Transactions on Knowledge and Data Engineering
 Springer Data Mining and Knowledge Discovery
 International Journal of Business Intelligence and Data Mining
(IJBIDM)

29
PERAN UTAMA DATA MINING

SESSION 2
PERAN UTAMA DATA MINING

1. Estimasi

5. Asosiasi 2. Prediksi

4. Klastering 3. Klasifikasi
31
DATASET (HIMPUNAN DATA)
Attribute/Feature Class/Label/Target

Record/
Object/
Sample/
Tuple

Nominal

Numerik
32
33
JENIS ATRIBUT

34
TIPE DATA
Jenis Atribut Deskripsi Contoh Operasi
Ratio • Data yang diperoleh dengan cara pengukuran, dimana • Umur geometric mean,
(Mutlak) jarak dua titik pada skala sudah diketahui • Berat badan harmonic mean, percent
• Mempunyai titik nol yang absolut • Tinggi badan variation
(*, /) • Jumlah uang

Interval • Data yang diperoleh dengan cara pengukuran, dimana • Suhu 0°c-100°c, mean, standard deviation,
(Jarak) jarak dua titik pada skala sudah diketahui • Umur 20-30 tahun Pearson's correlation, t
• Tidak mempunyai titik nol yang absolut and F tests
(+, - )

Ordinal • Data yang diperoleh dengan cara kategorisasi atau • Tingkat kepuasan pelanggan median, percentiles, rank
(Peringkat) klasifikasi (puas, sedang, tidak puas) correlation, run tests, sign
• Tetapi diantara data tersebut terdapat hubungan atau tests
berurutan
(<, >)
Nominal • Data yang diperoleh dengan cara kategorisasi atau • Kode pos mode, entropy,
(Label) klasifikasi • Jenis kelamin contingency correlation,
• Menunjukkan beberapa object yang berbeda • Nomer id karyawan 2 test
(=, ) • Nama kota

35
PERAN UTAMA DATA MINING

1. Estimasi

5. Asosiasi 2. Prediksi

4. Klastering 3. Klasifikasi
36
1. ESTIMASI WAKTU PENGIRIMAN PIZZA
Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)

1 3 3 3 16
2 1 7 4 20
3 2 4 6 18 Label
4 4 6 8 36
...
1000 2 4 2 12

Pembelajaran dengan
Metode Estimasi (Regresi Linier)

Waktu Tempuh (T) = 0.48P + 0.23TL + 0.5J Pengetahuan

37
CONTOH: ESTIMASI PERFORMANSI CPU
 Example: 209 different computer configurations
Cycle time (ns) Main memory (Kb) Cache Channels Performance
(Kb)
MYCT MMIN MMAX CACH CHMIN CHMAX PRP
1 125 256 6000 256 16 128 198
2 29 8000 32000 32 8 32 269
…
208 480 512 8000 32 0 0 67
209 480 1000 4000 0 0 0 45

 Linear regression function

PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
38
OUTPUT/POLA/MODEL/KNOWLEDGE
1. Formula/Function (Rumus atau Fungsi Regresi)
 WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Korelasi dan Asosiasi

4. Rule (Aturan)
 IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)
39
2. PREDIKSI HARGA SAHAM
Label

Dataset harga saham dalam

bentuk time series (rentet
waktu)

Pembelajaran dengan
Metode Prediksi (Neural Network)

40
PENGETAHUAN BERUPA RUMUS NEURAL NETWORK

Prediction Plot

41
3. KLASIFIKASI KELULUSAN MAHASISWA
Label
NIM Gender Nilai Asal Sekolah IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat
UN Waktu
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
10002 P 27 SMA DK 4.0 3.2 3.8 3.7 Tidak
10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak
10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya
...
...
11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya

Pembelajaran dengan
Metode Klasifikasi (C4.5)

42
PENGETAHUAN BERUPA POHON KEPUTUSAN

43
CONTOH: REKOMENDASI MAIN GOLF
 Input:

 Output (Rules):
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes
44
CONTOH: REKOMENDASI MAIN GOLF
 Output (Tree):

45
4. KLASTERING BUNGA IRIS

Dataset Tanpa
Label

Pembelajaran dengan
Metode Klastering (K-Means)

46
PENGETAHUAN BERUPA KLASTER

47
5. ATURAN ASOSIASI PEMBELIAN BARANG

Pembelajaran dengan
Metode Asosiasi (FP-Growth)

48
PENGETAHUAN BERUPA ATURAN ASOSIASI

49
CONTOH ATURAN ASOSIASI
 Algoritma association rule (aturan asosiasi) adalah algoritma yang
menemukan atribut yang “muncul bersamaan”
 Contoh, pada hari kamis malam, 1000 pelanggan telah melakukan
belanja di supermaket ABC, dimana:
 200 orang membeli Sabun Mandi
 dari 200 orang yang membeli sabun mandi, 50 orangnya membeli Fanta
 Jadi, association rule menjadi, “Jika membeli sabun mandi, maka
membeli Fanta”, dengan nilai support = 200/1000 = 20% dan nilai
confidence = 50/200 = 25%
 Algoritma association rule diantaranya adalah: A priori algorithm,
FP-Growth algorithm, GRI algorithm
50
METODE LEARNING PADA ALGORITMA DM

Supervised Semi-Supervised Unsupervised

Learning
Learning Learning

51
1. SUPERVISED LEARNING
 Pembelajaran dengan guru, data set memiliki target/label/class
 Sebagian besar algoritma data mining (estimation, prediction/
forecasting, classification) adalah supervised learning
 Algoritma melakukan proses belajar berdasarkan nilai dari
variabel target yang terasosiasi dengan nilai dari variable
prediktor

52
DATASET DENGAN CLASS
Attribute/Feature Class/Label/Target

Nominal

Numerik
53
2. UNSUPERVISED LEARNING
 Algoritma data mining mencari pola dari semua variable
(atribut)
 Variable (atribut) yang menjadi target/label/class tidak
ditentukan (tidak ada)
 Algoritma clustering adalah algoritma unsupervised learning

54
DATASET TANPA CLASS
Attribute/Feature

55
3. SEMI-SUPERVISED LEARNING
 Semi-supervised learning adalah metode data mining yang
menggunakan data dengan label dan tidak berlabel sekaligus
dalam proses pembelajar-annya
 Data yang memiliki kelas digunakan untuk membentuk model
(pengeta-huan), data tanpa label digunakan untuk membuat
batasan antara kelas

56
3. SEMI-SUPERVISED LEARNING
 If we consider the labeled examples, the
dashed line is the decision boundary that
best partitions the positive examples from
the negative examples

 Using the unlabeled examples, we can

refine the decision boundary to the solid
line

 Moreover, we can detect that the two

positive examples at the top right corner,
though labeled, are likely noise or outliers

57
ALGORITMA DATA MINING (DM)
1. Estimation (Estimasi):
 Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):
 Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):
 Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, Logistic Regression,
etc

4. Clustering (Klastering):
 K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):
 FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

58
OUTPUT/POLA/MODEL/KNOWLEDGE
1. Formula/Function (Rumus atau Fungsi Regresi)
 WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Tingkat Korelasi

4. Rule (Aturan)
 IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)
59
TOOL DATA MINING DAN STATISTIK

SESSION 3
MAGIC QUADRANT FOR ADVANCED ANALYTICS PLATFORM
(GARTNER, 2015)

61
MAGIC QUADRANT FOR ADVANCED ANALYTICS PLATFORM
(GARTNER, 2015)

62
BIG DATA ANALYTICS SOLUTION 2015 (THE FORRESTER WAVE)

63
SEJARAH RAPIDMINER
 Pengembangan dimulai pada 2001 oleh Ralf
Klinkenberg, Ingo Mierswa, dan Simon Fischer di
Artificial Intelligence Unit dari University of Dortmund,
ditulis dalam bahasa Java
 Open source berlisensi AGPL (GNU Affero General
Public License) versi 3
 Meraih penghargaan sebagai software data mining dan
data analytics terbaik di berbagai lembaga kajian,
termasuk IDC, Gartner, KDnuggets, dsb
64
FITUR RAPIDMINER

 Menyediakan prosedur data mining dan machine

learning termasuk: ETL (extraction, transformation,
loading), data preprocessing, visualisasi, modelling
dan evaluasi
 Proses data mining tersusun atas operator-operator
yang nestable, dideskripsikan dengan XML, dan
dibuat dengan GUI
 Mengintegrasikan proyek data mining Weka dan
statistika R 65
ATRIBUT PADA RAPIDMINER

1. Atribut: karakteristik atau fitur dari data yang

menggambarkan sebuah proses atau situasi
 ID, atribut biasa
2. Atribut target: atribut yang menjadi tujuan untuk diisi
oleh proses data mining
 Label, cluster, weight

66
TIPE NILAI ATRIBUT PADA RAPIDMINER
1. nominal: nilai secara kategori
2. binominal: nominal dua nilai
3. polynominal: nominal lebih dari dua nilai
4. numeric: nilai numerik secara umum
5. integer: bilangan bulat
6. real: bilangan nyata
7. text: teks bebas tanpa struktur
8. date_time: tanggal dan waktu
9. date: hanya tanggal
10. time: hanya waktu 67
DATA DAN FORMAT DATA
 Data menyebutkan obyek-obyek dari sebuah konsep
 Ditunjukkan sebagai baris dari tabel
 Metadata menggambarkan karakteristik dari konsep
tersebut
 Ditunjukkan sebagai kolom dari tabel
 Dukungan Format data
 Oracle, IBM DB2, Microsoft SQL Server, MySQL,
PostgreSQL, Ingres, Excel, Access, SPSS, CSV files dan
berbagai format lain
68
REPOSITORI
 Menjalankan RapidMiner untuk pertama kali, akan
menanyakan pembuatan repositori baru
 Repositori ini berfungsi sebagai lokasi penyimpanan terpusat
untuk data dan proses analisa kita

69
PERSPEKTIF DAN VIEW

1. Perspektif Selamat Datang

(Welcome perspective)
2. Perspektif Desain
(Design perspective)
3. Perspektif Hasil
(Result perspective)

70
PERSPEKTIF DESAIN
 Perspektif pusat di mana
semua proses analisa dibuat
dan dimanage
 Pindah ke Perspektif Desain
dengan:

 Klik tombol paling kiri

 Atau gunakan menu
View → Perspectives → Design

71
VIEW OPERATOR
 Process Control
Untuk mengontrol aliran proses, seperti loop atau conditional branch
 Utility
Untuk mengelompokkan subprocess, juga macro dan logger
 Repository Access
Untuk membaca dan menulis repositori
 Import
Untuk membaca data dari berbagai format eksternal
 Export
Untuk menulis data ke berbagai format eksternal
 Data Transformation
Untuk transformasi data dan metadata
 Modelling
Untuk proses data mining yang sesungguhnya seperti klasifikasi,
regresi, clustering, aturan asosiasi dll
 Evaluation
Untuk menghitung kualitas dan perfomansi dari model

72
VIEW REPOSITORI
Layanan untuk manajemen proses analisa, baik data,
metadata, proses maupun hasil

73
VIEW PROSES

74
VIEW PARAMETER
 Operator kadang memerlukan parameter untuk bisa berfungsi
 Setelah operator dipilih di view Proses, parameternya ditampilkan di
view ini

75
VIEW HELP DAN VIEW COMMENT
 View Help menampilkan deskripsi dari operator
 View Comment menampilkan komentar yang dapat diedit terhadap
operator

76
VIEW PROBLEMS AND VIEW LOG

77
OPERATOR DAN PROSES
 Proses data mining pada dasarnya adalah proses
analisa yang berisi alur kerja dari komponen data
mining
 Komponen dari proses ini disebut operator, yang
didefinisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan
78
OPERATOR DAN PROSES
 Sebuah operator bisa disambungkan melalui port masukan (kiri)
dan port keluaran (kanan)

 Indikator status dari operator:

 Lampu status: merah (tak tersambung), kuning (lengkap tetapi belum dijalankan), hijau (sudah behasil
dijalankan)
 Segitiga warning: bila ada pesan status
 Breakpoint: bila ada breakpoint sebelum/sesudahnya
 Comment: bila ada komentar
 Subprocess: bila mempunyai subprocess

79
MEMBUAT PROSES BARU
 Pilih menu File → New

 Pilih repositori dan lokasi, lalu beri nama

80
STRUKTUR REPOSITORI
• Repositori terstruktur ke dalam proyek-proyek
• Masing-masing proyek terstruktur lagi ke dalam data,
processes, dan results

81
MENJALANKAN PROSES

82
MENJALANKAN PROSES
Proses dapat dijalankan dengan:
• Menekan tombol Play
• Memilih menu Process → Run
• Menekan kunci F11

83
MELIHAT HASIL

84
PROSES
Data Mining

2. Metode Data 3. Pengetahuan 4. Evaluation

1. Himpunan Data Mining
(Pemahaman dan
Pengolahan Data) (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC, RMSE, Lift
Sesuai Karakter Data) Tree/Rule/Cluster) Ratio,…)

DATA PRE-PROCESSING Estimation

Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Data Transformation Association
85
INSTALASI DAN REGISTRASI LISENSI RAPIDMINER
 Install Rapidminer versi terbaru
 Registrasi account di rapidminer.com, dan lakukan dapatkan lisensi Educational Program
untuk mengolah data tanpa batasan record

86
87
1. Lakukan training pada data golf (ambil dari repositories
rapidminer) dengan menggunakan algoritma decision tree
2. Tampilkan himpunan data (dataset) dan pengetahuan (model
tree) yang terbentuk

88
89
90
91
92
93
94
95
96
STATISTIK DI DATA MINING :
EVALUASI DAN VALIDASI TERHADAP MODEL YANG
TERBENTUK

97
Data Mining

2. Metode Data 3. Pengetahuan 4. Evaluation

1. Himpunan Data Mining
(Pemahaman dan
Pengolahan Data) (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC, RMSE, Lift
Sesuai Karakter Data) Tree/Rule/Cluster) Ratio,…)

DATA PRE-PROCESSING Estimation

Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Data Transformation Association
98
EVALUASI DATA MINING
1. Estimation:
 Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
Receiver Operating Characteristics adalah
2. Prediction/Forecasting (Prediksi/Peramalan): semacam alat ukur performance untuk
classification problem dalam menentukan
 Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc threshold dari suatu model
3. Classification:
 Confusion Matrix: Accuracy
 Receiver Operating Characteristics (ROC) Curve: Area Under Curve (AUC)
4. Clustering:
 Internal Evaluation: Davies–Bouldin index, Dunn index,
 External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion
matrix
5. Association:
 Lift Charts: Lift Ratio
 Precision and Recall (F-measure)

99
PENGUJIAN MODEL DATA MINING
 Pembagian dataset:
 Dua bagian: data training dan data testing
 Tiga bagian: data training, data validation dan data testing

 Data training untuk pembentukan model, dan data testing

digunakan untuk pengujian model

 Pemisahan data training dan testing

1. Data dipisahkan secara manual
2. Data dipisahkan otomatis dengan operator Split Data
3. Data dipisahkan otomatis dengan X Validation

100
Terima Kasih

Data Mining
No ratings yet
Data Mining
721 pages
Romi DM Aug2020
No ratings yet
Romi DM Aug2020
722 pages
Data Mining Lengkap
No ratings yet
Data Mining Lengkap
697 pages
Romi DM Apr2020
No ratings yet
Romi DM Apr2020
720 pages
M1 DS21-Pengantar Sains Data Dan Analisis Big Data
100% (3)
M1 DS21-Pengantar Sains Data Dan Analisis Big Data
52 pages
Data Mining 2021
No ratings yet
Data Mining 2021
723 pages
Rapidminer Studio Operator Reference 9
No ratings yet
Rapidminer Studio Operator Reference 9
1,204 pages
Topic 1 ISP565
No ratings yet
Topic 1 ISP565
58 pages
Datascience Apr2021
No ratings yet
Datascience Apr2021
142 pages
Technical Report Power BI Pada Data Tokopedia
No ratings yet
Technical Report Power BI Pada Data Tokopedia
86 pages
Text Mining Menggunakan Metode Naive Bayes - Source Code Program Tesis Skripsi Tugas Akhir
50% (2)
Text Mining Menggunakan Metode Naive Bayes - Source Code Program Tesis Skripsi Tugas Akhir
16 pages
Chapter 1. Introduction
No ratings yet
Chapter 1. Introduction
323 pages
03 Similarity Dissimilarity
No ratings yet
03 Similarity Dissimilarity
34 pages
Zahra Ratu Audia - (17821107) - Praktikum 6
100% (2)
Zahra Ratu Audia - (17821107) - Praktikum 6
10 pages
Sentiment Data Analysis With RapidMiner
No ratings yet
Sentiment Data Analysis With RapidMiner
21 pages
Pemodelan Sistem 1 Rev
100% (1)
Pemodelan Sistem 1 Rev
185 pages
Bigdata PDF
No ratings yet
Bigdata PDF
76 pages
Data Mining, Klasifikasi
No ratings yet
Data Mining, Klasifikasi
88 pages
1 Pengantar Data Mining 1
No ratings yet
1 Pengantar Data Mining 1
68 pages
Unit 1
No ratings yet
Unit 1
95 pages
PPT04-Hadoop Infrastructure Layer
No ratings yet
PPT04-Hadoop Infrastructure Layer
40 pages
Unit 1 A
No ratings yet
Unit 1 A
39 pages
Unit1 IntroductionToDWDM
No ratings yet
Unit1 IntroductionToDWDM
40 pages
DATA SCIENCE Indeks Standar Pencemaran Udara (ISPU) PROVINSI DKI JAKARTA Tahun 2020
No ratings yet
DATA SCIENCE Indeks Standar Pencemaran Udara (ISPU) PROVINSI DKI JAKARTA Tahun 2020
21 pages
1 01intro, 2data (Except2 3), 3preprocessing
No ratings yet
1 01intro, 2data (Except2 3), 3preprocessing
169 pages
XML Quiz Results
No ratings yet
XML Quiz Results
8 pages
Kickstart Career As Data Analyst
No ratings yet
Kickstart Career As Data Analyst
44 pages
Data Mining Process
No ratings yet
Data Mining Process
12 pages
01 Intro
No ratings yet
01 Intro
40 pages
Algoritma Data Mining
No ratings yet
Algoritma Data Mining
114 pages
Module 1
No ratings yet
Module 1
40 pages
Algoritma Naive Bayes Flow Chart
No ratings yet
Algoritma Naive Bayes Flow Chart
2 pages
01 Intro
No ratings yet
01 Intro
41 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
41 pages
01 Intro
No ratings yet
01 Intro
40 pages
Data Analysis-2
No ratings yet
Data Analysis-2
41 pages
1 Pengenalan Penambangan Data-IMD
No ratings yet
1 Pengenalan Penambangan Data-IMD
34 pages
01 Intro
No ratings yet
01 Intro
45 pages
Lecture - 1 02032023 095637am 1 29022024 124126pm
No ratings yet
Lecture - 1 02032023 095637am 1 29022024 124126pm
33 pages
945-Article Text-2920-1-10-20190802
No ratings yet
945-Article Text-2920-1-10-20190802
6 pages
LECTURE 1 Data Mining
No ratings yet
LECTURE 1 Data Mining
41 pages
Rancang Bangun Aplikasi Data Mining Pada Penjualan Distro Bloods Berbasis Web Menggunakan Algoritma Apriori
No ratings yet
Rancang Bangun Aplikasi Data Mining Pada Penjualan Distro Bloods Berbasis Web Menggunakan Algoritma Apriori
8 pages
Florida - Residential Lease For Unit in Condo or Coop - Lease - For - Condo PDF
0% (1)
Florida - Residential Lease For Unit in Condo or Coop - Lease - For - Condo PDF
6 pages
Pengenalan Data Mining
No ratings yet
Pengenalan Data Mining
25 pages
222 en
75% (8)
222 en
48 pages
Data Mining Dan Bigdata
No ratings yet
Data Mining Dan Bigdata
38 pages
Lecture 1. Introduction
No ratings yet
Lecture 1. Introduction
42 pages
Data Analyst Masters Program Curriculum
100% (1)
Data Analyst Masters Program Curriculum
25 pages
Data Mining P3
No ratings yet
Data Mining P3
16 pages
Presentation 1
No ratings yet
Presentation 1
25 pages
01 Introduction
No ratings yet
01 Introduction
36 pages
Data Mining: Abu Salam, M.Kom
No ratings yet
Data Mining: Abu Salam, M.Kom
38 pages
Kecerdasan Artifisial Dan Masyarakat - M5
No ratings yet
Kecerdasan Artifisial Dan Masyarakat - M5
8 pages
Course: COMP6140 - Data Mining Effective Period: September 2017
No ratings yet
Course: COMP6140 - Data Mining Effective Period: September 2017
24 pages
Marko Grobelnik, Blaz Fortuna, Dunja Mladenic Jozef Stefan Institute, Slovenia
100% (1)
Marko Grobelnik, Blaz Fortuna, Dunja Mladenic Jozef Stefan Institute, Slovenia
107 pages
Data Mining Clustering Techniques
No ratings yet
Data Mining Clustering Techniques
3 pages
Com Res 10944 AnnexA
50% (2)
Com Res 10944 AnnexA
14 pages
Pemodelan Dan Simulasi M5
No ratings yet
Pemodelan Dan Simulasi M5
3 pages
Sebutkan 10 Knowledge Project Management (Dalam Bahasa Inggris)
No ratings yet
Sebutkan 10 Knowledge Project Management (Dalam Bahasa Inggris)
3 pages
Big Data Analytics
No ratings yet
Big Data Analytics
5 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
19 pages
ExercisesMeeting9-14 SehnaAzzahra
No ratings yet
ExercisesMeeting9-14 SehnaAzzahra
6 pages
Memorandum Question
0% (7)
Memorandum Question
2 pages
Data Mining Memahami Data
No ratings yet
Data Mining Memahami Data
38 pages
2024 - AAA2 - Lecture Note& Question Bank - Sent To STUDENTS
No ratings yet
2024 - AAA2 - Lecture Note& Question Bank - Sent To STUDENTS
64 pages
Performance Security
No ratings yet
Performance Security
8 pages
Wilfredo Carazas - Adobe. Guía de Construcción - Craterre-Misereor PDF
No ratings yet
Wilfredo Carazas - Adobe. Guía de Construcción - Craterre-Misereor PDF
37 pages
BMAT Past-Paper-November-2017-Section-1
No ratings yet
BMAT Past-Paper-November-2017-Section-1
36 pages
Programming Interfaces
No ratings yet
Programming Interfaces
134 pages
UML Diagrams: by Daniel Damaris Novarianto S
No ratings yet
UML Diagrams: by Daniel Damaris Novarianto S
50 pages
CG 5352B PDF
No ratings yet
CG 5352B PDF
10 pages
Parameter PD 957 Open Market Housing BP 220 Economic Housing
No ratings yet
Parameter PD 957 Open Market Housing BP 220 Economic Housing
5 pages
B760M Pro RS
No ratings yet
B760M Pro RS
53 pages
(Frequently Asked Questions) 77
No ratings yet
(Frequently Asked Questions) 77
8 pages
Causative: Arsiwela, S.S.,Msas
No ratings yet
Causative: Arsiwela, S.S.,Msas
12 pages
Physical Sciences P2 June 2024 Marking Guidelines
No ratings yet
Physical Sciences P2 June 2024 Marking Guidelines
12 pages
SIA E-Ticket - 618 3700794121
No ratings yet
SIA E-Ticket - 618 3700794121
5 pages
Unlock R&D Innovation With Intentional Collaboration
No ratings yet
Unlock R&D Innovation With Intentional Collaboration
32 pages
Tema 7 ING
No ratings yet
Tema 7 ING
31 pages
Proposed Business Case Analysis 1
No ratings yet
Proposed Business Case Analysis 1
19 pages
Module 6 OG
No ratings yet
Module 6 OG
10 pages
Ever Lube 620 Adm Sds
No ratings yet
Ever Lube 620 Adm Sds
9 pages
Sensor CO2 para El 20% KCD - HP - en - 110602 PDF
No ratings yet
Sensor CO2 para El 20% KCD - HP - en - 110602 PDF
5 pages
Business Finance Assignment
No ratings yet
Business Finance Assignment
16 pages
'Resume KAVYA B V-7
No ratings yet
'Resume KAVYA B V-7
3 pages
Infolink College Hawassa Campus Department of Computer Science Weekend Session Individual Assignment of Human Computer Interactiuon
No ratings yet
Infolink College Hawassa Campus Department of Computer Science Weekend Session Individual Assignment of Human Computer Interactiuon
6 pages
Data SPSS
No ratings yet
Data SPSS
10 pages
Enideg Tekalegn 2016 Tax Productivity in Post Reform Ethiopia
No ratings yet
Enideg Tekalegn 2016 Tax Productivity in Post Reform Ethiopia
11 pages
Meter Bridge Resistance of A Wire
No ratings yet
Meter Bridge Resistance of A Wire
3 pages
Musical Calling Bell: Description
No ratings yet
Musical Calling Bell: Description
4 pages
Bukit Mertajam
No ratings yet
Bukit Mertajam
2 pages
LC Rules Practices Under UCP 600 and ISBP 821 - Latest Version 1st July 2023
No ratings yet
LC Rules Practices Under UCP 600 and ISBP 821 - Latest Version 1st July 2023
4 pages
Watertite CL 51: 1-Component Sealing Film
No ratings yet
Watertite CL 51: 1-Component Sealing Film
2 pages
Orange Tone 5 Steps Roadmap Timeline Free Powerpoint Templates - PPTMON
No ratings yet
Orange Tone 5 Steps Roadmap Timeline Free Powerpoint Templates - PPTMON
2 pages

M3 DS21-Data Mining Dan Statistik - Rev

Uploaded by

M3 DS21-Data Mining Dan Statistik - Rev

Uploaded by

UG

 Apa itu Data Mining?

Biologi dan Kedokteran

We are drowning in data, but starving for

 Ekstraksi dari data ke pengetahuan:

 Nama lain data mining:

Data Kehadiran Pegawai

Informasi Akumulasi Bulanan Kehadiran Pegawai

Senin Selasa Rabu Kamis Jumat

Pola Kebiasaan Kehadiran Mingguan Pegawai

 Kebijakan penataan jam kerja karyawan khusus untuk hari

 Peraturan jam kerja:

Machine Data High

Data Presentation Business Analyst

Data Preprocessing/Integration, Data Warehouses

 1950s-1990s: Computational science

 1990-now: Data science

 1991-1994 Workshops on Knowledge Discovery in Databases

 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining

 ACM SIGKDD conferences since 1998 and SIGKDD Explorations

 More conferences on data mining

 ACM Transactions on KDD (2007)

Waktu Tempuh (T) = 0.48P + 0.23TL + 0.5J Pengetahuan

 Linear regression function

2. Decision Tree (Pohon Keputusan)

3. Korelasi dan Asosiasi

Dataset harga saham dalam

Supervised Semi-Supervised Unsupervised

 Using the unlabeled examples, we can

 Moreover, we can detect that the two

2. Decision Tree (Pohon Keputusan)

 Menyediakan prosedur data mining dan machine

1. Atribut: karakteristik atau fitur dari data yang

1. Perspektif Selamat Datang

 Klik tombol paling kiri

 Indikator status dari operator:

 Pilih repositori dan lokasi, lalu beri nama

2. Metode Data 3. Pengetahuan 4. Evaluation

DATA PRE-PROCESSING Estimation

2. Metode Data 3. Pengetahuan 4. Evaluation

DATA PRE-PROCESSING Estimation

 Data training untuk pembentukan model, dan data testing

 Pemisahan data training dan testing

You might also like