0% found this document useful (0 votes)

57 views

Lecture 1

This document provides an overview of data mining. It discusses data mining techniques like classification, clustering, association rule mining and sequential pattern mining. It describes the steps involved in a knowledge discovery process including data selection, cleaning, transformation, mining and evaluation. Examples of large datasets and applications of data mining are also presented. The document outlines the origins, functionalities and process of data mining.

Uploaded by

Subhashini Reddy

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

57 views

Lecture 1

Uploaded by

Subhashini Reddy

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 17

Data Mining

Data Mining Overview

• Data warehouses and OLAP (On Line Analytical Processing.)
• Association Rules Mining
• Clustering: Hierarchical and Partition approaches
• Classification: Decision Trees and Bayesian classifiers
• Sequential Pattern Mining
• Advanced topics: graph mining, privacy preserving data
mining, outlier detection, spatial data mining
What is Data Mining?
• Data Mining is:
(1) The efficient discovery of previously
unknown, valid, potentially useful,
understandable patterns in large datasets

(2) The analysis of (often large) observational

data sets to find unsuspected relationships
and to summarize the data in novel ways that
are both understandable and useful to the
data owner
Overview of terms

• Data: a set of facts (items) D, usually stored in

a database
• Pattern: an expression E in a language L, that
describes a subset of facts
• Attribute: a field in an item i in D.
• Interestingness: a function ID,L that maps an
expression E in L into a measure space M
Overview of terms
• The Data Mining Task:

For a given dataset D, language of facts L,

interestingness function ID,L and threshold c,
find the expression E such that ID,L(E) > c
efficiently.
Knowledge Discovery
Steps of a KDD Process

• Learning the application domain

– Relevant prior knowledge and goals of application
• Creating a target data set: data selection
• Data cleaning and preprocessing: (may take 60% of effort!)
• Data reduction and transformation
– Find useful features, dimensionality/variable reduction.
• Choosing functions of data mining
– Summarization, classification, regression, association, clustering.
• Choosing the mining algorithm(s)
• Data mining: search for patterns of interest
• Pattern evaluation and knowledge presentation
– Visualization, transformation, removing redundant patterns, etc.
• Use of discovered knowledge

7
Architecture: Typical Data Mining System

Graphical user interface

Pattern evaluation

Data mining engine

Knowledge-base
Database or data
warehouse server
Data cleaning & data integration Filtering

Data
Databases Warehouse
8
Data Mining: On What Kinds of Data?
• Relational database
• Data warehouse
• Transactional database
• Advanced database and information repository
– Spatial and temporal data
– Time-series data
– Stream data
– Multimedia database
– Text databases & WWW

9
Examples of Large Datasets

• Government: IRS, NGA, …

• Large corporations
– WALMART: 20M transactions per day
– MOBIL: 100 TB geological databases
– AT&T 300 M calls per day
– Credit card companies

• Scientific
– NASA, EOS project: 50 GB per hour
– Environmental datasets
Examples of Data mining Applications

1. Fraud detection: credit cards, phone cards

2. Marketing: customer targeting
3. Data Warehousing: Walmart
4. Astronomy
5. Molecular biology
How Data Mining is used

1. Identify the problem

2. Use data mining techniques to transform
the data into information
3. Act on the information
4. Measure the results
The Data Mining Process
1. Understand the domain
2. Create a dataset:
– Select the interesting attributes
– Data cleaning and preprocessing
3. Choose the data mining task and the specific
algorithm
4. Interpret the results, and possibly return to 2
Origins of Data Mining

• Draws ideas from machine learning/AI, pattern

recognition, statistics, and database systems
AI /
• Must address: Statistics
Machine Learning
– Enormity of data
– High dimensionality
Data Mining
of data
– Heterogeneous,
distributed nature Database
of data systems
Data Mining Functionalities

• Concept description: Characterization and discrimination

– Generalize, summarize, and contrast data characteristics
• Association (correlation and causality)
– Diaper à Beer [0.5%, 75%]
• Classification and Prediction
– Construct models (functions) that describe and distinguish classes or
concepts for future prediction
– Presentation: decision-tree, classification rule, neural network

15
Data Mining Functionalities

• Cluster analysis
– Class label is unknown: Group data to form new classes, e.g., cluster
houses to find distribution patterns
– Maximizing intra-class similarity & minimizing interclass similarity
• Outlier analysis
– Outlier: a data object that does not comply with the general behavior of
the data
– Useful in fraud detection, rare events analysis
• Trend and evolution analysis
– Trend and deviation: regression analysis
– Sequential pattern mining, periodicity analysis

16
Data Mining: Confluence of Multiple Disciplines

Database
Statistics
Systems

Machine Data Mining Visualization

Learning

Algorithm Other
Disciplines

Emerald Guidelines - Updated Format
No ratings yet
Emerald Guidelines - Updated Format
15 pages
Ug1292 Ultrafast Timing Closure Quick Reference
0% (1)
Ug1292 Ultrafast Timing Closure Quick Reference
10 pages
Data Mining
No ratings yet
Data Mining
13 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Data Mining: Concepts and Techniques
100% (2)
Data Mining: Concepts and Techniques
27 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
25 pages
Introduction
No ratings yet
Introduction
27 pages
Intro of Data Mining
No ratings yet
Intro of Data Mining
27 pages
Chapter - 1
No ratings yet
Chapter - 1
22 pages
3-OLAP Operations-13!08!2021 (13-Aug-2021) Material I 13-Aug-2021 Data Mining - Introductory Slides
No ratings yet
3-OLAP Operations-13!08!2021 (13-Aug-2021) Material I 13-Aug-2021 Data Mining - Introductory Slides
37 pages
DWDM-LS1-Fall-24-25
No ratings yet
DWDM-LS1-Fall-24-25
42 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Chapter1 Introduction (Autosaved)
No ratings yet
Chapter1 Introduction (Autosaved)
23 pages
DM Introduction
No ratings yet
DM Introduction
32 pages
Lecture_01_11jan
No ratings yet
Lecture_01_11jan
29 pages
1_Lect 1 & 2 Data Mining
No ratings yet
1_Lect 1 & 2 Data Mining
20 pages
Introduction-to-Data-Mining
No ratings yet
Introduction-to-Data-Mining
32 pages
Unit - I
No ratings yet
Unit - I
22 pages
data mining 1
No ratings yet
data mining 1
39 pages
Data Mining: An Overview From A Database Perspective
No ratings yet
Data Mining: An Overview From A Database Perspective
30 pages
01 Intro
No ratings yet
01 Intro
40 pages
lecture1428550844
No ratings yet
lecture1428550844
84 pages
Major Issues in Data Mining
75% (4)
Major Issues in Data Mining
45 pages
Chapter 1 Intro
No ratings yet
Chapter 1 Intro
23 pages
01 Intro
No ratings yet
01 Intro
23 pages
Data Mining: Concepts and Techniques: - Chapter 1
No ratings yet
Data Mining: Concepts and Techniques: - Chapter 1
37 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
01 - Introduction To Datamining
No ratings yet
01 - Introduction To Datamining
19 pages
Module 2 Data Mining
No ratings yet
Module 2 Data Mining
49 pages
Chapter 1. Introduction
No ratings yet
Chapter 1. Introduction
323 pages
Introduction To Data Mining 1604
No ratings yet
Introduction To Data Mining 1604
32 pages
01 - Data Mining Introduction
No ratings yet
01 - Data Mining Introduction
21 pages
Mehrdad Jalali: Jalali@mshdiau - Ac.ir Jalali - Mshdiau.ac - Ir
No ratings yet
Mehrdad Jalali: Jalali@mshdiau - Ac.ir Jalali - Mshdiau.ac - Ir
27 pages
Chapter-1 - Introduction To Data Mining
No ratings yet
Chapter-1 - Introduction To Data Mining
10 pages
Data Mining
No ratings yet
Data Mining
88 pages
ICS 2408 Lecture 1 Introduction
No ratings yet
ICS 2408 Lecture 1 Introduction
32 pages
1 Intro
No ratings yet
1 Intro
33 pages
8 Data Mining and Warehousing
No ratings yet
8 Data Mining and Warehousing
171 pages
Unit 1 Data Mining
No ratings yet
Unit 1 Data Mining
15 pages
Lecture 1
No ratings yet
Lecture 1
37 pages
Why Data Mining?: March 3, 2015
No ratings yet
Why Data Mining?: March 3, 2015
41 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
Combine 056
No ratings yet
Combine 056
57 pages
Chap 1
No ratings yet
Chap 1
45 pages
DWDM
No ratings yet
DWDM
30 pages
Data Mining Summaries PDF
No ratings yet
Data Mining Summaries PDF
22 pages
Data Mining Notes1
No ratings yet
Data Mining Notes1
56 pages
intro data mining
No ratings yet
intro data mining
51 pages
Motivation For Data Mining The Information Crisis
No ratings yet
Motivation For Data Mining The Information Crisis
13 pages
01 Intro
No ratings yet
01 Intro
29 pages
Unit 1: Data Warehousing & Data Mining
No ratings yet
Unit 1: Data Warehousing & Data Mining
54 pages
1712060004 (1)
No ratings yet
1712060004 (1)
25 pages
Introduction
No ratings yet
Introduction
46 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
17 pages
dm 1
No ratings yet
dm 1
47 pages
Data Mining-CH5
No ratings yet
Data Mining-CH5
49 pages
DM NOTES
No ratings yet
DM NOTES
91 pages
21IS503 UnitII LM5
No ratings yet
21IS503 UnitII LM5
20 pages
da257829-b262-4875-aa76-2975d8aeaa2c
No ratings yet
da257829-b262-4875-aa76-2975d8aeaa2c
31 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
91 pages
Data Mining: Nicoleta ROGOVSCHI
No ratings yet
Data Mining: Nicoleta ROGOVSCHI
84 pages
Introduction to Robotics
From Everand
Introduction to Robotics
Swarnalata Verma
No ratings yet
Accidentblip2: Accident Detection With Multi-View Motionblip2
No ratings yet
Accidentblip2: Accident Detection With Multi-View Motionblip2
6 pages
Ch05_Functions for All Subtasks
No ratings yet
Ch05_Functions for All Subtasks
74 pages
Subha Rsume
No ratings yet
Subha Rsume
3 pages
Book Recommendation System-Capstone Project 4
No ratings yet
Book Recommendation System-Capstone Project 4
31 pages
Easy Roles and Permissions in Laravel 5 - QCode PDF
No ratings yet
Easy Roles and Permissions in Laravel 5 - QCode PDF
88 pages
CPU314C-2 AI-AO Connections
No ratings yet
CPU314C-2 AI-AO Connections
1 page
Thermo Ramsey: Equipment Page No
No ratings yet
Thermo Ramsey: Equipment Page No
51 pages
Cahier Des Charges
No ratings yet
Cahier Des Charges
6 pages
Tera Category 8.2 Outlet and Plug: Standards Compliance
No ratings yet
Tera Category 8.2 Outlet and Plug: Standards Compliance
2 pages
Research Proposal Mikiyas
No ratings yet
Research Proposal Mikiyas
18 pages
Grace Liu Elastix: How To Connect Two Elastix
No ratings yet
Grace Liu Elastix: How To Connect Two Elastix
3 pages
Interdisciplinary-Minor-with-Codes
No ratings yet
Interdisciplinary-Minor-with-Codes
89 pages
Relational Modeling: 1 at Least One Key
No ratings yet
Relational Modeling: 1 at Least One Key
3 pages
Infuse AI into Your Enterprise: IBM全球杰出工程师 IBM AI系统研究技术总监林咏华 (IBM研究院)
No ratings yet
Infuse AI into Your Enterprise: IBM全球杰出工程师 IBM AI系统研究技术总监林咏华 (IBM研究院)
24 pages
ESP 9 Exam - First Grading
0% (1)
ESP 9 Exam - First Grading
4 pages
XelPlus ASK AI in EXCEL
No ratings yet
XelPlus ASK AI in EXCEL
7 pages
Industrial Training 5102
No ratings yet
Industrial Training 5102
24 pages
Ultima Salto
No ratings yet
Ultima Salto
3 pages
School - Accomplishment Report For Cy 2024 Brigada Eskwela Implementation - July 26 - 2024
No ratings yet
School - Accomplishment Report For Cy 2024 Brigada Eskwela Implementation - July 26 - 2024
8 pages
3D Optical Data Storage
50% (2)
3D Optical Data Storage
29 pages
Blur PC Manual
No ratings yet
Blur PC Manual
10 pages
CiscoAP Product - Data - Sheet0900aecd80537b6a
No ratings yet
CiscoAP Product - Data - Sheet0900aecd80537b6a
12 pages
Uzima Borehole and Drilling Management System
No ratings yet
Uzima Borehole and Drilling Management System
32 pages
Hana DB Refresh
No ratings yet
Hana DB Refresh
9 pages
ThreatStream Integrator Install Admin Guide v8.1.2
No ratings yet
ThreatStream Integrator Install Admin Guide v8.1.2
259 pages
iDS-TCV500-BI_Datasheet_20240123 (1)
No ratings yet
iDS-TCV500-BI_Datasheet_20240123 (1)
6 pages
FI - Auto Email Notification For Closing Cockpit PDF
No ratings yet
FI - Auto Email Notification For Closing Cockpit PDF
9 pages
Dynamodb, Ebs, VPC, Elb Couchdb, Redis: Eclipse, Intellij, Pycharm, Git, SVN, CRM, Splunk
No ratings yet
Dynamodb, Ebs, VPC, Elb Couchdb, Redis: Eclipse, Intellij, Pycharm, Git, SVN, CRM, Splunk
1 page

Lecture 1

Uploaded by

Lecture 1

Uploaded by

Data Mining

Data Mining Overview

(2) The analysis of (often large) observational

• Data: a set of facts (items) D, usually stored in

For a given dataset D, language of facts L,

• Learning the application domain

Graphical user interface

Data mining engine

• Government: IRS, NGA, …

1. Fraud detection: credit cards, phone cards

1. Identify the problem

• Draws ideas from machine learning/AI, pattern

• Concept description: Characterization and discrimination

Machine Data Mining Visualization

You might also like