0% found this document useful (0 votes)

24 views

01Intro (2)

Uploaded by

22051925

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views

01Intro (2)

Uploaded by

22051925

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 45

Data Mining:

Concepts and
Techniques
(3rd ed.)

— Chapter 1 —

Jiawei Han, Micheline Kamber, and Jian Pei

University of Illinois at Urbana-Champaign &
Simon Fraser University
©2011 Han, Kamber & Pei. All rights reserved.
1
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
Why Data Mining?
 The Explosive Growth of Data: from terabytes to petabytes
 Data collection and data availability

Automated data collection tools, database systems,
Web, computerized society
 Major sources of abundant data

Business: Web, e-commerce, transactions, stocks, …

Science: Remote sensing, bioinformatics, scientific
simulation, …

Society and everyone: news, digital cameras, YouTube
 We are drowning in data, but starving for knowledge!
 “Necessity is the mother of invention”—Data mining—
Automated analysis of massive data sets
Evolution of Database
Technology
 1960s:
 Data collection, database creation, IMS and network DBMS
 1970s:
 Relational data model, relational DBMS implementation
 1980s:
 RDBMS, advanced data models (extended-relational, OO,
deductive, etc.)
 Application-oriented DBMS (spatial, scientific, engineering, etc.)
 1990s:
 Data mining, data warehousing, multimedia databases, and Web
databases
 2000s
 Stream data management and mining
 Data mining and its applications
 Web technology (XML, data integration) and global information
systems
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
What Is Data Mining?

 Data mining (knowledge discovery from data)


Extraction of interesting patterns or knowledge from
huge amount of data
 Alternative names
 Knowledge discovery (mining) in databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information harvesting,
business intelligence, etc.
Knowledge Discovery (KDD) Process
 This is a view from typical
database systems and data
Pattern Evaluation
warehousing communities
 Data mining plays an
essential role in the
knowledge discovery process Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases
Knowledge Discovery (KDD) Process
 The knowledge discovery process is an iterative sequence of
the following steps:

Data cleaning (to remove noise and inconsistent data)

Data integration (where multiple data sources may be
combined)

Data selection (where data relevant to the analysis task
are retrieved from the database)

Data transformation (where data are transformed and
consolidated into forms appropriate for mining by
performing summary or aggregation operations)

Data mining (an essential process where intelligent
methods are applied to extract data patterns)

Pattern evaluation (to identify the truly interesting
patterns representing knowledge based on
interestingness measures)

Knowledge presentation (where visualization and
knowledge representation techniques are used to present
mined knowledge to users)
Data Mining

Data mining is the process of discovering interesting
patterns and knowledge from large amount of data
Example: A Web Mining
Framework

 Web mining usually involves

 Data cleaning
 Data integration from multiple sources
 Warehousing the data
 Data cube construction
 Data selection for data mining
 Data mining
 Presentation of the mining results
 Patterns and knowledge to be used or stored
into knowledge-base
Data Mining in Business Intelligence

Increasing potential
to support
business decisions End User
Decisio
n
Making
Data Presentation Business
Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
KDD Process: A Typical View from ML
and Statistics

Input Data Data Pre- Data Post-

Processing Mining Processin
g

Data integration Pattern discovery Pattern evaluation

Normalization Association & Pattern selection
correlation
Feature selection Classification Pattern
Dimension reduction interpretation
Clustering
Outlier analysis Pattern visualization
…………

 This is a view from typical machine learning and statistics

communities
Example: Medical Data
Mining

 Health care & medical data mining – often

adopted such a view in statistics and
machine learning
 Preprocessing of the data (including feature
extraction and dimension reduction)
 Classification or/and clustering processes
 Post-processing for presentation
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
Data Mining Models and
Tasks
Multi-Dimensional View of Data
Mining
 Data to be mined
 Database data (extended-relational, object-oriented,

heterogeneous, legacy), data warehouse, transactional

data, stream, spatiotemporal, time-series, sequence, text
and web, multi-media, graphs & social and information
networks
 Knowledge to be mined (or: Data mining functions)
 Characterization, discrimination, association, classification,

clustering, trend/deviation, outlier analysis, etc.

 Descriptive vs. predictive data mining

 Techniques utilized
 Data-intensive, data warehouse (OLAP), machine learning,

statistics, pattern recognition, visualization, high-

performance, etc.
 Applications adapted
 Retail, telecommunication, banking, fraud analysis, bio-data

mining, stock market analysis, text mining, Web mining, etc.

Multi-Dimensional View of Data
Mining
Data characterization
 Data characterization is a summarization of the general

characteristics or features of a target class of data.

 The output of data characterization can be presented in

various forms. Examples include pie charts, bar charts,

curves, multidimensional data cubes, and multidimensional
tables, including crosstabs.
 A crosstab is a table that summarizes the relationship

between two categorical variables.

Data discrimination

 Data discrimination is a comparison of the general features

of the target class data objects against the general features

of objects from one or multiple contrasting classes.
 The target and contrasting classes can be specified by a

user, and the corresponding data objects can be retrieved

through database queries.
Multi-Dimensional View of Data
Mining
Predictive Analytics
 Predictive Analytics will help an organization to know what

might happen next, it predicts future based on present data

available.
Descriptive Analytics

 Descriptive Analytics will help an organization to know what

has happened in the past, it would give you the past

analytics using the data that are stored.
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
Data Mining: On What Kinds of
Data?
 Database-oriented data sets and applications
 Relational database, data warehouse, transactional database
 Advanced data sets and advanced applications
 Data streams and sensor data
 Time-series data, temporal data, sequence data (incl. bio-
sequences)
 Structure data, graphs, social networks and multi-linked data
 Object-relational databases
 Heterogeneous databases and legacy databases
 Spatial data and spatiotemporal data
 Multimedia database
 Text databases
 The World-Wide Web
Data Warehouse
 A data warehouse is a repository of information collected from
multiple sources, stored under a unifie schema, and usually
residing at a single site.
 Data warehouses are constructed via a process of data
cleaning, data integration, data transformation, data loading,
and periodic data refreshing.
 A data warehouse is usually modeled by a multidimensional
data structure, called a data cube.
 Each dimension of the data cube corresponds to an attribute
or a set of attributes in the schema, and each cell stores the
value
 A data cube provides a multidimensional view of data and
allows the precomputation and fast access of summarized
Typical framework of a Data
Warehouse
Example of Data Cube
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
Data Mining Function: (1)
Generalization
 Information integration and data warehouse
construction
 Data cleaning, transformation, integration, and
multidimensional data model
 Data cube technology
 Scalable methods for computing (i.e.,
materializing) multidimensional aggregates
 OLAP (online analytical processing)
 Multidimensional concept description:
Characterization and discrimination
 Generalize, summarize, and contrast data
characteristics, e.g., dry vs. wet region
Data Mining Function: (2)
Association and Correlation Analysis
 Frequent patterns (or frequent itemsets)
 Frequent patterns are patterns that occur
frequently in data.
 A frequent itemset typically refers to a set of items
that often appear together in a transactional data
set
 What items are frequently purchased together in
your Walmart?
 Example: milk and bread, which are frequently
bought together in grocery stores by many
customers.
Data Mining Function: (2)
Association and Correlation Analysis
 Association, correlation
 A typical association rule

buys(X, “computer”)buys(X, “software”)
[support = 1%, confidence = 50%] indicates
where X is a customer. A confidence, or certainty, of 50%
means that if a customer buys a computer, there is a 50%
chance that she will buy software as well. A 1% support
means that 1% of all the transactions under analysis show
that computer and software are purchased
together.“computer software [1%, 50%]”

Diaper  Beer [0.5%, 75%] (support, confidence)
 Are strongly associated items also strongly
correlated?
 How to mine such patterns and rules efficiently in large
Data Mining Function: (3)
Classification
 Classification and label prediction
 Construct models (functions) based on some training
examples
 Describe and distinguish classes or concepts for future
prediction

E.g., classify countries based on (climate), or classify
cars based on (gas mileage)
 Predict some unknown class labels
 Typical methods
 Decision trees, naïve Bayesian classification, support
vector machines, neural networks, rule-based
classification, pattern-based classification, logistic
regression, …
 Typical applications:
 Credit card fraud detection, direct marketing, classifying
Data Mining Function: (4) Cluster
Analysis
 Unsupervised learning (i.e., Class label is unknown)
 Group data to form new categories (i.e., clusters),
e.g., cluster houses to find distribution patterns
 Principle: Maximizing intra-class similarity &
minimizing interclass similarity
 Many methods and applications
Data Mining Function: (5) Outlier
Analysis
 Outlier analysis
 Outlier: A data object that does not comply with the
general behavior of the data
 Noise or exception? ― One person’s garbage could be
another person’s treasure
 Methods: by product of clustering or regression analysis, …
 Useful in fraud detection, rare events analysis
Time and Ordering: Sequential
Pattern, Trend and Evolution Analysis
 Sequence, trend and evolution analysis
 Trend, time-series, and deviation analysis: e.g.,

regression and value prediction

 Sequential pattern mining


e.g., first buy digital camera, then buy large
SD memory cards
 Periodicity analysis

 Motifs and biological sequence analysis


Approximate and consecutive motifs
 Similarity-based analysis

 Mining data streams

 Ordered, time-varying, potentially infinite, data

streams
Structure and Network Analysis
 Graph mining
 Finding frequent subgraphs (e.g., chemical compounds),

trees (XML), substructures (web fragments)

 Information network analysis
 Social networks: actors (objects, nodes) and relationships

(edges)

e.g., author networks in CS, terrorist networks
 Multiple heterogeneous networks


A person could be multiple information networks:
friends, family, classmates, …
 Links carry a lot of semantic information: Link mining

 Web mining
 Web is a big information network: from PageRank to

Google
 Analysis of Web information networks


Web community discovery, opinion mining, usage
Evaluation of Knowledge
 Are all mined knowledge interesting?
 One can mine tremendous amount of “patterns” and
knowledge
 Some may fit only certain dimension space (time, location,
…)
 Some may not be representative, may be transient, …
 Evaluation of mined knowledge → directly mine only
interesting knowledge?
 Descriptive vs. predictive
 Coverage
 Typicality vs. novelty
 Accuracy
 Timeliness
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
Data Mining: Confluence of Multiple
Disciplines

Machine Pattern Statistics

Learning Recognition

Applications Data Mining Visualization

Algorithm Database High-Performance

Technology Computing
Why Confluence of Multiple
Disciplines?
 Tremendous amount of data
 Algorithms must be highly scalable to handle such as tera-
bytes of data
 High-dimensionality of data
 Micro-array may have tens of thousands of dimensions
 High complexity of data
 Data streams and sensor data
 Time-series data, temporal data, sequence data
 Structure data, graphs, social networks and multi-linked
data
 Heterogeneous databases and legacy databases
 Spatial, spatiotemporal, multimedia, text and Web data
 Software programs, scientific simulations
 New and sophisticated applications
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
Applications of Data Mining
 Web page analysis: from web page classification, clustering
to PageRank & HITS algorithms
 Collaborative analysis & recommender systems
 Basket data analysis to targeted marketing
 Biological and medical data analysis: classification, cluster
analysis (microarray data analysis), biological sequence
analysis, biological network analysis
 Data mining and software engineering (e.g., IEEE Computer,
Aug. 2009 issue)
 From major dedicated data mining systems/tools (e.g., SAS,
MS SQL-Server Analysis Manager, Oracle Data Mining Tools)
to invisible data mining
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
Major Issues in Data Mining
(1)
 Mining Methodology
 Mining various and new kinds of knowledge
 Mining knowledge in multi-dimensional space
 Data mining: An interdisciplinary effort
 Boosting the power of discovery in a networked
environment
 Handling noise, uncertainty, and incompleteness of data
 Pattern evaluation and pattern- or constraint-guided
mining
 User Interaction
 Interactive mining
 Incorporation of background knowledge
 Presentation and visualization of data mining results
Major Issues in Data Mining
(2)

 Efficiency and Scalability

 Efficiency and scalability of data mining algorithms
 Parallel, distributed, stream, and incremental mining
methods
 Diversity of data types
 Handling complex types of data
 Mining dynamic, networked, and global data repositories
 Data mining and society
 Social impacts of data mining
 Privacy-preserving data mining
 Invisible data mining
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
A Brief History of Data Mining
Society
 1989 IJCAI Workshop on Knowledge Discovery in Databases
 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W.
Frawley, 1991)
 1991-1994 Workshops on Knowledge Discovery in Databases
 Advances in Knowledge Discovery and Data Mining (U. Fayyad,
G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
 1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
 Journal of Data Mining and Knowledge Discovery (1997)
 ACM SIGKDD conferences since 1998 and SIGKDD Explorations
 More conferences on data mining
 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE)
ICDM (2001), etc.
 ACM Transactions on KDD starting in 2007
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
Summary
 Data mining: Discovering interesting patterns and knowledge
from massive amount of data
 A natural evolution of database technology, in great demand,
with wide applications
 A KDD process includes data cleaning, data integration, data
selection, transformation, data mining, pattern evaluation,
and knowledge presentation
 Mining can be performed in a variety of data
 Data mining functionalities: characterization, discrimination,
association, classification, clustering, outlier and trend
analysis, etc.
 Data mining technologies and applications
 Major issues in data mining

Interfacing Push Button and Buzzer With LPC1769
0% (1)
Interfacing Push Button and Buzzer With LPC1769
14 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
48 pages
1 01intro, 2data (Except2 3), 3preprocessing
No ratings yet
1 01intro, 2data (Except2 3), 3preprocessing
169 pages
Lecture 1. Introduction
No ratings yet
Lecture 1. Introduction
42 pages
Data Analysis-2
No ratings yet
Data Analysis-2
41 pages
intro data mining
No ratings yet
intro data mining
51 pages
01Intro
No ratings yet
01Intro
41 pages
01Intro.pptx
No ratings yet
01Intro.pptx
40 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
41 pages
Module 1
No ratings yet
Module 1
40 pages
01intro (Autosaved)
No ratings yet
01intro (Autosaved)
43 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
41 pages
DWDM 3rd Edition Text Book Slides
No ratings yet
DWDM 3rd Edition Text Book Slides
938 pages
Unit 1
No ratings yet
Unit 1
95 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
41 pages
LECTURE 1 data mining
No ratings yet
LECTURE 1 data mining
41 pages
Chapter 1 - Tagged
No ratings yet
Chapter 1 - Tagged
46 pages
01Intro (1)
No ratings yet
01Intro (1)
40 pages
Datamining Chapter 1 Introduction
No ratings yet
Datamining Chapter 1 Introduction
41 pages
Module1 IntroToDataMining
No ratings yet
Module1 IntroToDataMining
36 pages
Data Mining Chapter 1
No ratings yet
Data Mining Chapter 1
43 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
01 Intro
No ratings yet
01 Intro
40 pages
1 - Introduction To DM
No ratings yet
1 - Introduction To DM
59 pages
Data Mining
No ratings yet
Data Mining
61 pages
0 Introduction
No ratings yet
0 Introduction
43 pages
Unit 1
No ratings yet
Unit 1
95 pages
01 Intro
No ratings yet
01 Intro
61 pages
Anaum Hamid: Lecture 01 - Introduction To DM
No ratings yet
Anaum Hamid: Lecture 01 - Introduction To DM
50 pages
1712060004 (1)
No ratings yet
1712060004 (1)
25 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
01 Intro
No ratings yet
01 Intro
35 pages
Lecture 1
No ratings yet
Lecture 1
37 pages
Cse5243 Intro. To Data Mining: Chapter 1. Introduction
No ratings yet
Cse5243 Intro. To Data Mining: Chapter 1. Introduction
56 pages
01 Introduction
No ratings yet
01 Introduction
36 pages
_01Intro_edited_v1
No ratings yet
_01Intro_edited_v1
42 pages
01 Intro
No ratings yet
01 Intro
23 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
37 pages
Module - 1 - DM
No ratings yet
Module - 1 - DM
52 pages
01Intro1
No ratings yet
01Intro1
33 pages
DWDM-LS1-Fall-24-25
No ratings yet
DWDM-LS1-Fall-24-25
42 pages
Unit 3
No ratings yet
Unit 3
23 pages
Course: COMP6140 - Data Mining Effective Period: September 2017
No ratings yet
Course: COMP6140 - Data Mining Effective Period: September 2017
24 pages
VIPDMTheoryChapter1
No ratings yet
VIPDMTheoryChapter1
25 pages
IS414: Data Mining: DR - Waleed M.Ead
No ratings yet
IS414: Data Mining: DR - Waleed M.Ead
36 pages
01Intro
No ratings yet
01Intro
28 pages
File 1704273297 0009750 IntroUNIT-1
No ratings yet
File 1704273297 0009750 IntroUNIT-1
13 pages
01 Intro
No ratings yet
01 Intro
29 pages
Week 02 PDF
No ratings yet
Week 02 PDF
39 pages
DMM-finals
No ratings yet
DMM-finals
30 pages
Lecture 1-Data Mining (Introduction)
No ratings yet
Lecture 1-Data Mining (Introduction)
30 pages
Introduction To Data Mining: Unit 1
No ratings yet
Introduction To Data Mining: Unit 1
28 pages
Combine 056
No ratings yet
Combine 056
57 pages
DM 1
No ratings yet
DM 1
78 pages
DB-14
No ratings yet
DB-14
97 pages
Unit - I
No ratings yet
Unit - I
22 pages
01 Intro
No ratings yet
01 Intro
26 pages
DM-Unit 1 PPT
No ratings yet
DM-Unit 1 PPT
110 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Mastering Data Mining Techniques
From Everand
Mastering Data Mining Techniques
Dhaanyalakshmi Ahuja
No ratings yet
2311.15826v1
No ratings yet
2311.15826v1
10 pages
Stock_market_prediction_using_deep_learning_algori
No ratings yet
Stock_market_prediction_using_deep_learning_algori
13 pages
MODULE 6
No ratings yet
MODULE 6
73 pages
02Data (2)
No ratings yet
02Data (2)
36 pages
5-Classification (2)
No ratings yet
5-Classification (2)
59 pages
03Preprocessing (2)
No ratings yet
03Preprocessing (2)
80 pages
Design of Graded AlGaN Channel Transistors For Improved Large-Signal Linearity
No ratings yet
Design of Graded AlGaN Channel Transistors For Improved Large-Signal Linearity
4 pages
Benefits of Computer Networks - Nibusinessinfo - Co.uk
No ratings yet
Benefits of Computer Networks - Nibusinessinfo - Co.uk
2 pages
User Declaration
No ratings yet
User Declaration
1 page
TLE ICT6 Mod4 Communicating and Collaborating Using ICT
No ratings yet
TLE ICT6 Mod4 Communicating and Collaborating Using ICT
24 pages
DFIG
No ratings yet
DFIG
6 pages
TIMPI CAMION Legal-09
No ratings yet
TIMPI CAMION Legal-09
3 pages
What Is ABS and How Does It Work
No ratings yet
What Is ABS and How Does It Work
2 pages
Installandmanagenetworkprotocols 221219130255 40dcfff3
No ratings yet
Installandmanagenetworkprotocols 221219130255 40dcfff3
38 pages
ISO 27001 Awareness
100% (3)
ISO 27001 Awareness
73 pages
The Post For Junior
No ratings yet
The Post For Junior
4 pages
Praveen Murugesan - Salesforce Architect
No ratings yet
Praveen Murugesan - Salesforce Architect
4 pages
R Data Analysis Projects
100% (1)
R Data Analysis Projects
361 pages
DWC Pcie DM Databook 4.10a 2012
No ratings yet
DWC Pcie DM Databook 4.10a 2012
1,460 pages
07 890046 10 00 SG Series Service Manual
No ratings yet
07 890046 10 00 SG Series Service Manual
116 pages
DNS2005 1.0v1 Troubleshooting DNS Protection
No ratings yet
DNS2005 1.0v1 Troubleshooting DNS Protection
54 pages
TQM at Pidilite Industries
No ratings yet
TQM at Pidilite Industries
2 pages
Mti Radar
No ratings yet
Mti Radar
12 pages
MP 1200
No ratings yet
MP 1200
129 pages
Rzn-Des-doc - Despatch All Formats 1
No ratings yet
Rzn-Des-doc - Despatch All Formats 1
520 pages
Merchant - Air Terminal Device
No ratings yet
Merchant - Air Terminal Device
7 pages
ITNET02 Module 04 Scaling VLANs
No ratings yet
ITNET02 Module 04 Scaling VLANs
49 pages
CV Ver
No ratings yet
CV Ver
3 pages
Masinde Muliro University of Science and Technology
No ratings yet
Masinde Muliro University of Science and Technology
25 pages
2.introduction To IT Project Management
No ratings yet
2.introduction To IT Project Management
35 pages
Horiba Mira Report Montero Sua Concern Investigation
No ratings yet
Horiba Mira Report Montero Sua Concern Investigation
112 pages
Microwave Generator
No ratings yet
Microwave Generator
4 pages
Otc 25457 MS PDF
No ratings yet
Otc 25457 MS PDF
9 pages
DNV Webinar Hourly Modeling Corrections For Accurate Solar Energy Assessment
No ratings yet
DNV Webinar Hourly Modeling Corrections For Accurate Solar Energy Assessment
26 pages
Sonicview SV-360 Elite PVR: Easy To Use PVR Receiver
No ratings yet
Sonicview SV-360 Elite PVR: Easy To Use PVR Receiver
5 pages

01Intro (2)

Uploaded by

01Intro (2)

Uploaded by

Data Mining:

Jiawei Han, Micheline Kamber, and Jian Pei

 Data mining (knowledge discovery from data)

Data Warehouse Selection

 Web mining usually involves

Data Preprocessing/Integration, Data Warehouses

Input Data Data Pre- Data Post-

Data integration Pattern discovery Pattern evaluation

 This is a view from typical machine learning and statistics

 Health care & medical data mining – often

heterogeneous, legacy), data warehouse, transactional

clustering, trend/deviation, outlier analysis, etc.

statistics, pattern recognition, visualization, high-

mining, stock market analysis, text mining, Web mining, etc.

characteristics or features of a target class of data.

various forms. Examples include pie charts, bar charts,

between two categorical variables.

 Data discrimination is a comparison of the general features

of the target class data objects against the general features

user, and the corresponding data objects can be retrieved

might happen next, it predicts future based on present data

 Descriptive Analytics will help an organization to know what

has happened in the past, it would give you the past

regression and value prediction

 Motifs and biological sequence analysis

 Mining data streams

trees (XML), substructures (web fragments)

Machine Pattern Statistics

Applications Data Mining Visualization

Algorithm Database High-Performance

 Efficiency and Scalability

You might also like