0% found this document useful (0 votes)

71 views

18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2

This document discusses various measures to quantify the similarity and dissimilarity between data objects and distributions. It defines similarity and dissimilarity measures, which numerically indicate how alike or different objects are. Common properties of these measures are outlined. Examples of specific measures are provided, including Euclidean distance, Minkowski distance, and Mahalanobis distance for continuous data, as well as simple matching and Jaccard coefficients for binary variables. Worked examples calculating some of these measures are presented.

Uploaded by

HoShang PAtel

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

71 views

18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2

Uploaded by

HoShang PAtel

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

18CSE397T– Computational Data Analysis

Unit – 3: Session – 8: SLO – 2

OBJECT DISSIMILARITIES

Similarity and Dissimilarity

Distance or similarity measures are essential to solve many pattern recognition problems such as
classification and clustering. Various distance/similarity measures are available in literature to
compare two data distributions. As the names suggest, a similarity measures how close two
distributions are. For multivariate data complex summary methods are developed to answer this
question.

Similarity Measure
 Numerical measure of how alike two data objects are.
 Often falls between 0 (no similarity) and 1 (complete similarity).
Dissimilarity Measure
 Numerical measure of how different two data objects are.
 Range from 0 (objects are alike) to ∞ (objects are different).
Proximity refers to a similarity or dissimilarity.
Similarity/Dissimilarity for Simple Attributes
Here, p and q are the attribute values for two data objects.
Attribute Type Similarity Dissimilarity

d={01 if p=q if p
Nominal s={10 if p=q if p≠q
≠q
s=1−∥p−q∥n−1
Ordinal (values mapped to integer 0 to n-1, d=∥p−q∥n−1
where n is the number of values)

Interval or
s=1−∥p−q∥,s=11+∥p−q∥ d=∥p−q∥
Ratio

Common Properties of Dissimilarity Measures

Distance, such as the Euclidean distance, is a dissimilarity measure and has some well known
properties:
1. d(p, q) ≥ 0 for all p and q, and d(p, q) = 0 if and only if p = q,
2. d(p, q) = d(q,p) for all p and q,
3. d(p, r) ≤ d(p, q) + d(q, r) for all p, q, and r, where d(p, q) is the distance (dissimilarity)
between points (data objects), p and q.
A distance that satisfies these properties is called a metric.Following is a list of several common
distance measures to compare multivariate data. We will assume that the attributes are all continuous.
Euclidean Distance
Assume that we have measurements xik, i = 1, … , N, on variables k = 1, … , p (also called
attributes).
The Euclidean distance between the ith and jth objects is
dE(i,j)=(∑k=1p(xik−xjk)2)12

for every pair (i, j) of observations.

The weighted Euclidean distance is

dWE(i,j)=(∑k=1pWk(xik−xjk)2)12

If scales of the attributes differ substantially, standardization is necessary.

Minkowski Distance
The Minkowski distance is a generalization of the Euclidean distance.

With the measurement, xik , i = 1, … , N, k = 1, … , p, the Minkowski distance is

dM(i,j)=(∑k=1p|xik−xjk|λ)1λ,

where λ ≥ 1. It is also called the Lλ metric.

 λ = 1 : L1 metric, Manhattan or City-block distance.
 λ = 2 : L2 metric, Euclidean distance.
 λ → ∞ : L∞ metric, Supremum distance.

Note that λ and p are two different parameters. Dimension of the data matrix remains finite.

Mahalanobis Distance
Let X be a N × p matrix. Then the ith row of X is
xTi=(xi1,...,xip)
The Mahalanobis distance is

dMH(i,j)=((xi−xj)TΣ−1(xi−xj))12
where ∑ is the p×p sample covariance matrix.

Self-check
Think About It!
Calculate the answers to these questions by yourself and then click the icon on the left to reveal the
answer.

1. We have X=⎛⎝⎜112322112222412⎞⎠⎟.

 Calculate the Euclidan distances.

 Calculate the Minkowski distances (λ=1 and λ→∞ cases).

2. We have X=⎛⎝⎜2103372⎞⎠⎟.

 Calculate the Minkowski distance (λ = 1, λ = 2, and λ → ∞ cases) between the first and
second objects.
 Calculate the Mahalanobis distance between the first and second objects.

Common Properties of Similarity Measures

Similarities have some well known properties:

1. s(p, q) = 1 (or maximum similarity) only if p = q,

2. s(p, q) = s(q, p) for all p and q, where s(p, q) is the similarity between data objects, p and q.
Similarity Between Two
Binary Variables
The above similarity or distance measures are appropriate for continuous variables. However, for
binary variables a different approach is necessary.

Simple Matching and Jaccard Coefficients

 Simple matching coefficient = (n1,1+ n0,0) / (n1,1 + n1,0 + n0,1 + n0,0).

 Jaccard coefficient = n1,1 / (n1,1 + n1,0 + n0,1).
Self-check
Think About It!
Calculate the answers to the question and then click the icon on the left to reveal the answer.
1. Given data:

 p = 1 0 0 0 0 0 0 0 0 0
 q = 0 0 0 0 0 0 1 0 0 1

The frequency table is

Calculate the Simple matching coefficient and the Jaccard coefficient.

CCNA 2_ SRWE Practice PT Skills Assessment (PTSA) - Part 1 Answers
No ratings yet
CCNA 2_ SRWE Practice PT Skills Assessment (PTSA) - Part 1 Answers
42 pages
CS-DM MODULE- 3
No ratings yet
CS-DM MODULE- 3
27 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
DMi_03-Proximity
No ratings yet
DMi_03-Proximity
51 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
Similarity Measures
No ratings yet
Similarity Measures
11 pages
Lec09 466 PDF
No ratings yet
Lec09 466 PDF
5 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
Lab 2
No ratings yet
Lab 2
21 pages
L13
No ratings yet
L13
19 pages
Data Science: Department of Computer Science & Engineering
No ratings yet
Data Science: Department of Computer Science & Engineering
31 pages
Similarty and Dissimilarity
No ratings yet
Similarty and Dissimilarity
11 pages
CSE-1-PPT-MiniTest-12feb24-Similarity (6)
No ratings yet
CSE-1-PPT-MiniTest-12feb24-Similarity (6)
11 pages
CS2209 Similarity Distances
No ratings yet
CS2209 Similarity Distances
23 pages
APznzaaN7_CY3hhfhbJRXjYJ1BR6-NtGzIkO6tA99bBiITMP7edAeijYM4WIPHTX6qmgs05QF3M-ALsy0PRS_TYvyugVy6R2kjYnK0BCBRm9Wtq_9FaGq4pVaH_pFWQ-CutgWY_nI5HsUACQNIaD3Gu0gxaanUrACiGy2qvKlVDZgXatZgVnQ_WWUQGN5GK3MgGPyk7wNYpPtuWmopw0KMKDCQDXsrCNzmu9V5rqcPBmZE4z
No ratings yet
APznzaaN7_CY3hhfhbJRXjYJ1BR6-NtGzIkO6tA99bBiITMP7edAeijYM4WIPHTX6qmgs05QF3M-ALsy0PRS_TYvyugVy6R2kjYnK0BCBRm9Wtq_9FaGq4pVaH_pFWQ-CutgWY_nI5HsUACQNIaD3Gu0gxaanUrACiGy2qvKlVDZgXatZgVnQ_WWUQGN5GK3MgGPyk7wNYpPtuWmopw0KMKDCQDXsrCNzmu9V5rqcPBmZE4z
50 pages
Cluster
No ratings yet
Cluster
13 pages
Measure of Proximity
No ratings yet
Measure of Proximity
11 pages
Week 3 - Similarity Distance Measures
No ratings yet
Week 3 - Similarity Distance Measures
42 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
Class-Data Preprocessing-IV
No ratings yet
Class-Data Preprocessing-IV
28 pages
29.measuring Data Similarity and Dissimilarity Introduction
No ratings yet
29.measuring Data Similarity and Dissimilarity Introduction
43 pages
Similarity
No ratings yet
Similarity
19 pages
2 Similarity Disimilarity Measure
No ratings yet
2 Similarity Disimilarity Measure
35 pages
Similarity
No ratings yet
Similarity
20 pages
Similarity
No ratings yet
Similarity
20 pages
distance-and-similarity
No ratings yet
distance-and-similarity
33 pages
Dist
No ratings yet
Dist
14 pages
Similarity and Dissimilarity
No ratings yet
Similarity and Dissimilarity
34 pages
CS822-DataMining-Week4 (2)
No ratings yet
CS822-DataMining-Week4 (2)
45 pages
Module-3Conti.. Similarity& Dissimlarity
No ratings yet
Module-3Conti.. Similarity& Dissimlarity
29 pages
Materi 7.1. Distance Measurement
No ratings yet
Materi 7.1. Distance Measurement
14 pages
Lecture 6 Clustring
No ratings yet
Lecture 6 Clustring
7 pages
Measuring Data Similarity and Dissimilarity
No ratings yet
Measuring Data Similarity and Dissimilarity
20 pages
Clustering
No ratings yet
Clustering
15 pages
Lec2 2-Dataset2
No ratings yet
Lec2 2-Dataset2
29 pages
Cluster Analysis Introduction (Unit-6)
No ratings yet
Cluster Analysis Introduction (Unit-6)
20 pages
Lecture 3-Know Your Data - M
No ratings yet
Lecture 3-Know Your Data - M
19 pages
STAT243 Chapter 2 - Section 2.4 (1)
No ratings yet
STAT243 Chapter 2 - Section 2.4 (1)
41 pages
CSC_522_Lecture10_5f0e8c83dce359ee001691c737303b46
No ratings yet
CSC_522_Lecture10_5f0e8c83dce359ee001691c737303b46
30 pages
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-2
No ratings yet
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-2
16 pages
DM&DW Individual Assignment (50%)
No ratings yet
DM&DW Individual Assignment (50%)
4 pages
3 Unit PR NonParametric Decision Making
No ratings yet
3 Unit PR NonParametric Decision Making
78 pages
Clustering Lecture 1: Basics: Jing Gao
No ratings yet
Clustering Lecture 1: Basics: Jing Gao
62 pages
Lec 5
No ratings yet
Lec 5
22 pages
Clustering
0% (1)
Clustering
127 pages
IDS4
No ratings yet
IDS4
50 pages
DistancesSimilarities
No ratings yet
DistancesSimilarities
39 pages
Data Mining Lecture 1 - Summary
No ratings yet
Data Mining Lecture 1 - Summary
3 pages
Ml unit 2
No ratings yet
Ml unit 2
11 pages
Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2
100% (1)
Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2
16 pages
X Chapter 02 Data
No ratings yet
X Chapter 02 Data
67 pages
Similarity Analysis
No ratings yet
Similarity Analysis
85 pages
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-1
No ratings yet
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-1
11 pages
Knowing Your Data
No ratings yet
Knowing Your Data
43 pages
Data Mining: Similarity and Distance Recommendation Systems Sketching, Locality Sensitive Hashing
No ratings yet
Data Mining: Similarity and Distance Recommendation Systems Sketching, Locality Sensitive Hashing
57 pages
DM-Excercise 1A
No ratings yet
DM-Excercise 1A
2 pages
Lesson 6 Similarities KNN
No ratings yet
Lesson 6 Similarities KNN
25 pages
Slides of Lecture 2 of CS3319 SJTU
No ratings yet
Slides of Lecture 2 of CS3319 SJTU
35 pages
A-level Maths Revision: Cheeky Revision Shortcuts
From Everand
A-level Maths Revision: Cheeky Revision Shortcuts
Scool Revision
3.5/5 (8)
A Short Course in Discrete Mathematics
From Everand
A Short Course in Discrete Mathematics
Edward A. Bender
3/5 (1)
Theory of Approximation
From Everand
Theory of Approximation
N. I. Achieser
No ratings yet
Data Analytics Lab3 2100290110032
No ratings yet
Data Analytics Lab3 2100290110032
4 pages
Lang Ch2
No ratings yet
Lang Ch2
18 pages
Scope That Course 2002
No ratings yet
Scope That Course 2002
10 pages
Zscaler Deployment and Troubleshooting
No ratings yet
Zscaler Deployment and Troubleshooting
34 pages
Selenium With Python
No ratings yet
Selenium With Python
37 pages
BheemiReddy
No ratings yet
BheemiReddy
11 pages
Nmap Best One
No ratings yet
Nmap Best One
5 pages
FoBA MBA Nakitende Moureen 2019
No ratings yet
FoBA MBA Nakitende Moureen 2019
73 pages
22_tips_for_new_iOS_developers_1706389784
No ratings yet
22_tips_for_new_iOS_developers_1706389784
23 pages
ADV200 Instalação Rapida
No ratings yet
ADV200 Instalação Rapida
184 pages
Master Builder Biome Visual Mods The Best Mods in Minecraft 1st Edition Triumph Books
No ratings yet
Master Builder Biome Visual Mods The Best Mods in Minecraft 1st Edition Triumph Books
49 pages
A Complete Guide On Blog Writing
No ratings yet
A Complete Guide On Blog Writing
19 pages
Complete Final Sem Report PDF
100% (1)
Complete Final Sem Report PDF
79 pages
Low Latency Trading Systems From Basics to Implementation2 header
No ratings yet
Low Latency Trading Systems From Basics to Implementation2 header
207 pages
Statistical Machine Learning-The Basic Approach and Current Research Challenges
No ratings yet
Statistical Machine Learning-The Basic Approach and Current Research Challenges
35 pages
Facilitator Guide
No ratings yet
Facilitator Guide
39 pages
Alcatel Omni OXO Sip Trunk
No ratings yet
Alcatel Omni OXO Sip Trunk
22 pages
DBMS Lab 7
No ratings yet
DBMS Lab 7
6 pages
SPG Action Plan
No ratings yet
SPG Action Plan
2 pages
Leave Approval System Synopsispdf
No ratings yet
Leave Approval System Synopsispdf
6 pages
Getting Started With Microsoft Office Excel 2016
No ratings yet
Getting Started With Microsoft Office Excel 2016
28 pages
Grade 9 Logical Reasoning Us
No ratings yet
Grade 9 Logical Reasoning Us
10 pages
Dunham Bush WCFX E R134A
No ratings yet
Dunham Bush WCFX E R134A
11 pages
A11 - A12 - A13 - A14 - A15 - ECE3004 - Fall 2022-23 (Online) - Midterm
No ratings yet
A11 - A12 - A13 - A14 - A15 - ECE3004 - Fall 2022-23 (Online) - Midterm
1 page
Resume - Quiboy, Lady Love
No ratings yet
Resume - Quiboy, Lady Love
2 pages
Gim 2.0 Nafta Supplier Training Deck 20191003
No ratings yet
Gim 2.0 Nafta Supplier Training Deck 20191003
17 pages
2024-11-11-06-52-55-Syllabus-Combined-Ad-No-9-2024
No ratings yet
2024-11-11-06-52-55-Syllabus-Combined-Ad-No-9-2024
17 pages
Flexpoint T1/E1: Key Features
No ratings yet
Flexpoint T1/E1: Key Features
3 pages
Macros Financial Modeling
No ratings yet
Macros Financial Modeling
107 pages

18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2

Uploaded by

18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2

Uploaded by

18CSE397T– Computational Data Analysis

Unit – 3: Session – 8: SLO – 2

Similarity and Dissimilarity

Common Properties of Dissimilarity Measures

for every pair (i, j) of observations.

The weighted Euclidean distance is

If scales of the attributes differ substantially, standardization is necessary.

With the measurement, xik , i = 1, … , N, k = 1, … , p, the Minkowski distance is

where λ ≥ 1. It is also called the Lλ metric.

 Calculate the Euclidan distances.

Common Properties of Similarity Measures

1. s(p, q) = 1 (or maximum similarity) only if p = q,

Simple Matching and Jaccard Coefficients

 Simple matching coefficient = (n1,1+ n0,0) / (n1,1 + n1,0 + n0,1 + n0,0).

The frequency table is

Calculate the Simple matching coefficient and the Jaccard coefficient.

You might also like