0% found this document useful (0 votes)

456 views

Data Mining

The document discusses various proximity measures that can be used to calculate similarity and dissimilarity between data objects in data mining. It explains that similarity measures how alike two objects are while dissimilarity measures how different they are. Different measures are used depending on the data type, such as nominal, binary, numeric, and ordinal attributes. Formulas for calculating dissimilarity are provided for each data type. Examples using sample datasets are also given to illustrate applying the measures.

Uploaded by

Dea Valentina

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

456 views

Data Mining

Uploaded by

Dea Valentina

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 32

Similarity-Dissimilarity

Why Similarity & Dissimilarity?

• Teknik dalam Data Mining menggunakan similarity &
dissimilarity
• Similarity/dissimilarity  seberapa mirip/tidak mirip
suatu data dibanding data yang lain
• Contoh: cluster merupakan kumpulan dari data yang
saling mirip satu dengan yang lainnya.
• Pengukuran similarity/dissimilarity disebut juga
proximity measure
• Obyek i dan j dikatakan tidak mirip jika memiliki
similarity measure mendekati 0, dan sebaliknya
dikatakan mirip jika nilai similarity measure-nya >> 0
• Dissimilarity measure  kebalikan dari simmilarity
measure
Similarity
• Similarity between two objects is a numerical
measure of the degree to which the two objects
are alike.
• Consequently, similarities are higher for pairs of
objects that are more alike.
• Similarities are usually non-negative and are
often between 0 (no similarity) and 1 (complete
similarity).
Dissimilarity
• Dissimilarity between two objects is a numerical
measure of the degree to which the two objects are
different.
• Dissimilarities are lower for more similar pairs of
objects.
• Frequently, the term distance is used as a synonym
for dissimilarity, although, as we shall see, distance
is often used to refer to a special class of
dissimilarities.
• Dissimilarities sometimes fall in the interval [0,1],
but it is also common for them to range from 0 to ∞
Data Matrix vs Dissimilarity Matrix
• Jika diketahui ada sebanyak n obyek yang memiliki sejumlah
p atribut/fitur, maka obyek x1 = (x11, x12, …, x1p), x2 = (x21, x22,
…, x2p), dst, dimana xij adalah nilai dari obyek xi/obyek i pada
atribut ke-j.
• Data matrix (object-by-attribute structure): Matriks yang
berisi n data objects dalam bentuk tabel relasional, atau n-by-
p matrix (n objects x p attributes):

é x ... x ù
ê 11 1p ú
ê ... ... ... ú
ê ú
ê xn1 ... xnp ú
ë û
Data Matrix vs Dissimilarity Matrix
(cont)
• Dissimilarity matrix (object-by-object structure): Matriks
yang berisi kumpulan dari nilai dissimilarity sepasang obyek
sebanyak n obyek, disebut juga n-by-n table:

dimana d(i,j) adalah nilai dissimilarity atau jarak antar obyek i

dan j.
Data Matrix vs Dissimilarity Matrix
(cont)
• Nilai similarity dapat dinyatakan dengan fungsi
dissimilarity.
• Untuk data nominal:
sim(i, j) =1- d(i, j)
dimana sim(i,j) adalah similarity antara obyek i dan j.
• Data Matrix  2 entitas (two-mode matrix), baris
(obyek) dan kolom (atribut)
• Dissimilarity Matrix  1 entitas (one-mode matrix).
• Clustering, nearest-neighbour  sering menggunakan
dissimilarity matrix
• Data matrix dapat dikonversi ke dissimilarity matrix
Proximity Measure Atribut Nominal
• Atribut nominal dapat memiliki dua atau lebih
nilai/state. Contoh: warna
• Nilai/state dalam atribut nominal memiliki derajat yang
sama.
• Dissimilarity antara obyek i dan j dapat dihitung
menggunakan rumus:
p-m
d(i, j) =
p
dimana m adalah jumlah nilai/state yang sama antara i
dan j, sedangkan p adalah jumlah atribut dalam dataset.
• Bobot dapat ditambahkan untuk menaikkan
pengaruh/efek dari m.
Dataset-1
• Dataset dengan tipe nilai atribut campuran:
Contoh kasus
• Menggunakan data pada Dataset-1 (hanya atribut
identifier dan test-1 yg digunakan), maka dapat
dihitung dissimilarity matrix sbb:
é 0 ù
ê ú
ê 1 0 ú
ê 1 1 0 ú
ê ú
ë 0 1 1 0 û

1- 0 1-1
d(2,1) = =1 d(4,1) = =0
1 1
Proximity Measure Atribut Biner
• Atribut biner  0 (absent) dan 1 (present)
• Jika seluruh atribut data dalam dataset memiliki bobot
yang sama, maka dapat digunakan Tabel Contigency:

dimana q adalah jumlah data obyek i dan j yang

mempunyai nilai atribut 1, r adalah jumlah data obyek i
bernilai 1 sedang obyek j bernilai 0, dst.
Proximity Measure Atribut Biner (cont)
• Maka dissimilarity antara i dan j untuk data
atribut simetris dapat dihitung dengan rumus:
r+s
d(i, j) =
q+r+s+t
• Untuk data atribut asimetris:
r+s atau sim(i, j) = 1- d(i, j) =
q
d(i, j) =
q+r+s q+r+ s
• Simetris  semua nilai sama derajatnya
• Asimetris  nilai 1 dan 0 memiliki derajat
berbeda
Dataset-2
• Data pasien yang mempunyai atribut name,
gender, fever, cough, test-1, test-2, test-3, dan
test-4, dimana name sebagai identifier, atribut
gender adalah atribut simetris sedang atribut
lainnya adalah atribut asimetris.
Contoh kasus
• Menggunakan data pada Dataset-2, maka nilai Y (yes)
dan P (positif) di set 1, dan nilai N (no atau negatif) di set
0.
• Maka dapat dihitung jarak antar pasien dalam dataset:
1+1 0 +1
d(Jack, Jim) = = 0,67 d(Jack,Mary) = = 0,33
1+1+1 2 + 0 +1
1+ 2
d(Jim,Mary) = = 0,75
1+1+ 2
• Kesimpulan: Jack dan Mary memiliki kemiripan jenis
penyakit (nilai similarity-nya tinggi)
Dissimilarity Data Numerik
• Mayoritas metode yang digunakan: Euclidean,
Manhattan, Minkowski, Supremum.
• Rumus Euclidean Distance:
d(i, j) = (xi1 - x j1 )2 + (xi 2 - x j 2 )2 +...+ (xip - x jp )2
• Rumus Manhattan Distance:
d(i, j) = xi1 - x j1 + xi2 - x j 2 +...+ xip - x jp
• Rumus Minkowski Distance:
h h h
d(i, j) = h xi1 - x j1 + xi 2 - x j 2 +...+ xip - x jp

dimana h adalah jumlah atribut, h bilangan real dan h>1.

Dissimilarity Data Numerik (cont)
• Rumus Supremum Distance:
1
æ p ö
h h
p
d(i, j) = lim ççå xif - x jf ÷÷ = max xif - x jf
h®¥
è f =1 ø f

• Supremum Distance menghitung jarak maksimum

diantara jarak masing-masing nilai atribut

• Rumus Weighted Euclidean Distance:

2 2 2
d(i, j) = w1 xi1 - x j1 + w2 xi 2 - x j 2 +...+ wm xip - x jp
Contoh kasus
• Dua buah titik x1=(1,2) dan x2=(3,5). Maka jarak
antara dua titik dapat dihitung:
Proximity Measure Atribut Ordinal
• Nilai atribut ordinal mempunyai derajat yang berbeda-beda 
dapat dirangking
• Contoh: atribut ukuran (small, medium, large)
• Jika M adalah jumlah jenis nilai/state pada atribut ordinal, maka
data diurutkan 1,…,Mf, dimana f merupakan nilai atribut ordinal.
• Langkah-langkah menghitung dissimilarity:
1. Nilai atribut f untuk obyek ke-i adalah xif, dan f mempunyai
sejumlah Mf urutan state yang merepresentasikan
rif Î {1,...,M f }
urutan/rangking 1,…,Mf. Ganti xif dengan urutan rankingnya,
2. Normalisasi range tiap atribut ke dalam range [0,0 , 1,0] sehingga
mempunyai bobot yang sama. Ganti nilai rif dengan zif
menggunakan rumus Normalisasi: rif -1
zif =
M f -1
1. Dissimilarity kemudian dapat dihitung menggunakan rumus
perhitungan jarak untuk data numerik.
Contoh kasus
• Menggunakan data pada Dataset-1 (hanya atribut identifier
dan test-2 yang digunakan), maka dapat dihitung
dissimilarity matrix sbb:
é 0 ù
ê ú
ê 1,0 0 ú
ê 0,5 0,5 0 ú
ê ú
êë 0 1,0 0,5 0 úû
• Atribut test-2 mempunyai 3 state  fair, good, excellent,
maka Mf = 3
Contoh kasus (cont)
• Langkah 1: Ganti tiap nilai dengan nilai rankingnya,
fair 1, good2, excellent3
• Langkah 2: Normalisasi data ke range [0,0 , 1,0]
1-1 2 -1
z1 f =
3-1
= 1 z2 f = =0 z3 f = = 0,5
3-1 3-1 3-1
• Langkah 3: Hitung dissimilarity matrix
menggunakan rumus jarak Euclidean
é 0 ù
ê ú
ê 1,0 0 ú
ê 0,5 0,5 0 ú
ê ú
êë 0 1,0 0,5 0 úû
Proximity Measure Atribut Campuran
• Data riil  atribut campuran
• Perhitungan nilai atribut campuran  cara terpisah per
masing-masing atribut (hasilnya harus kompatibel), dan cara
dihitung semua atribut sekaligus
• Misal dataset terdiri dari p jumlah atribut bertipe campuran,
maka dissimilarity antara obyek i dan j adalah:
å f =1 ij dij
p
d (f) (f)

d(i, j) =
å f =1 ij
p
d (f)

dimana δij(f)=0 jika (1) xif atau xjf missing, atau

(2) xif = xjf = 0 dan atribut f biner asimetris
selain itu δij(f)=1
Proximity Measure Atribut Campuran
(cont)
• Sedangkan untuk perhitungan dissimilarity
antara obyek i dan j (dij(f)) dihitung berdasarkan
tipe atributnya:
xif - x jf
▫ Jika f numerik: d (f)
=
ij
max h xhf - min h xhf

▫ Jika f nominal atau biner: dij( f ) = 0 jika xif = xjf selain itu
dij( f ) = 1
▫ Jika f ordinal: hitung rif dan zif
rif -1
zif =
M f -1
Contoh kasus
• Menggunakan data pada Dataset-1 (seluruh
atribut digunakan) maka dapat dihitung
dissimilarity matrix sbb:
▫ Untuk atribut test-1 dan test-2 telah dihitung
sebelumnya
▫ Untuk aribut test-3 (numerik) maka nilai dij(3):

22 - 45 64 - 45
d (3)
= = 0,55 d (3)
= = 0,45
21
64 - 22 31
64 - 22
dengan nilai maxhxh = 64 dan minhxh = 22
Contoh kasus (cont)
• Maka didapatkan dissimilarity matrix untuk atribut
test-3 sbb:
é 0 ù
ê ú
ê 0,55 0 ú
ê 0,45 1,00 0 ú
ê ú
êë 0,40 0,14 0,86 0 úû

• Maka dapat dihitung dissimilarity matrix untuk

ketiga atribut dengan rumus:
å f =1 ij dij
p
d (f) (f)

d(i, j) =
å f =1 ij
p
d (f)
Contoh kasus (cont)
• Nilai δij(f)=1 untuk masing-masing atribut:

1(1) +1(0,50) +1(0,45)

d(3,1) = = 0,65
3
• Sehingga menghasilkan matrix dissimilarity:
é 0 ù
ê ú
ê 0,85 0 ú
ê 0,65 0,83 0 ú
ê ú
êë 0,13 0,71 0,79 0 úû
Cosine Similarity
• Cosine similarity  nonmetric measure
• Digunakan untuk data asimetris, spare data
(memiliki banyak nilai 0)  vektor term-frequency
(jumlah kata dalam dokumen)
• Aplikasi  information retrieval, text document
clustering, biological taxonomy, gene feature
mapping
• Perhitungan jarak (ex. Euclidean, dll) tidak cocok
untuk data sparse  dua vektor term-frequency
dapat memiliki banyak kesamaan nilai 0, tetapi
tidak mengindikasikan kesamaan antara keduanya
Cosine Similarity (cont)
• Cosine similarity  dapat digunakan untuk
membandingkan dokumen, merangking dokumen
berdasarkan kata yang ada
x× y x × y = å ai bi = a1b1 + a2b2 +...+ anbn
n
• Rumus:
sim(x, y) = i=1
x y
dimana ||x|| adalah nilai Euclidean norm dari vektor x =
(x1, x2,…, xp)  x 2 + x 2 +...+ x 2
1 2 p

• Nilai cosine 0 artinya kedua vektor berada pada 90

derajat satu sama lain dan tidak ada kesamaan.
• Nilai cosine semakin mendekati 1 artinya semakin kecil
sudutnya dan semakin banyak kesamaannya.
Dataset-3
• Data perbandingan antar dokumen berdasarkan
kemunculan kata dalam dokumen
Contoh kasus
• Menggunakan data pada Dataset-3, misal x dan
y adalah dua vektor term-frequency paertama
dalam dataset, x = (5,0,3,0,2,0,0,2,0,0), y =
(3,0,2,0,1,1,0,1,0,1), maka seberapa mirip x dan
y? Dengan menggunakan rumus cosine
similarity:
x × y = 5´ 3+ 0 ´ 0 + 3´ 2 + 0 ´ 0 + 2 ´1+ 0 ´1+ 0 ´ 0 + 2 ´1+ 0 ´ 0 + 0 ´1= 25
x = 52 + 02 + 32 + 02 + 22 + 02 + 02 + 22 + 02 + 02 = 6,48

y = 32 + 02 + 22 + 02 +12 +12 + 02 +12 + 02 +12 = 4,12

sim(x, y) = 0,94
Tugas
Diketahui dua obyek dengan titik (22,1,42,10) dan
(20,0,36,8). Hitung jarak kedua titik tsb
menggunakan:
• Euclidean Distance
• Manhattan Distance
• Minkowski Distance
• Supremum Distance
Tugas
• Diketahui dataset dengan 2
dimensi seperti dalam tabel
disamping.
• Diketahui sebuah titik x = (1,4 ,
1,6), urutkan data pada tabel
berdasarkan kemiripannya
dengan titik x menggunakan
Euclidean distance, Manhattan
distance, Supremum distance,
dan Cosine similarity.

Download full An Introduction to Generalized Linear Models Third Edition Barnett ebook all chapters
No ratings yet
Download full An Introduction to Generalized Linear Models Third Edition Barnett ebook all chapters
55 pages
Chi-Squared Topic Assessment
No ratings yet
Chi-Squared Topic Assessment
8 pages
Basic Statistics Assignment
No ratings yet
Basic Statistics Assignment
5 pages
03 Similarity Dissimilarity
No ratings yet
03 Similarity Dissimilarity
34 pages
Clustering and Association Rule
No ratings yet
Clustering and Association Rule
69 pages
Cluster Analysis and DBSCAN
No ratings yet
Cluster Analysis and DBSCAN
44 pages
Data Science: Department of Computer Science & Engineering
No ratings yet
Data Science: Department of Computer Science & Engineering
31 pages
02data Part4
No ratings yet
02data Part4
28 pages
29.measuring Data Similarity and Dissimilarity Introduction
No ratings yet
29.measuring Data Similarity and Dissimilarity Introduction
43 pages
Lecture 23
No ratings yet
Lecture 23
29 pages
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-1
No ratings yet
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-1
11 pages
Unit 7 Clustering
No ratings yet
Unit 7 Clustering
56 pages
DM Clustering
No ratings yet
DM Clustering
51 pages
What Is Cluster Analysis?
No ratings yet
What Is Cluster Analysis?
24 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
Data Preprocessing II
No ratings yet
Data Preprocessing II
21 pages
Similarity Measures
No ratings yet
Similarity Measures
11 pages
Analysis of cluteruing
No ratings yet
Analysis of cluteruing
16 pages
Module-3Conti.. Similarity& Dissimlarity
No ratings yet
Module-3Conti.. Similarity& Dissimlarity
29 pages
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 1
No ratings yet
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 1
6 pages
DM 05 02 Types of Data
No ratings yet
DM 05 02 Types of Data
51 pages
STAT243 Chapter 2 - Section 2.4 (1)
No ratings yet
STAT243 Chapter 2 - Section 2.4 (1)
41 pages
Data Similarity
0% (1)
Data Similarity
18 pages
Data Mining: Concepts and Techniques: Cluster Analysis
No ratings yet
Data Mining: Concepts and Techniques: Cluster Analysis
97 pages
My Notes
No ratings yet
My Notes
15 pages
Measure of Proximity
No ratings yet
Measure of Proximity
11 pages
NoteSCK3483-7b-Clustering
No ratings yet
NoteSCK3483-7b-Clustering
24 pages
8 Clustering
No ratings yet
8 Clustering
53 pages
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
No ratings yet
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
4 pages
L13
No ratings yet
L13
19 pages
405.irt
No ratings yet
405.irt
51 pages
Data Warehousing/Mining Comp 150 DW Chapter 8. Cluster Analysis
No ratings yet
Data Warehousing/Mining Comp 150 DW Chapter 8. Cluster Analysis
80 pages
Cluster Analysis Introduction
No ratings yet
Cluster Analysis Introduction
23 pages
DWM UNIT-VI (2)
No ratings yet
DWM UNIT-VI (2)
30 pages
Clustering
No ratings yet
Clustering
64 pages
What Is Cluster Analysis?: - Cluster: A Collection of Data Objects
No ratings yet
What Is Cluster Analysis?: - Cluster: A Collection of Data Objects
51 pages
CS-DM MODULE- 3
No ratings yet
CS-DM MODULE- 3
27 pages
Knowing Your Data
No ratings yet
Knowing Your Data
43 pages
Psychometrics: Statistics For Psychology
No ratings yet
Psychometrics: Statistics For Psychology
23 pages
rsfinal (1)
No ratings yet
rsfinal (1)
30 pages
5.4 MLBasics Estimators
No ratings yet
5.4 MLBasics Estimators
23 pages
APznzaaN7_CY3hhfhbJRXjYJ1BR6-NtGzIkO6tA99bBiITMP7edAeijYM4WIPHTX6qmgs05QF3M-ALsy0PRS_TYvyugVy6R2kjYnK0BCBRm9Wtq_9FaGq4pVaH_pFWQ-CutgWY_nI5HsUACQNIaD3Gu0gxaanUrACiGy2qvKlVDZgXatZgVnQ_WWUQGN5GK3MgGPyk7wNYpPtuWmopw0KMKDCQDXsrCNzmu9V5rqcPBmZE4z
No ratings yet
APznzaaN7_CY3hhfhbJRXjYJ1BR6-NtGzIkO6tA99bBiITMP7edAeijYM4WIPHTX6qmgs05QF3M-ALsy0PRS_TYvyugVy6R2kjYnK0BCBRm9Wtq_9FaGq4pVaH_pFWQ-CutgWY_nI5HsUACQNIaD3Gu0gxaanUrACiGy2qvKlVDZgXatZgVnQ_WWUQGN5GK3MgGPyk7wNYpPtuWmopw0KMKDCQDXsrCNzmu9V5rqcPBmZE4z
50 pages
Machile Learning Mid Note
No ratings yet
Machile Learning Mid Note
7 pages
Lec09 466 PDF
No ratings yet
Lec09 466 PDF
5 pages
Lecture-9 Cluster Analysis_LAK
No ratings yet
Lecture-9 Cluster Analysis_LAK
4 pages
lec05
No ratings yet
lec05
28 pages
Bagging, Boosting
100% (1)
Bagging, Boosting
32 pages
Unit 1 Ganeshk e
No ratings yet
Unit 1 Ganeshk e
24 pages
2 Similarity Disimilarity Measure
No ratings yet
2 Similarity Disimilarity Measure
35 pages
NOTES- PARAMETER ESTIMATION STATISTICS
No ratings yet
NOTES- PARAMETER ESTIMATION STATISTICS
1 page
ML Co4 Session 29
No ratings yet
ML Co4 Session 29
36 pages
ML Columbia PDF
No ratings yet
ML Columbia PDF
615 pages
Outline and Equation Sheet For M E 345: Every Additive Term in An Equation Must Have The Same Dimensions
No ratings yet
Outline and Equation Sheet For M E 345: Every Additive Term in An Equation Must Have The Same Dimensions
7 pages
Asset-V1 ColumbiaX+CSMM.102x+1T2018+type@asset+block@ML Lecture1
No ratings yet
Asset-V1 ColumbiaX+CSMM.102x+1T2018+type@asset+block@ML Lecture1
17 pages
Cluster Analysis
No ratings yet
Cluster Analysis
29 pages
tut2
No ratings yet
tut2
5 pages
Non Numeric Clustering Seminar
No ratings yet
Non Numeric Clustering Seminar
26 pages
C8 Eval
No ratings yet
C8 Eval
15 pages
11 Parameter Estimation
No ratings yet
11 Parameter Estimation
6 pages
Top Numerical Methods With Matlab For Beginners!
From Everand
Top Numerical Methods With Matlab For Beginners!
Andrei Besedin
No ratings yet
A Short Course in Discrete Mathematics
From Everand
A Short Course in Discrete Mathematics
Edward A. Bender
3/5 (1)
Exercises of Sets and Functions
From Everand
Exercises of Sets and Functions
Simone Malacrida
No ratings yet
MODULE 3-Unlocked
No ratings yet
MODULE 3-Unlocked
15 pages
Notes 4 - Confidence Intervals and Significance Tests
No ratings yet
Notes 4 - Confidence Intervals and Significance Tests
6 pages
Statistics in Music Education Research (Joshua A. Russell) (Z-Library)
No ratings yet
Statistics in Music Education Research (Joshua A. Russell) (Z-Library)
353 pages
University State Graduation Rate Student-Faculty Ratio Alumni Giving Rate
No ratings yet
University State Graduation Rate Student-Faculty Ratio Alumni Giving Rate
12 pages
Introduction To Survival Analysis: M. H. Rahbar, PHD
No ratings yet
Introduction To Survival Analysis: M. H. Rahbar, PHD
25 pages
Flipped Notes 7 Estimation
No ratings yet
Flipped Notes 7 Estimation
36 pages
Cosm Previous Year 1
No ratings yet
Cosm Previous Year 1
3 pages
STAT 135: Linear Regression: Joan Bruna
No ratings yet
STAT 135: Linear Regression: Joan Bruna
232 pages
CS2A Mega Class 2
No ratings yet
CS2A Mega Class 2
7 pages
ANOVA Example
No ratings yet
ANOVA Example
6 pages
American Statistical Association
No ratings yet
American Statistical Association
9 pages
Psych Stats Reviewer
100% (1)
Psych Stats Reviewer
16 pages
Solutions To Selected Exercises From Chapter 9 Bain & Engelhardt - Second Edition
No ratings yet
Solutions To Selected Exercises From Chapter 9 Bain & Engelhardt - Second Edition
13 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
31 pages
United States International University - Africa: Master of Science Management & Organizational Development (Mod)
No ratings yet
United States International University - Africa: Master of Science Management & Organizational Development (Mod)
5 pages
Week 8:: Hypothesis Testing With One-Sample T-Test
No ratings yet
Week 8:: Hypothesis Testing With One-Sample T-Test
18 pages
Evaluation
No ratings yet
Evaluation
12 pages
Prob & Random Process Q
No ratings yet
Prob & Random Process Q
20 pages
Hasil Uji Validitas Dan Reliabilitas: Item-Total Statistics
No ratings yet
Hasil Uji Validitas Dan Reliabilitas: Item-Total Statistics
3 pages
Chapter 3 - Measure of Location and Dispersion
No ratings yet
Chapter 3 - Measure of Location and Dispersion
11 pages
Week 10 - ANOVA
No ratings yet
Week 10 - ANOVA
9 pages
301 739 1 PB PDF
No ratings yet
301 739 1 PB PDF
7 pages
Assignment #1 (FSP) : Student Name: Qurat-Anwar I.D #:19095 Question#1
No ratings yet
Assignment #1 (FSP) : Student Name: Qurat-Anwar I.D #:19095 Question#1
4 pages
Hypothesis Testing Spinning The Wheel
No ratings yet
Hypothesis Testing Spinning The Wheel
1 page
Math Midterm
No ratings yet
Math Midterm
9 pages
MLR - Bank Revenues PDF
No ratings yet
MLR - Bank Revenues PDF
18 pages
A Short Tutorial On Fuzzy Time Series - Part III
No ratings yet
A Short Tutorial On Fuzzy Time Series - Part III
17 pages

Data Mining

Uploaded by

Data Mining

Uploaded by

Similarity-Dissimilarity

Why Similarity & Dissimilarity?

dimana d(i,j) adalah nilai dissimilarity atau jarak antar obyek i

dimana q adalah jumlah data obyek i dan j yang

dimana h adalah jumlah atribut, h bilangan real dan h>1.

• Supremum Distance menghitung jarak maksimum

• Rumus Weighted Euclidean Distance:

dimana δij(f)=0 jika (1) xif atau xjf missing, atau

• Maka dapat dihitung dissimilarity matrix untuk

1(1) +1(0,50) +1(0,45)

• Nilai cosine 0 artinya kedua vektor berada pada 90

y = 32 + 02 + 22 + 02 +12 +12 + 02 +12 + 02 +12 = 4,12

You might also like