Data Mining
Data Mining
é x ... x ù
ê 11 1p ú
ê ... ... ... ú
ê ú
ê xn1 ... xnp ú
ë û
Data Matrix vs Dissimilarity Matrix
(cont)
• Dissimilarity matrix (object-by-object structure): Matriks
yang berisi kumpulan dari nilai dissimilarity sepasang obyek
sebanyak n obyek, disebut juga n-by-n table:
1- 0 1-1
d(2,1) = =1 d(4,1) = =0
1 1
Proximity Measure Atribut Biner
• Atribut biner 0 (absent) dan 1 (present)
• Jika seluruh atribut data dalam dataset memiliki bobot
yang sama, maka dapat digunakan Tabel Contigency:
d(i, j) =
å f =1 ij
p
d (f)
▫ Jika f nominal atau biner: dij( f ) = 0 jika xif = xjf selain itu
dij( f ) = 1
▫ Jika f ordinal: hitung rif dan zif
rif -1
zif =
M f -1
Contoh kasus
• Menggunakan data pada Dataset-1 (seluruh
atribut digunakan) maka dapat dihitung
dissimilarity matrix sbb:
▫ Untuk atribut test-1 dan test-2 telah dihitung
sebelumnya
▫ Untuk aribut test-3 (numerik) maka nilai dij(3):
22 - 45 64 - 45
d (3)
= = 0,55 d (3)
= = 0,45
21
64 - 22 31
64 - 22
dengan nilai maxhxh = 64 dan minhxh = 22
Contoh kasus (cont)
• Maka didapatkan dissimilarity matrix untuk atribut
test-3 sbb:
é 0 ù
ê ú
ê 0,55 0 ú
ê 0,45 1,00 0 ú
ê ú
êë 0,40 0,14 0,86 0 úû
d(i, j) =
å f =1 ij
p
d (f)
Contoh kasus (cont)
• Nilai δij(f)=1 untuk masing-masing atribut: