0% found this document useful (0 votes)
45 views10 pages

Wahyudi 2020

This document summarizes a study that used the Genetic Modified K-Nearest Neighbor (GMK-NN) algorithm to optimize coal classification based on calorie levels at PT Jasa Mutu Mineral Indonesia in Samarinda, Indonesia. GMK-NN combines genetic algorithms and the K-NN algorithm to determine the optimal K value for classification prediction. The study analyzed coal classification data from 2017 to find the best K value. It found that a K value of 1 provided the most accurate predictions, with 100% accuracy using a 90% training and 10% test data split.

Uploaded by

yulianaliffano
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
45 views10 pages

Wahyudi 2020

This document summarizes a study that used the Genetic Modified K-Nearest Neighbor (GMK-NN) algorithm to optimize coal classification based on calorie levels at PT Jasa Mutu Mineral Indonesia in Samarinda, Indonesia. GMK-NN combines genetic algorithms and the K-NN algorithm to determine the optimal K value for classification prediction. The study analyzed coal classification data from 2017 to find the best K value. It found that a K value of 1 provided the most accurate predictions, with 100% accuracy using a 90% training and 10% test data split.

Uploaded by

yulianaliffano
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 10

Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

Optimasi Klasifikasi Batubara Berdasarkan Jenis Kalori dengan menggunakan Genetic


Modified K-Nearest Neighbor (GMK-NN)
(Studi Kasus: PT Jasa Mutu Mineral Indonesia Samarinda, Kalimantan Timur)

Optimization of Coal Classification Based on Calorie using


Genetic Modified K-Nearest Neighbor (GMK-NN)
(Case Study: PT Jasa Mutu Mineral Indonesia Samarinda, Kalimantan Timur)

Nanang Wahyudi1, Sri Wahyuningsih2, dan Fidia Deny Tisna Amijaya3


1
Laboratorium Statistika Komputasi FMIPA Universitas Mulawarman
2
Laboratorium Statistika Terapan FMIPA Universitas Mulawarman
3
Laboratorium Matematika Komputasi FMIPA Universitas Mulawarman
E-mail: [email protected]

Abstract

The K-Nearest Neighbor (K-NN) method is one of the oldest and most popular Nearest Neighbor-based
methods. The researchers developed several methods to improve the performance of the K-NN algorithm by
using the Genetic Modified K-Nearest Neighbor (GMK-NN) algorithm. This method combines the genetic
algorithm and the K-NN algorithm in determining the optimal K value used in the classification prediction.
The GMK-NN algorithm will greatly facilitate the examination of coal classification in the laboratory
without having to do a lot of chemical and physics testing that takes a long time only with the data already
available. In this research, K value optimization is done to predict the classification of coal based on
calories owned by PT Jasa Mutu Mineral Indonesia in 2017. Based on the research, using the proportion of
training and testing data 90:10, 80:20 and 70:30 obtained the value of K the most optimal is at K = 1. The
highest prediction accuracy was obtained by using 90:10 proportion data which is 100%, then with the
proportion of 80:20 data obtained prediction accuracy of 91.67% and with the proportion of 70:30 data
obtained prediction accuracy of 94.44%.

Keywords: Classification, genetic algorithm, K-Nearest Neighbor

Pendahuluan memiliki kekurangan yaitu komputasi yang


Klasifikasi adalah salah satu tugas dari data kompleks dan nilai K yang masih bias. Untuk
mining yang bertujuan untuk memprediksi label mengatasi masalah ini dilakukan penelitian untuk
kategori benda yang tidak diketahui sebelumnya, masalah optimasi nilai K dengan menambah
dalam membedakan antara objek yang satu algoritma genetika (genetic algorithm) dalam
dengan yang lainnya berdasarkan atribut atau penentuan nilai K optimal. Algoritma genetika
variabel.Berdasarkan cara pelatihan, algoritma- selain berguna untuk menentukan nilai K secara
algoritma klasifikasi dapat dibagi menjadi dua otomatis juga dapat meningkatkan nilai kinerja
macam, yaitu eager learner dan lazy learner. akurasi dan dapat mengurangi kompleksitas dalam
Salah satu algoritma yang masuk ke dalam komputasi.
pelatihan lazy learner adalah Algoritma K- Penelitian sebelumnya yang dilakukan oleh
Nearest Neighbor (K-NN) (Prasetyo, 2014). Mutrofin (2015) yang berjudul “Optimasi Teknik
Metode K-NN menjadi salah satu metode Klasifikasi MK-NN Menggunakan Algoritma
berbasis NN yang paling tua dan populer. Nilai K Genetika”, peneliti melakukan optimasi nilai K
yang digunakan pada metode K-NN menyatakan dengan Genetic Algorithm (GA) yang digunakan
jumlah tetangga terdekat yang dilibatkan dalam pada K-NN menggunakan dataset Iris dan Wine
penentuan prediksi label kelas pada data dengan GMK-NN mendapatkan K optimal
testing.Ada beberapa hal yang memengaruhi sebesar 2 dengan nilai akurasi 100% untuk data
kinerja akurasi K-NN, di antaranya adalah training sebesar 70% dan 90%.
pemilihan nilai K. Data klasifikasi biasanya memiliki kriteria-
Karena dirasa masih memiliki beberapa kriteria tertentu agar suatu sampel data dapat
kekurangan maka para peneliti mengembangkan masuk ke dalam kelas tertentu. Salah satu data
beberapa metode untuk meningkatkan kinerja yang memiliki klasifikasi adalah data jenis
algoritma K-NN, salah satunya adalah algoritma batubara. Batubara merupakan komoditas energi
Modified K-Nearest Neighbor (MK-NN) (Parvin. yang semakin banyak dieksplorasi dan
dkk, 2010). Tujuan dari algoritma MK-NN adalah dieksploitasi untuk pemenuhan kebutuhan energi
untuk meningkatkan akurasi dari K-NN, dengan masyarakat dunia. Penafsiran hasil pemeriksaan
menambahkan fungsi Validitas dan Weight laboratorium untuk mengetahui klasifikasi
Voting. Namun, algoritma MK-NN juga masih batubara tidak dapat menggunakan satu jenis hasil

Program Studi Statistika FMIPA Universitas Mulawarman 103


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

pemeriksaan saja, tetapi menggunakan gabungan Selain itu pengukuran kemiripan yang diusulkan
beberapa hasil pemeriksaan. Hal itu disebabkan oleh Gower (1971) menyatakan jika nilai yang
sifat hasil pemeriksaan laboratorium pada dicari adalah biner, maka:
batubara menjadi tidak spesifik (Arif, 2014).
Dengan menggunakan algoritma GMK-NN 
s ( x , y )  1, jika x  y
0, lainnya (2)
dengan data-data yang dimiliki akan sangat Persamaan (2) menyatakan bahwa jika x dan y
memudahkan pemeriksaan klasifikasi batubara di
yang bertipe nominal atau ordinal maka s ( x, y )
laboratorium tanpa harus melakukan banyak
pengujian kimia dan fisika yang membutuhkan bernilai 1 jika mempunyai nilai yang sama dan
waktu yang lama. sebaliknya maka akan bernilai 0.
Berdasarkan uraian di atas, penulis tertarik
untuk mengkaji analisis klasifikasi algoritma yang Normalisasi Data
termasuk ke dalam kategori lazy learner dengan Variabel yang memiliki nilai yang paling besar
mengambil studi kasus klasifikasi batubara di PT memiliki pengaruh yang lebih kecil dalam
Jasa Mutu Mineral Indonesia. melakukan prediksi klasifikasi daripada variabel
yang memiliki nilai yang kecil. Untuk mengatasi
Data Mining masalah tersebut dapat digunakan teknik
Data mining merupakan bidang multi-disiplin normalisasi variabel sehingga semua variabel akan
yang melibatkan pembelajaran mesin, statistik, berada pada jangkauan yang sama.Cara untuk
database, kecerdasan buatan, pencarian informasi menentukan nilai normalisasi adalah dengan
dan visualisasi. Data mining juga disebut menghitung nilai rata-rata dan variansi seperti
Knowledge Discovery In Database (KDD). Hal dalam persamaan berikut:
ini biasanya didefinisikan sebagai proses 1 N
menemukan pola yang berguna atau pengetahuan xj  x (3)
N i 1 ij
dari sumber data, misalnya database, teks,
gambar, web, dan lain-lain. 1 N
 2j    ( xij  x j )2 (4)
N 1 i 1
Konsep Klasifikasi
Klasifikasi merupakan suatu pekerjaan menilai xij  x j
objek data untukmemasukannya ke dalam kelas xˆij 
tertentu dari sejumlah kelas yang tersedia. j (5)
Dalamklasifikasi ada dua pekerjaan utama yang
di mana:
dilakukan, yaitu pembangunan modelsebagai
N = banyak data
prototipe untuk disimpan sebagai memori dan
penggunaan model tersebutuntuk melakukan xij = data ke-i pada variabel ke-j dimana
pengenalan/klasifikasi/prediksi pada suatu objek j 1,2, ,r
data lain agardiketahui di kelas mana objek data xj = rata-rata pada variabel ke-j
tersebut dalam model yang sudah disimpannya
(Prasetyo, 2012).  2j = variansi
j = standar deviasi
Konsep Kedekatan x̂ij = normalisasi data ke-i variabel ke-j
Metode klasifikasi seperti K-NN dan metode-
metode clustering biasanya menggunakan suatu (Prasetyo, 2014).
kuantitas yang disebut kedekatan atau proximity.
Ada dua jenis kedekatan yaitu kemiripan Modified K-Nearest Neighbor (MK-NN)
(similarity) atau ketidakmiripan (dissimilarity). Metode K-NN menjadi salah satu metode
Ukuran ketidakmiripan yang paling berbasis NN yang paling tua dan populer. Ada
umum digunakan adalah jarak Euclidean yang beberapa hal yang memengaruhi kinerja akurasi
diformulasikan oleh persamaan berikut: K-NN, di antaranya adalah pemilihan nilai K. Jika
K terlalu kecil maka berakibat hasil prediksi yang
r 2
d ( xa , yb )   ( xai  ybi ) didapat bisa sensitif terhadap keberadaan noise.
(1)
i 1 Di sisi lain, jika K terlalu besar maka tetangga
di mana: terdekat yang terpilih mungkin terlalu banyak dari
xa = nilai ke-a dari data x kelas lain yang sebenarnya tidak relevan karena
jarak yang terlalu jauh.
yb = nilai ke-b dari data y Karena dirasa masih memiliki beberapa
xai = nilai ke-a variabel ke-i dari data x kekurangan maka para peneliti mengembangkan
ybi = nilai ke-b variabel ke-i dari data y beberapa metode untuk meningkatkan kinerja
algoritma K-NN, salah satunya adalah algoritma
r = jumlah variabel Modified K-Nearest Neighbor (MK-NN) (Parvin.
d = jarak Euclidean

104 Program Studi Statistika FMIPA Universitas Mulawarman


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

dkk, 2010). Tujuan dari algoritma MK-NN adalah Dalam perhitungan voting, fungsi voting ini
untuk meningkatkan akurasi dari K-NN, dengan adalah untuk menentukan data uji itu lebih
menambahkan fungsi validitas dan Weight Voting. cenderung ke kelas apa, voting sangat membantu
Nilai validitas diperoleh dengan melakukan ketika sebuah data uji memiliki kecenderungan
perhitungan jarak Euclidean pada masing-masing pada kelas yang lebih dari satu kelas. Setelah
data training dan menghitung similarity-nya. melakukan perhitungan, voting diurutkan dari
Algoritma MK-NN memiliki kelebihan yaitu nilai terbesar ke nilai terkecil dan voting dengan
mampu mengatasi akurasi rendah dari Weighted nilai terbesar akan menjadi kelas yang terpilih
K-Nearest Neighbor (WK-NN), lebih stabil dan (Mutrofin, 2015).
kuat. Namun, algoritma MK-NN juga memiliki
kekurangan yaitu komputasi yang masih Pengukuran Kinerja Klasifikasi
kompleks. Adapun rumus fungsi validitas dapat Sebuah sistem yang melakukan klasifikasi
dilihat pada Persamaan (6). diharapkan dapat melakukan klasifikasi semua set
1 K data dengan benar, tetapi tidak dipungkiri bahwa
validitas ( a )   s ( target ( xa ),target ( n (x ))) (6)
K i 1 i b kinerja suatu sistem tidak bisa 100% benar
di mana: sehingga sebuah sistem klasifikasi juga harus
diukur kinerjanya (Rodiyansyah, 2013).Untuk
validitas ( a ) = validitas data training ke-a
menghitung persentase akurasi digunakan
K = jumlah tetangga antar data persamaan:
s = similarity (nilai 1 = terbaik) Jumlah data yang diprediksi benar
Akurasi  100% (9)
target ( x a ) = label kelas data training jumlah prediksi yang dilakukan

= label kelas jarak terdekat pada data


target ( ni ( xb ))
Algoritma Genetika
training
Nilai fungsi validitas diperoleh dari perhitungan Algoritma Genetika merupakan suatu metode
similaritas antara target data trainingx dengan heuristik yang dikembangkan berdasarkan prinsip
genetika dan proses seleksi alamiah Teori Evolusi
target data training tetangganya ni ( x ) yang
Darwin. Metode optimasi dikembangkan oleh
ditentukan dengan menggunakan rumus similarity John Holland sekitar tahun 1960-an dan
pada Persamaan (7). dipopulerkan oleh salah seorang mahasiswanya
1, x  x David Goldberg pada tahun 1980-an. Proses
s ( x a , x b )   a b (7)
0, xa  xb
pencarian penyelesaian atau proses terpilihnya
sebuah penyelesaian dalam algoritma ini
Sedangkan rumus bobot (weight voting) dapat berlangsung sama seperti terpilihnya suatu
dilihat pada persamaan berikut: individu untuk bertahan hidup dalam proses
1 evolusi.Pada mulanya, populasi awal
w( x a , yb )  validitas ( a ) 
d ( xa , yb )  (8) dibangkitkan secara acak sesuai dengan
di mana: representasi masalah yang akan dikembangkan.
w = Bobot antara data training dan data Selanjutnya, operator-operator genetika akan
menggabungkan informasi genetis dari unsur-
testing
unsur populasi untuk membentuk populasi
validitas ( a ) = validitas data training
generasi berikutnya. Setiap kromosom
d ( xa , yb ) = jarak antar data training
mempunyai nilai fitness yang setara dengan nilai
 = 0,5 (parameter smoothing yang di- penyelesaian masalah. Pada generasi berikutnya,
tentukan oleh peneliti) nilai fitness kromosom sebagai representasi dari
Setelah menghitung bobot berdasarkan nilai penyelesaian masalah, diharapkan bertambah
validitas, dengan melanjutkan perhitungan voting semakin bagus.
berdasarkan bobot tiap kelas dari data uji. Adapun Berikut ini adalah struktur dasar algoritma
rumus voting dapat dilihat pada persamaan (2.20). genetika:
n 1. Inisialisasi Populasi
vote ( Kelas )   w ( xa , yb )n (9) Proses inisialisasi populasi adalah proses
i 1 membangkitkan kromosom secara acak sebanyak
di mana: ukuran populasi. Pengkodean merupakan bagian
vote ( Kelas ) = voting kelas berdasarkan bobot data penting dalam tahapan inisialisasi. Proses ini
testing dan data trainingpada kelas diperlukan dalam kaitannya dengan peranan
yang sama kromosom sebagai representasi penyelesaian
masalah.
w ( xa , yb ) n = nilai weight voting data training
2. Evaluasi Individu
dengan data testing ke-i padakelas Tahap kedua dari algoritma genetika adalah
yang sama evaluasi individu, dimana proses ini akan
menghitung nilai fitness dari setiap kromosom

Program Studi Statistika FMIPA Universitas Mulawarman 105


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

yang telah dibangkitkan secara random pada Batubara


tahap inisialisasi populasi di atas. Dalam masalah Saat ini, batubara merupakan komoditas energi
optimasi, individu (kromosom) yang bernilai yang semakin menarik. Eksplorasi dan eksploitasi
fitness yang tinggi yang akan bertahan hidup atau batubara terus meningkat untuk pemenuhan
yang akan terpilih dan kromosom yang bernilai kebutuhan energi masyarakat dunia.
rendah akan mati atau tidak terpilih pada tahap Batubaramerupakan istilah yang luas untuk
selanjutnya.Adapun rumus fungsi fitness yang keseluruhan bahan bersifat karbon yang terjadi
digunakan dapat dilihat pada Persamaan (10). secara ilmiah.
u Kualitas batubara adalah sifat fisika dan kimia
 validitas ( a ) dari batubara yang dipengaruhi potensi
a 1 kegunaannya. Umumnya untuk menentukan
fi ( x )  (10)
u kualitas batubara yang diantaranya berupa analisis
di mana: proksimat dan analisis ultimat. Analisis proksimat
u = jumlah data training digunakan untuk mengetahui karakteristik dan
fi ( K ) = fungsi fitness untuk K pada populasi kualitas batubara dalam kaitannya dengan
ke-i penggunaan batubara tersebut. Analisis proksimat
3. Elitisme dilakukan untuk menentukan jumlah air
Elitisme adalah suatu prosedur pengopian (moisture), zat terbang (volatile matter), karbon
individu agar individu yang bernilai fitness padat (fixed carbon) dan kadar abu (ash),
terbaik tidak hilang selama proses evolusi. Suatu sedangkan analisis ultimat adalah analisa dalam
individu yang memiliki nilai fitness terbaik penentuan jumlah unsur Karbon (C), Hidrogen
belum pasti akan selalu terpilih. Hal ini (H), Oksigen (O), Nitrogen (N) dan Sulfur
disebabkan karena proses penyeleksian dilakukan (Sulphur atau S).
secara random. Beberapa negara memiliki sistem klasifikasi
4. Seleksi Orang Tua batubara secara spesifik. Klasifikasi digunakan
Seleksi merupakan proses dalam algoritma untuk menggolongkan batubara berdasarkan
genetika untuk memilih kromosom yang tetap pemanfaatannya. Secara luas, klasifikasi batubara
bertahan dalam populasi. Kromosom yang terdiri dari aspek komersial dan aspek ilmiah.
terpilih mempunyai kemungkinan untuk Klasifikasi barubara menurut kalori yaitu:
dipasangkan dengan kromosom lain atau 1. Lignite
mengalami proses penyilangan sebanding dengan 2. Sub-bituminous
probabilitas penyilangan yang menghasilkan 3. Bituminous
kromosom anak. 4. Anthracite
5. Proses Penyilangan (Crossover)
Penyilangan merupakan operator dalam Hasil Penelitian dan Pembahasan
algoritma genetika yang bertujuan untuk 1. Statistika Deskriptif
melahirkan kromosom baru yang mewarisi sifat- Dalam melakukan analisis statistika deskriptif
sifat induknya sebagaimana proses reproduksi dilakukan dengan menampilkan grafik serta
yang terjadi dalam kehidupan alam. mencari rata-rata kandungan tujuh variabel yang
6. Proses Mutasi ditelitiyaitu TM, M, Ash, VM, FC, TS dan GCV
Mutasi merupakan operator dalam algoritma untuk masing-masing klasifikasi batubara lignite,
genetika yang bertujuan untuk mengubah gen- sub-bituminous dan bituminous. Adapun nilai
gen tertentu dalam sebuah kromosom. Proses ini rata-rata kandungan batubara dapat dilihat pada
dimodelkan sebagaimana yang terjadi dalam Tabel 1.
kehidupan alam. Probabilitas mutasi dari suatu Tabel 1. Rata-rata Kandungan Batubara
gen biasanya sangat kecil, persis seperti kejadian Jenis
M TM VM FC Ash TS GCV
Batubara
sebenarnya dalam kehidupam alamiah yang
Lignite 18,96 34,78 35,86 31,46 13,77 0,91 35,86
memungkinkan terjadinya mutasi genetis tetapi Sub-
14,69 26,36 40,71 39,43 5,16 0,82 40,71
dalam persentase yang sangat kecil. bituminous

7. Penggantian Populasi Bituminous 10,8 16,77 40,45 45,39 3,35 0,67 40,45

Untuk pergantian populasi dalam suatu


generasi digunakan general replacement yaitu 2. Normalisasi Data
pergantian populasi secara keseluruhan. Populasi Dalam melakukan normalisasi data digunakan
pada generasi sebelumnya yang merupakan Persamaan (3), (4) dan (5) untuk 60 data
parents diganti seluruhnya dengan populasi baru klasifikasi batubara.
yang merupakan anak atau turunannya 3. Melakukan Randomisasi Data
(offspring). Populasi pada generasi berikutnya Selanjutnya melakukan randomisasi data yang
adalah kromosom bentukan baru hasil pindah bertujuan agar setiap data memiliki kesempatan
silang dan mutasi serta ditambah kromosom hasil yang sama untuk menjadi data training dan
elitisme. testing.

106 Program Studi Statistika FMIPA Universitas Mulawarman


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

4. Membagi Data Training dan Testing 0


Setelah melakukan randomisasi data, langkah r
berikutnya membagi data menjadi data training d ( x1 , x2 )   ( x1i  x2 i )2
i 1
dan testing yang nanti akan digunakan dalam
menentukan klasifikasi batubara dengan algoritma  (( 0,766) 1,493)2   (0,744  ( 1,156))2
genetika dan algoritma MK-NN. Dengan proporsi
5,2273
90:10 diperoleh data training sebanyak 54 dan
data testing sebanyak 6. Jarak Euclidean dihitung sampai dengan data
5. Penentuan Nilai K Optimal dengan training ke 54. Kemudian dilakukan perhitungan
Algoritma Genetika similarity berdasarkan Persamaan (2) yang
Penelitian ini menggunakan algoritma berguna untuk proses perhitungan validitas dalam
genetika sebagai salah satu cara yang digunakan menentukan nilai fitness. Adapun tabel nilai
untuk melakukan optimasi nilai K yang dipakai perhitungan jarak Euclidean antar data training
ketika melakukan prediksi dengan menggunakan dan matriks similaritydapat dilihat pada Tabel 3
algoritma MK-NN. Sebelum melakukan tahap dan Tabel 4.
awal dalam algoritma genetika perlu dilakukan
penentuan parameter yang akan digunakan yaitu: Tabel 3. Perhitungan Jarak Euclidean antar Data
Training
Popsize :8 Data
1 2 3 4 54
Pc : 0,7 Training
Pm : 0,2 1 0 5,2274 1,4087 3,2064 2,9929
Panjang gen :6 2 5,2274 0 4,8720 7,0020 3,9188
Jumlah generasi (iterasi) : 15 3 1,4087 4,8720 0 2,9774 2,4080
Parameter yang ditentukan merujuk pada 4 3,2064 7,0020 2,9774 0 3,2817
parameter yang disarankan oleh De Jong.
a. Inisialisasi Populasi
54 2,9929 3,9188 2,4080 3,2817 0
Proses inisialisasi populasi adalah proses
membangkitkan kromosom secara acak sebanyak
ukuran populasinya yaitu 8 kromosom. Tabel 4. Perhitungan Similarity antar Data
Kromosom merupakan representasi calon solusi Training
atau penyelesaian masalah di mana nilai Data
1 2 3 4 54
kromosom akan menjadi nilai K yang digunakan Training
pada algoritma MK-NN. Kromosom 1 1 0 1 1 0
dibangkitkan dengan menggunakan bilangan 2 0 1 0 0 0
biner 0 dan 1 sebanyak panjang gennya yaitu 6 3 1 0 1 1 0
4 1 0 1 1 0
yang ditampilkan pada Tabel 2.
Tabel 2. Inisialisasi Populasi
54 0 0 0 0 1
Individu Kromosom Biner
P1 2 10 c. Melakukan Perhitungan Validitas dan
P2 44 101100 Fitness Populasi
P3 6 110 Nilai validitas ini merupakan dasar dari
P4 20 10100 perhitungan nilai fitness pada algoritma genetika.
P5 4 100
Perhitungan validitas dilakukan sebanyak ukuran
populasi berdasarkan nilai kromosom. Sebagai
P6 20 10100
contoh dilakukan perhitungan dengan
P7 19 10011 menggunakan kromosom pertama yaitu dengan
P8 34 100010 nilai K=2berdasarkan persamaan (6).

b. Membuat Matriks Jarak Euclidean antar 1


validitas (1)   s (( x1 ),( n1 ( x2 )))  s (( x1 ),( n2 ( x25 ))) 
2
Data Training dan Matriks Similarity
1
Perhitungan jarak Euclidean antar data  (11)
training dilakukan untuk menentukan jarak 2
terdekat data berdasarkan nilai K yang diperoleh 1
dari kromosom menggunakan Persamaan (1). Nilai validitas sebesar 1 merupakan nilai tertinggi
Contoh perhitungan untuk data training 1 yang bisa dicapai untuk masing-masing data
terhadap data training 1 dan 2 sebagai berikut: trainingdan dapat dikatakan bahwa data training
r ke-1 sangat valid atau benar.Untuk lebih jelasnya
d ( x1 , x1 )   ( x1i  x1i )2
i 1 perhitungan validitas disajikan pada Tabel 5.

Program Studi Statistika FMIPA Universitas Mulawarman 107


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

Tabel 7. Hasil Proses Penyilangan


Tabel 5. Perhitungan Validitas Data Training Orang Tua Penyilangan Hasil Nilai

Data Training Validitas


101100
44 dan 44 101100 44
1 1 101100
2 1 100010
34 dan 34 100010 34
3 0,5 100010
000110
4 1 6 dan 19 010110 22
010011
5 1
000110
6 dan 20 010110 22
010100

54 1 010011
19 dan 20 010111 23
010100
Selanjutnya yaitu menghitung nilai fitness yang 000100
4 dan 20 010100 20
digunakan sebagai fungsi optimasi dalam 010100
penentuan nilai K yang paling optimal. Nilai K
optimal akan dicapai dengan syarat berhenti jika e. Melakukan Mutasi
nilai fitness-nya mencapai 0,9 dan dengan Mutasi merupakan operator dalam algoritma
maksimal generasi sebanyak 15. Untuk genetika yang bertujuan untuk mengubah gen-
memperoleh nilai fitness dilakukan dengan cara gen tertentu dalam sebuah kromosom.
menghitung rata-rata validitas berdasarkan Probabilitas mutasi (Pm) dari suatu gen biasanya
Persamaan (10), sebagai contoh perhitungan sangat kecil, pada penelitian ini Pm yang
fungsi fitness populasi pertama dengan K=2 digunakan adalah 0,2.Dari perhitungan diperoleh
adalah sebagai berikut: bahwa offspring yang dihasilkan dari proses
54 mutasi sebanyak 2 individu, kemudian dipilih
 validitas ( a ) secara acak individu pada populasi yang akan
a 1
f1 (K 2)  dilakukan mutasi. Lebih jelasnya disajikan pada
54
(11 0,5 1 1) Tabel 8.

54 Tabel 8. Hasil Proses Mutasi
0,8981 Orang Tua Mutasi Hasil Nilai
19 010011 101100 44
Perhitungan nilai fitness dilakukan sampai jumlah
19 010011 101100 44
populasi ke-8. Perhitungan nilai fitness untuk
populasi awal dapat dilihat pada Tabel 6.
f. Menghitung FitnessOffspring dan
Tabel 6. Perhitungan Fungsi Fitness
Evaluasi Model
Individu Kromosom Fitness
Offspring yang telah dihasilkan oleh proses
P1 2 0,8981 penyilangan dan mutasi selanjutnya dilakukan
P2 44 0,3737 perhitungan nilai fitness seperti pada perhitungan
sebelumnya. Untuk offspring hasil penyilangan
P3 6 0,8796
diberi simbol C dan offspring hasil mutasi diberi
P4 20 0,6509 simbol M. Selanjutnya dilakukan evaluasi model
P5 4 0,8889 dengan menggabungkan individu offspring hasil
P6 20 0,6509 penyilangan dan mutasi dan populasi awal pada
P7 19 0,6793
satu tabel yang menjadi populasi total dan
kemudian dihitung nilai fitness-nya.Hasil
P8 34 0,4701
perhitungan evaluasi model yang telah diurutkan
dan nilai fitness dapat dilihat pada Tabel 9.
d. Melakukan Penyilangan (Crossover)
g. Melakukan Proses Seleksi
Penyilangan merupakan operator dalam
Hasil evaluasi model yang telah diurutkan
algoritma genetika yang bertujuan untuk
berdasarkan rangking-nya kemudian dilakukan
melahirkan kromosom baru yang mewarisi sifat-
proses seleksi pada tiap kromosom yang akan
sifat induknya sebagaimana proses reproduksi
menjadi populasi baru pada generasi selanjutnya.
yang terjadi dalam kehidupan alam. Pada
Pada tahap seleksi ini akan dipilih populasi
penelitian ini telah ditentukan bahwa probabilitas
sebanyak popsize sehingga dari seluruh populasi
crossover (Pc) adalah 0,7. Berdasarkan
total maka hanya akan dipilih sebanyak 8
perhitungan maka offspring yang diperoleh
kromosom yang memiliki nilai fitness yang
adalah sebanyak 6 individu. Proses Penyilangan
paling tinggi. Hasil seleksi elitisme disajikan
disajikan pada Tabel 7.
pada Tabel 10.

108 Program Studi Statistika FMIPA Universitas Mulawarman


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

6. Prediksi Klasifikasi dengan Algoritma MK-


Tabel 9. Hasil Evaluasi Model yang Telah NN
Diurutkan Prediksi klasifikasi menggunakan algoritma
Individu Kromosom Fitness MK-NN merupakan perkembangan dari K-NN
tradisional yang bertujuan untuk meningkatkan
P1 2 0,8981
akurasi dari K-NN, dengan menambahkan fungsi
P5 4 0,8889 validitas dan Weight Voting.
P3 6 0,8796
a. Menghitung Jarak Euclidean Data
P7 19 0,6509 Training dengan Data Testing
P4 20 0,8889 Dengan menggunakan proporsi 90:10
dilakukan perhitungan jarak Euclidean data
P6 20 0,6509
training dan data testing dengan menggunakan
C6 20 0,6793 Persamaan (1). Adapun perhitungan jarak
C3 22 0,4701 Euclideandata training 1 dan data testing 1 adalah
C4 22 0,3737
sebagai berikut:
C5 23 0,4701 r
d ( x1 , y1 )   ( x  y )2
1i 1i
C3 34 0,6077 i 1

P8 34 0,6077  (( 0,766)  0,371)2   (0,744  ( 1,565)) 2


5,0216
P2 44 0,5893
C1 44 0,6509 Perhitungan jarak Euclidean dilakukan pada data
M1 44 0,3737
testing 1 sampai dengan data testing 6 dan diulang
sebanyak 54 data training agar memperoleh
M2 44 0,3737 tetangga terdekat terhadap data testing. Untuk
hasil perhitungan jarak Euclidean data training
Tabel 10. Hasil Seleksi Elitisme dan data testing disajikan pada Tabel 11.
Individu Kromosom Fitness
Tabel 11. Perhitungan Jarak Euclidean Data
P1 2 0,8981 Training dan Data Testing
P5 4 0,3737 Data Testing
Data
P3 6 0,8796 Trainin
g 1 2 3 4 5 6
P7 19 0,6509
5,021 6,706 2,859 3,324 2,925 2,613
P4 20 0,8889 1
6 4 4 3 7 1
P6 20 0,6509 2,733 5,730 4,690 3,192 5,311 3,220
2
5 2 4 2 7 0
C6 20 0,6793 5,033 7,116 2,693 2,957 2,778 2,376
3
1 3 6 3 6 2
C3 22 0,4701
6,770 7,876 2,882 4,074 2,191 4,487
4
6 4 8 8 8 8
h. Penentuan Nilai K Optimal
Penentuan nilai K yang optimal diperoleh
3,351 5,739 2,217 1,280 2,664 1,310
dari optimasi yang dilakukan dengan 53
9 5 2 5 2 7
menggunakan algoritma genetika melalui kriteria 4,366 6,338 1,308 1,149 1,847 2,467
54
berhenti yang telah ditentukan yaitu maksimal 2 3 5 7 6 3
nilai fitness yang mencapai 0,9 dan tercapainya
batas generasi yang telah ditentukan yaitu 15. b. Menghitung Nilai Weight Voting
Setelah proses algoritma genetika dihentikan Perhitungan weight voting dilakukan untuk
maka akan diperoleh populasi baru yang memiliki mencari bobot data testing terhadap data training-
nilai fitness yang paling tinggi. Kromosom yang nya. Dengan menggunakan K=1 maka dicari
akan menjadi nilai K optimal adalah kromosom tetangga terdekat untuk masing-masing data
yang memiliki ranking 1 dengan nilai fitness testing. Adapun jarak Euclidean terdekat masing-
terbesar. Dengan proporsi data training dan masing data testing disajikan pada Tabel 12.
testing 90:10 menggunakan algoritma genetika Setelah mengetahui jarak Euclidean terhadap
diperoleh nilai K optimal yaitu K=1 dengan nilai masing-masing data testing dilakukan perhitungan
fitness 0,9444, kemudian dengan proporsi 80:20 weight voting pada data testing 1 sebagai berikut:
diperoleh K optimal yaitu K=1 dengan nilai  validitas (48)
1
w ( x48 , y1 )
fitness 0,9792 dan dengan proporsi 70:30 d ( x48 , y1 )  0,5
diperoleh K optimal yaitu K=1 dengan nilai
fitness 0,8809.

Program Studi Statistika FMIPA Universitas Mulawarman 109


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

1  100%
1
1,3490 0,5
 0,5408 Tabel 13. Hasil Perbandingan Kelas Prediksi Data
Perhitungan diulangi sampai data testing ke enam Testing Dan Kelas Aslinya
Data Kelas Kelas Data
dan berikutnya dilakukan voting kelas pada data Testing Prediksi Asli
Keterangan
testing.
1 1 1 Benar
Tabel 12. Jarak Euclidean Terdekat Data Testing 2 1 1 Benar
Data Jarak Terdekat Pada Kelas Data
Testing Data Training Training 3 3 3 Benar
1 48 1 4 2 2 Benar
2 19 1 5 3 3 Benar

3 35 3 6 2 2 Benar

4 34 2
Berdasarkan perhitungan prediksi akurasi
5 18 3 klasifikasi proporsi data training dandata testing
90:10 diperoleh bahwa dengan K=1 memiliki
6 53 2 akurasi klasifikasi sebesar 100%. Setelah
dilakukan proses yang sama dengan proporsi data
c. Melakukan Voting pada Data Testing training dandata testing 80:20 dan 70:30
untuk Menentukan Kelas Prediksi diperoleh juga nilai K optimal yang sama yaitu
Nilai weight voting yang telah diperoleh dari K=1.Selanjutnya dilakukan perhitungan prediksi
data testing selanjutnya dilakukan voting akurasi melalui proses yang sama dengan
berdasarkan besarnya weight voting tergantung menggunakan proporsi data 80:20 diperoleh
pada kelas data training-nya. Karena K optimal akurasi klasifikasi sebesar 91,67% dan dengan
K=1 maka hanya terdapat satu nilai weight voting menggunakan proporsi data 70:30 diperoleh
untuk masing-masing kelas dan kelas yang akurasi klasifikasi sebesar 94,44%.
memiliki nilai voting tertinggi akan menjadi
kelas data testing. Sebagai contoh perhitungan Kesimpulan
voting pada data testing 1 sebagai berikut: Berdasarkan hasil penelitian dan pembahasan,
n
vote ( Kelas )   w ( xa , yb )n maka kesimpulan yang dapat diambil adalah
i 1 sebagai berikut:
1
vote ( Kelas (1))   w ( xa , yb )1
1. Nilai K optimal yang diperoleh dengan
i 1 menggunakan algoritma Genetic Modified
 w( x48 , y1 ) K-Nearest Neighbor (GMK-NN) untuk
 0,5408 memprediksi klasifikasi batubara di PT
vote ( Kelas (2)) 0
Jasa Mutu Mineral Indonesia pada
penggunaan proporsi data training dan data
vote ( Kelas (3)) 0
testing sebesar 90:10, 80:20 dan 70:30
Voting dilakukan sampai data testing ke enam. adalah K=1.
2. Persentase akurasi prediksi klasifikasi
7. Menghitung Prediksi Akurasi Klasifikasi batubara di PT Jasa Mutu Mineral
Algoritma MK-NN Indonesia dengan menggunakan algoritma
Setelah dilakukan perhitungan voting pada Genetic Modified K-Nearest Neighbor
data testing untuk menentukan kelas prediksi, (GMK-NN) pada proporsi data training
dilakukan perhitungan akurasi klasifikasi dengan dan data testing sebesar 90:10 adalah
menggunakan K=1 pada 6 data testing. 100%, lalu pada proporsi 80:20 adalah
Berdasarkan perhitungan voting diperoleh 91,67% dan pada proporsi 70:30 adalah
perbandingan kelas prediksi data testing dan kelas 94,44%.
data testing aslinya yang disajikan pada Tabel 13.
Berdasarkan Tabel 13 dapat dilihat bahwa ke Daftar Pustaka
enam prediksi kelas data testing memiliki kelas Arif, Irwandy. (2014). Batubara Indonesia.
yang sama dengan kelas data aslinya. Proses Jakarta: Gramedia Pustaka Utama.
selanjutnya yaitu menghitung prediksi akurasi Mutrofin, Siti. (2015). Optimasi Teknik
klasifikasi MK-NN dengan K=1 dengan Klasifikasi Modified K-NN
menggunakan Persamaan (9) sebagai berikut: Menggunakan Algoritma Genetika.
Jurnal GAMMA ISSN 0216-9037.
Jumlah data yang diprediksi benar Parvin, H., Alizadeh, H., dan Bidgoli, B.M.
Akurasi  100%
jumlah prediksi yang dilakukan
(2010). A Modification on K-Nearest

110 Program Studi Statistika FMIPA Universitas Mulawarman


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

Neighbor Classifier. Global Journal of Computer Lalu Lintas Kota Bandung Menggunakan
Science and Technology Vol. 10 Naive Bayes Bayesian Classification.
November 2010. Jurnal Universitas Pendidikan
Prasetyo, Eko. (2012). Data Mining: Konsep Dan Indonesia.
Aplikasi Menggunakan Matlab. Sukandarrumidi. (2017). Batubara dan
Yogyakarta: ANDI. Pemanfaatannya: Pengantar Teknologi
Prasetyo, Eko. (2014). Data Mining: Mengolah Batubara Menuju Lingkungan Bersih.
Data Menjadi Informasi Menggunakan Yogyakarta: UGM Press.
Matlab. Yogyakarta: ANDI. Zukhri, Zainudin. (2014). Algoritma Genetika:
Rodiyansyah, S., dan Winarko, Edi. (2013). Metode Komputasi Untuk Menyelesaikan
Klasifikasi Posting Twitter Kemacetan Masalah Optimasi. Yogyakarta: ANDI.

Program Studi Statistika FMIPA Universitas Mulawarman 111


Jurnal EKSPONENSIAL Volume 10, Nomor 2, Nopember 2019 ISSN 2085-7829

112 Program Studi Statistika FMIPA Universitas Mulawarman

You might also like