Wahyudi 2020
Wahyudi 2020
Abstract
The K-Nearest Neighbor (K-NN) method is one of the oldest and most popular Nearest Neighbor-based
methods. The researchers developed several methods to improve the performance of the K-NN algorithm by
using the Genetic Modified K-Nearest Neighbor (GMK-NN) algorithm. This method combines the genetic
algorithm and the K-NN algorithm in determining the optimal K value used in the classification prediction.
The GMK-NN algorithm will greatly facilitate the examination of coal classification in the laboratory
without having to do a lot of chemical and physics testing that takes a long time only with the data already
available. In this research, K value optimization is done to predict the classification of coal based on
calories owned by PT Jasa Mutu Mineral Indonesia in 2017. Based on the research, using the proportion of
training and testing data 90:10, 80:20 and 70:30 obtained the value of K the most optimal is at K = 1. The
highest prediction accuracy was obtained by using 90:10 proportion data which is 100%, then with the
proportion of 80:20 data obtained prediction accuracy of 91.67% and with the proportion of 70:30 data
obtained prediction accuracy of 94.44%.
pemeriksaan saja, tetapi menggunakan gabungan Selain itu pengukuran kemiripan yang diusulkan
beberapa hasil pemeriksaan. Hal itu disebabkan oleh Gower (1971) menyatakan jika nilai yang
sifat hasil pemeriksaan laboratorium pada dicari adalah biner, maka:
batubara menjadi tidak spesifik (Arif, 2014).
Dengan menggunakan algoritma GMK-NN
s ( x , y ) 1, jika x y
0, lainnya (2)
dengan data-data yang dimiliki akan sangat Persamaan (2) menyatakan bahwa jika x dan y
memudahkan pemeriksaan klasifikasi batubara di
yang bertipe nominal atau ordinal maka s ( x, y )
laboratorium tanpa harus melakukan banyak
pengujian kimia dan fisika yang membutuhkan bernilai 1 jika mempunyai nilai yang sama dan
waktu yang lama. sebaliknya maka akan bernilai 0.
Berdasarkan uraian di atas, penulis tertarik
untuk mengkaji analisis klasifikasi algoritma yang Normalisasi Data
termasuk ke dalam kategori lazy learner dengan Variabel yang memiliki nilai yang paling besar
mengambil studi kasus klasifikasi batubara di PT memiliki pengaruh yang lebih kecil dalam
Jasa Mutu Mineral Indonesia. melakukan prediksi klasifikasi daripada variabel
yang memiliki nilai yang kecil. Untuk mengatasi
Data Mining masalah tersebut dapat digunakan teknik
Data mining merupakan bidang multi-disiplin normalisasi variabel sehingga semua variabel akan
yang melibatkan pembelajaran mesin, statistik, berada pada jangkauan yang sama.Cara untuk
database, kecerdasan buatan, pencarian informasi menentukan nilai normalisasi adalah dengan
dan visualisasi. Data mining juga disebut menghitung nilai rata-rata dan variansi seperti
Knowledge Discovery In Database (KDD). Hal dalam persamaan berikut:
ini biasanya didefinisikan sebagai proses 1 N
menemukan pola yang berguna atau pengetahuan xj x (3)
N i 1 ij
dari sumber data, misalnya database, teks,
gambar, web, dan lain-lain. 1 N
2j ( xij x j )2 (4)
N 1 i 1
Konsep Klasifikasi
Klasifikasi merupakan suatu pekerjaan menilai xij x j
objek data untukmemasukannya ke dalam kelas xˆij
tertentu dari sejumlah kelas yang tersedia. j (5)
Dalamklasifikasi ada dua pekerjaan utama yang
di mana:
dilakukan, yaitu pembangunan modelsebagai
N = banyak data
prototipe untuk disimpan sebagai memori dan
penggunaan model tersebutuntuk melakukan xij = data ke-i pada variabel ke-j dimana
pengenalan/klasifikasi/prediksi pada suatu objek j 1,2, ,r
data lain agardiketahui di kelas mana objek data xj = rata-rata pada variabel ke-j
tersebut dalam model yang sudah disimpannya
(Prasetyo, 2012). 2j = variansi
j = standar deviasi
Konsep Kedekatan x̂ij = normalisasi data ke-i variabel ke-j
Metode klasifikasi seperti K-NN dan metode-
metode clustering biasanya menggunakan suatu (Prasetyo, 2014).
kuantitas yang disebut kedekatan atau proximity.
Ada dua jenis kedekatan yaitu kemiripan Modified K-Nearest Neighbor (MK-NN)
(similarity) atau ketidakmiripan (dissimilarity). Metode K-NN menjadi salah satu metode
Ukuran ketidakmiripan yang paling berbasis NN yang paling tua dan populer. Ada
umum digunakan adalah jarak Euclidean yang beberapa hal yang memengaruhi kinerja akurasi
diformulasikan oleh persamaan berikut: K-NN, di antaranya adalah pemilihan nilai K. Jika
K terlalu kecil maka berakibat hasil prediksi yang
r 2
d ( xa , yb ) ( xai ybi ) didapat bisa sensitif terhadap keberadaan noise.
(1)
i 1 Di sisi lain, jika K terlalu besar maka tetangga
di mana: terdekat yang terpilih mungkin terlalu banyak dari
xa = nilai ke-a dari data x kelas lain yang sebenarnya tidak relevan karena
jarak yang terlalu jauh.
yb = nilai ke-b dari data y Karena dirasa masih memiliki beberapa
xai = nilai ke-a variabel ke-i dari data x kekurangan maka para peneliti mengembangkan
ybi = nilai ke-b variabel ke-i dari data y beberapa metode untuk meningkatkan kinerja
algoritma K-NN, salah satunya adalah algoritma
r = jumlah variabel Modified K-Nearest Neighbor (MK-NN) (Parvin.
d = jarak Euclidean
dkk, 2010). Tujuan dari algoritma MK-NN adalah Dalam perhitungan voting, fungsi voting ini
untuk meningkatkan akurasi dari K-NN, dengan adalah untuk menentukan data uji itu lebih
menambahkan fungsi validitas dan Weight Voting. cenderung ke kelas apa, voting sangat membantu
Nilai validitas diperoleh dengan melakukan ketika sebuah data uji memiliki kecenderungan
perhitungan jarak Euclidean pada masing-masing pada kelas yang lebih dari satu kelas. Setelah
data training dan menghitung similarity-nya. melakukan perhitungan, voting diurutkan dari
Algoritma MK-NN memiliki kelebihan yaitu nilai terbesar ke nilai terkecil dan voting dengan
mampu mengatasi akurasi rendah dari Weighted nilai terbesar akan menjadi kelas yang terpilih
K-Nearest Neighbor (WK-NN), lebih stabil dan (Mutrofin, 2015).
kuat. Namun, algoritma MK-NN juga memiliki
kekurangan yaitu komputasi yang masih Pengukuran Kinerja Klasifikasi
kompleks. Adapun rumus fungsi validitas dapat Sebuah sistem yang melakukan klasifikasi
dilihat pada Persamaan (6). diharapkan dapat melakukan klasifikasi semua set
1 K data dengan benar, tetapi tidak dipungkiri bahwa
validitas ( a ) s ( target ( xa ),target ( n (x ))) (6)
K i 1 i b kinerja suatu sistem tidak bisa 100% benar
di mana: sehingga sebuah sistem klasifikasi juga harus
diukur kinerjanya (Rodiyansyah, 2013).Untuk
validitas ( a ) = validitas data training ke-a
menghitung persentase akurasi digunakan
K = jumlah tetangga antar data persamaan:
s = similarity (nilai 1 = terbaik) Jumlah data yang diprediksi benar
Akurasi 100% (9)
target ( x a ) = label kelas data training jumlah prediksi yang dilakukan
7. Penggantian Populasi Bituminous 10,8 16,77 40,45 45,39 3,35 0,67 40,45
54 1 010011
19 dan 20 010111 23
010100
Selanjutnya yaitu menghitung nilai fitness yang 000100
4 dan 20 010100 20
digunakan sebagai fungsi optimasi dalam 010100
penentuan nilai K yang paling optimal. Nilai K
optimal akan dicapai dengan syarat berhenti jika e. Melakukan Mutasi
nilai fitness-nya mencapai 0,9 dan dengan Mutasi merupakan operator dalam algoritma
maksimal generasi sebanyak 15. Untuk genetika yang bertujuan untuk mengubah gen-
memperoleh nilai fitness dilakukan dengan cara gen tertentu dalam sebuah kromosom.
menghitung rata-rata validitas berdasarkan Probabilitas mutasi (Pm) dari suatu gen biasanya
Persamaan (10), sebagai contoh perhitungan sangat kecil, pada penelitian ini Pm yang
fungsi fitness populasi pertama dengan K=2 digunakan adalah 0,2.Dari perhitungan diperoleh
adalah sebagai berikut: bahwa offspring yang dihasilkan dari proses
54 mutasi sebanyak 2 individu, kemudian dipilih
validitas ( a ) secara acak individu pada populasi yang akan
a 1
f1 (K 2) dilakukan mutasi. Lebih jelasnya disajikan pada
54
(11 0,5 1 1) Tabel 8.
54 Tabel 8. Hasil Proses Mutasi
0,8981 Orang Tua Mutasi Hasil Nilai
19 010011 101100 44
Perhitungan nilai fitness dilakukan sampai jumlah
19 010011 101100 44
populasi ke-8. Perhitungan nilai fitness untuk
populasi awal dapat dilihat pada Tabel 6.
f. Menghitung FitnessOffspring dan
Tabel 6. Perhitungan Fungsi Fitness
Evaluasi Model
Individu Kromosom Fitness
Offspring yang telah dihasilkan oleh proses
P1 2 0,8981 penyilangan dan mutasi selanjutnya dilakukan
P2 44 0,3737 perhitungan nilai fitness seperti pada perhitungan
sebelumnya. Untuk offspring hasil penyilangan
P3 6 0,8796
diberi simbol C dan offspring hasil mutasi diberi
P4 20 0,6509 simbol M. Selanjutnya dilakukan evaluasi model
P5 4 0,8889 dengan menggabungkan individu offspring hasil
P6 20 0,6509 penyilangan dan mutasi dan populasi awal pada
P7 19 0,6793
satu tabel yang menjadi populasi total dan
kemudian dihitung nilai fitness-nya.Hasil
P8 34 0,4701
perhitungan evaluasi model yang telah diurutkan
dan nilai fitness dapat dilihat pada Tabel 9.
d. Melakukan Penyilangan (Crossover)
g. Melakukan Proses Seleksi
Penyilangan merupakan operator dalam
Hasil evaluasi model yang telah diurutkan
algoritma genetika yang bertujuan untuk
berdasarkan rangking-nya kemudian dilakukan
melahirkan kromosom baru yang mewarisi sifat-
proses seleksi pada tiap kromosom yang akan
sifat induknya sebagaimana proses reproduksi
menjadi populasi baru pada generasi selanjutnya.
yang terjadi dalam kehidupan alam. Pada
Pada tahap seleksi ini akan dipilih populasi
penelitian ini telah ditentukan bahwa probabilitas
sebanyak popsize sehingga dari seluruh populasi
crossover (Pc) adalah 0,7. Berdasarkan
total maka hanya akan dipilih sebanyak 8
perhitungan maka offspring yang diperoleh
kromosom yang memiliki nilai fitness yang
adalah sebanyak 6 individu. Proses Penyilangan
paling tinggi. Hasil seleksi elitisme disajikan
disajikan pada Tabel 7.
pada Tabel 10.
1 100%
1
1,3490 0,5
0,5408 Tabel 13. Hasil Perbandingan Kelas Prediksi Data
Perhitungan diulangi sampai data testing ke enam Testing Dan Kelas Aslinya
Data Kelas Kelas Data
dan berikutnya dilakukan voting kelas pada data Testing Prediksi Asli
Keterangan
testing.
1 1 1 Benar
Tabel 12. Jarak Euclidean Terdekat Data Testing 2 1 1 Benar
Data Jarak Terdekat Pada Kelas Data
Testing Data Training Training 3 3 3 Benar
1 48 1 4 2 2 Benar
2 19 1 5 3 3 Benar
3 35 3 6 2 2 Benar
4 34 2
Berdasarkan perhitungan prediksi akurasi
5 18 3 klasifikasi proporsi data training dandata testing
90:10 diperoleh bahwa dengan K=1 memiliki
6 53 2 akurasi klasifikasi sebesar 100%. Setelah
dilakukan proses yang sama dengan proporsi data
c. Melakukan Voting pada Data Testing training dandata testing 80:20 dan 70:30
untuk Menentukan Kelas Prediksi diperoleh juga nilai K optimal yang sama yaitu
Nilai weight voting yang telah diperoleh dari K=1.Selanjutnya dilakukan perhitungan prediksi
data testing selanjutnya dilakukan voting akurasi melalui proses yang sama dengan
berdasarkan besarnya weight voting tergantung menggunakan proporsi data 80:20 diperoleh
pada kelas data training-nya. Karena K optimal akurasi klasifikasi sebesar 91,67% dan dengan
K=1 maka hanya terdapat satu nilai weight voting menggunakan proporsi data 70:30 diperoleh
untuk masing-masing kelas dan kelas yang akurasi klasifikasi sebesar 94,44%.
memiliki nilai voting tertinggi akan menjadi
kelas data testing. Sebagai contoh perhitungan Kesimpulan
voting pada data testing 1 sebagai berikut: Berdasarkan hasil penelitian dan pembahasan,
n
vote ( Kelas ) w ( xa , yb )n maka kesimpulan yang dapat diambil adalah
i 1 sebagai berikut:
1
vote ( Kelas (1)) w ( xa , yb )1
1. Nilai K optimal yang diperoleh dengan
i 1 menggunakan algoritma Genetic Modified
w( x48 , y1 ) K-Nearest Neighbor (GMK-NN) untuk
0,5408 memprediksi klasifikasi batubara di PT
vote ( Kelas (2)) 0
Jasa Mutu Mineral Indonesia pada
penggunaan proporsi data training dan data
vote ( Kelas (3)) 0
testing sebesar 90:10, 80:20 dan 70:30
Voting dilakukan sampai data testing ke enam. adalah K=1.
2. Persentase akurasi prediksi klasifikasi
7. Menghitung Prediksi Akurasi Klasifikasi batubara di PT Jasa Mutu Mineral
Algoritma MK-NN Indonesia dengan menggunakan algoritma
Setelah dilakukan perhitungan voting pada Genetic Modified K-Nearest Neighbor
data testing untuk menentukan kelas prediksi, (GMK-NN) pada proporsi data training
dilakukan perhitungan akurasi klasifikasi dengan dan data testing sebesar 90:10 adalah
menggunakan K=1 pada 6 data testing. 100%, lalu pada proporsi 80:20 adalah
Berdasarkan perhitungan voting diperoleh 91,67% dan pada proporsi 70:30 adalah
perbandingan kelas prediksi data testing dan kelas 94,44%.
data testing aslinya yang disajikan pada Tabel 13.
Berdasarkan Tabel 13 dapat dilihat bahwa ke Daftar Pustaka
enam prediksi kelas data testing memiliki kelas Arif, Irwandy. (2014). Batubara Indonesia.
yang sama dengan kelas data aslinya. Proses Jakarta: Gramedia Pustaka Utama.
selanjutnya yaitu menghitung prediksi akurasi Mutrofin, Siti. (2015). Optimasi Teknik
klasifikasi MK-NN dengan K=1 dengan Klasifikasi Modified K-NN
menggunakan Persamaan (9) sebagai berikut: Menggunakan Algoritma Genetika.
Jurnal GAMMA ISSN 0216-9037.
Jumlah data yang diprediksi benar Parvin, H., Alizadeh, H., dan Bidgoli, B.M.
Akurasi 100%
jumlah prediksi yang dilakukan
(2010). A Modification on K-Nearest
Neighbor Classifier. Global Journal of Computer Lalu Lintas Kota Bandung Menggunakan
Science and Technology Vol. 10 Naive Bayes Bayesian Classification.
November 2010. Jurnal Universitas Pendidikan
Prasetyo, Eko. (2012). Data Mining: Konsep Dan Indonesia.
Aplikasi Menggunakan Matlab. Sukandarrumidi. (2017). Batubara dan
Yogyakarta: ANDI. Pemanfaatannya: Pengantar Teknologi
Prasetyo, Eko. (2014). Data Mining: Mengolah Batubara Menuju Lingkungan Bersih.
Data Menjadi Informasi Menggunakan Yogyakarta: UGM Press.
Matlab. Yogyakarta: ANDI. Zukhri, Zainudin. (2014). Algoritma Genetika:
Rodiyansyah, S., dan Winarko, Edi. (2013). Metode Komputasi Untuk Menyelesaikan
Klasifikasi Posting Twitter Kemacetan Masalah Optimasi. Yogyakarta: ANDI.