Metode k-means
3. Beberapa Permasalahan yang Terkait Dengan K-Means
Beberapa permasalahan yang sering muncul pada saat menggunakan metode K-Means untuk
melakukan pengelompokan data adalah:
1. Ditemukannya beberapa model clustering yang berbeda
2. Pemilihan jumlah cluster yang paling tepat
3. Kegagalan untuk converge
4. Pendeteksian outliers
5. Bentuk masing-masing cluster
6. Masalah overlapping
Keenam permasalahan ini adalah beberapa hal yang perlu diperhatikan pada saat
menggunakan K-Means dalam mengelompokkan data. Permasalahan 1 umumnya
disebabkan oleh perbedaan proses inisialisasi anggota masing-masing cluster. Proses
initialisasi yang sering digunakan adalah proses inisialisasi secara random. Dalam suatu
studi perbandingan[13], proses inisialisasi secara random mempunyai kecenderungan untuk
memberikan hasil yang lebih baik dan independent, walaupun dari segi kecepatan untuk
converge lebih lambat.
Permasalahan 2 merupakan masalah laten dalam metode K-Means. Beberapa pendekatan
telah digunakan dalam menentukan jumlah cluster yang paling tepat untuk suatu dataset
yang dianalisa termasuk di antaranya Partition Entropy (PE)[3] dan GAP Statistics[15]. Satu
hal yang patut diperhatikan mengenai metode-metode ini adalah pendekatan yang digunakan
dalam mengembangkan metode-metode tersebut tidak sama dengan pendekatan yang
digunakan oleh K-Means dalam mempartisi data items ke masing-masing cluster.
Permasalahan kegagalan untuk converge, secara teori memungkinkan untuk terjadi dalam
kedua metode K-Means yang dijelaskan di dalam tulisan ini. Kemungkinan ini akan semakin
besar terjadi untuk metode Hard K-Means, karena setiap data di dalam dataset dialokasikan
secara tegas (hard) untuk menjadi bagian dari suatu cluster tertentu. Perpindahan suatu data
ke suatu cluster tertentu dapat mengubah karakteristik model clustering yang dapat
menyebabkan data yang telah dipindahkan tersebut lebih sesuai untuk berada di cluster
semula sebelum data tersebut dipindahkan. Demikian juga dengan keadaan sebaliknya.
Kejadian seperti ini tentu akan mengakibatkan pemodelan tidak akan berhenti dan kegagalan
untuk converge akan terjadi. Untuk Fuzzy K-Means, walaupun ada, kemungkinan
permasalahan ini untuk terjadi sangatlah kecil, karena setiap data diperlengkapi dengan
membership function (Fuzzy K-Means) untuk menjadi anggota cluster yang ditemukan.
Jurnal Sistem dan Informatika Vol. 3 (Pebruari 2007), 47-60
52
Permasalahan keempat merupakan permasalahan umum yang terjadi hampir di setiap
metode yang melakukan pemodelan terhadap data. Khusus untuk metode K-Means hal ini
memang menjadi permasalahan yang cukup menentukan. Beberapa hal yang perlu
diperhatikan dalam melakukan pendeteksian outliers dalam proses pengelompokan data
termasuk bagaimana menentukan apakah suatu data item merupakan outliers dari suatu
cluster tertentu dan apakah data dalam jumlah kecil yang membentuk suatu cluster tersendiri
dapat dianggap sebagai outliers. Proses ini memerlukan suatu pendekatan khusus yang
berbeda dengan proses pendeteksian outliers di dalam suatu dataset yang hanya terdiri dari
satu populasi yang homogen.
Permasalahan kelima adalah menyangkut bentuk cluster yang ditemukan. Tidak seperti
metode data clustering lainnya termasuk Mixture Modelling[1,7,16], K-Means umumnya tidak
mengindahkan bentuk dari masing-masing cluster yang mendasari model yang terbentuk,
walaupun secara natural masing-masing cluster umumnya berbentuk bundar. Untuk dataset
yang diperkirakan mempunyai bentuk yang tidak biasa, beberapa pendekatan perlu untuk
diterapkan. Hal ini akan dibahas lebih lanjut dalam Bab 5 dan Bab 6.
Masalah overlapping sebagai permasalahan terakhir sering sekali diabaikan karena
umumnya masalah ini sulit terdeteksi. Hal ini terjadi untuk metode Hard K-Means dan
Fuzzy K-Means, karena secara teori, metode ini tidak diperlengkapi feature untuk
mendeteksi apakah di dalam suatu cluster ada cluster lain yang kemungkinan tersembunyi.
4. Semi-Supervised Classification?
K-Means merupakan metode data clustering yang digolongkan sebagai metode
pengklasifikasian yang bersifat unsupervised (tanpa arahan). Pengkategorian metode-metode
pengklasifikasian data antara supervised dan unsupervised classification didasarkan pada
adanya dataset yang data itemnya sudah sejak awal mempunyai label kelas dan dataset yang
data itemnya tidak mempunyai label kelas. Untuk data yang sudah mempunyai label kelas,
metode pengklasifikasian yang digunakan merupakan metode supervised classification dan
untuk data yang belum mempunyai label kelas, metode pengklasifikasian yang digunakan
adalah metode unsupervised classification.
Selain masalah optimasi pengelompokan data ke masing-masing cluster, data clustering juga
diasosiasikan dengan permasalahan penentuan jumlah cluster yang paling tepat untuk data
yang dianalisa. Untuk kedua jenis K-Means, baik Hard K-Means dan Fuzzy K-Means, yang
telah dijelaskan di atas, penentuan jumlah cluster untuk dataset yang dianalisa umumnya
dilakukan secara supervised atau ditentukan dari awal oleh pengguna, walaupun dalam
penerapannya ada beberapa metode yang sering dipasangkan dengan metode K-Means.
Karena secara teori metode penentuan jumlah cluster ini tidak sama dengan metode
pengelompokan yang dilakukan oleh K-Means, kevalidan jumlah cluster yang dihasilkan
umumnya masih dipertanyakan.
Melihat keadaan dimana pengguna umumnya sering menentukan jumlah cluster sendiri
secara terpisah, baik itu dengan menggunakan metode tertentu atau berdasarkan pengalaman,
Jurnal Sistem dan Informatika Vol. 3 (Pebruari 2007), 47-60
53
di sini, kedua metode K-Means ini dapat disebut sebagai metode semi-supervised
classification, karena metode ini mengalokasikan data items ke masing-masing cluster
secara unsupervised dan menentukan jumlah cluster yang paling sesuai dengan data yang
dianalisa secara supervised.
5. K-Means untuk Data yang Mempunyai Bentuk Khusus
Beberapa dataset yang mempunyai bentuk tertentu memerlukan suatu metode pemecahan
khusus yang disesuaikan dengan keadaan data tersebut. Gambar 1. mengilustrasikan suatu
dataset yang mempunyai bentuk khusus yang kalau dimodel dengan metode K-Means, baik
Hard K-Means dan Fuzzy K-Means akan memberikan hasil yang tidak mewakili keadaan
dataset tersebut.
Untuk keperluan seperti itu, beberapa peneliti[5,10,11] telah mengusulkan pengembangan
metode K-Means yang secara khusus memanfaatkan kernel trik, dimana data space untuk
data awal di-mapping ke feature space yang berdimensi tinggi. Beberapa hal yang perlu
diperhatikan dalam pengembangan metode K-Means dengan kernel trik ini adalah bahwa
data pada feature space tidak lagi dapat didefinisikan secara eksplisit, sehingga
penghitungan nilai membership function dan centroid tidak dapat dilakukan secara langsung.
Beberapa trik penghitungan telah diusulkan dalam menurunkan nilai kedua variabel yang
diperlukan tersebut[5,10,11]. Dengan penerapan trik perhitungan terhadap kedua variabel
tersebut, objective function yang digunakan dalam menilai apakah suatu proses
pengelompokan sudah converge atau tidak juga akan berubah.
nike free, chanel handbags, coach factory outlet, tiffany and co, coach outlet store online, ray ban sunglasses, air max pas cher, burberry outlet, christian louboutin shoes, longchamp outlet, michael kors outlet, kate spade outlet, louboutin outlet, michael kors outlet, air max, kate spade handbags, tiffany and co, polo ralph lauren outlet, oakley sunglasses cheap, air max, longchamp handbags, burberry outlet, prada outlet, louis vuitton outlet stores, louboutin, louis vuitton, ray ban sunglasses, michael kors outlet, nike shoes, louboutin shoes, michael kors outlet, prada handbags, tory burch outlet, michael kors outlet, coach outlet, louis vuitton outlet, michael kors outlet, oakley sunglasses, polo ralph lauren outlet, gucci outlet, oakley sunglasses, coach purses, jordan shoes, louis vuitton outlet, louis vuitton handbags, longchamp handbags
ReplyDeletelouboutin, nike free, nike huarache, air jordan, longchamp, sac hermes, nike roshe run, nike tn, converse pas cher, michael kors, hogan outlet, abercrombie and fitch, ray ban sunglasses, nike roshe, nike trainers, lululemon, new balance pas cher, hollister, michael kors, nike free pas cher, nike blazer, north face, mac cosmetics, air force, mulberry, longchamp, hollister, air max, nike air max, ray ban pas cher, north face, timberland, hollister, louis vuitton uk, sac louis vuitton, oakley pas cher, sac louis vuitton, barbour, ralph lauren, sac longchamp, vans pas cher, polo lacoste, sac guess, vans shoes, michael kors pas cher, sac burberry, vanessa bruno, polo ralph lauren, nike roshe run, louis vuitton
ReplyDeletejimmy choo outlet, canada goose, moncler, instyler, ferragamo shoes, ugg boots, ugg pas cher, babyliss pro, asics running shoes, lululemon outlet, valentino shoes, mont blanc, chi flat iron, celine handbags, canada goose jackets, moncler, soccer jerseys, rolex watches, canada goose outlet, soccer shoes, ghd, canada goose, wedding dresses, mcm handbags, north face outlet, marc jacobs, birkin bag, nfl jerseys, new balance shoes, p90x, canada goose, insanity workout, beats by dre, ugg boots, bottega veneta, north face jackets, abercrombie and fitch, baseball bats, moncler outlet, herve leger, canada goose uk, air max, ugg, giuseppe zanotti, iphone 6 cases, uggs outlet, moncler, hollister clothing store, reebok outlet, ugg australia
ReplyDeletecalvin klein outlet
ReplyDeletegoyard handbags
ferragamo belt
bape clothing
yeezy boost 350 v2
air yeezy
kyrie 6 shoes
yeezy
curry 6 shoes
moncler jackets
This is one of the most incredible article I've read in a really long time. I hope you update this blog often because I’m anxious to read more about.
ReplyDeletekurti stitching factory
stitching factory in pakistan
Denizli
ReplyDeleteKonya
Denizli
ısparta
Bayburt
BUMP5
bingöl
ReplyDeleteelazığ
hakkari
sakarya
erzincan
M8XUDB
B8504
ReplyDeleteKırşehir Parça Eşya Taşıma
Artvin Parça Eşya Taşıma
Etimesgut Fayans Ustası
Gümüşhane Lojistik
Diyarbakır Parça Eşya Taşıma
Bartın Şehir İçi Nakliyat
Ünye Çelik Kapı
Karaman Parça Eşya Taşıma
Kırıkkale Şehirler Arası Nakliyat
6A013
ReplyDeletebinance
ED3D8
ReplyDeletebinance referans
1BADE
ReplyDeleteGate io Borsası Güvenilir mi
resimlimagnet
Binance Kimin
resimli magnet
Kripto Para Üretme Siteleri
Kripto Para Üretme Siteleri
Yeni Çıkacak Coin Nasıl Alınır
Bulut Madenciliği Nedir
Kripto Para Kazanma
B8274
ReplyDeleteCoin Kazma
Coin Nasıl Oynanır
Okex Borsası Güvenilir mi
resimli
Coin Nasıl Üretilir
Bitcoin Madenciliği Nedir
Binance Ne Kadar Komisyon Alıyor
Bitcoin Kazanma
Coin Nasıl Çıkarılır
913C3
ReplyDeletesohbet muhabbet
muş görüntülü sohbet uygulamaları ücretsiz
muş mobil sohbet bedava
yalova canlı sohbet siteleri
kayseri sesli sohbet sitesi
diyarbakır random görüntülü sohbet
sesli sohbet siteleri
sesli sohbet mobil
adana görüntülü sohbet kadınlarla
A23B2
ReplyDeleterastgele sohbet
balıkesir canlı sohbet bedava
Niğde Mobil Sohbet
bedava sohbet odaları
muş sesli görüntülü sohbet
istanbul tamamen ücretsiz sohbet siteleri
sohbet odaları
kocaeli sesli mobil sohbet
kocaeli sohbet odaları
7080D
ReplyDeleteAnkara Canli Goruntulu Sohbet Siteleri
giresun ücretsiz sohbet odaları
Aksaray Kadınlarla Sohbet
Kırşehir Kızlarla Canlı Sohbet
yabancı canlı sohbet
bedava görüntülü sohbet
istanbul seslı sohbet sıtelerı
Amasya Sesli Sohbet Siteleri
şırnak ücretsiz sohbet uygulaması
1F28E
ReplyDeleteTumblr Takipçi Hilesi
Luffy Coin Hangi Borsada
Referans Kimliği Nedir
Twitch Takipçi Satın Al
Onlyfans Takipçi Satın Al
Coin Çıkarma
Pinterest Takipçi Hilesi
Kaspa Coin Hangi Borsada
Kripto Para Nasıl Kazılır
A0081
ReplyDeleteledger live
shiba
poocoin
uniswap
poocoin
poocoin
ledger desktop
quickswap
aave
0F6F5
ReplyDeletedappradar
satoshivm
dao maker
trezor suite
avalaunch
dexview
phantom wallet
pinksale
dexscreener
698A8
ReplyDeleteArsuz
İzmirli İfşa
Darıca
Gemlik
Bursa
Yıldızeli
Gürsu
Çermik
Yüreğir
bape outlet
ReplyDeletecurry 8
nike sb dunks
49923CAF53
ReplyDeletedexview
dextools app
polymarket pool
polymarket
poocoin
polymarket
ethena
pulsechain
pinksale finance
C5A3F9E2CE
ReplyDeleteinstagram düşmeyen takipçi
2E7D8F3704
ReplyDeletetwitter takipçi satın al