ISTILAH cluster berkenaan dengan objek-objek yang mempunyai kemiripan. Dalam pemasaran internasional, negara-negara yang mempunyai kemiripan dimasukkan ke dalam satu cluster.
Analisis cluster juga dilakukan untuk t.ujuan mengelompokkan objek-objek. Berdasarkan karakteristik yang dimiliki, dengan analisis cluster, sekelompok objek sanggup dikelompokkan.
Analisis cluster sanggup digunakan pada bidang apa saja. Namun, pemakaian teknik ini lebih familiar pada bidang pemasaran lantaran memang salah satu acara yang dilakukan dalam pemasaran yakni pengelompokan, yang disebut segmentasi pasar.
Teknik ini dimasukkan dalam multivariat, akan tetapi, konsep variat (variate) dalam teknik ini berbeda dari konsep variat teknik-teknik multivariat lainnya. Kalau pada teknik-teknik lain variat diartikan sebagai kombinasi linier banyak sekali variabel (lihat Bab I, halaman 3), dalam analisis cluster, variat diartikan sebagai sejumlah variabel – yang dianggap sebagai karakteristik – yang digunakan untuk membanding sebuah objek dengan objek lainnya. Jadi, dalam analisis cluster, tidak dilakukan pencarian nilai variat secara empiris, sebagaimana pada teknik-teknik multivariat lainnya.
Tujuan Dasar
Tujuan utama analisis klaster yakni untuk menempatkan sekumpulan objek ke dalam dua atau lebih grup berdasarkan kesamaan-kesamaan objek atas dasar banyak sekali karakteristik. Melalui prinsip homogenitas grup, berdasarkan Hair, et. al., terdapat tiga sasaran yang tersedia bagi peneliti, yaitu:
- Deskripsi taksonomi (taxonomy description). Ini merupakan sasaran tradisional analisis klaster. Dengan taksonomi, kita mengelompokkan sekumpulan objek secara empiris. Memang, analisis klaster telah digunakan untuk keperluan-keperluan pengelompokan. Akan tetapi, kemampuannya tidak sebatas itu. Analisis klaster sanggup pula digunakan untuk memunculkan hipothesis perihal struktur objek-objek yang diteliti. Jadi, sekalipun banyak dipandang sebagai alat analisis untuk keperluan eksploratori, analisis klaster sanggup pula digunakan untuk tujuan konfirmatori.
- Simplikasi data (data simplication). Dengan taksonomi, memang kita peroleh grup. Akan tetapi, berdasarkan struktur yang diperoleh, kita juga bisa menjelaskan profil setiap grup berdasarkan karakteristik umum yang dimiliki. Kalau analisis faktor menjelaskan “dimensi” yang mendasari sejumlah variabel, dengan analisis klaster, kita juga melaksanakan hal yang sama, yaitu dimensi yang mendasari sejumlah observasi yang berada pada suatu klaster.
- Identifikasi hubungan (relationship identification). Setelah klaster terbentuk dan struktur data yang mendasarinya diperlihatkan dalam klaster, periset menerima gosip perihal hubungan antar observasi yang mustahil diperoleh dengan menganalisis observasi secara individu. Memang analisis diskriminan sanggup digunakan untuk mengetahui hubungan tersebut secara empiris. Bahkan, secara kualitatif hubungan tersebut juga bisa diidentifikasi. Akan tetapi analisis klaster seringkali memperlihatkan kesamaan-kesamaan maupun perbedaan-perbedaan yang tidak terdeteksi metoda-metoda lain.
Memilih Variabel
Setiap pengelompokan terhadap objek apa pun harus mempunyai dasar untuk mengelompokkan. Kalau ada sekumpulan orang, kita gampang melaksanakan pengelompokan berdasarkan jenis kelamin, risikonya dua kelompok: laki-laki dan wanita. Dalam pengelompokan ini, dasar atau variabel yang digunakan yakni jenis kelamin.
Pengelompokan dengan menggunakan hanya satu variabel umumnya tidak memuaskan lantaran tidak menggambarkan profil kelompok secara jelas. Jadi, supaya profil kelompok lebih jelas, kita sanggup menambahkan variabel-variabel lain, contohnya usia, tingkat pendi-dikan, pekerjaan, status perkawinan, dan lain-lain.
Sayangnya, dalam analisis cluster, pemilihan variabel-variabel yang dilibatkan dihentikan sembarangan. Aturan pertama, dengan variabel-variabel yang dilibatkan, peneliti sanggup membentuk kelompok-kelompok, yang bermanfaat dari segi bisnis maupun ilmu pengetahuan. Tidak ada gunanya melaksanakan pengelompokan kalau risikonya tidak memperlihatkan manfaat.
Dalam pemasaran, misalnya, tujuan dari segmentasi pasar yakni untuk mengenal segmen-segmen yang efektif, sehingga perusahaan sanggup menentukan satu, beberapa atau semua segmen sebagai pasar sasaran. Kalau tidak sesuai dengan sasaran peneliti, penge-lompokan tidak berguna.
Aturan kedua, pilih variabel-variabel yang betul-betul sanggup memberikan citra perihal persamaan dalam kelompok dan perbedaan antar-kelompok. Kalau dalam sebuah variabel level semua objek sama (extremely homogenous), maka variabel tersebut jangan dipakai. Misalnya, kalau dalam sebuah populasi semua orang berusia 20 tahun, jangan lagi libatkan variabel ‘usia’ untuk mengelompokkan populasi tersebut.
Sebuah variabel yang betul-betul tidak pernah sama di antara objek-objek (extremely heterogenous), atau yang selalu berbeda dari objek yang satu dengan objek lainnya, juga tidak bisa dipakai. Sebab, variabel demikian tidak akan pernah berkontribusi terhadap kesamaan (similarity) yang digunakan sebagai dasar untuk melaksanakan pengelompokan subjek.
Aturan keempat, pilihlah variabel-variabel yang secara konseptual diterima. Segmentasi pasar harus dilakukan secara kreatif, tidak terbatas pada variabel-variabel teoritis yang kaku. Teori yang ada harus diterjemahkan secara kreatif sehingga variabel-variabel yang dilibatkan mempunyai kekuatan untuk mengelompokkan subjek-subjek sesuai harapan peneliti.
Mendeteksi Outliers
Kalau di sebuah pabrik yang semua buruh bergaji tiga rupiah sebulan, kecuali satu orang bergaji dua puluh juta rupiah sebulan, maka orang yang gajinya beda sendiri ini disebut outliers.
Kehadiran outliers sanggup mengganggu analisis data. Katakanlah dalam pabrik tersebut ada 20 karyawan termasuk outliers tadi, maka rata-rata honor mereka yakni Rp 4.350.000 per bulan. Angka ini bisa menyesatkan. Dengan angka itu orang bisa menerka bahwa di pabrik tersebut honor para karyawan rata-rata di atas tiga juta rupiah per bulan, padahal 19 orang di antaranya di bawah rata-rata itu. Hanya honor si outliers itulah di atas rata-rata.
Dalam analisis cluster, kehadiran outliers juga perlu dideteksi, lantaran akan mengganggu analisis. Caranya yakni dengan menggunakan profil diagram (Gambar 7.1), yaitu dengan menampilkan data karakteristik konsumen (Tabel 7.1), secara grafis.
Perlu disampaikan tidak ada sepuluh diagram lantaran diagram beberapa responden berimpit pada beberapa variabel.
Dari Gambar 7.1 terlihat bahwa diagram responden 9 beda sendiri atau menjauh dari diagram para responden lain. Dampaknya, menyerupai terlihat pada Gambar 7.2, responden 9 tidak bisa dikelompokkan dengan responden mana pun. Hasil demikian tentu tidak baik, lantaran dalam segmentasi, salah satu kriteria segmen yang baik yakni subtantial, artinya ukuran segmen cukup besar.
Apa solusinya? Keluarkan outlier dari analisis. Hasilnya, pengelompokan lebih baik, menyerupai ditampilkan pada Gambar 7.3. Jangan persoalkan dulu bagaimana menginterpretasi dendogram pada Gambar 7.2 dan Gambar 7.3. Secara singkat, konsep ini membantu kita menentukan jumlah segmen. Secara lebih detail, penentuan jumlah segmen atau klaster dibahas di depan.
Setelah data responden 9 dikeluarkan, terlihat pada Gambar 7.3 bahwa semua objek (responden) sudah berpasang-pasangan. Dengan kata lain, tidak ada lagi responden yang sendirian.
MELAKUKAN ANALISIS KLASTER
Dalam melaksanakan analisis cluster, tahap pertama, rumuskan duduk kasus dengan menjelaskan variabel-variabel yang menjadi dasar melaksanakan analisis klaster. Kedua, tentukan ukuran jarak yang dipakai. Jarak ini menjelaskan seberapa menyerupai atau seberapa berbeda objek-objek yang diklaster.
Ketiga, tentukan mekanisme atau metoda pengklasteran (clustering) yang digunakan. Ada beberapa mekanisme pengklasteran, jadi peneliti harus menentukan yang paling tepat. Lalu, lakukan proses.
Keempat, tentukan jumlah cluster. Dalam menentukan jumlah klaster yang dibentuk, diharapkan judgement periset.
Kelima, interpretasi profil cluster-cluster yang dibentuk. Klaster-klaster yang dihasilkan harus diinterpretasi berdasarkan variabel-variabel yang digunakan untuk mengklaster. Terakhir, lakukanlah uji validitas proses pengklasteran yang dilakukan.
Tahap 1: Merumuskan Masalah
Seorang peneliti ingin mengklaster sekelompok mahasiswa berdasarkan pertimbangan dalam menentukan akademi tinggi. Ada enam variabel yang dipakai, yang tercermin dalam kuesioner di bawah ini, semuanya tergolong variabel berhavioral.
Daftar Pertanyaan:
- Saya akan menentukan akademi tinggi kecil, asalkan berkualitas, dari pada akademi tinggi besar, tetapi kualitas diragukan
Sangat tidak oke 1 2 3 4 5 6 7 Sangat setuju
- Saya banyak mendengarkan hikmah sobat dalam menentukan akademi tinggi.
Sangat tidak setuju 1 2 3 4 5 6 7 Sangat setuju
- Saya mempelajari informasi-informasi perihal akademi tinggi sebelum menentukan pilihan
Sangat tidak setuju 1 2 3 4 5 6 7 Sangat setuju
- Bagi saya, kampus yakni daerah paling baik meluaskan pergaulan
Sangat tidak setuju 1 2 3 4 5 6 7 Sangat setuju
- Bagi saya pendidikan yang saya terima sudah sesuai dengan uang kuliah yang saya bayarkan.
Sangat tidak setuju 1 2 3 4 5 6 7 Sangat setuju
- Di kampus, saya lebih menghabiskan banyak waktu bersama teman-teman
Sangat tidak setuju 1 2 3 4 5 6 7 Sangat setuju
Kuesioner di atas diberikan kepada 20 responden dan risikonya disajikan pada Tabel 7.2.
Tabel 7.2
Tahap 2: Memilih Ukuran Kesamaan
Yang namanya pembedaan atau penyamaan, niscaya ada kriterianya. Dalam analisis klaster, berdasarkan Green, et. al., kriteria itu ada dua: (1) ukuran jarak (distance-type measure) dan (2) ukuran kesesuaian (matching-type measures).[i]
Pendapat senada diberikan oleh Maholtra. Dia menyampaikan bahwa ukuran kesamaan ada juga dua, yaitu:
- Asosiasi atau hubungan antar objek.
- Kedekatan atau jarak antar objek. Jarak ini ada beberapa bentuk:
- Jarak Euclidean, yaitu jarak berupa akar dari jumlah perbedaan antar objek yang dikuadratkan.
- Cityblock atau jarak Manhattan yakni jarak berupa jumlah perbedaan adikara antar objek.
- Jarak Chebychev antar dua objek yakni perbedaan nilai absolute maksimum pada setiap variabel.[ii]
Pemakaian ukuran jarak yang berbeda sanggup menghasilkan kesimpulan yang berbeda. Oleh lantaran itu, disarankan supaya peneliti menggunakan beberapa cara yang berbeda sekaligus, kemudian melihat, dengan jarak mana dihasilkan kelompok-kelompok terbaik.
Kriteria perihal kelompok-kelompok terbaik ini, dalam pemasaran, sanggup merujuk pada syarat-syarat segmen yang baik, menyerupai disampaikan oleh Kotler, yaitu:
- Dapat diukur (measurable): Ukuran, daya beli dan karakteristik segmen sanggup diukur.
- Memadai (substantial): Segmen cukup besar dan enguntungkan untuk dilayani. Sebuah segmen seyogianya sebuah kelompok berukuran besar yang homogen, sehingga pantas menerima jadwal pemasaran secara khusus.
- Dapat dijangkau (accessible): Segmen sanggup dijangkau dan dilayani secara efektif.
- Berbeda (differentiable): Dibanding segmen lain, sebuah segmen secara konseptual segmen berbeda dan juga merespon stimuli pemasaran dengan cara berbeda.
- Dapat ditindaklanjuti (actionable): Program efektif sanggup dibuat untuk menarik dan melayani segmen.[iii]
Memang tidak semua syarat itu yang sanggup dinilai dalam analisis kluster. Akan tetapi, syarat karakteristik sanggup diukur, homogenitas dalam segmen, dan heterogenitas antar segmen, sanggup dinilai. Oleh lantaran itu, ketiga syarat tersebut, sanggup digunakan untuk menentukan ukuran kesamaan mana yang menghasilkan klaster-klaster terbaik.
Berikut ini diberi pola untuk memperlihatkan bagaimana kriteria-kriteria kesamaan itu dihitung. Data pada Tabel 7.3 berasal dari tiga responden, yaitu Andi, Karto dan Lim. Ketiga responden dibanding dengan menggunakan enam variabel. Tujuannya, menemukan dua orang yang paling menyerupai di antara ketiganya.
[i] Green, Paul. E, et. al. 1997. Research For Marketing Decision. Fifth Edition. Prentice-Hall of India Private Limited, New Delhi, hal. 580-581.
[ii] Maholtra, Naresh. K. 1996. Marketing Research An Applied Orientation. Prentice-Hall, Inc., New Yersey, hal. 676.
[iii] Kotler, P. & Keller, K.L. (2012). Marketing Management. Prentice-Hall, Inc., New Yersey.
Tabel 7.3
Kriteria Asosiasi. Untuk keperluan ini, kita sanggup menggunakan profil diagram menyerupai terlihat pada Gambar 7.4. Terlihat bahwa lekuk-lekuk profil Andi paling mrip dengan Karto. Lim mempunyai profil yang berbeda sendiri.
Selain dengan profil diagram, untuk lebih meyakinkan, kita bisa menggunakan korelasi, tepatnya hubungan product moment (sering juga disebut hubungan Pearson, hubungan sederhana atau hubungan saja). Antara Andi dan Karto, nilai hubungan yakni 0,87. Antara Andi dan Lim sebesar -0,41 dan antara Karto dan Lim sebesar -0,40. Jelas, berdasarkan koefisien korelasi, Andi paling menyerupai dengan Karto.
Kriteria Kedekatan. Untuk tujuan ini, maka ketiga responden, harus dipasang-pasangkan, yaitu Andi dan Karto (Tabel 7.4), Andi dan Lim (Tabel 7.5) dan Karto dan Lim (Tabel 7.6).
Dengan rumus tersebut, kita sanggup menghitung jarak euclidean menyerupai pada Tabel 7.4, Tabel 7.5 dan Tabel 7.6. Terlihat dari perhitungan bahwa pasangan paling bersahabat dari ketiganya, berdasarkan jarak euclidean, yakni Andi dan Lim, lantaran skornya paling rendah, yaitu 7,28. Ingat bahwa semakin rendah skor jarak, semakin bersahabat objek-objek yang dipasangkan.
Squared Euclidean Distance. Jarak ini merupakan variasi dari euclidean distance. Caranya mudah. Kalau jarak euclidean diakarkan, maka pada squared euclidean distance, akar tersebut dihilangkan, menyerupai pada rumus di bawah ini.
Dari perhitungan terlihat bahwa squared euclidean distance untuk Andi dan Karto yakni 68 (Tabel 7.4), Andi dan Lim 53 (Tabel 7.5) serta Karto dan Lim 57 (Tabel 7.6). Jadi, berdasarkan kriteria ini, yang paling bersahabat yakni Andi dan Lim.
Jarak Cityblock. Untuk menghitung jarak ini, kita tinggal mengurangkan nilai-nilai objek-objek yang dipasangkan. Hasilnya kita jadikan sebagai nilai mutlak. Lalu, kita jumlahkan nilai-nilai mutlak tersebut.
Untuk Andi dan Karto, jarak cityblock yakni 4+4+3+3+3+3=20 (Tabel 7.4). Untuk Andi dan Lim, jarak cityblock yakni 1+4+1+1+5+3=15. Sedangkan untuk Karto dan Lim, jarak cityblock yakni 3+0+2+2+2+6=15. Kesimpulannya, ada dua pasangan paling dekat, yaitu Andi dan Lim, serta Karto dan Lim.
Jarak Chebichev. Lihat nilai mutlak selisih antar objek. Lalu, dari nilai-nilai tersebut, lihat nilai yang paling tinggi, itulah jarak chebichev. Dengan demikian, jarak chebichev antara Andi dan Karto yakni sebesar 4, antara Andi dan Lim sebesar 5, dan antara Karto dan Lim sebesar 6. Oleh lantaran itu, dengan kriteria ini, maka pasangan paling bersahabat yakni Andi dan Karto.
Tahap 3: Memilih Prosedur
Dari tingkat paling mendasar, dua metoda analisis klaster yakni metoda aglomeratif (agglomerative method) dan metoda difisif (divisive method). Selengkapnya lihat Gambar 7.5.

Gambar 7.5
Agglomerative. Dimulai dengan menempatkan objek dalam klaster-klaster yang berbeda, kemudian mengelompokkan objek secara sedikit demi sedikit ke dalam klaster-klaster yang lebih besar. Artinya, pertama sekali, setiap objek diperlakukan sebagai klaster. Jadi, kalau ada 20 objek, maka pada tahap pertama, ada 20 klaster. Lalu, secara bertahap, dilakukan pengelompokan dengan menyelidiki satu pasangan objek paling mirip, kemudian keduanya menjadi satu klaster. Jadi, pada tahap kedua, jumlah klaster menjadi 19. Proses ini akan berjalan terus, sehingga pada tahap terakhir, yaitu tahap ke-19, semua objek menjadi satu klaster.
Divisive, dalam prosesnya, merupakan kebalikan metoda aglomeratif: Metoda ini dimulai dengan menempatkan semua objek sebagai satu klaster. Lalu, secara bertahap, objek-objek dipisahkan ke dalam kaster-klaster yang berbeda, dua klaster, tiga klaster dan seterusnya, hingga semua objek menjadi klaster sendiri-sendiri. Jadi, kalau ada 20 objek, pada tahap terakhir akan ada 20 klaster.
Metoda agglomerative paling banyak digunakan dalam riset pemasaran. Teknik ini sendiri masih sanggup dibagi menjadi: linkage method, sum of squares method, dan centroid method. Lalu, linkage method masih terbagi atas single linkage method, complete linkage method, dan average linkage method.
Sebenarnya banyak metoda (disebut juga algoritma) yang sudah dikembangkan dan akan dikembangkan lagi, apalagi dengan sangat berkembangnya perangkat lunak statistika. Harap maklum kalau buku-buku yang ada tidak menampung klarifikasi semua metoda. Dalam SPSS sendiri, ada tujuh metoda, yaitu between groups linkage, whithin-groups linkage, nearest-neighbore, furthest-neighbore, centroid clustering, median clustering, dan Ward’s method.
Perlu diingat, metoda apa pun yang dipakai, bersama-sama setiap metoda punya dua tujuan. Pertama, meminimalkan variasi dalam klaster (whithin-cluster variation) dan memaksimalkan variasi antar klaster (between-cluster variation).
Terus, soal metoda mana yang terbaik, tergantung pada kemampuan setiap metoda untuk menghasilkan klaster secara akurat sesuai tujuan peneliti.
Single linkage method didasarkan pada jarak minimum atau hukum tetangga terdekat. Dua objek pertama yang dikelompokkan yakni yang mempunyai jarak terdekat di antara keduanya. Selanjutnya, jarak paling bersahabat lainnya dideteksi. Objek ketiga ini, bisa saja dikelompokkan bersama dua yang terdahulu, bisa pula membentuk klaster sendiri. Pada setiap tahap, jarak antar dua klaster yakni jarak paling bersahabat di antara keduanya. Dalam SPSS metoda ini dinamakan nearest neighbore.
Dalam metoda ini, bila ada dua klaster mau digabungkan atau tidak, yang diperhatikan cukup satu anggota dari masing-masing klaster, yang keduanya bekerjasama atau berjarak paling dekat. Inilah masalahnya. Kalau sebuah klaster digabungkan hanya lantaran paling bersahabat dengan salah satu anggota, bagaimana dengan anggota-anggota lain? Kalau ternyata jaraknya jauh, metoda ini bisa menye-babkan interpretasi klaster yang tidak jelas.
Dua klaster digabungkan pada setiap tahap berdasarkan jarak paling bersahabat di antara keduanya. Proses ini berlanjut terus hingga diperoleh hanya ada satu klaster. Teknik keterkaitan tunggal (single linkage) tidak bekerja baik kalau klaster-klaster tidak defenisikan secara baik.
Metoda keterkaitan lengkap (complete linkage) sama dengan metoda keterkaitan tunggal. Bedanya, metoda ini menggunakan pendekatan jarak maksimum atau tetangga terjauh. Dalam metoda ini, jarak antara satu klaster dengan klaster lain diukur berdasarkan jarak terjauh anggota-anggota mereka. Dalam SPSS dinamakan furtherst neighbore.

Complete Linkage Method
Metoda keterkaitan rata-rata (average linkage) bekerja dengan cara yang sama. Dalam metoda ini, jarak antara dua klaster dianggap sebagai jarak rata-rata antara semua anggota dalam satu klaster dengan semua anggota klaster lain. Namun, menyerupai terlihat pada gambar, gosip yang dibutuhkan lebih banyak. Dengan masing-masing dua anggota saja, empat ‘jarak’ yang harus diketahui. Kalau jumlah anggota lebih banyak, tentu harus banyak lagi jarak yang harus dihitung. Karena alasan itulah metoda ini jarang dipakai. Karena alasan kesederhanaan pula metoda keterkaitan tunggal maupun keterkaitan lengkap yang lebih sering dipakai.
Metoda varian bertujuan memperoleh klaster yang mempunyai varian internal klaster yang sekecil mungkin. Metoda varian yang umum digunakan yakni metoda Ward. Untuk setiap klaster, rata-rata dihitung. Lalu, dihitung jarak eucledian antara setiap objek dengan nilai rata-rata itu, kemudian jarak itu dihitung semua. Pada setiap tahap, dua klaster yang mempunyai kenaikan ‘sum of squares dalam klaster’ yang terkecil digabungkan.
Dalam metoda centroid, jarak antar klaster yakni jarak antar centroid mereka. Centroid sendiri yakni rata-rata semua anggota dalam klaster. Setiap kali objek digabungkan, centroid gres dihitung, sehingga setiap kali ada penambahan anggota, centroid berubah pula. Dari pendekatan hirarkis, metoda keterkaitan rata-rata dan metoda Wards sejauh ini merupakan metoda terbaik.
Nonhierarchical procedure sering disebut sebagai mekanisme k-means. Tiga variannya yakni sequential threshold, parallel threshold, dan optimizing partitioning.
Dalam metoda sequential threshold, sebuah klaster sentra dipilih dan semua objek yang berada dalam ambang batas yang telah ditentukan (precified threshold value) dari sentra digabungkan. Lalu, sentra klaster atau bakal klaster yang gres dipilih. Lalu, proses tadi diulang lagi pada poin-poin yang belum diklaster. Sekali sebuah objek diklaster dengan sebuah bakal klaster (cluster seed), maka objek tersebut tidak bisa diutak-atik lagi.
Metoda parallel threshold dilakukan dengan cara yang sama. Bedanya, beberapa sentra klaster dipilih sekaligus. Lalu, setiap objek dalam ambang batas (threshold level) digabungkan pada sentra yang terdekat. Seiring berjalannya proses, batas jarak (threshold distance) sanggup diubahsuaikan untuk mengurangi atau menambah jumlah anggota klaster. Namun, kalau sebuah objek terlalu, sehingga sekali pun batas jarak diutak-atik tetap tidak tercakup, sebuah objek bisa tidak masuk pada klaster mana pun.
Optimizing partitioning method berbeda dari mekanisme threshold dalam hal objek sanggup digabungkan belakangan ke dalam klaster-klaster untuk mengoptimalkan semua kriteria, menyerupai jarak dalam klaster untuk sejumlah klaster. Artinya, sebuah objek sanggup dimasukkan ke sebuah klaster, kemudian dikeluarkan lagi lantaran ternyata lebih bersahabat dengan klaster lain.
Terbayang bagi kita, bagaimana menentukan poin bakal klaster? Tidak perlu repot. Umumnya program-program komputer sudah melaksanakan kiprah ini sepenuhnya. Kita hanya menentukan berapa jumlah klaster diinginkan, kemudian komputer melaksanakan semuanya.
Ada dua duduk kasus utama pendekatan non-hirarkis. Pertama, jumlah klaster harus ditentukan terlebih dahulu. Kedua, pemilihan sentra klaster tidak pasti. Seterusnya, hasil pengklasteran tergantung pada bagaimana sentra klaster dipilih. Banyak jadwal yang mulai dengan menentukan masalah pertama k (k=jumlah klaster) sebagai sentra klaster awal. Jadi, hasil pengklasteran tergantung pada observasi data.
Di balik segala kekurangan-kekurangan itu, metoda ini sanggup dilakukan dengan cepat dan sangat bermanfaat kalau jumlah observasi besar. Dianjurkan supaya pendekatan hirarkis dan non-hirarkis digunakan bersama-sama. Pertama, pakai dulu pendekatan hirarkis (misalnya dengan metoda Ward). Jumlah klaster dan centroid klaster yang dihasilkan selanjutnya digunakan sebagai input dalam optimizing partitioning method.
Pemilihan metoda pengklasteran dan pilihan ukuran jarak berkaitan satu sama lain. Contohnya, jarak eucledian kuadrat (squared eucledian distance) harus digunakan pada metoda Ward dan metoda centroid, termasuk juga beberapa metoda non-hirarkis yang menggunakan metoda ini.
Dalam buku ini, yang dibahas hanya metoda hirarkis, jelasnya metoda aglomeratif. Penjelasan berikutnya diwarnai oleh analisis data Tabel 7.2 dengan menggunakan ukuran jarak squared euclidean distance dan mekanisme Ward’s method. Menurut Maholtra, pasangan ini merupakan pasangan yang sesuai. Hasil analisis disajikan pada Tabel 7.7.
Tahap 4: Menentukan Jumlah Klaster
Lihat aglomeration schedule pada Tabel 7.7. Dua objek pertama dipasangkan yakni responden 14 dan 16 lantaran pasangan ini yang mempunyai koefisien jarak paling rendah. Objek-objek lain, sama sekali belum memperoleh pasangan. Oleh lantaran itu, pada tahap ini, jumlah klaster ada 19.
Pada baris pertama itu, pada kolom next stage tertulis 8. Artinya, pada tahap ke-8, pasangan 14 dan 16 akan menerima anggota baru, yaitu responden ke-10.
Pada tahap 2, responden 6 dan 7 dipasangkan. Artinya, koefisien jarak terendah kedua yakni pasangan ini. Lalu, berdasarkan data pada kolom next stage, pasangan ini akan memperoleh anggota gres pada tahap 6.
Demikian seterusnya, sehingga pada setiap tahap berkurang satu klaster, sehingga pada tahap terakhir, yaitu tahap 19, semua responden menjadi satu klaster, menyerupai terlihat pada kolom jumlah klaster. Kolom jumlah klaster ditambahkan oleh penulis sendiri untuk memudahkan pemahaman. Data ini tidak diberikan oleh SPSS dalam agglomerative schedule.
Kalau begitu, analisis klaster tidak memustuskan jumlah klaster dong? Ya. Analisis klaster hanya memperlihatkan kalau jumlah klaster sekian, anggotanya mana saja. Keputusan berapa jumlah klaster yang diambil berada di tangan peneliti sendiri.
Output 1. Summary Processing
Output 2. Agglomeration Schedule

Keterangan: Kolom ‘jumlah klaster’ yakni aksesori penulis. Output SPSS tidak menyertakan gosip ini
Dalam pengklasteran hirarkis, jarak sanggup digunakan sebagai kriteria. Untuk itu, perlu mengombinasikan hasil dari skedul aglomerasi da dendogram. Dari skedul aglomerasi, terlihat bahwa dari tahap pertama hingga tahap 16, peningkatan koefisien tidak drastis, akan tetapi lonjakan drastis sebesar 65,5 mulai terjadi pada tahap 17 dan 18, yaitu dari 85,292 (tahap 17) menjadi 150,792 (tahap 18). Ini terjadi pada ketika proses agglomerasi menghasilkan tiga cluster. Peningkatan koefisien ini bisa juga dilihat pada Gambar 7.6, di mana grafik koefisien menanjak secara drastis pada sehabis tahap 16. Jadi, berdasarkan perkembangan nilai koefisien, sanggup disimpulkan bahwa solusi tiga klaster yakni yang terbaik.
Pada dendogram terlihat bahwa dari sisi “Rescaled Distance Cluster Combine”, maka dua tahap terakhir dari dendogram, yaitu tahap ‘tiga klaster’ dan ‘tahap dua klaster’ mempunyai jarak paling besar. Dari kedua hasil ini sanggup disimpulkan bahwa keputusan tiga klaster merupakan yang terbaik.
Jumlah relatif anggota klaster juga sanggup dijadikan sebagai materi pertimbangan. Perhatikan dendogram. Kalau solusinya empat klaster, maka salah satu klaster berisikan hanya 1 anggota, yaitu anggota nomor 18. Tentu terasa aneh kalau ada sebuah grup yang anggotanya hanya satu. Sedangkan dengan solusi tiga klaster yang telah kita pilih, jumlah anggota-anggotanya yakni enam (klaster 1), enam (klaster 2) dan delapan (klaster 3). Dalam metoda nonhirarkis, kriteria yang digunakan akan dijelaskan kemudian.
Kesimpulan. Berdasarkan pertimbangan-pertimbangan di atas, jumlah klaster terbaik yakni tiga. Dari dendogram terlihat anggota setiap klaster. Apabila kita mulai dari atas, maka klaster satu beranggotakan responden-responden 14, 19, 4, 10, 16, dan 18. Klaster 2 beranggotakan responden-responden 2, 13, 5, 20, 11, dan 9. Terakhir, klaster 3 beranggotakan responden-responden 3, 8, 1, 6, 7, 12, 17, 15.
Interpretasi dan Pembuatan Profil
Pengelompokan tidak bermanfaat apabila kita tidak mengetahui profil setiap kelompok. Untuk menginterpretasi klaster dan menciptakan profil mereka, gunakan rata-rata setiap klaster pada setiap variabel (yang dinamakan centroid). Centroid memungkinkan kita memberi label untuk setiap klaster.
Tabel 7.7. Profil Klaster Satu

Sumber: Tabel 7.2
Tabel 7.8. Profil Klaster Dua

Sumber: Tabel 7.2

Sumber: Tabel 7.2
Seperti terlihat pada Tabel 7.7, klaster satu mempunyai rata-rata yang tinggi pada pernyataan-pernyataan:
- V2: Saya banyak mendengarkan hikmah sobat dalam menentukan akademi tinggi.
- V4: Bagi saya, kampus yakni daerah paling baik meluaskan pergaulan.
- V6: Di kampus, saya lebih menghabiskan banyak waktu bersama teman-teman.
Berdasarkan pernyataan-pernyataan tersebutlah kita mengin-terpretasi profil klaster ini. Memang dibutuhkan kreatifitas untuk menciptakan profil klaster. Untungnya, ketiga pernyataan itu sama-sama berbicara perihal persahabatan atau pertemanan. Mahasiswa dalam klaster ini lebih dipengaruhi oleh sobat atau pertimbangan siapa sobat saya dalam menentukan akademi tinggi. Oleh lantaran itu, kita sanggup menamai klaster ini, dalam bahasa ilmiah sebagai KLASTER SOSIAL, sedangkan dalam bahasa terkenal sebagai KLASTER GAUL.
Perhatikan Tabel 7.8 dan 7.9. Dapatkah anda berikan nama kedua klaster itu?
Uji Validasi
Akuratkah klaster-klaster yang saya peroleh? Ini merupakan pertanyaan terakhir. Setiap orang ingin mengetahui apakah pekerjaannya sudah benar. Sayangnya, secara statistik keakuratan sulit dibuktikan. Sekalipun banyak sekali perjuangan telah dilakukan, tetapi hingga ketika ini, tidak satu uji statistik pun yang betul-betul siap pakai.
Karena tak ada uji statistik, kita tidak perlu menyerah. Ada beberapa cara yang bisa dilakukan. Pertama, kalau ukuran sampel besar, coba bagi sampel ke dalam dua grup secara acak. Lalu, lakukan analisis klaster pada masing-masing grup. Kalau risikonya sama, bolehlah kita percaya pada keakuratan analisis klaster.
Kedua, dalam pemasaran, analisis klaster tentunya memperlihatkan citra segmen-segmen pasar yang ada. Kalau analisis klaster sanggup memperlihatkan profil yang jelas, sehingga pemasar sanggup memprediksi sikap setiap segmen, dapatlah kita percaya bahwa analisis klster akurat.
Ketiga, lakukan analisis klaster berulang kali dengan data yang sama, tetapi dengan menggunakan jarak dan metoda berbeda. Bandingkan hasil dari masing-masing perlakuan. Kalau risikonya sama, pantaslah kita yakin bahwa analisis klaster yang kita lakukan akurat.
Langkah-langkah Melakukan Analisis Klaster Dengan SPSS.
- Buka SPSS. Pada layar, ketikkan data Tabel 7.2 atau Copy dari jadwal lain (kalau sudah diketik pada program) lain, kemudian Paste pada layar SPSS.
- Ubah nama variabel dan tampilan data dengan menggunakan view pada hidangan utama, maka tampak pada layar:
- Selanjutnya, pilih hidangan analyze, kemudian classify, kemudian klik hierarchical cluster. Lalu, blok semua variabel, kemudian masukkan pada sel variable(s).
- Pada kotak obrolan utama, buka hidangan Statistics, kemudian klik Agglomeration schedule. Kemudian
- Lalu, klik plots, kemudian pada kotak obrolan yang diberikan, klik Dendogram. Lalu, kembali ke kotak obrolan utama dengan meng-klik Dengan pilihan ini, maka jadwal akan memperlihatkan Dendogram.
- Kemudian, klik hidangan method pada kotak obrolan utama. Pada kotak obrolan yang muncul, pilih pengukuran Interval (karena data memang interval) kemudian Squared euclidean distance sebagai jarak, dan sebagai Cluster method pilih Ward’s method. Tampak di layar menyerupai di bawah. Lalu, klik Continue.
- Pada kotak obrolan utama, klik OK. Lalu, diperolehlah hasil-hasil menyerupai telah dibahas.
Analisis Klaster dengan Variabel Nominal dan Ordinal
Sejauh ini, analisis klaster yang kita lakukan, menggunakan data interval. Pertanyaan, bagaimana kalau data nominal ataupun ordinal? Tidak masalah. Analisis klaster tetap bisa dilakukan.
Dua profil dianggap serupa (similar) kalau mempunyai sejumlah atribut yang sama. Mari kita pegang prinsip ini. Kalau ada dua alternatif pasangan Anto, yaitu Bilson dan Cici, apakah Anto kita pasangkan dengan Bilson (menjadi klaster Anto-Bilson) ataukah dengan Cici (menjadi klaster Anto-Cici), tergantung dengan pasangan mana Anto lebih banyak mempunyai atribut yang sama. Kalau dengan Bilson atribut Anto 80% sama, sedangkan dengan Cici atribut Anto yang sama 20%, dengan Bilsonlah Anto kita pasangkan.
Format data menyerupai pada Tabel 7.11 tidak bisa diolah pakai komputer. Oleh lantaran itu, data-data itu perlu disimbolkan, angka 1 menyatakan keberadaan suatu atribut, angka 0 menyatakan ketidak-hadiran suatu atribut. Atribut kedua pasangan dikatakan sama nilainya sama-sama 1 ataupun sama-sama 0. Ukuran kesamaan sanggup dinyatakan dengan rumus berikut:
Kalau atribut dibagi ke dalam dua kategori (dikotomi), maka ukuran kesamaan disebut koefisien asosiasi. Bagaimana kalau atribut terbagi ke dalam lebih dua kategori (polycotomies)? Tidak masalah. Yang perlu kita lakukan sama menyerupai yang kita lakukan pada regresi berganda dengan variabel non-metrik, yaitu mewakilkan variabel tersebut ke dalam k-1 variabel pernyataan, di mana k yakni jumlah kategori. Lalu, kesamaan kita ukur dengan rumus 8-3.
Bagaimana kalau variabel kita yakni adonan variabel metrik dan non-metrik? Menurut Green, et. al, kita sanggup mengubah variabel metrik (interval dan rasio) menjadi kategorikal (non-metrik), kemudian kita lakukan analisis keserupaan (matching type analysis).[ii]
Program-program komputer yang sudah sangat berkembang bersama-sama telah mengantisipasi situasi demikian. Program SPSS menyediakan pilihan two-step cluster analysis untuk menangani analisis klaster yang berisikan data non-metrik dan data metrik. Hanya, interpretasi peneliti menjadi berkurang lantaran komputer telah menentukan secara niscaya keanggotaan setiap objek. Tidak menyerupai metoda aglomeratif, di mana peranan peneliti sangat besar dalam nentukan jumlah klaster.
Standarisasi Data
Kebetulan pula dalam contoh-contoh terdahulu data yang kita gunakan berasal dari instrumen yang sama, yaitu skala numerik.
Bagaimana kalau satuan yang kita gunakan berbeda lantaran memang variabel-variabelnya menuntut demikian? Bayangkan kalau variabel kita yakni variabel sikap (diukur dengan skala numerik 1 hingga 7), usia (diukur dengan satuan tahun), pendapatan (diukur dengan rupiah), menyerupai pada Tabel 7.13. Kalau kita menggunakan hubungan sebagai ukuran jarak, maka bentuk data demikian memang tidak bermasalah. Lain halnya kalau kita menggunakan jarak euclidean. Kalau tetap dalam bentuk aslinya, maka variabel-variabel yang mempunyai standar deviasi paling besar (pendapatan), akan tampil sebagai diferensiator utama. Artinya, segmentasi kita akan dipengaruhi paling besar oleh variavel itu, padahal belum tentu demikian.
Lihat Tabel 7.15. Yang dikelompokkan pertama kali yakni responden 5 (Indro) dan 6 (Saliman), lantaran pendapatan kedua responden yang menyerupai atau paling kecil selisihnya. Kalau ditelusuri, pada agglometarion schedule ini, pengelompokan selanjutnya semata-mata didasarkan pada jarak pendapatan. Variabel-variabel lain jadi tidak mempunyai kegunaan sama sekali.
Tabel 7.13
Kalau data menggunakan skala yang berbeda, supaya memperoleh kesempatan yang sama, setiap variabel perlu distandarisasi terlebih dahulu (hasil standarisasi Tabel 7.14), barulah dilakukan analisis klaster. Hasil analisis klaster terhadap Tabel 7.14, berupa agglomeration schedule, disajikan pada Tabel 7.16.
Berbeda dengan analisis klaster tanpa standarisasi, pada masalah ini, responden paling dekat, yang dikelompokkan pertama kali yakni responden 1 (Dinan) dan responden 3 (Siska). Tentu, lantaran skala data sama, diskriminator tidak lagi hanya pendapatan.
Sumber https://www.bilsonsimamora.com