Multivariate
Multivariate
Daftar Isi
Analisis multivariat ................................................ .................................................. .................................................. .......... 1
Cluster Observations...................................................................................................................................................... 12
Cluster K-Means............................................................................................................................................................. 20
Index .................................................................................................................................................................................... 39
• Analyze the data covariance structure to understand it or to reduce the data dimension
Because Minitab does not compare tests of significance for multivariate procedures, interpreting the results is somewhat subjective. However, you can make informed
conclusions if you are familiar with your data.
• Principal Components helps you to understand the covariance structure in the original variables and/or to create a smaller number of variables using this structure.
• Factor Analysis, like principal components, summarizes the data covariance structure in a smaller number of dimensions. The emphasis in factor analysis is
the identification of underlying "factors" that might explain the dimensions associated with large data variability.
Grouping observations
Minitab offers three cluster analysis methods and discriminant analysis for grouping observations:
• Cluster Observations groups or clusters observations that are "close" to each other when the groups are initially unknown. This method is a good choice when
no outside information about grouping exists. The choice of final grouping is usually made according to what makes sense for your data after viewing clustering
statistics.
• Cluster Variables groups or clusters variables that are "close" to each other when the groups are initially unknown. The procedure is similar to clustering of
observations. You may want to cluster variables to reduce their number.
• Cluster K-Means, like clustering of observations, groups observations that are "close" to each other. K-means clustering works best when sufficient
information is available to make good starting cluster designations.
• Discriminant Analysis classifies observations into two or more groups if you have a sample with known groups. You can use discriminant analysis to investigate how
the predictors contribute to the groupings.
Correspondence Analysis
Minitab offers two methods of correspondence analysis to explore the relationships among categorical variables:
• Simple Correspondence Analysis explores relationships in a 2-way classification. You can use this procedure with 3- way and 4-way tables because Minitab can
collapse them into 2-way tables. Simple correspondence analysis decomposes a contingency table similar to how principal components analysis decomposes
multivariate continuous data. Simple correspondence analysis performs an eigen analysis of data, breaks down variability into underlying dimensions, and associates
variability with rows and/or columns.
• Multiple Correspondence Analysis extends simple correspondence analysis to the case of 3 or more categorical variables. Multiple correspondence analysis performs a
simple correspondence analysis on an indicator variables matrix in which each column corresponds to a level of a categorical variable. Rather than a 2-way table, the
multi-way table is collapsed into 1 dimension.
Multivariate
Stat > Multivariate
Allows you to perform a principal components analysis, factor analysis, cluster analysis, discriminant analysis, and correspondence analysis. Select one of the
following options: Principal Components − performs principal components analysis Factor Analysis − performs factor analysis Cluster Observations − performs
agglomerative hierarchical clustering of observations Cluster Variables − performs agglomerative hierarchical clustering of variables
Cluster K-Means − performs K-means non-hierarchical clustering of observations Discriminant Analysis − performs linear and quadratic discriminant analysis Simple
Correspondence Analysis − performs simple correspondence analysis on a two-way contingency table Multiple Correspondence Analysis − performs multiple
Minitab offers the following additional multivariate analysis options: Balanced MANOVA General
The following examples illustrate how to use the various multivariate analysis techniques available. Choose an example below:
[1] TW Anderson (1984). Sebuah Pengantar multivariat Analisis Statistik, Edisi kedua. John Wiley & Sons. [2] W. Dillon dan M. Goldstein (1984). Analisis multivariat:
Metode dan Aplikasi. John Wiley & Sons. [3] SE Fienberg (1987). Analisis Cross-Baris data Kategoris. The MIT Press. [4] MJ Greenacre (1993). Analisis korespondensi
dalam Praktek. Academic Press, Harcourt, Brace & Company. [5] H. Harmon (1976). Modern Factor Analysis, Edisi ketiga. University of Chicago Press. [6] R. Johnson
dan D. Wichern (1992). Terapan multivariat Metode Statistik, Third Edition. Prentice Hall. [7] K. Joreskog (1977). "Factor Analysis by Least Squares and Maximum
Digital Computers, ed. K. Enslein, A. Ralston and H. Wilf, John Wiley & Sons. [8] J. K. Kihlberg, E. A. Narragon, and B. J. Campbell. (1964). Automobile crash
[10] G. W. Milligan (1980). "An Examination of the Effect of Six Types of Error Pertubation on Fifteen Clustering
Algorithms," Psychometrika, 45, 325-342.
[11] S.J. Press and S. Wilson (1978). "Choosing Between Logistic Regression and Discriminant Analysis," Journal of the
American Statistical Association, 73, 699-705.
[12] A. C. Rencher (1995). Methods of Multivariate Analysis, John Wiley & Sons.
Principal Components
Principal Components Analysis
Stat > Multivariate > Principal Components
Use principal component analysis to help you to understand the underlying data structure and/or form a smaller number of uncorrelated variables (for example, to avoid
multicollinearity in regression).
An overview of principal component analysis can be found in most books on multivariate analysis, such as [5].
Number of components to compute: Enter the number of principal components to be extracted. If you do not specify the number of components and there are p variables
selected, then p principal components will be extracted. If p is large, you may want just the first few.
Type of Matrix
Correlation: Choose to calculate the principal components using the correlation matrix. Use the correlation matrix if it makes sense to standardize variables (the usual
choice when variables are measured by different scales).
Covariance: Choose to calculate the principal components using the covariance matrix. Use the covariance matrix if you do not wish to standardize variables.
<Graphs> <Storage>
2 In Variables , enter the columns containing the measurement data. 3 If you like, use any dialog
Nonuniqueness of Coefficients
The coefficients are unique (except for a change in sign) if the eigenvalues are distinct and not zero. If an eigenvalue is repeated, then the "space spanned" by all the
principal component vectors corresponding to the same eigenvalue is unique, but the individual vectors are not. Therefore, the coefficients that Minitab prints and those in
a book or another program may not agree, though the eigenvalues (variances) will always be the same.
If the covariance matrix has rank r < p, where p is the number of variables, then there will be p - r eigenvalues equal to zero. Eigenvectors corresponding to these eigenvalues
may not be unique. This can happen if the number of observations is less than p or if there is multicollinearity.
Menampilkan plot untuk menilai pentingnya komponen utama yang berbeda dan untuk memeriksa skor dari dua komponen utama pertama.
Skor plot untuk 2 komponen pertama: Periksa untuk merencanakan skor untuk komponen utama kedua (y-axis) versus skor untuk komponen utama pertama (x-axis).
Untuk membuat plot untuk komponen lain, menyimpan skor dan menggunakan Grafik> sebar.
Memuat plot untuk 2 komponen pertama: Periksa untuk merencanakan beban untuk komponen kedua (y-axis) versus beban untuk komponen pertama (x-axis). Sebuah
garis ditarik dari setiap pemuatan ke (0, 0) titik.
Scores: Enter the storage columns for the principal components scores. Scores are linear combinations of your data using the coefficients. The number of columns specified
must be less than or equal to the number of principal components calculated.
You perform principal components analysis to understand the underlying data structure. You use the correlation matrix to standardize the measurements because they are
not measured with the same scale. 1 Open the worksheet EXH_MVAR.MTW. 2 Choose Stat > Multivariate > Principal Components.
Eigenanalysis dari Korelasi Matrix Eigenvalue 3,0289 1,2911 0,5725 0,0954 0,0121 Proporsi
Menginterpretasikan hasil
Komponen utama pertama memiliki varians (eigenvalue) 3,0289 dan menyumbang 60,6% dari total varians. Koefisien terdaftar di bawah PC1 menunjukkan
bagaimana menghitung skor komponen utama:
PC1 = -. 558 Pop - . 313 Sekolah - . 568 Mempekerjakan - . 487 Kesehatan + 0,174 Depan
It should be noted that the interpretation of the principal components is subjective, however, obvious patterns emerge quite often. For instance, one could think of the first
principal component as representing an overall population size, level of schooling, employment level, and employment in health services effect, because the coefficients of
these terms have the same sign and are not close to zero.
The second principal component has variance 1.2911 and accounts for 25.8% of the data variability. It is calculated from the original data using the coefficients listed under
PC2. This component could be thought of as contrasting level of schooling and home value with health employment to some extent.
Bersama-sama, dua yang pertama dan tiga komponen utama pertama mewakili 86,4% dan 97,8%, hormat, dari total variabilitas. Dengan demikian, sebagian besar
struktur data dapat ditangkap dalam dua atau tiga dimensi yang mendasari. Akun komponen pokok yang tersisa untuk proporsi yang sangat kecil dari variabilitas dan
mungkin tidak penting. The Scree Plot memberikan informasi ini secara visual.
Analisis faktor
Analisis faktor
Stat> multivariat> Analisis Faktor
Gunakan analisis faktor, seperti analisis komponen utama, untuk meringkas struktur data kovarian dalam beberapa dimensi data. Namun, penekanan dalam analisis faktor
adalah identifikasi yang mendasari "faktor" yang mungkin menjelaskan dimensi terkait dengan variabilitas data yang besar.
Sejumlah faktor untuk mengekstrak: Masukkan sejumlah faktor untuk mengekstrak (diperlukan jika Anda menggunakan kemungkinan maksimum sebagai metode ekstraksi). Jika
Anda tidak menentukan nomor dengan ekstraksi komponen utama, Minitab set itu sama dengan jumlah variabel dalam kumpulan data. Jika Anda memilih terlalu banyak faktor,
Minitab akan mengeluarkan peringatan di jendela Session.
Metode Ekstraksi:
komponen utama: Memilih untuk menggunakan metode komponen utama dari ekstraksi faktor.
kemungkinan maksimum: Memilih untuk menggunakan kemungkinan maksimum untuk solusi awal.
Equimax: Memilih untuk melakukan rotasi equimax dari solusi awal (gamma = sejumlah faktor / 2).
varimax: Memilih untuk melakukan rotasi dari solusi awal (gamma = 1).
Quartimax: Memilih untuk melakukan rotasi quartimax dari solusi awal (gamma = 0).
Orthomax dengan gamma: Memilih untuk melakukan rotasi orthomax dari solusi awal, kemudian masukkan nilai gamma antara 0 dan 1. <Pilihan> <Grafik>
<Storage> <Hasil>
Kasus yang khas adalah dengan menggunakan data mentah. Mengatur lembar kerja Anda sehingga berturut-turut berisi pengukuran pada satu item atau subjek. Anda
harus memiliki dua atau lebih kolom numerik, dengan masing-masing kolom mewakili pengukuran yang berbeda (respon). Minitab otomatis menghilangkan baris dengan
data yang hilang dari analisis.
Biasanya prosedur analisis faktor menghitung korelasi atau kovarians matriks dari mana beban dihitung. Namun, Anda dapat memasukkan matriks sebagai data masukan.
Anda juga dapat memasukkan kedua data mentah dan matriks korelasi atau covariances. Jika Anda melakukannya, Minitab menggunakan matriks untuk menghitung beban.
Minitab kemudian menggunakan beban ini dan data mentah untuk menghitung nilai-nilai penyimpanan dan menghasilkan grafik. Lihat Untuk melakukan analisis faktor dengan
korelasi atau kovarians matriks.
Jika Anda menyimpan beban faktor awal, Anda dapat kemudian masukan ini beban awal untuk menguji pengaruh rotasi yang berbeda. Anda juga dapat menggunakan beban
disimpan untuk memprediksi skor faktor data baru. Lihat Untuk melakukan analisis faktor dengan beban disimpan.
diabaikan. (Harap dicatat bahwa ini berarti skor tidak dapat dihitung.) Jika masuk akal untuk standarisasi variabel (pilihan biasa ketika variabel diukur dengan skala yang
berbeda), masukkan matriks korelasi; jika Anda tidak ingin standarisasi, masukkan matriks kovarians. 1 Pilih Stat> multivariat> Analisis Faktor.
2 Klik Pilihan .
4 Di bawah Sumber Matrix . memilih Gunakan matriks dan masukkan matriks. Klik baik .
Ada tiga cara yang mungkin Anda melakukan analisis faktor dalam Minitab. Cara yang biasa, dijelaskan di bawah, adalah memasukkan kolom yang berisi variabel pengukuran
Anda, tetapi Anda juga dapat menggunakan matriks sebagai masukan (Lihat Untuk melakukan analisis faktor dengan korelasi atau kovarians matriks) atau menggunakan beban
disimpan sebagai masukan (Lihat Untuk melakukan analisis faktor dengan beban disimpan). 1 Pilih Stat> multivariat> Analisis Faktor.
2 Dalam variabel . masukkan kolom yang berisi data pengukuran. 3 Jika Anda suka, gunakan opsi
If you store initial factor loadings from an earlier analysis, you can input these initial loadings to examine the effect of different rotations. You can also use stored
loadings to predict factor scores of new data. 1 Cick Options in the Factor Analysis dialog box. 2 Under Loadings for Initial Solution , choose Use loadings . Enter
• To examine the effect of a different rotation method, choose an option under Type of Rotation . See Rotating the factor loadings for a discussion of the various
rotations>Main.
• To predict factor scores with new data, in Variables , enter the columns containing the new data.
Number of factors
The choice of the number of factors is often based upon the proportion of variance explained by the factors, subject matter knowledge, and reasonableness of the solution [6].
Initially, try using the principal components extraction method without specifying the number of components. Examine the proportion of variability explained by different factors
and narrow down your choice of how many factors to use. A Scree plot may be useful here in visually assessing the importance of factors. Once you have narrowed this
choice, examine the fits of the different factor analyses. Communality values, the proportion of variability of each variable explained by the factors, may be especially useful in
comparing fits. You may decide to add a factor if it contributes to the fit of certain variables. Try the maximum likelihood method of extraction as well.
Rotation
Once you have selected the number of factors, you will probably want to try different rotations. Johnson and Wichern [6] suggest the varimax rotation. A similar result from
different methods can lend credence to the solution you have selected. At this point you may wish to interpret the factors using your knowledge of the data. For more
information see Rotating the factor loadings.
metode rotasi
equimax untuk memutar beban sehingga beban variabel yang tinggi pada sejumlah faktor / 2
satu faktor tetapi rendah pada orang lain
Memungkinkan Anda untuk menentukan jenis matriks dan sumber, dan beban digunakan untuk ekstraksi awal.
Korelasi: Pilih untuk menghitung faktor menggunakan matriks korelasi. Gunakan matriks korelasi jika masuk akal untuk standarisasi variabel (pilihan biasa ketika variabel
diukur dengan skala yang berbeda).
kovarian: Pilih untuk menghitung faktor menggunakan matriks kovarians. Gunakan matriks kovarians jika Anda tidak ingin standarisasi variabel. Matriks kovarians tidak
dapat digunakan dengan estimasi kemungkinan maksimum.
Sumber Matrix :
Menghitung dari variabel: Memilih untuk menggunakan korelasi atau kovarians matriks dari data pengukuran.
Gunakan matriks: Memilih untuk menggunakan matriks disimpan untuk menghitung beban dan koefisien. (Catatan: Skor tidak dapat dihitung jika opsi ini dipilih.)
Lihat Untuk melakukan analisis faktor dengan korelasi atau kovarians matriks.
Menghitung dari variabel: Pilih untuk menghitung beban dari data mentah.
Gunakan beban: Memilih untuk menggunakan beban yang sebelumnya dihitung, kemudian tentukan kolom yang berisi beban. Anda harus menentukan satu kolom untuk
setiap faktor dihitung. Lihat Untuk melakukan analisis faktor dengan beban disimpan.
Menggunakan perkiraan komunalitas awal di: Pilih kolom yang berisi data yang akan digunakan sebagai nilai awal untuk communalities. kolom harus berisi satu
nilai untuk setiap variabel.
Max iterasi: Enter the maximum number of iterations allowed for a solution (default is 25).
Convergence: Enter the criterion for convergence (occurs when the uniqueness values do not change very much). This number is the size of the smallest change
(default is 0.005).
Displays a Scree plot, and score and loading plots for the first two factors.
To create simple loading plots for other factors, store the loadings and use Graph > Scatterplot. If you want to connect the loading point to the zero point, add a zero to the
bottom of each column of loadings in the Data window, then add lines connecting the loading points to the zero point with the graph editor. See graph editing overview.
Score plot for first 2 factors: Check to plot the scores for the second factor (y-axis) versus the scores for the first factor (x-axis). Scores are linear combinations of your data
using the coefficients. To create plots for other factors, store the scores and use Graph > Scatterplot. (Note: Scores must be calculated from raw data, therefore this graph
can not be generated if the Use matrix option is selected. See <Options>.)
Loading plot for first 2 factors: Check to plot the loadings for the second factor (y-axis) versus the loadings for the first factor (x-axis). A line is drawn from each loading to
the (0, 0) point.
Allows you to store factor loadings, factor score coefficients, factor or standard scores, rotation matrix, residual matrix, eigenvalues, and eigenvectors. You can then use
this information for further analysis.
Loadings: Enter storage columns for the factor loadings. You must enter one column for each factor. If a rotation was specified, Minitab stores the values for the rotated
factor loadings These can be input using <Options> and specifying the columns under Loadings for initial solutions.
Coefficients: Enter storage columns for the factor score coefficients. You must enter one column for each factor.
Scores: Enter storage columns for the scores. You must enter one column for each factor. Minitab calculates factor scores by multiplying factor score coefficients and
your data after they have been centered by subtracting means. (Note: Scores must be calculated from raw data, therefore the Use matrix option must not be selected.
See <Options>.)
Rotation matrix: Enter a location to store the matrix used to rotate the initial loadings. You may enter a matrix name or number (for example, M3). The rotation matrix is the
matrix used to rotate the initial loadings. If L is the matrix of initial loadings and M is the rotation matrix, LM is the matrix of rotated loadings.
Residual matrix: Masukkan lokasi untuk menyimpan matriks residual. Matriks residual untuk solusi awal dan diputar adalah sama. Anda dapat memasukkan nama matriks
atau nomor (misalnya, M3). Matriks residual adalah (A-LL '), di mana A adalah korelasi atau kovarians matriks dan L adalah matriks dari beban. Matriks residual adalah
sama untuk solusi awal atau diputar.
eigen: Masukkan kolom untuk menyimpan nilai eigen dari matriks yang diperhitungkan. Nilai eigen disimpan dalam urutan numerik dari terbesar ke terkecil. Untuk
menyimpan eigenvalues, Anda harus melakukan ekstraksi awal menggunakan komponen utama. Anda dapat plot nilai eigen untuk mendapatkan plot Scree.
Vektor eigen matriks: Masukkan matriks untuk menyimpan vektor eigen dari matriks yang diperhitungkan. Setiap vektor disimpan sebagai kolom dari matriks, dalam
urutan yang sama dengan nilai eigen.
Anda juga dapat menyimpan nilai dan vektor eigen dari korelasi atau kovarians matriks (tergantung pada yang diperhitungkan) jika Anda memilih ekstraksi faktor awal melalui
komponen utama. Masukkan satu nama kolom atau nomor untuk menyimpan eigenvalues, yang disimpan dari terbesar ke terkecil. Masukkan nama matriks atau nomor untuk
menyimpan vektor eigen dalam urutan sesuai dengan nilai eigen diurutkan.
Jangan display: Pilih untuk menekan layar hasil. Semua penyimpanan diminta dilakukan.
Beban hanya: Memilih untuk menampilkan beban (dan beban diurutkan jika diminta) untuk solusi akhir.
Beban dan koefisien skor faktor: Memilih untuk menampilkan faktor loadings dan skor.
Semua dan MLE iterasi: Pilih untuk menampilkan faktor loadings, skor faktor dan informasi di iterasi jika estimasi kemungkinan maksimum digunakan.
Urutkan memuat: Periksa untuk mengurutkan beban di jendela Session (dalam faktor jika pembebanan mutlak maksimum terjadi di sana).
Nol memuat kurang dari: Periksa untuk memasukkan nilai. Beban kurang dari nilai ini akan ditampilkan sebagai nol.
ekstraksi kemungkinan dan varimax maksimum untuk menafsirkan faktor. 1 Buka EXH_MVAR.MTW worksheet. 2 Pilih Stat> multivariat> Analisis Faktor.
8 Klik hasil dan cek beban semacam . Klik baik di setiap kotak dialog.
Pop
Diurutkan Diputar Faktor Muat dan communalities Variable Factor1 Factor2 Communality
Kesehatan
Menginterpretasikan hasil
Hasil menunjukkan bahwa ini adalah kasus Heywood. Ada tiga meja dari beban dan communalities: unrotated, diputar, dan disortir dan diputar. Faktor unrotated
menjelaskan 79,7% dari variabilitas data (lihat baris terakhir di bawah Communality) dan nilai-nilai komunalitas menunjukkan bahwa semua variabel tetapi Depan diwakili
dengan baik oleh dua faktor ini (communalities adalah 0,202 untuk Home, 0,875-1,0 untuk variabel lain). The persen dari total variabilitas diwakili oleh faktor tidak berubah
dengan rotasi, tapi setelah berputar, faktor-faktor ini lebih merata seimbang dalam persen variabilitas bahwa mereka mewakili, menjadi 44,7% dan 35,0%, dengan hormat.
Penyortiran dilakukan dengan pembebanan mutlak maksimum untuk faktor apapun. Variabel yang memiliki pemuatan mutlak tertinggi pada faktor 1 dicetak pertama, dalam rangka
diurutkan. Variabel dengan beban absolut tertinggi mereka pada faktor 2 dicetak selanjutnya, dalam rangka diurutkan, dan sebagainya. Faktor 1 memiliki beban positif besar pada
kesehatan (0,924), Mempekerjakan (0,831), dan Pop (0,718), dan -
0,415 memuat tentang Home sementara pemuatan di Sekolah kecil. Faktor 2 memiliki pemuatan positif besar pada School of 0,967 dan beban dari 0,556 dan 0,673,
masing-masing, pada Mempekerjakan dan Pop, dan beban kecil tentang Kesehatan dan Rumah. Anda dapat melihat beban diputar grafis dalam plot beban. Apa yang
menonjol untuk faktor 1 adalah beban tinggi pada variabel Pop, Mempekerjakan, dan Kesehatan dan pemuatan negatif pada Home. Sekolah memiliki loading positif tinggi
untuk faktor 2 dan nilai-nilai sedikit lebih rendah untuk Pop dan Mempekerjakan.
Mari kita memberikan interpretasi yang mungkin untuk faktor. Faktor pertama positif beban pada ukuran populasi dan pada dua variabel, Mempekerjakan dan Kesehatan, yang
umumnya meningkat dengan ukuran populasi. Hal negatif beban pada nilai rumah, tapi ini mungkin dipengaruhi oleh satu titik. Kami mungkin mempertimbangkan faktor 1
menjadi "perawatan kesehatan - ukuran populasi" faktor. Faktor kedua mungkin dianggap menjadi "pendidikan - ukuran populasi" faktor. Kedua Kesehatan dan Sekolah
berkorelasi dengan Pop dan Mempekerjakan, tapi tidak banyak dengan satu sama lain.
Selain itu, Minitab menampilkan tabel koefisien skor faktor. Ini menunjukkan kepada Anda bagaimana faktor-faktor dihitung. Minitab menghitung skor faktor dengan
mengalikan koefisien skor faktor dan data Anda setelah mereka telah berpusat dengan mengurangi cara.
Anda mungkin mengulangi analisis faktor ini dengan tiga faktor untuk melihat apakah itu lebih masuk akal untuk data Anda.
4 Klik grafik dan cek scree plot yang . Klik baik di setiap kotak dialog.
Diurutkan unrotated Faktor Muat dan communalities Variable Factor1 Factor2 Factor3 Factor4 Factor5 Communality
Mempekerjakan
Menginterpretasikan hasil
Lima faktor menggambarkan data ini dengan sempurna, tetapi tujuannya adalah untuk mengurangi jumlah faktor dibutuhkan untuk menjelaskan variabilitas dalam data.
Memeriksa hasil Sidang jendela garis% Var atau plot nilai eigen. Proporsi variabilitas dijelaskan oleh dua faktor terakhir adalah minimal (0,019 dan 0,002, masing-masing) dan
mereka dapat dihilangkan sebagai penting. Dua faktor pertama bersama-sama mewakili 86% dari variabilitas sementara tiga faktor menjelaskan 98% dari variabilitas.
Pertanyaannya adalah apakah akan menggunakan dua atau tiga faktor. Langkah berikutnya mungkin untuk melakukan faktor terpisah analisis dengan dua dan tiga faktor dan
memeriksa communalities untuk melihat bagaimana variabel individu diwakili. Jika ada satu atau lebih variabel tidak baik diwakili oleh model dua faktor yang lebih pelit, Anda
dapat memilih model dengan tiga atau lebih faktor.
Lihat contoh di bawah untuk rotasi beban diekstraksi dengan metode kemungkinan maksimum dengan pilihan dua faktor.
Pengamatan Cluster
Pengamatan Cluster
Stat> multivariat> Pengamatan Cluster
Gunakan pengelompokan pengamatan untuk mengklasifikasikan observasi ke dalam kelompok ketika kelompok pada awalnya tidak diketahui. Prosedur ini menggunakan metode hirarkis
agglomerative yang dimulai dengan semua pengamatan yang terpisah, masing-masing membentuk klaster sendiri. Pada langkah pertama, kedua pengamatan terdekat bersama-sama
bergabung. Pada langkah berikutnya, baik pengamatan ketiga bergabung dengan dua yang pertama, atau dua pengamatan lainnya bergabung bersama-sama ke cluster yang berbeda.
Proses ini akan berlanjut sampai semua kelompok bergabung menjadi satu, namun cluster ini tidak berguna untuk tujuan klasifikasi. Oleh karena itu Anda harus memutuskan berapa
banyak kelompok yang logis untuk data Anda dan mengklasifikasikan sesuai. Lihat Menentukan cluster akhir pengelompokan untuk informasi lebih lanjut.
Cara Linkage: Pilih metode linkage yang akan menentukan bagaimana jarak antara dua kelompok didefinisikan.
Ukur jarak: Memilih mengukur jarak untuk digunakan jika Anda memilih kolom sebagai variabel input.
Standarisasi variabel: Periksa untuk membakukan semua variabel dengan mengurangi sarana dan membaginya dengan standar deviasi sebelum matriks jarak dihitung - ide
yang baik jika variabel dalam unit yang berbeda dan Anda ingin meminimalkan pengaruh perbedaan besaran. Jika Anda standarisasi, klaster centroid dan langkah-langkah
jarak yang dalam variabel ruang standar.
Jumlah Cluster: Pilih untuk menentukan partisi akhir oleh sejumlah tertentu cluster. Masukkan nomor ini di dalam kotak. Lihat Menentukan cluster pengelompokan akhir.
Kesamaan Level: Pilih untuk menentukan partisi akhir oleh tingkat tertentu kesamaan. Masukkan nilai ini dalam kotak. Lihat Menentukan cluster pengelompokan akhir.
Tampilkan Dendrogram: Periksa untuk menampilkan dendrogram atau pohon diagram, menunjukkan langkah-langkah penggabungan. Gunakan <Sesuaikan>
Biasanya, Anda akan menggunakan data mentah. Setiap baris berisi pengukuran pada satu item atau subjek. Anda harus memiliki dua atau lebih kolom numerik, dengan
masing-masing kolom mewakili pengukuran yang berbeda. Anda harus menghapus baris dengan data yang hilang dari worksheet sebelum menggunakan prosedur ini.
Jika Anda menyimpan matriks jarak nxn, dimana n adalah jumlah observasi, Anda dapat menggunakan matriks ini sebagai data masukan. The (i,
j) masuk dalam matriks ini adalah jarak antara pengamatan i dan j. Jika Anda menggunakan matriks jarak sebagai masukan, statistik pada partisi akhir tidak tersedia.
2 Dalam Variabel atau matriks jarak . memasukkan salah satu kolom yang berisi mentah (pengukuran) data atau matriks
jarak.
3 Jika Anda suka, gunakan opsi kotak dialog, kemudian klik baik .
Memungkinkan Anda untuk menambahkan judul dan kontrol label y-axis dan menampilkan untuk dendrogram.
Klik dua kali dendrogram setelah Anda membuatnya untuk menentukan jenis garis, warna, dan ukuran untuk kelompok cluster. Lihat Grafik Editing Ikhtisar.
label kasus: Masukkan kolom label kasus. Kolom ini harus sama panjangnya dengan kolom data.
Tampilkan Dendrogram di
Jumlah maksimum pengamatan per graph (tanpa membelah kelompok): Memilih untuk menampilkan sejumlah tertentu pengamatan per grafik dan masukkan
integer lebih besar dari atau sama dengan 1.
Memutuskan Yang Tindakan Jarak dan Metode Linkage Menggunakan - Pengamatan Cluster Tindakan
Jarak
Jika Anda tidak menyediakan matriks jarak, langkah pertama Minitab adalah untuk menghitung matriks jarak nxn, D, di mana n adalah jumlah observasi. Entri matriks, d (i, j),
dalam baris i dan kolom j, adalah jarak antara pengamatan i dan j. Minitab menyediakan lima metode yang berbeda untuk mengukur jarak. Anda dapat memilih ukuran jarak
sesuai dengan sifat data Anda.
• Metode Euclidean adalah ukuran matematika standar jarak (akar kuadrat dari jumlah perbedaan kuadrat).
• Metode Pearson adalah akar kuadrat dari jumlah jarak persegi dibagi dengan varians. Metode ini adalah untuk standarisasi.
• Manhattan jarak adalah jumlah jarak absolut, sehingga outlier menerima berat badan kurang dari mereka akan jika metode Euclidean digunakan.
• Kuadrat Euclidean dan kuadrat metode Pearson menggunakan persegi metode Euclidean dan Pearson, hormat. Oleh karena itu, jarak yang besar di bawah
metode Euclidean dan Pearson akan lebih besar di bawah Euclidean kuadrat dan kuadrat metode Pearson.
Tip Jika Anda memilih rata-rata, Centroid, Median, atau Ward sebagai metode linkage, umumnya direkomendasikan [9] yang Anda gunakan salah satu langkah
jarak kuadrat.
metode linkage
Metode linkage yang Anda pilih menentukan seberapa jarak antara dua cluster didefinisikan. Pada setiap tahap penggabungan, dua cluster terdekat bergabung. Pada
awalnya, ketika masing-masing pengamatan merupakan cluster, jarak antara cluster hanya jarak antar-observasi. Selanjutnya, setelah pengamatan bergabung bersama,
aturan linkage diperlukan untuk menghitung jarak antar-cluster ketika ada beberapa pengamatan dalam sebuah cluster. Anda mungkin ingin mencoba beberapa metode
linkage dan membandingkan hasil. Tergantung pada karakteristik data Anda, beberapa metode dapat memberikan "lebih baik" hasil daripada yang lain.
• Dengan linkage tunggal, atau "tetangga terdekat," jarak antara dua cluster adalah jarak minimum antara pengamatan dalam satu cluster dan observasi di cluster
lainnya. linkage tunggal adalah pilihan yang baik ketika cluster jelas dipisahkan. Ketika pengamatan berbaring dekat bersama-sama, tunggal linkage cenderung
mengidentifikasi kelompok seperti rantai panjang yang dapat memiliki jarak yang relatif besar yang memisahkan pengamatan di kedua ujung rantai [6].
• Dengan rata-rata linkage, jarak antara dua cluster adalah mean jarak antara pengamatan dalam satu cluster dan observasi di cluster lainnya. Sedangkan kelompok
kelompok metode linkage tunggal atau lengkap berdasarkan pasangan jarak tunggal, rata-rata linkage menggunakan ukuran yang lebih sentral dari lokasi.
• Dengan linkage massa, jarak antara dua cluster adalah jarak antara centroid cluster atau sarana. Seperti rata-rata linkage, metode ini adalah teknik averaging lain.
• Dengan linkage lengkap, atau "tetangga terjauh," jarak antara dua cluster adalah jarak maksimum antara pengamatan dalam satu cluster dan observasi di cluster
lainnya. Metode ini memastikan bahwa semua pengamatan dalam sebuah cluster berada dalam jarak maksimum dan cenderung menghasilkan cluster dengan diameter
yang sama. Hasilnya bisa sensitif terhadap outlier [10].
• Dengan linkage median, jarak antara dua cluster adalah jarak median antara pengamatan dalam satu cluster dan observasi di cluster lainnya. Ini adalah teknik
averaging lain, tetapi menggunakan median daripada rata-rata, sehingga downweighting pengaruh outlier.
• Dengan linkage McQuitty ini, ketika dua kelompok yang akan bergabung, jarak dari cluster baru untuk setiap klaster lainnya dihitung sebagai rata-rata jarak dari cluster
segera bergabung dengan yang klaster lainnya. Misalnya, jika cluster 1 dan 3 yang akan bergabung ke dalam cluster baru, mengatakan 1 *, maka jarak dari 1 * cluster 4
adalah rata-rata jarak dari 1 sampai 4 dan 3 sampai 4. Di sini, jarak tergantung pada kombinasi dari cluster daripada pengamatan individu dalam kelompok.
• Dengan linkage Ward, jarak antara dua cluster adalah jumlah dari penyimpangan kuadrat dari titik ke centroid. Tujuan dari linkage Ward adalah untuk meminimalkan
jumlah dalam kluster kotak. Hal ini cenderung untuk menghasilkan cluster dengan nomor yang sama dari pengamatan, tetapi sensitif terhadap outlier [10]. Dalam
linkage Ward, adalah mungkin untuk jarak antara dua kelompok menjadi lebih besar dari dmax, nilai maksimum dalam matriks jarak asli. Jika ini terjadi, kesamaan akan
negatif.
Bagaimana Anda tahu di mana untuk memotong dendrogram? Anda pertama mungkin mengeksekusi analisis cluster tanpa menentukan partisi akhir. Memeriksa kesamaan
dan jarak tingkatan dalam hasil Sidang jendela dan dendrogram. Anda dapat melihat tingkat kesamaan dengan menempatkan pointer mouse Anda di atas garis horizontal di
dendrogram. Tingkat kesamaan pada langkah apapun adalah persen dari jarak minimum di langkah relatif terhadap jarak antar-pengamatan maksimum dalam data. Pola
bagaimana kesamaan atau jarak nilai berubah dari langkah ke langkah dapat membantu Anda untuk memilih pengelompokan akhir. Langkah di mana nilai-nilai berubah
tiba-tiba dapat mengidentifikasi titik yang baik untuk memotong dendrogram, jika ini masuk akal untuk data Anda. Setelah memilih di mana Anda ingin membuat partisi Anda,
jalankan prosedur clustering, baik menggunakan Jumlah cluster atau
tingkat kemiripan untuk memberikan baik jumlah set kelompok atau tingkat kesamaan untuk memotong dendrogram. Memeriksa cluster yang dihasilkan di partisi akhir untuk
melihat apakah pengelompokan tampaknya logis. Melihat dendrogram untuk pengelompokan akhir yang berbeda juga dapat membantu Anda untuk memutuskan mana yang
paling masuk akal untuk data Anda.
Catatan Untuk beberapa set data, rata-rata, pusat massa, median dan metode Ward mungkin tidak menghasilkan dendrogram hirarkis. Artinya, jarak penggabungan
tidak selalu meningkat dengan setiap langkah. Dalam dendrogram, langkah tersebut akan menghasilkan bergabung yang masuk ke bawah daripada ke
atas.
Memungkinkan Anda untuk menyimpan keanggotaan klaster untuk setiap observasi, jarak antara masing-masing pengamatan dan setiap cluster centroid, dan matriks
jarak.
Jarak antara pengamatan dan centroid klaster (Berikan sebuah kolom untuk setiap kelompok cluster): Masukkan kolom penyimpanan (s) untuk jarak antara
masing-masing pengamatan dan setiap cluster centroid. Jumlah kolom yang ditentukan harus sama dengan jumlah klaster di partisi akhir. Jarak disimpan selalu jarak
Euclidean.
Jarak matriks: Masukkan matriks penyimpanan (M) untuk N x matriks N jarak, di mana N adalah jumlah observasi. Matriks jarak disimpan kemudian dapat digunakan
dalam perintah berikutnya.
4 Dari Cara linkage . memilih Lengkap dan dari jarak Ukur memilih kuadrat Euclidean .
6 Di bawah Tentukan Akhir Partisi oleh . memilih Jumlah cluster dan masukkan 4.
Jumlah
Jumlah dari obs.
dari Cluster Kesamaan Jarak Baru di baru
cluster langkah tingkat tingkat bergabung klaster klaster
1 11 100.000 0,0000 5 12 5 2
2 10 99,822 0,0640 3 5 3 3
3 9 98,792 0,4347 3 11 3 4
4 8 94,684 1,9131 6 8 6 2
5 7 93,406 2,3730 2 3 2 5
6 6 87,329 4,5597 7 9 7 2
7 5 86,189 4,9701 1 4 1 2
8 4 80,601 6,9810 2 6 2 7
9 3 68,079 11,4873 2 7 2 9
10 2 41,409 21,0850 1 2 1 11
11 1 0.000 35,9870 1 10 1 12
Menginterpretasikan hasil
Minitab menampilkan langkah-langkah penggabungan di jendela Session. Pada setiap langkah, dua cluster bergabung. tabel menunjukkan yang cluster bergabung, jarak antara mereka, tingkat kemiripan yang sesuai, nomor
identifikasi dari cluster baru (nomor ini selalu lebih kecil dari dua angka dari kelompok bergabung), jumlah observasi di cluster baru , dan jumlah cluster. Penggabungan berlanjut sampai hanya ada satu cluster. Langkah-langkah
penggabungan menunjukkan bahwa tingkat kemiripan berkurang dengan pertambahan sekitar 6 atau kurang sampai menurun sekitar 13 di langkah dari empat cluster ke tiga. Hal ini menunjukkan bahwa empat cluster yang cukup
memadai untuk partisi akhir. Jika pengelompokan ini masuk akal intuitif untuk data, maka mungkin pilihan yang baik. Ketika Anda menentukan partisi akhir, Minitab menampilkan tiga tabel tambahan. Tabel pertama merangkum
setiap cluster dengan jumlah pengamatan, dalam cluster jumlah kuadrat, rata-rata jarak dari pengamatan ke centroid cluster, dan jarak maksimum observasi ke centroid cluster. Secara umum, cluster dengan jumlah kecil dari kotak
lebih kompak dari satu dengan sejumlah besar kotak. pusat massa adalah vektor dari variabel berarti untuk pengamatan dalam cluster yang dan digunakan sebagai titik tengah cluster. Tabel kedua menampilkan centroid untuk
kelompok individu sedangkan meja ketiga memberikan jarak antara centroid cluster. dan jarak maksimum pengamatan ke centroid cluster. Secara umum, cluster dengan jumlah kecil dari kotak lebih kompak dari satu dengan
sejumlah besar kotak. pusat massa adalah vektor dari variabel berarti untuk pengamatan dalam cluster yang dan digunakan sebagai titik tengah cluster. Tabel kedua menampilkan centroid untuk kelompok individu sedangkan meja
ketiga memberikan jarak antara centroid cluster. dan jarak maksimum pengamatan ke centroid cluster. Secara umum, cluster dengan jumlah kecil dari kotak lebih kompak dari satu dengan sejumlah besar kotak. pusat massa adalah
vektor dari variabel berarti untuk pengamatan dalam cluster yang dan digunakan sebagai titik tengah cluster. Tabel kedua menampilkan centroid untuk kelompok individu sedangkan meja ketiga memberikan jarak antara centroid
cluster.
dendrogram menampilkan informasi dalam tabel penggabungan dalam bentuk diagram pohon. Dalam contoh kita, sereal 1 dan 4 membentuk cluster pertama; sereal 2, 3, 5,
12, 11, 6, dan 8 membuat kedua; sereal 7 dan 9 membuat ketiga; sereal 10 membuat keempat.
Variabel Cluster
Variabel Cluster
Stat> multivariat> Variabel Cluster
Gunakan Clustering Variabel untuk mengklasifikasikan variabel ke dalam kelompok ketika kelompok pada awalnya tidak diketahui. Salah satu alasan untuk variabel klaster mungkin
untuk mengurangi jumlah mereka. Teknik ini dapat memberikan variabel baru yang lebih intuitif dipahami daripada yang ditemukan menggunakan komponen utama.
Prosedur ini merupakan metode hirarkis agglomerative yang diawali dengan semua variabel terpisah, masing-masing membentuk klaster sendiri. Pada langkah pertama, kedua variabel yang
paling dekat bersama-sama bergabung. Pada langkah berikutnya, baik variabel ketiga bergabung dengan dua yang pertama, atau dua variabel lain bergabung bersama-sama ke cluster yang
berbeda. Proses ini akan berlanjut sampai semua kelompok bergabung menjadi satu, tetapi Anda harus memutuskan berapa banyak kelompok yang logis untuk data Anda. Lihat Menentukan
pengelompokan akhir.
Cara Linkage: Pilih metode linkage yang akan menentukan bagaimana jarak antara dua kelompok didefinisikan.
Ukur jarak: Jika Anda memilih kolom sebagai variabel input, pilih ukuran jarak yang diinginkan.
Jumlah cluster: Pilih untuk menentukan partisi akhir oleh sejumlah tertentu cluster. Masukkan nomor ini di dalam kotak.
tingkat kemiripan: Pilih untuk menentukan partisi akhir oleh tingkat tertentu kesamaan. Masukkan nilai antara 0 dan 100 dalam kotak.
Tampilkan dendrogram: Periksa untuk menampilkan dendrogram (diagram pohon), menunjukkan langkah-langkah penggabungan. Gunakan <Sesuaikan>
Jika Anda menyimpan apxp matriks jarak, di mana p adalah jumlah variabel, Anda dapat menggunakan matriks sebagai data masukan. The (i, j) masuk dalam matriks
adalah jarak antara pengamatan i dan j. Jika Anda menggunakan matriks jarak sebagai masukan, statistik partisi akhir tidak tersedia.
2 Dalam Variabel atau matriks jarak . memasukkan salah satu kolom yang berisi mentah (pengukuran) data atau matriks
jarak.
3 Jika Anda suka, gunakan opsi kotak dialog, kemudian klik baik .
Memutuskan Yang Tindakan Jarak dan Metode Linkage Menggunakan - Variabel Cluster Tindakan Jarak
Anda dapat menggunakan korelasi atau korelasi mutlak untuk langkah-langkah jarak. Dengan metode korelasi, (i, j) entri dari matriks jarak dij = 1 - ρ ij dan untuk metode
korelasi mutlak, dij = 1 - | ρ ij |, di mana ρ ij adalah (produk Pearson saat) korelasi antara variabel i dan j. Dengan demikian, metode korelasi akan memberikan jarak antara 0
dan 1 untuk korelasi positif, dan antara 1 dan 2 untuk korelasi negatif. Metode korelasi mutlak akan selalu memberikan jarak antara 0 dan 1.
• Jika masuk akal untuk mempertimbangkan data berkorelasi negatif menjadi jauh terpisah dari data yang berkorelasi positif, kemudian gunakan metode korelasi.
• Jika Anda berpikir bahwa kekuatan hubungan penting dalam mempertimbangkan jarak dan tidak tanda, kemudian gunakan metode korelasi mutlak.
metode linkage
Metode linkage yang Anda pilih menentukan seberapa jarak antara dua cluster didefinisikan. Pada setiap tahap penggabungan, dua cluster terdekat bergabung. Pada
awalnya, ketika masing-masing variabel merupakan cluster, jarak antara cluster hanya jarak antar-variabel. Selanjutnya, setelah pengamatan bergabung bersama, aturan
linkage diperlukan untuk menghitung jarak antar-cluster ketika ada beberapa variabel dalam sebuah cluster. Anda mungkin ingin mencoba beberapa metode linkage dan
membandingkan hasil. Tergantung pada karakteristik data Anda, beberapa metode dapat memberikan "lebih baik" hasil daripada yang lain.
• Dengan linkage tunggal, atau "tetangga terdekat," jarak antara dua cluster adalah jarak minimum antara variabel dalam satu cluster dan variabel di cluster lainnya.
linkage tunggal adalah pilihan yang baik ketika cluster jelas dipisahkan. Ketika variabel berbaring dekat bersama-sama, tunggal linkage cenderung mengidentifikasi
kelompok seperti rantai panjang yang dapat memiliki variabel jarak pemisah yang relatif besar di kedua ujung rantai [6].
• Dengan rata-rata linkage, jarak antara dua cluster adalah mean jarak antara variabel dalam satu cluster dan variabel di cluster lainnya. Sedangkan kelompok kelompok
metode linkage tunggal atau lengkap berdasarkan pasangan jarak tunggal, rata-rata linkage menggunakan ukuran yang lebih sentral dari lokasi.
• Dengan linkage massa, jarak antara dua cluster adalah jarak antara centroid cluster atau sarana. Seperti rata-rata linkage, metode ini adalah teknik averaging lain.
• Dengan linkage lengkap, atau "tetangga terjauh," jarak antara dua cluster adalah jarak maksimum antara variabel dalam satu cluster dan variabel di cluster lainnya.
Metode ini memastikan bahwa semua variabel dalam sebuah cluster berada dalam jarak maksimum dan cenderung menghasilkan cluster dengan diameter yang sama.
Hasilnya bisa sensitif terhadap outlier [10].
• Dengan linkage median, jarak antara dua cluster adalah jarak median antara variabel dalam satu cluster dan variabel di cluster lainnya. Ini adalah teknik averaging lain,
tetapi menggunakan median daripada rata-rata, sehingga downweighting pengaruh outlier.
• Dengan linkage McQuitty ini, ketika dua kelompok yang akan bergabung, jarak dari cluster baru untuk setiap klaster lainnya dihitung sebagai rata-rata jarak dari cluster
segera bergabung dengan yang klaster lainnya. Misalnya, jika cluster 1 dan 3 yang akan bergabung ke dalam cluster baru, mengatakan 1 *, maka jarak dari 1 * cluster 4
adalah rata-rata jarak dari 1 sampai 4 dan 3 sampai 4. Di sini, jarak tergantung pada kombinasi dari cluster daripada variabel individu dalam kelompok.
• Dengan linkage Ward, jarak antara dua cluster adalah jumlah dari penyimpangan kuadrat dari titik ke centroid. Tujuan dari linkage Ward adalah untuk meminimalkan
jumlah dalam kluster kotak. Hal ini cenderung untuk menghasilkan cluster dengan nomor yang sama dari variabel, tetapi sensitif terhadap outlier [10]. Dalam linkage
Ward, adalah mungkin untuk jarak antara dua kelompok menjadi lebih besar dari dmax, nilai maksimum dalam matriks jarak asli. Jika ini terjadi, kesamaan akan negatif.
Memungkinkan Anda untuk menambahkan judul dan kontrol label y-axis dan menampilkan untuk dendrogram.
Klik dua kali dendrogram setelah Anda membuatnya untuk menentukan jenis garis, warna, dan ukuran untuk kelompok cluster. Lihat Grafik Editing Ikhtisar.
Tampilkan Dendrogram di
Jumlah maksimum variabel per graph (tanpa membelah kelompok): Memilih untuk menampilkan jumlah tertentu variabel per grafik dan masukkan integer
lebih besar dari atau sama dengan 1.
Tujuan Anda adalah untuk mengurangi jumlah variabel dengan menggabungkan variabel dengan karakteristik yang sama. Anda menggunakan pengelompokan variabel
dengan korelasi standar ukuran jarak, rata linkage dan dendrogram. 1 Buka worksheet PERU.MTW. 2 Pilih Stat> multivariat> Variabel Cluster.
Analisis Cluster Variabel: Umur, Tahun, Berat, Tinggi, Chin, lengan, ...
Jumlah
Jumlah dari obs.
dari Cluster Kesamaan Jarak Baru di baru
cluster langkah tingkat tingkat bergabung klaster klaster
1 9 86,7763 0,264474 6 7 6 2
2 8 79,4106 0,411787 1 2 1 2
3 7 78,8470 0,423059 5 6 5 3
4 6 76,0682 0,478636 3 9 3 2
5 5 71,7422 0,565156 3 10 3 3
6 4 65,5459 0,689082 3 5 3 6
7 3 61,3391 0,773218 3 8 3 7
8 2 56,5958 0,868085 1 3 1 9
9 1 55,4390 0,891221 1 4 1 10
Menginterpretasikan hasil
Minitab menampilkan langkah-langkah penggabungan di jendela Session. Pada setiap langkah, dua cluster bergabung. tabel menunjukkan yang cluster bergabung, jarak
antara mereka, tingkat kemiripan yang sesuai, nomor identifikasi dari cluster baru (ini selalu lebih kecil dari dua angka dari kelompok bergabung), jumlah variabel dalam
cluster baru dan jumlah cluster. Penggabungan berlanjut sampai hanya ada satu cluster. Jika Anda telah meminta partisi akhir Anda juga akan menerima daftar yang variabel
di setiap cluster. dendrogram menampilkan informasi yang dicetak dalam tabel penggabungan dalam bentuk diagram pohon. Dendrogram menunjukkan variabel yang
mungkin dikombinasikan, mungkin dengan rata-rata atau sebesar. Dalam contoh ini, dagu, lengan, dan pengukuran kulit betis kali lipat mirip dan Anda memutuskan untuk
menggabungkan mereka. Umur dan tahun sejak variabel migrasi serupa, tetapi Anda akan menyelidiki hubungan ini. Jika mata pelajaran cenderung untuk bermigrasi pada
usia tertentu, maka variabel-variabel ini bisa berisi informasi yang sama dan dikombinasikan. Berat dan dua pengukuran tekanan darah serupa. Anda memutuskan untuk
menjaga berat badan sebagai variabel yang terpisah tetapi Anda akan menggabungkan pengukuran tekanan darah menjadi satu.
Cluster K-Means
Cluster K-Means
Stat> multivariat> Cluster K-Means
Gunakan K-means pengamatan, seperti pengelompokan pengamatan, untuk mengklasifikasikan observasi ke dalam kelompok ketika kelompok yang awalnya tidak
diketahui. Prosedur ini menggunakan pengelompokan non-hirarkis pengamatan sesuai dengan algoritma MacQueen ini [6]. K-means bekerja paling baik bila informasi
yang cukup tersedia untuk membuat sebutan awal klaster yang baik.
Tentukan Partisi oleh: Memungkinkan Anda untuk menentukan partisi awal untuk algoritma K-cara.
Jumlah cluster: Pilih untuk menentukan jumlah cluster untuk membentuk. Jika Anda memasukkan nomor 5, misalnya, Minitab menggunakan 5 pengamatan pertama
sebagai centroid cluster awal. Setiap observasi ditugaskan untuk cluster yang centroid terdekat dengan. Minitab kalkulasi ulang cluster centroid setiap kali cluster
keuntungan atau kehilangan pengamatan.
Awal kolom partisi: Memilih untuk menentukan kolom yang berisi keanggotaan klaster untuk memulai proses partisi.
Standarisasi variabel: Periksa untuk membakukan semua variabel dengan mengurangi sarana dan membaginya dengan standar deviasi sebelum matriks jarak dihitung. Ini
adalah ide yang baik jika variabel dalam unit yang berbeda dan Anda ingin meminimalkan pengaruh perbedaan besaran. Jika Anda standarisasi, klaster centroid dan
langkah-langkah jarak yang dalam variabel ruang standar sebelum matriks jarak dihitung. <Storage>
Untuk menginisialisasi proses clustering menggunakan kolom data, Anda harus memiliki kolom yang berisi nilai keanggotaan klaster untuk setiap observasi. Kolom inisialisasi
harus berisi positif, bilangan bulat berturut-turut atau nol (tidak harus berisi semua nol). Awalnya, setiap pengamatan yang ditugaskan untuk cluster diidentifikasi oleh nilai yang
sesuai di kolom ini. Inisialisasi dari nol berarti bahwa observasi awalnya ditugaskan ke grup. Jumlah bilangan bulat positif yang berbeda pada kolom partisi awal sama dengan
jumlah cluster di partisi akhir.
2 Dalam variabel . masukkan kolom yang berisi data pengukuran. 3 Jika Anda suka, gunakan opsi
kalkulasi ulang cluster centroid. 3 Proses ini diulang sampai tidak ada pengamatan lebih dapat dipindahkan ke cluster yang berbeda. Pada titik ini, semua
pengamatan berada di klaster terdekat mereka sesuai dengan kriteria yang tercantum di atas.
Tidak seperti pengelompokan hirarkis dari pengamatan, adalah mungkin bagi dua pengamatan harus dibagi ke dalam kelompok yang terpisah setelah mereka bergabung bersama-sama.
K-berarti prosedur bekerja dengan baik ketika Anda memberikan titik awal yang baik untuk cluster [10]. Ada dua cara untuk menginisialisasi proses pengelompokan:
menentukan jumlah cluster atau memasok kolom partisi awal yang berisi kode kelompok. Anda mungkin dapat menginisialisasi proses ketika Anda tidak memiliki informasi
lengkap untuk awalnya partisi data. Misalkan Anda tahu bahwa partisi akhir harus terdiri dari tiga kelompok, dan bahwa pengamatan 2, 5, dan 9 termasuk dalam
masing-masing kelompok, masing-masing. Melanjutkan dari sini tergantung pada apakah Anda menentukan jumlah cluster atau menyediakan kolom partisi awal.
• Jika Anda menentukan jumlah cluster, Anda harus mengatur ulang data Anda di jendela data untuk bergerak pengamatan 2, 5 dan 9 ke atas lembar kerja, dan kemudian
tentukan 3 untuk Jumlah cluster.
• Jika Anda memasukkan kolom partisi awal, Anda tidak perlu mengatur ulang data Anda di jendela Data. Pada kolom partisi worksheet awal, masukkan nomor kelompok
1, 2, dan 3, untuk pengamatan 2, 5, dan 9, masing-masing, dan masukkan 0 untuk pengamatan lainnya.
Partisi akhir akan tergantung sampai batas tertentu pada partisi awal yang menggunakan Minitab. Anda dapat mencoba partisi awal yang berbeda. Menurut Milligan
[10], K-berarti prosedur mungkin tidak berkinerja baik ketika inisialisasi dilakukan secara sewenang-wenang. Namun, jika Anda memberikan titik awal yang baik,
K-means clustering yang mungkin cukup kuat.
2 Dalam variabel . masukkan kolom yang berisi data pengukuran. 3 Di bawah Tentukan Partisi oleh . memilih Jumlah cluster dan masukkan nomor, k, di dalam kotak. Minitab
2 Dalam variabel . masukkan kolom yang berisi data pengukuran. 3 Di bawah Tentukan Partisi oleh . memilih kolom partisi awal . Masukkan kolom yang berisi
cluster awal
keanggotaan untuk setiap pengamatan. 4 Klik baik .
Memungkinkan anggota cluster untuk setiap observasi dan jarak antara masing-masing pengamatan dan setiap cluster centroid.
Jarak antara pengamatan dan centroid klaster (Berikan sebuah kolom untuk setiap kelompok cluster): Masukkan kolom penyimpanan untuk jarak antara
masing-masing pengamatan dan setiap cluster centroid. Jumlah kolom yang ditentukan harus sama dengan jumlah cluster yang ditentukan untuk partisi awal. Jarak
yang tersimpan jarak Euclidean.
3 Dalam Toko bermotif data dalam . memasukkan Awal untuk nama kolom penyimpanan. 4 Dalam kedua Dari nilai
6 Pergi ke jendela data dan jenis 1, 2, dan 3 di kedua tujuh puluh delapan, dan baris kelima belas, masing-masing, dari
kolom bernama Awal.
9 Under Tentukan Partisi oleh . memilih kolom partisi awal dan masukkan Awal.
Variabel standar
Partisi akhir
Jumlah cluster: 3
Cluster centroid
Agung
Variabel cluster1 Cluster2 Cluster3 massa Head.L
- 1,0673 0,0126 1,2261 - 0,0000
Head.W - 0,9943 - 0,0155 1,1943 0,0000
Neck.G - 1,0244 - 0,1293 1,4476 - 0,0000
Panjangnya - 1,1399 0,0614 1,2177 0,0000
Chest.G - 1,0570 - 0,0810 1,3932 - 0,0000
Berat - 0,9460 - 0,2033 1,4974 - 0,0000
Menginterpretasikan hasil
K-means diklasifikasikan 143 beruang sebagai 41 beruang kecil, 67 ukuran sedang beruang, dan 35 beruang besar. Minitab display, pada tabel pertama, jumlah observasi di
setiap cluster, yang dalam cluster jumlah kuadrat, rata-rata jarak dari pengamatan ke centroid cluster, dan jarak maksimum observasi ke centroid cluster. Secara umum,
cluster dengan jumlah kecil dari kotak lebih kompak dari satu dengan sejumlah besar kotak. pusat massa adalah vektor dari variabel berarti untuk pengamatan dalam cluster
yang dan digunakan sebagai titik tengah cluster. Centroid untuk kelompok individu yang ditampilkan dalam tabel kedua sementara meja ketiga memberikan jarak antara
centroid cluster.
Analisis diskriminan
Analisis diskriminan
Stat> multivariat> Analisis Diskriminan
Gunakan analisis diskriminan untuk mengklasifikasikan observasi menjadi dua atau lebih kelompok jika Anda memiliki sampel dengan kelompok-kelompok yang dikenal.
analisis diskriminan juga dapat digunakan untuk menyelidiki bagaimana variabel berkontribusi pemisahan kelompok. Minitab menawarkan linear dan analisis diskriminan
kuadratik. Dengan analisis diskriminan linier, semua kelompok diasumsikan memiliki matriks kovarians yang sama. diskriminasi kuadrat tidak membuat asumsi ini, tetapi
sifat-sifatnya tidak dipahami juga.
Dalam kasus mengklasifikasikan pengamatan baru ke dalam salah satu dari dua kategori, regresi logistik bisa lebih baik dibanding analisis diskriminan [3], [11].
prediktor: Pilih kolom (s) yang berisi variabel pengukuran atau prediktor.
Fungsi diskriminan
linear: Memilih untuk melakukan analisis diskriminan linier. Semua kelompok diasumsikan memiliki matriks kovarians yang sama.
Kuadrat: Memilih untuk melakukan analisis diskriminan kuadratik. Tidak ada asumsi yang dibuat tentang matriks kovariansi; sifat-sifatnya tidak dipahami juga.
Gunakan lintas validasi: Periksa untuk melakukan diskriminasi menggunakan cross-validasi. Teknik ini digunakan untuk mengimbangi tingkat kesalahan optimis jelas.
Penyimpanan
Linear fungsi diskriminan: Masukkan kolom penyimpanan untuk koefisien dari fungsi diskriminan linear, menggunakan satu kolom untuk setiap kelompok. konstan
disimpan di bagian atas setiap kolom.
cocok: Periksa untuk menyimpan nilai-nilai dipasang. Nilai pas untuk pengamatan adalah kelompok ke yang diklasifikasikan.
Cocok dari salib validasi: Periksa untuk menyimpan nilai-nilai pas jika diskriminasi dilakukan dengan menggunakan cross-validasi. <Pilihan>
2 Dalam Grup . masukkan kolom yang berisi kode kelompok. 3 Dalam prediktor . masukkan kolom atau kolom yang
berisi data pengukuran. 4 Jika Anda suka, gunakan opsi kotak dialog, kemudian klik baik .
Linier analisis diskriminan memiliki properti jarak kuadrat simetris: fungsi diskriminan linear kelompok i dievaluasi dengan mean kelompok j sama dengan fungsi diskriminan
linear dari kelompok j dievaluasi dengan mean kelompok
saya.
Kami telah menggambarkan kasus yang paling sederhana, tidak ada prior dan matriks kovarians yang sama. Jika Anda menganggap Mahalanobis jarak cara yang masuk
akal untuk mengukur jarak sebuah observasi ke grup, maka Anda tidak perlu membuat asumsi tentang distribusi yang mendasari data Anda. Lihat Probabilitas Sebelum
untuk informasi lebih lanjut.
Validasi silang
Cross-validasi adalah salah satu teknik yang digunakan untuk mengkompensasi tingkat kesalahan optimis jelas. Tingkat kesalahan yang jelas adalah persen dari pengamatan
kesalahan klasifikasi. Jumlah ini cenderung optimis karena data yang diklasifikasikan adalah data yang sama digunakan untuk membangun fungsi klasifikasi.
The cross-validasi karya rutin dengan menghilangkan setiap pengamatan satu per satu, menghitung ulang fungsi klasifikasi menggunakan data yang tersisa, dan kemudian
mengklasifikasikan pengamatan dihilangkan. Perhitungan waktu memakan waktu sekitar empat kali lebih lama dengan prosedur ini. Ketika cross-validasi dilakukan, Minitab
menampilkan tabel ringkasan tambahan. Teknik lain yang dapat Anda gunakan untuk menghitung tingkat kesalahan yang lebih realistis adalah untuk membagi data Anda
menjadi dua bagian. Gunakan satu bagian untuk membuat fungsi diskriminan, dan bagian lainnya sebagai satu set validasi. Memprediksi keanggotaan grup untuk set validasi
dan menghitung tingkat kesalahan sebagai persen dari data ini yang kesalahan klasifikasi.
Probabilitas sebelum
Kadang-kadang item atau mata pelajaran dari kelompok yang berbeda yang ditemui sesuai dengan probabilitas yang berbeda. Jika Anda tahu atau dapat memperkirakan
probabilitas ini apriori, analisis diskriminan dapat menggunakan apa yang disebut probabilitas sebelumnya dalam menghitung probabilitas posterior, atau probabilitas
menugaskan pengamatan kelompok diberikan data. Dengan asumsi bahwa
Data memiliki distribusi normal, fungsi diskriminan linear meningkat dengan ln (pi), di mana pi adalah probabilitas sebelumnya dari kelompok i. Karena pengamatan
ditugaskan untuk kelompok sesuai dengan jarak umum terkecil, atau ekuivalen fungsi diskriminan linear terbesar, efeknya adalah untuk meningkatkan probabilitas posterior
untuk kelompok dengan probabilitas sebelumnya tinggi.
Sekarang misalkan kita memiliki prior dan anggaplah fi (x) adalah densitas bersama untuk data dalam kelompok i (dengan parameter-parameter populasi digantikan oleh perkiraan
sampel).
Probabilitas posterior adalah probabilitas kelompok i diberikan data dan dihitung dengan
- (konstan)
Istilah dalam kurung persegi disebut jarak kuadrat yang umum dari x ke kelompok i dan dilambangkan dengan . Melihat,
Istilah dalam kurung persegi fungsi diskriminan linear. Satu-satunya perbedaan dari kasus non-sebelumnya adalah perubahan dalam jangka konstan. Perhatikan, posterior
terbesar adalah setara dengan jarak umum terkecil, yang setara dengan fungsi diskriminan linear terbesar.
2 Dalam Grup . masukkan kolom yang berisi kode-kode kelompok dari sampel asli. 3 Dalam prediktor . masuk kolom (s) yang berisi data pengukuran dari
sampel asli. 4 Klik Pilihan . Di Memprediksi keanggotaan grup untuk . masukkan konstanta atau kolom mewakili satu atau lebih
pengamatan. Jumlah konstanta atau kolom harus setara dengan jumlah prediktor. 5 Jika Anda suka, gunakan opsi kotak dialog, dan klik baik .
Memungkinkan Anda untuk menentukan probabilitas sebelumnya, memprediksi keanggotaan kelompok untuk pengamatan baru, dan mengontrol tampilan Sesi jendela output.
Memprediksi keanggotaan grup untuk: Masukkan nilai untuk memprediksi keanggotaan grup untuk pengamatan baru.
Tampilan Hasil:
Jangan display: Pilih untuk menekan semua hasil. Penyimpanan diminta dilakukan.
Di atas ditambah LDF, jarak, dan ringkasan kesalahan klasifikasi: Memilih untuk menampilkan matriks klasifikasi, jarak kuadrat antara pusat kelompok, fungsi
diskriminan linear, dan ringkasan pengamatan kesalahan klasifikasi.
Di atas ditambah berarti, std. . Dev, dan kovarians ringkasan: Memilih untuk menampilkan matriks klasifikasi, jarak kuadrat antara pusat kelompok, fungsi
diskriminan linear, ringkasan pengamatan kesalahan klasifikasi, berarti, standar deviasi, dan matriks kovarians, untuk setiap kelompok dan dikumpulkan.
Di atas ditambah Ringkasan klasifikasi lengkap: Memilih untuk menampilkan matriks klasifikasi, jarak kuadrat antara pusat kelompok, fungsi diskriminan linear,
ringkasan pengamatan kesalahan klasifikasi, berarti, standar deviasi, matriks kovarians, untuk setiap kelompok dan dikumpulkan, dan ringkasan tentang bagaimana
semua pengamatan diklasifikasikan. Minitab mencatat pengamatan yang salah diklasifikasikan dengan dua tanda bintang di samping jumlah observasi.
Ringkasan klasifikasi
benar Grup
Dimasukkan ke dalam Grup Alaska Kanada Alaska
44 1
Kanada 6 49
Jumlah N 50 50
N yang benar 44 49
Proporsi 0,880 0.980
Alaska Canada
Alaska 0.00000 8.29187 Canada 8.29187
0.00000
Alaska Canada
Constant - 100.68 -95.14
Freshwater 0.37 0.50
Marine 0.38 0.33
Squared
Observation True Group Pred Group Group Distance Probability
1** Alaska Canada Alaska 3.544 0.428
Simple correspondence analysis helps you to explore relationships in a two-way classification. Simple correspondence analysis can also operate on three-way and four-way
tables because they can be collapsed into two-way tables. This procedure decomposes a contingency table in a manner similar to how principal components analysis
decomposes multivariate continuous data. An eigen analysis of the data is performed, and the variability is broken down into underlying dimensions and associated with rows
and/or columns.
Categorical variables: Choose to enter the data as categorical variables. If you do not use the Combine subdialog box, enter two worksheet columns. The first is for the
row categories; the second is for the column categories. Minitab then forms a contingency table from the input data.
Columns of a contingency table: Choose to enter the data as columns of a contingency table. Each worksheet column you enter will be used as one column of the
contingency table. All values in the contingency columns must be positive integers or zero.
Row names: Enter a column that contains names for the rows of the contingency table. The name column must be a text column whose length matches the number of rows in
the contingency table. Minitab prints the first 8 characters of the names in tables, but prints the full name on graphs. If you do not enter names here, the rows will be named
Row1, Row2, etc.
Column names: Enter a column that contains names for the columns of the contingency table. The name column must be a text column whose length matches the number of
columns in the contingency table. Minitab prints the first 8 characters of the names in tables, but prints the full name on graphs. If you do not enter names here, the columns
will be named Column1, Column2, etc.
Number of components: Enter the number of components to calculate. The minimum number of components is one. The maximum number of components for a
contingency table with r rows and c columns is the smaller of (r-1) or (c-1), which is equivalent to the dimension of the subspace onto which you project the profiles. The
<Storage>
• If your data are in raw form, you can have two, three, or four classification columns with each row representing one observation. All columns must be the same length.
The data represent categories and may be numeric, text, or date/time. If the categories in a column are text data, the levels are used in the order of first occurrence, i.e.,
the first level becomes the first row (column) of the table, the next distinct level becomes the second row (column) of the table, and so on. If you wish to change the order
in which text categories are processed from their default alphabetized order, you can define your own order. See Ordering Text Categories. You must delete missing data
before using this procedure. Because simple correspondence analysis works with a two-way classification, the standard approach is to use two worksheet columns.
However, you can obtain a two-way classification with three or four variables by crossing variables within the simple correspondence analysis procedure. See Crossing
variables to create a two-way table.
• If your data are in contingency table form, worksheet columns must contain integer frequencies of your category combinations. You must delete any rows or columns
with missing data or combine them with other rows or columns. Unlike the χ test for association procedure, there is no set limit on the number of contingency table
columns. You could use simple correspondence analysis to obtain χ statistics for large tables.
Supplementary data
When performing a simple correspondence analysis, you have a main classification set of data on which you perform your analysis. However, you may also have additional or
supplementary data in the same form as the main set, because you can see how these supplementary data are "scored" using the results from the main set. These
supplementary data may be further information from the same study, information from other studies, or target profiles [4]. Minitab does not include these data when calculating
the components, but you can obtain a profile and display supplementary data in graphs. You can have row supplementary data or column supplementary data. Row
supplementary data constitutes an additional row(s) of the contingency table, while column supplementary data constitutes an additional column(s) of the contingency table.
Supplementary data must be entered in contingency table form. Therefore, each worksheet column of these data must contain c entries (where c is the number of contingency
table columns) or r entries (where r is the number of contingency table rows).
2 How you enter your data depends on the form of the data and the number of categorical variables.
− For raw data, enter the columns containing the raw data in Categorical variables .
− For contingency table data, enter the columns containing the data in Columns of a contingency table .
• If you have three or four categorical variables, you must cross some variables before entering data as shown above. See Crossing variables to create a
two-way table. 3 If you like, use any dialog box options, then click OK .
Crossing variables allows you to use simple correspondence analysis to analyze three-way and four-way contingency tables. You can cross the first two variables to form
rows and/or the last two variables to form columns. You must enter three categorical variables to perform one cross, and four categorical variables to perform two crosses.
In order to cross columns, you must choose Categorical variables for Input Data rather than Columns of a contingency table in the main dialog box. If you want to cross
for either just the rows or for just the columns of the contingency table, you must enter three worksheet columns in the Categorical variables text box. If you want to cross
both the rows and the columns of the table, you must specify four worksheet columns in this text box.
First variable: Choose to use the first input column to form the rows of the contingency table. Thus, the rows of the contingency table are not formed by crossing
variables.
First 2 variables crossed: Choose to cross the categories in the first two input columns to form the rows of the contingency table. For example, if the first variable is
Sex (with 2 levels, male and female) and the second variable is Age (with 3 levels, young, middle aged, old), then there will be 2 x 3 = 6 rows, ordered as follows:
males / young males / middle aged males / old females / young females / middle aged females / old
Last variable: Choose to use the last input column to form the columns of the contingency table.
Last 2 variables crossed: Choose to cross the categories in the last two input columns to form the columns of the contingency table.
When performing a simple correspondence analysis, you have a main classification set of data on which you perform your analysis. However, you may also have additional or
supplementary data in the same form as the main set, because you can see how these supplementary data are "scored" using the results from the main set. See What are
Supplementary Data?
Supplementary Columns: Enter one or more columns containing additional columns of the contingency table.
Row names: Enter a column containing text names for the supplementary rows.
Column names: Enter a column containing text names for the supplementary columns.
Row profiles: Check to display a table of row profiles and row masses.
Columns profiles: Check to display a table of column profiles and column masses.
Expected frequencies: Check to display a table of the expected frequency in each cell of the contingency table.
Observed - expected frequencies: Check to display a table of the observed minus the expected frequency in each cell of the contingency table.
Chi-square values: Check to display a table of the χ value in each cell of the contingency table.
Inertias: Check to display the table of the relative inertia in each cell of the contingency table.
Allows you display various plots to complement your analysis. See Simple correspondence analysis graphs. In all plots, row points are plotted with red circles--solid circles for
regular points, and open circles for supplementary points. Column points are plotted with blue squares--solid squares for regular points, and open squares for supplementary
points.
The aspect ratio of the plots is one-to-one so that a unit on the x-axis is equal to a unit on the y-axis.
The first axis in a pair will be the Y or vertical axis of the plot; the second axis will be the X or horizontal axis of the plot. For example, if you enter 2 1 3 1 plots component
2 versus component 1, and component 3 versus component 1.
Show supplementary points in all plots: Check to display supplementary points on all plots.
Plots:
Symmetric plot showing rows only: Check to display a plot that shows the row principal coordinates.
Symmetric plot showing columns only: Check to display a plot that shows the column principal coordinates.
Symmetric plot showing rows and columns: Check to display a symmetric plot that shows both row principal coordinates and column principal coordinates
overlaid in a joint display.
Asymmetric row plot showing rows and columns: Check to display an asymmetric row plot.
Asymmetric column plot showing rows and columns: Check to display an asymmetric column plot.
3 If you like, you can specify the component pairs and their axes for plotting. Enter between 1 and 15 component pairs
in Axis pairs for all plots (Y then X) . Minitab plots the first component in each pair on the vertical or y-axis of the plot; the second component in the pair on the
horizontal or x-axis of the plot. 4 If you have supplementary data and would like to include this data in the plot(s), check Show supplementary points
in all plots . Click OK in each dialog box. In all plots, row points are plotted with red circles − solid circles for regular points, and open circles for supplementary points.
Column points are plotted with blue squares − blue squares for regular points, and open squares for supplementary points.
• A symmetric plot
A row plot is a plot of row principal coordinates. A column plot is a plot of column principal coordinates. A symmetric plot is a plot of row and column principal coordinates in a
joint display. An advantage of this plot is that the profiles are spread out for better viewing of distances between them. The row-to-row and column-to-column distances are
approximate χ distances between the respective profiles. However, this same interpretation cannot be made for row-to- column distances. Because these distances are two
different mappings, you must interpret these plots carefully [4].
An asymmetric row plot is a plot of row principal coordinates and of column standardized coordinates in the same plot. Distances between row points are approximate χ distances
between the row profiles. Choose the asymmetric row plot over the asymmetric column plot if rows are of primary interest.
An asymmetric column plot is a plot of column principal coordinates and row standardized coordinates. Distances between column points are approximate χ distances
between the column profiles. Choose an asymmetric column plot over an asymmetric row plot if columns are of primary interest.
An advantage of asymmetric plots is that there can be an intuitive interpretation of the distances between row points and column points, especially if the two displayed
components represent a large proportion of the total inertia [4]. Suppose you have an asymmetric row plot, as shown in Example of simple correspondence analysis. This
graph plots both the row profiles and the column vertices for components 1 and 2. The closer a row profile is to a column vertex, the higher the row profile is with respect to the
column category. In this example, of the row points, Biochemistry is closest to column category E, implying that biochemistry as a discipline has the highest percentage of
unfunded researchers in this study. A disadvantage of asymmetric plots is that the profiles of interest are often bunched in the middle of the graph [4], as happens with the
asymmetric plot of this example.
Allows you to store results. In the four cases that store coordinates, the coordinate for the first component is stored in the first column, the coordinate for the second component
in the second column, and so on. If there are supplementary points, their coordinates are stored at the ends of the columns.
Row principal coordinates: Check to store the row principal coordinates. Minitab stores the coordinate for the first component in a column named RPC1, the coordinate
for the second component in a column that named RPC2, etc. If there are supplementary points, their coordinates are stored at the ends of the columns.
Row standardized coordinates: Check to store the row standardized coordinates. Minitab stores the coordinate for the first component in a column named RSC1, the
coordinate for the second component in a column that named RSC2, etc. If there are supplementary points, their coordinates are stored at the ends of the columns.
Column principal coordinates: Check to store the column principal coordinates. Minitab stores the coordinate for the first component in a column named CPC1, the
coordinate for the second component in a column that named CPC2, etc. If there are supplementary points, their coordinates are stored at the ends of the columns.
Column standardized coordinates: Check to store the column standardized coordinates. Minitab stores the coordinate for the first component in a column named CSC1,
the coordinate for the second component in a column that named CSC2, etc. If there are supplementary points, their coordinates are stored at the ends of the columns.
3 Choose Columns of a contingency table, and enter CT1-CT5. In Row names , enter RowNames. In Column
names , enter ColNames.
5 Click Supp Data . In Supplementary Rows , enter RowSupp1 RowSupp2. In Row names , enter RSNames. Click OK .
6 Click Graphs . Check Show supplementary points in all plots . Check Symmetric plot showing rows only and
Asymmetric row plot showing rows and columns .
Row Profiles
A B C D E Mass
Geology 0.035 0.224 0.459 0.165 0.118 0.107
Biochemistry 0.034 0.069 0.448 0.034 0.414 0.036 Chemistry
0.046 0.192 0.377 0.162 0.223 0.163
Zoology 0.025 0.125 0.342 0.292 0.217 0.151
Physics 0.088 0.193 0.412 0.079 0.228 0.143
Engineering 0.034 0.125 0.284 0.170 0.386 0.111
Microbiology 0.027 0.162 0.378 0.135 0.297 0.046 Botany
0.000 0.140 0.395 0.198 0.267 0.108
Statistics 0.069 0.172 0.379 0.138 0.241 0.036
Mathematics 0.026 0.141 0.474 0.103 0.256 0.098
Mass 0.039 0.161 0.389 0.162 0.249
Row Contributions
Component 1
ID Name Qual Mass Inert Coord Corr Contr
1 Geology 0.916 0.107 0.137 -0.076 0.055 0.016
2 Biochemistry 0.881 0.036 0.119 -0.180 0.119 0.030 3 Chemistry
0.644 0.163 0.021 -0.038 0.134 0.006
4 Zoology 0.929 0.151 0.230 0.327 0.846 0.413
5 Physics 0.886 0.143 0.196 -0.316 0.880 0.365
6 Engineering 0.870 0.111 0.152 0.117 0.121 0.039
7 Microbiology 0.680 0.046 0.010 -0.013 0.009 0.000 8 Botany
0.654 0.108 0.067 0.179 0.625 0.088
9 Statistics 0.561 0.036 0.012 -0.125 0.554 0.014
10 Mathematics 0.319 0.098 0.056 -0.107 0.240 0.029 Component 2
Supplementary Rows
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Museums 0.556 0.067 0.353 0.314 0.225 0.168 -0.381 0.331 0.318
2 MathSci 0.559 0.134 0.041 -0.112 0.493 0.043 0.041 0.066 0.007
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 A 0.587 0.039 0.187 -0.478 0.574 0.228 -0.072 0.013 0.007
2 B 0.816 0.161 0.110 -0.127 0.286 0.067 -0.173 0.531 0.159
3 C 0.465 0.389 0.094 -0.083 0.341 0.068 -0.050 0.124 0.032
4 D 0.968 0.162 0.347 0.390 0.859 0.632 -0.139 0.109 0.103
5 E 0.990 0.249 0.262 0.032 0.012 0.006 0.292 0.978 0.699
Analysis of Contingency Table. The second table shows the decomposition of the total inertia. For this example, the table gives a summary of the decomposition of the
10 x 5 contingency table into 4 components. The column labeled Inertia contains the χ squared / n value accounted for by each component. Of the total inertia, 65.972 /
796 or 0.0829,
47.2% is accounted for by the first component, 36.66% by the second component, and so on. Here, 65.972 is the χ
squared statistic you would obtain if you performed a χ squared test of association with this contingency table.
Row Contributions. You can use the third table to interpret the different components. Since the number of components was not specified, Minitab calculates 2 components.
• The column labeled Qual, or quality, is the proportion of the row inertia represented by the two components. The rows Zoology and Geology, with quality = 0.928 and
0.916, respectively, are best represented among the rows by the two component breakdown, while Math has the poorest representation, with a quality value of 0.319.
• The column labeled Mass has the same meaning as in the Row Profiles table − the proportion of the class in the whole data set.
• The column labeled Inert is the proportion of the total inertia contributed by each row. Thus, Geology contributes
13.7% to the total χ squared statistic.
Next, Minitab displays information for each of the two components (axes).
• The column labeled Coord gives the principal coordinates of the rows.
• The column labeled Corr represents the contribution of the component to the inertia of the row. Thus, Component 1 accounts for most of the inertia of Zoology and
Physics (Coor = 0.846 and 0.880, respectively), but explains little of the inertia of Microbiology (Coor = 0.009).
• Contr, the contribution of each row to the axis inertia, shows that Zoology and Physics contribute the most, with Botany contributing to a smaller degree, to Component 1.
Geology, Biochemistry, and Engineering contribute the most to Component 2.
Supplementary rows. You can interpret this table in a similar fashion as the row contributions table.
Column Contributions. The fifth table shows that two components explain most of the variability in funding categories B,
D, and E. The funded categories A, B, C, and D contribute most to component 1, while the unfunded category, E, contributes most to component 2.
Row Plot. This plot displays the row principal coordinates. Component 1, which best explains Zoology and Physics, shows these two classes well removed from the
origin, but with opposite sign. Component 1 might be thought of as contrasting the biological sciences Zoology and Botany with Physics. Component 2 might be thought
of as contrasting Biochemistry and Engineering with Geology.
Asymmetric Row Plot. Here, the rows are scaled in principal coordinates and the columns are scaled in standard coordinates. Among funding classes, Component 1 contrasts
levels of funding, while Component 2 contrasts being funded (A to D) with not being funded (E). Among the disciplines, Physics tends to have the highest funding level and
Zoology has the lowest. Biochemistry tends to be in the middle of the funding level, but highest among unfunded researchers. Museums tend to be funded, but at a lower level
than academic researchers
Multiple correspondence analysis extends simple correspondence analysis to the case of three or more categorical variables. Multiple correspondence analysis performs a
simple correspondence analysis on a matrix of indicator variables where each column of the matrix corresponds to a level of categorical variable. Rather than having the
two-way table of simple correspondence analysis, here the multi-way table is collapsed into one dimension. By moving from the simple to multiple procedure, you gain
information on a potentially larger number of variables, but you may lose information on how rows and columns relate to each other.
Categorical variables: Choose If your data are in raw form and then enter the columns containing the categorical variables.
Indicator variables: Choose if your data are arranged as indicator variables and then enter the columns containing the indicator in the text box. The entries in all columns
must be either the integers 0 and 1.
Category names: Enter the column that contains the category names if you want to assign category names. The name column must be a text column whose length
matches the number of categories on all categorical variables. For example, suppose there are 3 categorical variables: Sex (male, female), Hair color (blond, brown, black),
and Age (under 20, from 20 to 50, over 50), and no supplementary variables. You would assign 2 + 3 + 3 = 8 category names, so the name column would contain 8 rows.
Minitab only uses the first 8 characters of the names in printed tables, but uses all characters on graphs.
Number of components: Enter the number of components to calculate. The default number of components is 2. <Supp Data>
<Results>
<Graphs>
<Storage>
• If your data are in raw form, you can have one or more classification columns with each row representing one observation. The data represent categories and may be
numeric, text, or date/time. If you wish to change the order in which text categories are processed from their default alphabetized order, you can define your own order.
See Ordering Text Categories. You must delete missing data before using this procedure.
• If your data are in indicator variable form, each row will also represent one observation. There will be one indicator column for each category level. You can use Calc >
Make Indicator Variables to create indicator variables from raw data. You must delete missing data before using this procedure.
Supplementary data
When performing a multiple correspondence analysis, you have a main classification set of data on which you perform your analysis. However, you may also have additional or
supplementary data in the same form as the main set, and you might want to see how this supplementary data are "scored" using the results from the main set. These
supplementary data are typically a classification of your variables that can help you to interpret the results. Minitab does not include these data when calculating the
components, but you can obtain a profile and display supplementary data in graphs. Set up your supplementary data in your worksheet using the same form, either raw data or
indicator variables, as you did for the input data. Because your supplementary data will provide additional information about your observations, your supplementary data
column(s) must be the same length as your input data.
• For raw data, enter the columns containing the raw data in Categorical variables .
• For indicator variable data, enter the columns containing the indicator variable data in Indicator variables .
Category names: Enter a column containing a text name for each category of all the supplementary data, arranged by numerical order of the corresponding categories by
variable.
Points are plotted with blue squares--solid squares for regular points, and open squares for supplementary points. The aspect ratio of the plots is one-to-one so that
The first axis in a pair will be the Y or vertical axis of the plot; the second axis will be the X or horizontal axis of the plot. For example, if you enter 2 1 3 1 plots component
2 versus component 1, and component 3 versus component 1.
Show supplementary points in all plots: Check to display supplementary points on all plots.
Display column plot: Check to display a plot that shows the column coordinates.
driver was ejected, and the size of the car (small or standard). Multiple correspondence analysis was used to examine how the categories in this four-way table are related to
each other. 1 Open the worksheet EXH_TABL.MTW. 2 Choose Stat > Multivariate > Multiple Correspondence Analysis.
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 Small 0.965 0.042 0.208 0.381 0.030 0.015 -2.139 0.936 0.771
2 Standard 0.965 0.208 0.042 -0.078 0.030 0.003 0.437 0.936 0.158
3 NoEject 0.474 0.213 0.037 -0.284 0.472 0.043 -0.020 0.002 0.000
4 Eject 0.474 0.037 0.213 1.659 0.472 0.250 0.115 0.002 0.002
5 Collis 0.613 0.193 0.057 -0.426 0.610 0.087 0.034 0.004 0.001
6 Rollover 0.613 0.057 0.193 1.429 0.610 0.291 -0.113 0.004 0.003
7 NoSevere 0.568 0.135 0.115 -0.652 0.502 0.143 -0.237 0.066 0.030 8 Severe
0.568 0.115 0.135 0.769 0.502 0.168 0.280 0.066 0.036
Column Contributions. Use the column contributions to interpret the different components. Since we did not specify the number of components, Minitab calculates 2
components.
• The column labeled Qual, or quality, is the proportion of the column inertia represented by the all calculated components. The car-size categories (Small, Standard) are
best represented by the two component breakdown with Qual = 0.965, while the ejection categories are the least represented with Qual = 0.474. When there are only
two categories for each class, each is represented equally well by any component, but this rule would not necessarily be true for more than two categories.
• The column labeled Mass is the proportion of the class in the whole data set. In this example, the CarWt, DrEject, AccType, and AccSever classes combine for a
proportion of 0.25.
• The column labeled Inert is the proportion of inertia contributed by each column. The categories small cars, ejections, and collisions have the highest inertia, summing
61.4%, which indicates that these categories are more dissociated from the others.
Next, Minitab displays information for each of the two components (axes).
• The column labeled Coord gives the column coordinates. Eject and Rollover have the largest absolute coordinates for component 1 and Small has the largest absolute
coordinate for component 2. The sign and relative size of the coordinates are useful in interpreting components.
• The column labeled Corr represents the contribution of the respective component to the inertia of the row. Here, Component 1 accounts for 47 to 61% of the inertia of the
ejection, collision type, and accident severity categories, but explains only 3.0% of the inertia of car size.
• Contr, the contribution of the row to the axis inertia, shows Eject and Rollover contributing the most to Component 1 (Contr = 0.250 and 0.291, respectively).
Component 2, on the other hand accounts for 93.6% of the inertia of the car size categories, with Small contributing 77.1% of the axis inertia.
Column Plot. As the contribution values for Component 1 indicate, Eject and Rollover are most distant from the origin. This component contrasts Eject and Rollover and to
some extent Severe with NoSevere. Component 2 separates Small with the other categories. Two components may not adequately explain the variability of these data,
however.
Cluster analysis........................................................... 12 F
K-means .................................................................. 21 M
Cluster Variables (Stat menu) ................................. 17 Principal Components (Stat menu) ........................... 2
Correspondence analysis ..................................... 28, 35 Cross-validation Prior probabilities........................................................ 25
.......................................................... 24 S
Discriminant Analysis .............................................. 25 Simple Correspondence Analysis .............................. 28
D Simple Correspondence Analysis (Stat menu) ....... 28
Discriminant Analysis.................................................. 24