我有一大组数据包含81432图像的描述。这些描述由图像描述符生成,该图像描述符生成具有127个位置的矢量(针对每个图像)。所以,我有一个有81432行和127列的矩阵。如何解释R kmeans函数的结果?
而我正在运行kmeans从R,但我只是不知道如何解释结果。我已经设置了许多集群,算法运行的还有哪些?我想绘制弯头规则,但我甚至不知道如何去做。
我有一大组数据包含81432图像的描述。这些描述由图像描述符生成,该图像描述符生成具有127个位置的矢量(针对每个图像)。所以,我有一个有81432行和127列的矩阵。如何解释R kmeans函数的结果?
而我正在运行kmeans从R,但我只是不知道如何解释结果。我已经设置了许多集群,算法运行的还有哪些?我想绘制弯头规则,但我甚至不知道如何去做。
绘制弯头规则(这是关于如何附近是指向它的质心),我们必须使用tot.withinss
(群内总平方和)。
这个答案是关于使用R.
的使用K均值和主成分分析,用于分析和可视化数据集的示例代码片段:
library(calibrate)
library(plyr)
library(gclus)
library(scatterplot3d)
library(cluster)
library(fpc)
library(mclust)
library(rpanel)
library(rgl)
library(lattice)
library(tm);
library(RColorBrewer)
#Read data
mydata <- read.table(file="c:/data.mtx", header=TRUE, row.names=1, sep="");
# Lets look at the correlations
mydata.cor = abs(cor(scale(mydata)))
mydata.cor[,1:2]
#lets look at the data in interactive 3D plot before PCA
rp.plot3d(mydata[,1],mydata[,2], mydata[,3])
# Doing the PCA
mydata.pca<- prcomp(mydata, retx=TRUE, center=TRUE, scale=TRUE);
summary(mydata.pca)
#3D plot of first three PCs
rp.plot3d(mydata.pca$x[,1],mydata.pca$x[,2],mydata.pca$x[,3])
#Eigenvalues of components for Kaiser Criterion
mydata.pca$sdev ^2
#scree test for determining optimal number of PCs (Elbow rule)
par(mfrow=c(1,2))
screeplot(mydata.pca,main="Scree Plot",xlab="Components")
screeplot(mydata.pca,type="line",main="Scree Plot")
#Scores
scores = mydata.pca$x
## Plot of the scores, with the axes
pdf("scores.pdf")
plot (scores[,1], scores[,2], xlab="Scores 1", ylab="Scores 2")
text (x=scores[,1], y=scores[,2], labels=row.names (scores), cex=c(0.4,0.4), col = "blue")
lines(c(-5,5),c(0,0),lty=2) ## Draw the horizontal axis
lines(c(0,0),c(-4,3),lty=2) ## Draw the vertical axis
dev.off()
#finding possible number of clusters in Kmeans
wss <- (nrow(scale(mydata))-1)*sum(apply(scale(mydata),2,var));
for (i in 2:20) wss[i] <- sum(kmeans(scale(mydata),centers=i)$withinss);
plot(1:20, wss, type="b", xlab="Number of Clusters", ylab="Within groups sum of squares");
#Performing K-Means and visualizing the result
km1<-kmeans(scores[,1:2], algorithm = "Hartigan-Wong", centers=4)
#par(mfrow = c(1, 1))
pdf("km.pdf")
plot(scores[,1:2], col = km1$cluster);
points(km1$centers, col = 1:5, pch = 8, cex=2);
scatterplot3d(km1$centers, pch=20, highlight.3d = TRUE, type="h");
# getting cluster means
aggregate(scores[,1:2],by=list(km1$cluster),FUN=mean);
# appending cluster assignment
clustercounts <- data.frame(scores[,1:2], km1$cluster);
#Cluster Plot against 1st 2 principal components
clusplot(scores[,1:2], km1$cluster, color=TRUE, shade=TRUE, labels=2, lines=0, cex=c(0.2,0.2));
dev.off()
这个答案没有帮助,因为我们大多数人可能没有''c:/data.mtx“'坐在我们的机器上 –
@SeñorO这个问题没有帮助,因为它没有包含可复制的数据集 – C8H10N4O2
@ C8H10N4O2 ok你想让我对此做些什么? –
请仔细阅读[如何创建一个可重复的例子(http://stackoverflow.com/questions/5963269/how-to-make-a-great-r -reproducible-例子)。包括一些示例数据,并准确描述你想让剧情看起来像什么。如果你只是寻找可视化建议,那么这真的不是一个编程问题,可能更适合[stats.se]而不是Stack Overflow。 – MrFlick
感谢@MrFlick的解释。实际上,我真的不知道我在找什么样的可视化(也许像散点图那样)。我也把这个问题放在了交叉验证中。 –