2017-03-04 78 views
-1

我正在使用tm包创建文档的语料库,我想使用谱聚类(kernlab包)进行文本分类。R:用于文本分类的谱聚类

所以,如果我有一个语料库

my_corpus = VCorpus(DirSource(directory="C:/Users/me/Desktop/Documents", pattern="txt")

而且我想用specc功能,采用下列参数

specc(x, centers, kernel)

我该怎么把为执行谱聚类第一个参数?该文档说x必须是“要聚类的数据矩阵,或者要拟合的模型的符号描述,或类kernelMatrix的内核矩阵或者字符向量列表”。但简单地把my_corpus不起作用。所以我很困惑,如果你有一个文件的语料库,这是如何工作的。

回答

0
  1. 选择一个合适的内核

  2. 计算内核矩阵

  3. 谱聚类

  4. 评估,评估,评估。聚类很可能会失败,但会产生结果。在文本上,任何结果都可以被解释为看起来不错...请参阅标题中的'阅读茶叶'主题建模的两篇出版物!

+0

我的问题是如何计算核心矩阵你知道吗? – vdvaxel

+0

无论你想要什么样的方式,这很简单,你需要K(i,j)用于任何两个文件,将它们存储在矩阵中 –

+0

你对K(i,j )虽然有标准函数将矩阵转换为内核矩阵 – vdvaxel