我必须根据列名中存在的标记来聚集文档(实际上是数据库的列名)。例如: -集群文档是否对文档中的标记词进行编码?
C1 = ["Date", "Birth"]
C2 = ["Order", "Date"]
C3 = ["Birth", "Day"]
C4 = ["CUSTOMER", "FIRST", "NAME"]
C5 = ["FIRST","NAME"]
.
.
但是,所有这些标记实际上都是编码的,所以我收到的是以下数据集。
C1 = ["44749712dbec183e983dcd78a7736c41", "e8329d2530ca7d80bb28176883186dfd"]
C2 = ["a240fa27925a635b08dc28c9e4f9216d", "44749712dbec183e983dcd78a7736c41"]
C3 = ["e8329d2530ca7d80bb28176883186dfd", "03727ac48595a24daed975559c944a44"]
C4 = ["979ee13f032c02b4652a4e3c3928d90b", "2c2624a5059934a947d6e25fe8332ade", "ad32e604e17467fc435538334fbddf3e"]
C5 = ["2c2624a5059934a947d6e25fe8332ade","ad32e604e17467fc435538334fbddf3e"]
.
.
现在我想通过消耗他编码值,使得
C1,C2,C3到簇 - >群集1
C4,C5 - >群集2
我现在不在深度上怎么做。有没有可以解决我的问题的机器学习算法?
我目前使用Spark MLlib 1.6.0,但我找不到一种方法来应用算法,如Word2Vec来解决我的问题。
是否可以在未编码的数据集上使用word2vec或算法?
谢谢。
我没有预先提供所有关键字。随着我继续像扫描作业一样扫描数据库(列),将获得关键字。那么如何创建向量空间模型呢?感谢您的参考书 – Rahul
这取决于您是否可以重新扫描色谱柱,或者是否必须一次完成。简单的做法是将矢量空间作为预处理步骤,然后重新扫描以实际构建数据点。它可以一次完成,但更复杂。 – Ironluca
要扫描的总列数将大于1000万。无法一次扫描整个数据集。或许有可能在以后的时间点出现1000万列 – Rahul