我们有一个包含10000个未分类数据记录的表,我想根据文本相似性或某些特征等特定属性对它们进行分类。数据分类
例如 考虑单个列包含姓名,电话号码和性别
现在我有一个具有单一的实体名称,电话号码,电子邮件指数。我要标记适当类型的索引IDS
表A(栏表)
id column_data index_id
1 abc
2 male
3 +1298312123
4 pqr
5 +1283711231
6 female
7 +1231231112
8 male
9 xyz
表B(索引表)
id index_name
1 name
2 phone number
3 email
所以,我要标记的列所有姓名,电话号码和性别与单一index_id以便于识别数据。
P.S我用这些数据作为演示,我们有成千上万的数据和我们想分类的1000个索引?
这样做的最佳方法是什么?
除非你要申请机器学习在这里,分类,并通过数据循环....你到目前为止尝试过什么? –
我们尝试过字符串比较。但是,数据的完整性在一定程度上不能被验证。我们使用Jaro Winkler算法进行字符串比较。 –
因此,使用机器学习,给它一堆例子和正确的分类,以便学习如何以高成功率进行分类的规则。 –