0
我有近TB的数据需要处理。我有一个视频链接到的标签列表字段。问题是有很多标签和一个视频信息链接到太多的标签,如何在转换之前将其转换(清理)。 OnehotEncoding和所有其他算法都不适合这个。机器学习每批处理新数据
例:
{"user_id":1, "vid_id":101, "name":"abc", "tags":["night", "horror"], "gender":"Male"}
{"user_id":2, "vid_id":192, "name":"xyz", "tags":["action", "twins"], "gender":"Male"}
等
上述JSON数据具有许多其他PARAMS太。但我想考虑使用这个标签参数。 现在我想预测数据的性别。用算法或想法帮助我。目前使用Python并使用spark来加载大数据。
你能提供一个你期望清理过的'标签'输出看起来像什么样子的例子吗? – vealkind
我的标记重复如'java','JAVA','Java'。我想在培训前清理数据。如果我使用NeuralNetwork,我需要将所有内容都转换为数字。所以这些就是例子。 @vealkind –