我需要处理很多包含3列的csv文件:日期,电视频道ID,电影ID。分析抽象数据
基于这些专栏,我需要分类每个电影的风格和电视频道id的风格。
我是新来大数据过程,我想知道如果我只有一个ID(我不能使用其他来源搜索ID或生成随机数据来训练我的算法)我如何分类该数据。
我找到的解决方案是定义一些小时的范围,并放置在一些流派范围内的电影。例如:
- 在01:00-04:00之间播放的电影,流派1;
- 04:01-06:00之间播放的电影,流派2;
- 等
分类电影后,我可以基于它们发挥电影的电视频道分类。
而且我打算做使用的火花呢:)
任何人有另一种解决方案或者有什么建议?这很难,因为这些数据看起来像是抽象的。
谢谢
你能提供一些你试过的代码吗?就目前来看,这个问题太多而无法回答。 – wheaties
从你的解释看来,你仍然在搞清楚业务逻辑!一旦找出业务逻辑,可以考虑如何使用火花。 – rakesh