2016-12-15 97 views
0

我正试图找到一种快速方法对具有数百万行数的交易型市场购物篮数据进行亲和性分析。使用Hadoop在R中进行市场购物篮分析

什么我迄今所做的:

  • 创建
  • 获取与RevoScaleR
  • 开始对云星火& Hadoop之上的R服务器(Azure的HDInsight)在HDFS
  • 加载数据

但是,我陷入了最后一步。据我所知,我将无法使用RevoScaleR中未提供的函数来处理数据。

下面是用于访问HDFS数据的代码:

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE) 
rxSetComputeContext(mySparkCluster) 
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort) 
inputFile <-file.path(bigDataDirRoot,"gunluk") 

所以我infputFile是一个CSV在一个蓝色的斑点已经创建了/篮/ gunluk

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS) 

运行此之后,我能够使用head(gunluk_data)查看数据。

如何管理使用gunluk_dataarules包功能。这可能吗?

如果不是,是否可以使用常规R包(即arules)处理HDFS中的CSV文件?

回答

0

在arule中,您可以使用read.transactions来读取文件中的数据和write.PMML以写出规则/项目集。