mahout

    1热度

    2回答

    我要使用Apache Spark(或Hahop中的Mahout)在一堆培训文档上训练一个朴素贝叶斯分类器。我想在接收新文档进行分类时使用此模型。我想知道在训练时是否有可能存储模型,然后在另一个Spark作业中加载它?

    0热度

    2回答

    elasticsearch整合我想用亨利马乌做存储在elasticsearch找到类似文件或建议基础上已经标记与某些条件的记录等记录数据的一些预测分析。 我计划建立一个象夫集群,但是确实elasticsearch有Hadoop集群内坐下来提供此功能?我需要运行es-hadoop吗?或者有没有另一种方法让Mahout在elasticsearch中查看数据? 与刚才的elasticsearch相比,e

    0热度

    2回答

    我想要使用Mahout对多个文档进行集群。聚类工作正常,但我不知道如何找出哪些文档位于每个群集中。 我读过创建稀疏文件时可以使用选项--namedVector,但是它从哪里获取ID以及在集群完成后如何检索此ID? 现在我做以下步骤: 我有每个文档文件的目录。该文件与文件的ID为文件名的格式如下: ./mahout seqdirectory -i tmp/es-out -o tmp/es-out-s

    0热度

    1回答

    对不起,我是推荐系统的新手,但我用apache mahout lib写了几行代码。那么,我的数据集非常小,500x100与8102细胞已知。 因此,我的数据集实际上是来自“Yelp商业评级预测”竞争的Yelp数据集的一个子集。我只拿到了评级最高的100家餐厅,然后吸纳了500位最活跃的顾客。 我创建了SVDRecommender,然后我评估了RMSE。结果约为0.4 ...为什么它很小?也许我只是

    2热度

    1回答

    我使用的是Mahout 0.11.0的最新Mahout版本。在以前版本的fr例子中有一个叫做mahout-core-0.9.jar的文件, 0.10.0我还没有找到任何这样的文件。 该文件在最新版本中在哪里。 请有人帮助我。

    0热度

    1回答

    我正在使用hadoop map-reduce。我必须处理来自.xml文件的数据,解析它并将输出存储到数据库中。 虽然这方面的工作时,我需要通过我的XML映像器,我发现XmlInputFormat.class没有被默认的Hadoop提供的,我们必须使用象夫的它XmlInputFormat。 我想知道Xml何时被广泛使用,为什么hadoop没有提供这个XmlInputFormat而不是明确地创建定制的

    0热度

    1回答

    我有一个大数据集,我使用它来训练使用Apache Mahout的天真分类器。我使用分类器对一堆文档进行分类(这就像我的测试集)。我对文档进行分类的方式如下: 我找到了测试文档的归一化tf-idf向量。为了找到idf我只考虑测试文件,而不是训练。 但是,在对测试文档进行分类后,我会收到更多文档进行分类,我需要先计算新文档的tf-idf。一种解决方案是重新计算所有测试文档(旧的和新的)的tf-idf,

    0热度

    1回答

    我是Apache Mahout中的新成员。我想分类一个.csv文件 这个文件的列是id,AAAA,..... TTTT,种类 ,每个记录的值是埃博拉病毒1,123,434,34,34,322,1,1,333,4,555,扎伊尔。 我想种分类(前扎伊尔,苏丹,大森林埃博拉病毒 当我尝试运行我的代码,它给了我下面的异常: 错误:java.lang.IllegalArgumentException异常:

    0热度

    1回答

    我正在寻找一些建议/指导 - 我工作的一个推荐引擎/人员协助的应用程序,使用亨利马乌作为框架 - 什么我想要做的是为应用程序的新用户开始回答5个问题,并使用问题的答案来影响推荐 - 几乎提供的答案作为用户偏好 我只是不确定如何将其纳入我的代码,我甚至不知道从哪里开始寻找 - 我一直在谷歌搜索,但没有任何搜索结果真的解决这个... 任何建议/咨询/指导,将不胜感激 感谢

    2热度

    1回答

    我在内部使用Mahout API进行朴素贝叶斯分类器。其中一个功能是SparseVectorsFromSequenceFiles,虽然我尝试了旧的Google搜索,但我仍然没有说明稀疏向量是什么。 最接近我的解释是这个site这并没有帮助我理解tbh。