bigdata

    0热度

    2回答

    我'初学者卡夫卡 1 /我下载卡夫卡的1.0.0版本 2 /我在bith server.properties更改的数据目录位置和属性zookeeper.properties \设置\ server.properties \ CONFIG \ zookeeper.properties 3 /当我尝试启动动物园管理员和卡夫卡服务器 我有一个错误“Files was unexpected” D:\ ka

    0热度

    1回答

    有没有什么办法可以使用除时间戳以外的列值自动执行sqoop导入。我试图在我的表格中使用一列(ID)。但它没有奏效。以下是示例代码,我正在使用cloudera hadoop UI进行自动化。问题是最后一个没有自动更新的值。 import --connect jdbc:mysql://172.26.122.123:3306/books --username

    1热度

    1回答

    我试图计算位数计算位数高效的算法(可近似具有一定精确度保证或错误边界)一个巨大的数据集(万亿字节的数据)。我如何有效地计算分位数。要求是 1) Can be computed efficiently (one-pass) or in a distributed way (merging) 2) High accuracy (or at least can be controlled) 3) C

    1热度

    1回答

    我想要将几千兆字节到几太字节之间的三维数据卷可视化。一种解决办法是推出自己的产品,但这可能需要一些时间。为了避免这种情况,我目前正在探索当前可用的解决方案。我越查看它,我发现的软件就越多。一些实例包括ParaView/VTK,OSPRay,Embree,Splotch,NVIDIA GVDB/OptiX等 一些该软件提供用于可视化的完整解决方案,和数据操作(例如,ParaView/VTK)。其他人

    1热度

    2回答

    我有一个管道分隔的文本文件,它是360GB压缩文件(gzip)。 它有超过1,620列。我不能准确显示字段名,但这里是它基本上是什么: primary_key|property1_name|property1_value|property800_name|property800_value 12345|is_male|1|is_college_educated|1 严重的是,有超过这些属性名

    -1热度

    1回答

    我正在一个项目中接收大约10个文件,每个文件包含大小为200GB的文件。我的项目要求是从每个文件中提取数据,并与其他文件进行连接并提取数据。 E.G像我有文件1.txt我有帐户ID和我有文件2.txt,我有帐户ID和帐户名称。根据第一个文件的帐户ID我需要从第二个文件提取数据。 这样我需要对10个文件中的每一个执行操作并创建最终的输出文件。 我目前正在Java中这是真正花时间的过程。大约需要4到5

    0热度

    2回答

    我是Hadoop和pig的新手。根据问题我能够深入研究,直到下面的脚本,但我怎么能比较个人的薪水与他的部门的平均工资。以下是写入得到各部门的平均工资脚本 A = LOAD 'Assignment_1_Input.log' USING PigStorage('\t') as (id:int,name:chararray,age:int,salary:int,deptid:int); B = GRO

    0热度

    1回答

    想象一下,你有一个历史数据,每天有数百万行的数据被添加到它。有必要每天处理整个数据并更新变量。您如何使用大数据平台解决这个问题? 如果需要,欢迎提供更多细节。

    0热度

    1回答

    我在哪里可以找到TPC DS查询和数据集?这是我的项目工作之一,我需要分析他们在红移和雪花上的表现。

    0热度

    3回答

    hive>LOAD DATA INPATH '/hadoop/abc/POC2_Setup/input/warr2_claims_5441F.csv' OVERWRITE INTO TABLE baumuster_pre_analysi_text; 失败:1:17 SemanticException线的路径无效 '/hadoop/abc/POC2_Setup/input/warr2_claim