hadoop

    1热度

    3回答

    我有一个名为geo_data_display的字段,其中包含国家,地区和dma。这3个值包含在第一个“=”和第一个“&”之间的字符,第二个“=”和第二个“&”之间的区域和第三个“=”和第三个“=”之间的DMA之间的国家, &“。这是一个可重新生成的表格。国家总是字符,但地区和DMA可以是数字或字符和DMA不存在所有国家。 几个样本值是: country=us®ion=tx&dma=625&d

    -1热度

    1回答

    我想构建一个运行sqoop作业的Java应用程序,执行一些hdfs操作并更改配置单元中的元数据。 为了实现这一切,我创建了一个maven项目,但是我一直遇到依赖项问题。 有人可以给我一个例子pom.xml,所以我可以开始写我的应用程序? 谢谢!

    0热度

    1回答

    Hadoop的行业标准复制因子是3.那么这是否意味着如果有100 GB的数据,那么在HDFS中它将被存储为300 GB?

    0热度

    1回答

    我试图在此之后在Ubuntu 14.04上部署Nutch 2.3 + ElasticSearch 1.4 + HBase 0.94 tutorial。当我尝试启动爬行注入的URL做: $NUTCH_ROOT/runtime/local/bin/nutch inject urls 我得到: InjectorJob: starting at 2017-10-12 19:27:48 Injecto

    1热度

    2回答

    这是我们组中的一个普遍问题,我们的Hive查询经常会扩展,以占用我们CDH群集上大多数可用的YARN执行程序和内存。虽然底层问题出在我们表格的分区数量和连接的复杂性上,但我们不能自由地重建这些表格。我们可以通过配置spark.dynamicAllocation.maxExecutors和spark.executor.memory来控制Spark中的资源消耗。我们可以在Hue上使用类似的东西,这样H

    0热度

    1回答

    改变减速机的输出名称分区在我的Hadoop编程我想提供自定义输出名称为减速机可以说这里是代码片段 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text;

    0热度

    1回答

    我已经用2.3.1配置了Apache Hadoop 2.7.4,Hbase 1.2.6和Solr 6.6.1。我mapred-site.xml所有节点上是 <property> <name>mapreduce.jobtracker.address</name> <value>master:9001</value> </property> <property> <

    1热度

    2回答

    我在具有大约80列的配置单中的表中有多个列。我需要在某些列上应用distinct子句,并从其他列中获取第一个值。下面是我想要实现的内容。 select distinct(col1,col2,col3),col5,col6,col7 from abc where col1 = 'something'; 上面提到的所有列都是文本列。所以我不能应用分组和聚合函数。

    0热度

    1回答

    配置PySpark和Anaconda3这里是我到目前为止所采取的步骤: 我安装Anaconda3和包含在目录$HOME/anaconda3/bin一切。 我cd'ed到$HOME/anaconda3/bin并运行命令./conda install -c conda-forge pyspark。它成功了。 我什么也没做。更具体地讲,有没有在我的.bashrc 这里设置变量的一些重要的细节: 我运行H

    0热度

    1回答

    我有一个用于连接到MySQL的应用程序,我有这方面Hibernate配置 这样的: <hibernate-configuration> <session-factory> <property name="hibernate.dialect">org.hibernate.dialect.MySQLDialect</property> <property name="