hbase

    0热度

    1回答

    Hortonworks Data Platform(HDP)中的HBase如何与Apache HBase不同。我们在生产中使用HDP,但是为了开发目的,使用Apache HBase进行测试。 我们应该在我们的代码中做些什么来允许任何差异?

    0热度

    1回答

    我设计了HBase表,我的rowkey被驱动到我需要运行的查询。遵循最佳实践,我将一个散列部分作为我的rowkeys的前缀,试图在我的表区域尽可能均匀地分散行。 我担心以下情形: 我在3个区之间我的HBase的表拆分了数十亿行的。我使用此表为REST API提供数据,因此,它需要尽可能快地提供行。 不幸的是,我打了著名超时错误Failed to get result within timeout,

    0热度

    1回答

    我想利用我的全HBase的集群不是不同快照的一个快照中的每个表

    0热度

    3回答

    我想了解用于报告目的的最佳大数据解决方案是什么? 目前我把它缩小到HBase vs Hive。 用例是我们有几百TB的数据,有数百个不同的文件。数据是实时的,并且一直在更新。我们需要提供最有效的报告方式。我们有几十个不同的报告页面,每个报告由不同类型的数字和图形数据组成。例如: 显示所有在过去一小时内登录系统的用户,并且 其来源是美国。 以最多玩过的游戏来展示一个图表,以 最少玩过的游戏。 系统中

    0热度

    1回答

    我试图在此之后在Ubuntu 14.04上部署Nutch 2.3 + ElasticSearch 1.4 + HBase 0.94 tutorial。当我尝试启动爬行注入的URL做: $NUTCH_ROOT/runtime/local/bin/nutch inject urls 我得到: InjectorJob: starting at 2017-10-12 19:27:48 Injecto

    0热度

    1回答

    我在阅读Cell in HBase,并看到该值在给定行,列族,列限定符,时间戳和类型时是唯一的。 我知道前4个,但对type一无所知,因为我总是知道HBase将所有东西存储为字节数组。然后我发现它不是价值的类型,而是The byte representation of the KeyValue.TYPE of this cell: one of Put, Delete, etc。链接到代码here

    0热度

    1回答

    鉴于我有一个rowkey由客户和日期组成,customer_timestamp,我如何执行Get操作,该操作会使用给定的稀疏值生成搜索。 例如我认为有以下几点: | rowkey | cust/first_name | cust/last_name | cust/address | | ------------ | --------------- | -------------- | ----

    1热度

    1回答

    当我使用spark处理数据时,java.io.NotSerializableException会给我带来很多麻烦。 val hbase_conf = HBaseConfiguration.create() hbase_conf.set("hbase.zookeeper.property.clientPort", "2181") hbase_conf.set("hbase.zookeeper.q

    0热度

    1回答

    我想访问在顶部hBase表上创建的Spark中的Hive表。 sqlContext.sql("select * from dev.hive_habse_table") Eventhough我已经包括所有必需的罐,像蜂巢HBase的处理程序在HDP 2.5本 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$(hbase classpath) 和引发火花壳(火花1

    0热度

    1回答

    不确定用于以下数据的体系结构。 我在看下面的数据格式和容量:在查询字符串持有信息 生API Apache日志(每天约15G) JSON点击和浏览的广告 - 约每天3m条目。 这导致我寻找设置HDFS集群并使用fluentd或flume加载apache日志的选项。这一切看起来不错,但我不明白的是何时或如何解析apache日志以从查询字符串和路径中提取信息。例如:“/ home/category1 /