bigdata

0热度

1回答

您能帮我从蜂巢中的current_date获取“MMM-yyyy”格式的时间格式吗？非常感谢。例如： col1 col2 12-09-2016 SEP-2016 21-10-2017 OCT-2017

1热度

1回答

我有各种包含数百万条记录的日志文件。我想把记录从这些文件推送到mongodb，我必须在插入MongoDb之前对数据进行规范化处理，并在文件中的每行/记录中使用作为常用变量的ID。 MY_MONGO_DB_SCHEMA = { "ID" : "common in all the files", "LOG_FILE_1":[{ # varia

0热度

2回答

自动生成HBase的

row_key我有类似这样 11,xxx ,dav,300000,mumbai 12,YYY ,IIT,800000,bang 记录的日志文件，当我将其导入使用导入TSV即〜 ImportTsv -Dimporttsv.separator=, -Dimporttsv.columns="HBASE_ROW_KEY,id,name,school,sal,place" table_name <

1热度

1回答

Dask在Groupby上复制Pandas值计数

我想要做的是在dask中复制熊猫值计数+ idxmax函数，因为我有很多数据。下面是一个例子数据框： partner_num cust_id item_id revw_ratg_num revw_dt item_qty 0 100 01 5 05/30/2000 0 0 100 03 5 05/30/2000 0 0 100 02 5 05/30/2000 0 1 200 13 4 04/

1热度

1回答

返回数组比较的比例

我有一个mongodb存储库，有很多数据，我需要搜索和分类给定的数据。我打算让服务器工作来处理请求并给出响应，但我不知道使用哪种算法，bigdata工具甚至mongodb命令。这是我需要做的一个例子。我有这个数据库： [ { id: 1, Colors: ["Green","Red","Blue","Yellow"] }, {

0热度

1回答

使用查询的Sqoop导出

我们正在尝试将HIVE表中的数据导出到HANA，能够使用Sqoop导出命令中的--hcatalog表选项导出数据。但是，试图使用与查询选项加载数据时面临的问题在where子句是否有可能使用在sqoop export命令查询选项？我的样本舀命令就像下面 sqoop export -D sqoop.export.records.per.statement=1 -D mapreduce.map.m

0热度

1回答

使用openpyxl处理非常大的文件python

我有一个有11,000行和10列的电子表格。我试图复制每行与选定的列，每行添加额外的信息和输出到TXT。不幸的是，我遇到了非常糟糕的性能问题，文件开始在100行后死掉并终止我的处理器。有没有办法来加速或使用更好的方法？我已经使用read_only=True和data_only=True 大多数内存密集型部分是通过遍历每个单元： for i in range(probeStart, lastRow

0热度

2回答

加速比我的数据加载操作

请原谅我的无知，如果这个问题可能听起来很傻这里的专家观众目前按我的使用情况我存在于AWS红移表中的数据进行一定的分析，并为他们节省一在S3桶 csv文件（操作是一些什么类似Pivot for redshift database），之后我更新的数据回红移分贝使用copy命令200个CSV文件进行分析（这是在python3完成）后目前是生成的这些保存在200个不同的红移表中 CSV的数量将继续

0热度

3回答

德鲁伊卡夫卡摄取（暗示-2.2.3）：卡夫卡错误NoReplicaOnlineException

我使用Druid Kafka Indexing服务来加载我自己的卡夫卡流。我使用Load from Kafka tutorial来实现它。卡夫卡的所有设置默认（仅从tgz提取）。当我开始暗示-2.2.3（德鲁伊）与空数据（后VAR删除文件夹）中的所有工作正常。但是，当我停止卡夫卡2.11-0.10.2.0并启动它，直到我停止暗示（德鲁伊），并删除所有数据再次出现错误和德鲁伊卡夫卡摄入没有更多

1热度

1回答

集群应该有多少个节点来分析3 TB的数据？应该如何设计硬件架构

说明：该数据是在SQL Server数据库中，我们需要分析这些数据与大数据的帮助，在这方面的任何帮助，将不胜感激