bigdata

    0热度

    1回答

    您能帮我从蜂巢中的current_date获取“MMM-yyyy”格式的时间格式吗? 非常感谢。 例如: col1 col2 12-09-2016 SEP-2016 21-10-2017 OCT-2017

    1热度

    1回答

    我有各种包含数百万条记录的日志文件。我想把记录从这些文件推送到mongodb,我必须在插入MongoDb之前对数据进行规范化处理,并在文件中的每行/记录中使用作为常用变量的ID。 MY_MONGO_DB_SCHEMA = { "ID" : "common in all the files", "LOG_FILE_1":[{ # varia

    0热度

    2回答

    row_key我有类似这样 11,xxx ,dav,300000,mumbai 12,YYY ,IIT,800000,bang 记录的日志文件,当我将其导入使用导入TSV即〜 ImportTsv -Dimporttsv.separator=, -Dimporttsv.columns="HBASE_ROW_KEY,id,name,school,sal,place" table_name <

    1热度

    1回答

    我想要做的是在dask中复制熊猫值计数+ idxmax函数,因为我有很多数据。下面是一个例子数据框: partner_num cust_id item_id revw_ratg_num revw_dt item_qty 0 100 01 5 05/30/2000 0 0 100 03 5 05/30/2000 0 0 100 02 5 05/30/2000 0 1 200 13 4 04/

    1热度

    1回答

    我有一个mongodb存储库,有很多数据,我需要搜索和分类给定的数据。 我打算让服务器工作来处理请求并给出响应,但我不知道使用哪种算法,bigdata工具甚至mongodb命令。 这是我需要做的一个例子。 我有这个数据库: [ { id: 1, Colors: ["Green","Red","Blue","Yellow"] }, {

    0热度

    1回答

    我们正在尝试将HIVE表中的数据导出到HANA,能够使用Sqoop导出命令中的--hcatalog表选项导出数据。 但是,试图使用与查询选项加载数据时面临的问题在where子句 是否有可能使用在sqoop export命令查询选项? 我的样本舀命令就像下面 sqoop export -D sqoop.export.records.per.statement=1 -D mapreduce.map.m

    0热度

    1回答

    我有一个有11,000行和10列的电子表格。我试图复制每行与选定的列,每行添加额外的信息和输出到TXT。 不幸的是,我遇到了非常糟糕的性能问题,文件开始在100行后死掉并终止我的处理器。有没有办法来加速或使用更好的方法?我已经使用read_only=True和data_only=True 大多数内存密集型部分是通过遍历每个单元: for i in range(probeStart, lastRow

    0热度

    2回答

    请原谅我的无知,如果这个问题可能听起来很傻这里的专家观众 目前按我的使用情况 我存在于AWS红移表中的数据进行一定的分析,并为他们节省一在S3桶 csv文件(操作是一些什么类似Pivot for redshift database) ,之后我更新的数据回红移分贝使用copy命令200个CSV文件进行分析(这是在python3完成)后 目前是生成的这些保存在200个不同的红移表中 CSV的数量将继续

    0热度

    3回答

    我使用Druid Kafka Indexing服务来加载我自己的卡夫卡流。我使用Load from Kafka tutorial来实现它。 卡夫卡的所有设置默认(仅从tgz提取)。 当我开始暗示-2.2.3(德鲁伊)与空数据(后VAR删除文件夹)中的所有工作正常。 但是,当我停止卡夫卡2.11-0.10.2.0并启动它,直到我停止暗示(德鲁伊),并删除所有数据再次出现错误和德鲁伊卡夫卡摄入没有更多

    1热度

    1回答

    说明:该数据是在SQL Server数据库中,我们需要分析这些数据与大数据 的帮助,在这方面的任何帮助,将不胜感激