u-sql

    0热度

    4回答

    我有一个csv文件,我尝试使用Azure Data Lake Analytics U-SQL进行处理。我对U-SQL相当陌生,所以请耐心等待。原始文件是我设法使用silent:true标志修复的半结构化文件。现在它更加结构化了,我想用上面单元格中的数据填充空单元格。 我的数据是这样的: CSV with empty cells 我的问题在于,在第一四列空单元格。 第二行有我想要复制到它下面的空单元

    0热度

    1回答

    在Azure Data Lake Analytics(ADLA)中,只能在表上定义一个索引,并且必须对其进行聚类。它有两种分析需要在不同的键上进行分区以提高效率,您必须复制表创建脚本等以使事情平行运行。 E.g.简单的订单示例 CREATE TABLE dbo.Orders ( OrderID int, CustomerID int, OrderDetailID in

    0热度

    1回答

    我解析了u-sql中的一个csv文件,并且由于两个以数字开头的列名称而产生问题。这会产生以下错误: 错误:E_CSC_USER_SYNTAXERROR:语法错误。预期之一:标识符引用标识符 是不可能解析以u-sql中的数值开头的csv文件? 将列01Test和02Test重命名为Test01和Test02,并按预期工作。 //currentTime,01Test,02Test //2016-

    0热度

    1回答

    我有成千上万的csv文件,包含从2016年1月到今天的跨越。 我想加载从2016年11月25日到2017年1月02日的所有文件。 我知道我可以使用如下的虚拟路径,但是不会从磁盘加载所有数据?我只需要上述期间的数据。将添加@result查询(修改到我的时间段)确保只有我感兴趣的文件被加载到内存中? DECLARE @file_set_path2 string = @dir + "{date:yyyy

    0热度

    1回答

    问:1 我们正在考虑将读/写并行化为ADLA表,并且想知道这种设计的含义是什么。 我认为读取没问题,但是应该将最佳做法同时写入同一个ADLA表。 问:2 假设我们有USQL脚本,它们在相同/不同的ADLA表中有多个行集和多个输出/插入。什么是USQL中的事务范围故事。如果任何输出/插入语句失败,那么它会导致所有以前的插入回滚或不回滚。如何处理事务范围 感谢 阿米特

    1热度

    2回答

    我有一个很大的blob存储空间,其中包含许多日志文件,这些日志文件按照其级别进行组织:存储库,分支,内部版本号,构建步骤号。 这些是包含对象数组的JSON文件,每个对象都有一个timestamp和entry值。我已经实现了一个自定义提取器(扩展为IExtractor),它接受输入流并生成许多纯文本行。 初始负载 现在我试图加载所有的数据到ADL商店。我创建了一个查询,看起来类似于这样: @entr

    0热度

    2回答

    我使用JsonOutputter将一些csv文件转换为Json。在csv文件中,我有一个字段包含像这样的Json(管道字符是分隔符): ... | {“type”:“Point”,“coordinates”:[18.7726,74.5091]} | ... 当它输出到JSON,结果是这样的: “位置”: “{\” 类型\ “:\” 点\ “\ ”坐标\“:18.7726,74.5091]}” 我想

    0热度

    2回答

    我有一个每天将文件导入Data lake store的软件包。这是不同的值(相同的列等)相同的文件。我的想法是将这些文件合并到Data Lake上的单个文件中,以获得月度报告。我想调查U-SQL,所以我的问题是: 这可能与U-SQL有关吗? 如果不可能有其他的选择吗?

    1热度

    1回答

    我遇到了以下问题。我想在以下时间安排三个U-SQL作业:每天02:00UTC,03:00UTC和04:00UTC。我知道默认情况下,管道中的工作是在UTC上午12:00执行的,因此我所有的工作都在同一时间运行,这不是我想要的。 我红色的documentation它写道我应该考虑偏移参数在数据集模板中。但是,当我尝试设置此发生以下错误:。 我不知道如何设置与U-SQL作业的12:00 AM运行时不同

    1热度

    1回答

    我想仅在非空的情况下才将U-SQL表保存为csv文件。但是,我不知道如何获得表的数量作为标量值,以便我可以使用IF条件。任何帮助将不胜感激。