data-partitioning

-1热度

1回答

我已经使用：Y = datasample（Data，100，'Replace'，false）用于分离训练数据NN.Data有150个数据样本（150 * 5）

请告诉我如何从剩余的50个数据样本中提取用于测试受训NN的'数据'数据集。有没有其他的方法来分类培训和测试数据用于分类目的。请帮助我.. 谢谢

1热度

2回答

我正在从完全基于光标的基础集合移动一堆代码并生成这一直在做我的头。我们创建一个6字符的短代码（唯一）插入到每个公司数据库和我（想）在游标之外实现这一点。的我在迄今为止其中例子： CREATE TABLE #customers (name VARCHAR(50), shortname VARCHAR(10)) INSERT INTO #customers VALUES ('Michael Sm

1热度

2回答

U-SQL根据文件中的Distinct值将CSV文件拆分为多个文件

我在Azure Data Lake Store中有数据，我正在使用U-SQL处理Azure Data Analytic Job中存在的数据。我有包含空间数据的几个CSV文件，与此类似： File_20170301.csv longtitude| lattitude | date | hour | value1 ----------+-----------+--------------

-2热度

4回答

如何将整数数组分为偶数和奇数？

我想分区数组（例如[1,2,3,4,5,6,7,8]），第一个分区应该保持偶数值，第二个奇数值（例如结果：[2,4,6,8,1,3,5,7]）。我设法用内置的Array.prototype方法解决了这个问题两次。第一种解决方案使用map和sort，仅次于sort。我想作出第三个解决方案，它使用排序算法，但我不知道什么算法用于分区列表。我正在考虑冒泡排序，但我认为它在我的第二个解决方案（arra

1热度

3回答

SQL查询时，对不符合

我使用SQL Server 2012中，我有以下的样本数据 Date Type Symbol Price 6/30/1995 gaus 313586U72 109.25 6/30/1995 gbus 313586U72 108.94 6/30/1995 csus NES 34.5 6/30/1995 lcus NES 34.5 6/30/1995 lcus NYN 40.

1热度

1回答

按文件划分的Spark分区

我在S3存储桶上有几千个压缩的CSV文件，每个大小大约30MB（解压缩后大约120-160MB），我想使用spark进行处理。在我的Spark工作中，我在每一行都做了简单的过滤器选择查询。分区Spark将文件分成两个或多个部分，然后为每个分区创建任务。每个任务需要大约1分钟才能完成处理125K记录。我想避免跨多个任务对单个文件进行分区。有没有办法获取文件和分区数据，以便每个任务在一个完整文件

1热度

2回答

同一表中两列的总和

我在查询数据仓库（所以我不能重新设计表），我会尽我所能在一个简单的示例中模拟这种情况。我们有3个主要的事件，更改和发布表。这3个通过称为中间的中间表连接。这里是它们的结构与样本数据一起：事件表：变化表：释放台：中间表：前3代表具有完全相同的结构，但是中间表保存这些3个表成对的连接。例如，如果Rel1连接到Chg1，则在中间表中有一行为或。这两行没有区别，可能不共存。 QUERY：我希

3热度

2回答

SQL分区通过交替组的行

我有一个类似于这样的数据表。 |Key|LotId|TransactionType|Quantity|Destination |1 |A |Transform |NULL |Foo |2 |A |Transform |NULL |Bar |3 |A |Consume |100 |NULL |4 |B |Transform |NULL |Bob |5 |B |Transform

3热度

1回答

caret包中的createDataPartition函数如何拆分数据？

从文档：对于自举样本，使用简单随机采样。对于其他数据拆分，当y是试图平衡拆分中的类分布的因素时，随机抽样在y 的级别内完成。对于数字y，根据百分位将样本分成组，并在这些子组内对样本进行抽样。对于createDataPartition，通过组参数设置百分位数。我不明白为什么需要这个“平衡”的东西。我想我表面上理解它，但是任何额外的见解都会非常有帮助。

3热度

2回答

Azure Data Lake中的U-SQL输出

如果我不知道表中包含多少个不同的键值，是否可以根据列值自动将表分成几个文件？是否可以将键值放入文件名？