我一直在想我如何做到这一点,但到目前为止我找不到一个简单的解决方案。 我有以下数据集:重新组合,总结和组合变量
Itin Origin Destination Passengers
1 A B 1
1 B C 1
2 A B 3
3 E B 10
4 A C 2
5 E B 4
我试图做的是基于Itin
变量,创建一个路径变量,同时保持乘客变量。 理解这一点的最简单方法是将它看作是在某个地方以规模进行正常飞行。例如,在Itin = 1
中,一位乘客从A到B转到C.唯一需要保留的是起点A
目的地B
,目的地C
和乘客,因为它等于1.就像下面的示例一样。
Path Passengers
A-B-C 1
A-B 3
E-B 10
A-C 2
E-B 4
我试过用dplyr GROUP_BY几个选项,因为它往往是比基本选项更快,但我不能真正得到的结果作为一个新的变量Path第二个例子。我也想过使用tidyr,但我不确定它在这里会有什么帮助。 关于如何做到这一点的任何想法?
编辑:至于Path变量,结尾为A-B-C
或A,B,C
或A B C
并不重要,因为我只会查看语法。
你能假定数据集是排序吗?即该航班的第一段是该特定行程的第一行。 – thc
@thc是的,它确实按照我以前做过的那样排序。 – FilipeTeixeira