说明 我看了表有三列:ID,时间和位置创建一个数据帧。 ID是第一个索引,时间是第二个索引。我希望时间频率是五分钟,如果相应时间没有数据,请将位置设置到最后一个位置(请参见下表)。 数据框现在 ID time place
001 00:00:00 1
00:15:00 3
002 00:05:00 2
希望数据框获得 ID time place
001 00:00
样本输入制表符分隔的文本文件,请注意此源文件中有不良数据,第3行末尾的封闭“ 。因此,有1个完整的空白行,然后只用双引号字符一条线,然后继续保持良好的数据对下一行。 id ca cb cc cd
1 hi bye hey nope
2 ab cd ef "quoted text here"
3 gh ij kl "quoted text but end quote
我一直在研究R-bloggers上的How to perform a Logistic Regression in R教程,其中使用了Kaggle Titanic challenge的数据集。所有帖子中的代码都可以在here找到。为891名乘客都包含在这组数据(891行)和177 数据已经丢失Age值: 有训练数据集存在丢失的数据 type missing method model