2015-11-03 23 views
0

我还是很新的python所以请放纵我。蟒蛇 - 适合两个时间系列文件

我有两个数据帧,其中一个包含以2秒为间隔记录的温度数据(由于测量困难,文件有时平稳,有时不均匀秒),另一个记录为2.5分钟间隔。 我的第一个问题是:2秒间隔文件仅包含文件名中的时间步长,而不包含文件内容中的时间步长。意思是:第一个文件被称为“temp_20151103_013042”,包含日期和时间。文件内部只有一个温度值,没有其他值。我有20,000个文件(所以我有2万个温度值,记录在15个小时左右)。 第二个是只有一个文件(它是常见的)看起来像这样:

YYYY MM DD HH MM SS station1 
2015 11 03 01 30 30 3.46 
2015 11 03 01 32 00 4.21 
... 

,它包含具有约1,000温度值约1000行。

我现在想要对这些文件进行时间序列分析,如相关性等。任何人都可以帮我解决第一个文件的问题吗?我甚至不知道如何开始:(我需要“踢出”我不需要的文件,并获得这两个文件2.5分钟的间隔。任何帮助将非常感谢!提前致谢!

+0

我假设你为此使用了'pandas',但是这个问题有点宽泛,你需要列出所有的文件,从文件名解析时间戳并连接所有的dfs和resample – EdChum

+0

谢谢你的回答!可能它太多了,但你能帮我展示一下你的代码吗?我该如何解析文件名中的时间戳?你的方法听起来不错,但我不知道如何做到这一点:( – beginner123

回答

0

看看熊猫(http://pandas.pydata.org/)这是它的一个问题吧

如果你不确定如何安装它,你可以考虑miniconda。这是一个二进制发行版,可以让你免除负担编译一些依赖关系