2017-07-04 57 views
0

我有一些数据的CSV文件,我想根据这些数据生成合成数据。换句话说,我想用与旧数据相同的分布来生成新数据,例如统计引导。如何在Python中生成合成数据?

我该如何在Python中做到这一点?

我在R中找到了一些库,但在Python中我没有找到任何东西。

+1

我认为你应该自己做一个脚本,但它很容易。你可以找到如下例子:http://www.python-course.eu/synthetical_test_data_with_python.php – Dadep

+0

你到底在做什么?引导重采样不适合你的情况? – rafaelvalle

回答

1

正如评论中提到的,你可能最好写自己的脚本。您可以使用import pandas访问CSV文件,使用import numpy进行随机抽样。

我相信以下是你想要的代码:

import pandas as pd 
import numpy as np 

df = pd.read_csv('CSV_file.csv') 

size_of_sample = 10 

rows = np.random.choice(df.index.values, size_of_sample) 

df_sample = df.loc[rows] 

的numpy的choice功能在默认情况下更换样本,因此将生成具有相同的分布与原始数据帧的样本。