0
我有一些数据的CSV文件,我想根据这些数据生成合成数据。换句话说,我想用与旧数据相同的分布来生成新数据,例如统计引导。如何在Python中生成合成数据?
我该如何在Python中做到这一点?
我在R中找到了一些库,但在Python中我没有找到任何东西。
我有一些数据的CSV文件,我想根据这些数据生成合成数据。换句话说,我想用与旧数据相同的分布来生成新数据,例如统计引导。如何在Python中生成合成数据?
我该如何在Python中做到这一点?
我在R中找到了一些库,但在Python中我没有找到任何东西。
正如评论中提到的,你可能最好写自己的脚本。您可以使用import pandas
访问CSV文件,使用import numpy
进行随机抽样。
我相信以下是你想要的代码:
import pandas as pd
import numpy as np
df = pd.read_csv('CSV_file.csv')
size_of_sample = 10
rows = np.random.choice(df.index.values, size_of_sample)
df_sample = df.loc[rows]
的numpy的choice
功能在默认情况下更换样本,因此将生成具有相同的分布与原始数据帧的样本。
我认为你应该自己做一个脚本,但它很容易。你可以找到如下例子:http://www.python-course.eu/synthetical_test_data_with_python.php – Dadep
你到底在做什么?引导重采样不适合你的情况? – rafaelvalle