1
我是新来的Python和Pandas,并且正在通过UCI玩一个心脏疾病数据集。 https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/hungarian.data重塑大熊猫数据框:每76个入口新行
每个人和303人有76个属性,所以我想结束每个人作为一个行和76列。我无法安排到一个数据帧,因为数据似乎是呈现在行9。
我试过导入数据集到一个熊猫数据框使用空格或换行符作为分隔符,但我仍无法阻止想要每8个值后,分割数据:
df = pd.read_table('https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/hungarian.data', sep=' ')
DF 导致表是这样的:
1254 0 40 1 1.1 0.1 0.2
-9.0 2 140.0 0.0 289 -9.0 -9.0 -9.0
0.0 -9 -9.0 0.0 12 16.0 84.0 0.0
0.0 0 0.0 0.0 150 18.0 -9.0 7.0
172.0 86 200.0 110.0 140 86.0 0.0 0.0
0.0 -9 26.0 20.0 -9 -9.0 -9.0 -9.0
我会很感激的任何建议,您可能对如何将其拆分后创建一个新行第76个价值。每个第76个值都是字符串'name',这表示一个人数据的结尾。谢谢!
这是可行的,但痛苦的数据帧rubikscubing。由于输入文件不是那么大,我会处理输入字符串并替换\ n和名称以获得对齐的行以提供read_table – Boud