我对熊猫非常陌生。到目前为止,我一直在使用csv文件和excel电子表格学习熊猫。pandas将undefined文本文件读取到数据帧
现在我面临着将文本文件转换为数据框。文本文件就是我所说的连续数据。该文件的格式是:
State Name
City Name
State Name
City Name
City Name
City Name
...
所有50个州加上美国领土被列出,但城市数量不尽相同。我需要将其转换成数据帧像
[[State Name, City Name1],[State Name, City Name2],...]
使用大熊猫read_table()方法,我已经能够至少文件读入到一个数据帧,但现在我不能确定如何让它进入正确的州名城市名称格式。
我也有一个州名/州2字母缩写可用字典。该词典的格式是
{'OH':'OHIO', 'KY':'Kentucky',...}
有没有一种方法,我可以使用这本字典,遍历文件并分开州和城市?还是有更简单的方法来完成这个?
谢谢
编辑 - 文本文件 文本文件的采样样本如下所示。另外,请不要说我无法修改文件。
Alabama[edit]
Auburn (Auburn University)[1]
Florence (University of North Alabama)
Jacksonville (Jacksonville State University)[2]
Livingston (University of West Alabama)[2]
Montevallo (University of Montevallo)[2]
Troy (Troy University)[2]
Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]
Tuskegee (Tuskegee University)[5]
Alaska[edit]
Fairbanks (University of Alaska Fairbanks)[2]
Arizona[edit]
Flagstaff (Northern Arizona University)[6]
Tempe (Arizona State University)
Tucson (University of Arizona)
@han 。如果有的话,你引用的问题应该被标记为重复。这个问题在那之前被问及并得到了答复。只是说 –