2016-05-31 70 views
2

我有我已经从存储在XML文件中的数据创建的熊猫数据帧:更改为特定的列的D型细胞在大熊猫数据帧

最初XLM文件被打开和解析

xmlData = etree.parse(filename) 
trendData = xmlData.findall("//TrendData") 

我创建一个目录列出所有数据的名称(用作列名)作为键并给出了在XML文件中的数据的位置:

Parameters = {"TreatmentUnit":("Worklist/AdminData/AdminValues/TreatmentUnit"), 
      "Modality":("Worklist/AdminData/AdminValues/Modality"), 
      "Energy":("Worklist/AdminData/AdminValues/Energy"), 
      "FieldSize":("Worklist/AdminData/AdminValues/Fieldsize"), 
      "SDD":("Worklist/AdminData/AdminValues/SDD"), 
      "Gantry":("Worklist/AdminData/AdminValues/Gantry"), 
      "Wedge":("Worklist/AdminData/AdminValues/Wedge"), 
      "MU":("Worklist/AdminData/AdminValues/MU"), 
      "My":("Worklist/AdminData/AdminValues/My"), 
      "AnalyzeParametersCAXMin":("Worklist/AdminData/AnalyzeParams/CAX/Min"), 
      "AnalyzeParametersCAXMax":("Worklist/AdminData/AnalyzeParams/CAX/Max"), 
      "AnalyzeParametersCAXTarget":("Worklist/AdminData/AnalyzeParams/CAX/Target"), 
      "AnalyzeParametersCAXNorm":("Worklist/AdminData/AnalyzeParams/CAX/Norm"), 
....} 

这只是一小部分的目录,实际一个列表80个参数 目录密钥然后排序:

sortedKeys = list(sorted(Parameters.keys())) 

甲头的熊猫数据帧创建的:

dateList=[] 
dateList.append('date') 
headers = dateList+sortedKeys 

我然后创建具有一个空的熊猫数据帧与trendData中的记录数相同的行数并且列标题设置为'标题',然后通过填充数据帧的文件循环:

df = pd.DataFrame(index=np.arange(0,len(trendData)), columns=headers) 
for a,b in enumerate(trendData): 
    result={} 
    result["date"] = dateutil.parser.parse(b.attrib['date']) 
    for i,j in enumerate(Parameters): 
     result[j] = b.findtext(Parameters[j]) 
     df.loc[a]=(result) 
df = df.set_index('date') 

这似乎工作正常,但问题是,每个colum的dtype设置为'对象',而大多数应该是整数。它可以使用:

df.convert_objects(convert_numeric=True) 

它工作正常,但现在被depricated。 我也可以使用,例如:

df.AnalyzeParametersBQFMax = pd.to_numeric(df.AnalyzeParametersBQFMax) 

转换单个列。但有没有一种使用pd.to_numeric与列名列表的方式。我可以创建一个列应该是整数使用以下列表;

int64list=[] 
for q in sortedKeys: 
    if q.startswith("AnalyzeParameters"): 
     int64list.append(q) 

但无法找到一种方法将此列表传递给函数。

回答

3

您可以明确地用另一个dtype替换DataFrame中的列。 试试这个:

import pandas as pd 
data = pd.DataFrame({'date':[2000, 2001, 2002, 2003], 'type':['A', 'B', 'A', 'C']}) 
data['date'] = data['date'].astype('int64') 

当现在呼吁data.dtypes它应该返回如下:

date  int64 
type object 
dtype: object 

的多个列使用for循环,你在你的问题中提到的int64list运行。

+0

感谢。它运作良好,虽然我不得不使用: data ['date'] = data ['date']。astype('float') 而不是int64由于某种原因 – Trigfa

+0

很高兴我能帮忙! –

1

的多个列,你可以这样来做:

cols = df.filter(like='AnalyzeParameters').columns.tolist() 
df[cols] = df[cols].astype(np.int64)