我正在处理清理相对较大(30行)的文本块。下面是摘录:用Python替换大字符串中字符的最佳方法?
PID | 1名|| 06225401 ^^^ PA0^MR ||患者^ FAKE [R |||˚F
PV1 | 1 |我||||| 025631^DoctorZ ^^^^^^^ PA0 ^^^^ DRH | DRH |||| ...
ORC | RE || CYT-09-06645^AP |||||| 200912110333 | INTERFACE07
OBR | 1 || CYT09-06645 | 8104 ^^ |||大号20090602 ||||||| 200906030000 [conditio ...
OBX | 1 | TX | 8104 | 1 |作者 的源PECIMEN:[来源] ||||||˚F||| 200912110333 | CYT ...
我现在有一个脚本,它非法字符或条款。这是一个例子。
infile = open(thisFile,'r')
m = infile.read()
#remove junk headers
m = m.replace("4þPATHþ", "")
m = m.replace("10þALLþ", "")
我的目标是修改此脚本,以便我可以将4位数字添加到其中一个字段的末尾。具体而言,OBR行中的日期字段(“20090602”)。完成的脚本将能够处理任何遵循相同格式的文件。这可能与我目前处理文件输入的方式,还是我必须使用一些不同的逻辑?
这个问题并不完全清楚。你能提供样本输入和输出吗? – 2009-08-07 00:22:30
那些垃圾头可以更好地表达为例如“4 \ xfePATH \ xfe”可以很简单地表明所谓的“非法字符”不是字符(既不是冰岛小写字母也不是拉丁文小写字母p(这是乍看之下的样子)),而是二进制垃圾。 – 2009-08-07 01:03:08