2016-11-05 59 views
-1

我正在为文字云准备文字,但我卡住了。删除字符串中的字符/符号

我需要删除所有的数字,所有的迹象。 , - ? = /! @等,但我不知道如何。我不想一次又一次地取代。有没有一种方法呢?

这是我的概念,我必须做什么:

  • 串接文本在一个字符串
  • 集字符为小写< ---我在这里
  • 现在我想删除特定标志和划分文成字(名单)字样的
  • 计算频率
  • 未来做禁用词脚本...
abstracts_list = open('new','r') 
abstracts = [] 
allab = '' 
for ab in abstracts_list: 
    abstracts.append(ab) 
for ab in abstracts: 
    allab += ab 
Lower = allab.lower() 

文本例如:

微小RNA(miRNA)是一类非编码RNA分子的 大约19至25个核苷酸长,在转录后水平下调靶基因的 表达通过 结合到3'非翻译区(3'-UTR)。 Epstein-Barr病毒 (EBV)产生至少44种miRNA,但大多数这些 miRNA的功能尚未确定。之前,我们报道BRUCE为 作为由EBV产生的miRNA的miR-BART15-3p的靶标,但是我们的数据 提示可能存在miR-BART15-3p的其他凋亡相关靶基因 。因此,在这项研究中,我们使用计算机分析搜索了miR-BART15-3p的新基因 。我们在Tax1结合蛋白1(TAX1BP1)的3'-UTR中发现了一个可能的 种子匹配位点。包含3'-UTR的报告子载体TAX1BP1的萤光素酶活性被miR-BART15-3p降低。 miR-BART15-3p在AGS细胞中下调TAX1BP1 mRNA和蛋白的表达,而针对miR-BART15-3p的抑制剂上调AGX-EBV细胞中TAX1BP1,mRNA和蛋白的表达。 Mir-BART15-3p调节胃癌细胞系中的NF-κB 活性。此外,miR-BART15-3p 强烈地促进对5-氟尿嘧啶(5-FU)的化学敏感性。我们的 结果表明miR-BART15-3p靶向癌细胞中的抗凋亡TAX1BP1基因,引起对5-FU的增加的细胞凋亡和化学敏感性。

+3

所以,哪里是你的代码,究竟是什么问题呢?这既不是代码编写,也不是教程服务。 – jonrsharpe

+0

[在Python中删除字符串中的所有非数字字符]可能的副本(http://stackoverflow.com/questions/1249388/removing-all-non-numeric-characters-from-string-in-python) – tanaydin

+0

请显示你到目前为止所尝试过的。 – Soviut

回答

2

所以设置大写字母为小写字符,你可以做到以下几点: 所以只要你的文字存储到一个字符串变量,例如STRING和下次使用命令

STRING=re.sub('([A-Z]{1})', r'\1',STRING).lower() 

现在你的字符串将不含大写字母。

要删除特殊字符再次模块重新可以帮助您与子命令:

STRING = re.sub('[^a-zA-Z0-9-_*.]', ' ', STRING) 

这些命令你的字符串将是免费的特殊字符

,并确定词频你可以使用您必须导入Counter的模块集合。

然后使用以下命令来确定与该词语出现的频率:

Counter(STRING.split()).most_common()

0

我可能会尝试使用string.isalpha():

abstracts = [] 
with open('new','r') as abstracts_list: 
    for ab in abstracts_list: # this gives one line of text. 
     if not ab.isalpha(): 
      ab = ''.join(c for c in ab if c.isalpha() 
     abstracts.append(ab.lower()) 
# now assuming you want the text in one big string like allab was 
long_string = ''.join(abstracts)