0
我试图刮一个博客的评论,并决定它是否是情感和信息。我试图检查一个字符串属于哪个文本文件
我找到了最常用的名词(前10名)。
之后,我做了两个txt文件。
第一个文件包含情感名词。第二个文件包含信息名词。
最后,我想知道博客是否有更多的情感名词或更多的信息性名词。我需要为最后一道工序制定哪些代码?
我试图刮一个博客的评论,并决定它是否是情感和信息。我试图检查一个字符串属于哪个文本文件
我找到了最常用的名词(前10名)。
之后,我做了两个txt文件。
第一个文件包含情感名词。第二个文件包含信息名词。
最后,我想知道博客是否有更多的情感名词或更多的信息性名词。我需要为最后一道工序制定哪些代码?
# This is the file where you have your top 10 nouns
fc = open("words.txt")
list_blog = []
for line in fc:
list_blog.append(line.strip())
f1 = open("file1.txt") # This is your first file of emotional nouns
d1 = {}
c = 0
for line in fc:
c+=1
d1[line] = str(c)
f2 = open("file2.txt") # This is your seconf file of informational nouns
d2 = {}
c = 0
for line in fc:
c+=1
d2[line] = str(c)
count1 = 0
count2 = 0
count3 = 0
for i in list_blog:
if i in d1:
count1+=1
elif i in d2:
count2+=1
else:
count3+=1
print(count1,count2,count3)
有可能是把它写一个更好的办法,但我只是写的很快,所以它不是最高效的代码
文件有多大?如果文件很小并且可以很容易地处理,那么只需将这两个文件作为字典导入,然后用计数器在python中写入循环,如果字典中的单词增加计数器。哪个计数器更高,那是什么博客包含更多 –
你能告诉我粗略的代码吗?请致电 – zzzwww
你有**自己尝试过任何事情吗? SO不是免费的编码服务,你知道吗? –