1
我有救喜欢这个词/标签对一个大文件的熊猫数据框:快速的方法来创建对
This/DT gene/NN called/VBN gametocide/NN
现在我希望把这些对与他们的计数这样的数据帧:
DT | NN --
This| 1 0
Gene| 0 1
:
我尝试与计数对,然后把它在数据帧的字典这样做:
file = open("data.txt", "r")
train = file.read()
words = train.split()
data = defaultdict(int)
for i in words:
data[i] += 1
matrixB = pd.DataFrame()
for elem, count in data.items():
word, tag = elem.split('/')
matrixB.loc[tag, word] = count
但这需要很长时间(文件有300000个)。有没有更快的方法来做到这一点?
什么都没有,只是仍在测试这一切之前,我看到你的答案。这帮了我很多,非常感谢! – maxmijn
太棒了 - 很高兴它有帮助! – Alex