2
我想提高我的代码的性能替代他们,我要来标记一个数据帧的2列,我是有这样的熊猫适用于2列和一行
submission_df['question1'] = submission_df.apply(lambda row: nltk.word_tokenize(row['question1']), axis=1)
submission_df['question2'] = submission_df.apply(lambda row: nltk.word_tokenize(row['question2']), axis=1)
我也许以为我可以在一个行,这样我就只对所有的行(200万美元)迭代一次将它们合并,所以我想这样的事情
submission_df['question1'],submission_df['question2'] = submission_df.apply
(lambda row:
(nltk.word_tokenize(row['question1']),
nltk.word_tokenize(row['question2'])), axis=1)
,但没有工作,也许有其他方法来改善它而不是使用apply方法。
它是否工作吗? @ set92 – Dark
它给出了一个错误:TypeError :('期望的字符串或像字节的对象','发生在索引question1')。我想这是因为nltk.word_tokenize(文本)需要接收你想要应用标记器的文本。 – set92
@ set92更新我的答案希望它有帮助。 – Dark