情感分析中的一项常见任务是获取熊猫数据框单元格内的单词数量,并根据该数量创建一个新列。我该怎么做呢?如何计算熊猫数据框单元格中的单词总数并将它们添加到新列中?
回答
比方说,你有你已经使用
df = pandas.read_csv('dataset.csv')
生成的数据帧DF你会然后通过执行以下操作字计数添加新列:
df['new_column'] = df.columnToCount.apply(lambda x: len(str(x).split(' ')))
记住分裂的空间很重要,因为你正在分裂新词。在执行此操作之前,您可能需要删除标点符号或数字并将其缩小为小写。
df = df.apply(lambda x: x.astype(str).str.lower())
df = df.replace('\d+', '', regex = True)
df = df.replace('[^\w\s\+]', '', regex = True)
from collections import Counter
df['new_column'] = df['count_column'].apply(lambda x: Counter(" ".join(x).split(" ")).items())
这需要您将'count_column'中的每个文本单元格分割成单词列表。 (如果'count_column'中的每个单元格都包含一个单独的字符串,则这会计算字符数。)另外,如果我错过了某些显而易见的内容,对不起,为什么'Counter(''.join(x).split(''))'? 'Counter(x)'没有达到相同的结果吗? **编辑:**加入然后拆分的一个原因是为了确保您分解列表中包含多个空格分隔的单词的任何字符串。 –
@PeterLeimbigler如果按空格分割,你会如何计算字符? –
在字符串上运行'''.join(a_string_variable)'会在字符串中的每个字符之间插入一个空格。 –
- 1. 将计算列添加到熊猫数据框中
- 2. 计算熊猫数据框中的单个词
- 3. 将计算列添加到熊猫数据透视表中
- 4. 将熊猫数据框添加到列
- 5. 将行和列总和应用于熊猫数据框中的单元格
- 6. 如何在熊猫数据框中按单词分组统计
- 7. 从单列熊猫数据框中生成单词云
- 8. 不计算大熊猫数据框中所有列的总和
- 9. 熊猫数据框中添加列GROUPBY
- 10. Xlsxwriter合并单元格 - 格式化熊猫数据框
- 11. 从Excel分析单个单元格到数据框熊猫
- 12. 将计算列分组并添加到我的数据框中
- 13. 将列添加到Shiny中的反应数据框中并更新它们
- 14. 熊猫:搜索并将值添加到多列单元
- 15. 将列表添加到熊猫空数据框中
- 16. 将熊猫系列添加到数据框中,保留索引
- 17. 熊猫:如何计算每一行中各个单词的数据帧
- 18. 计算数组中的元素并将它们添加到对象中
- 19. 将数据填充到熊猫数据框中的单个列中
- 20. 将群组总数添加到熊猫数据框中的最佳方法
- 21. 如何将单个数据添加到单个单元格?
- 22. 熊猫,按计数分组,并添加到原始数据框的计数?
- 23. 在熊猫中添加计算列
- 24. Python:创建空熊猫数据框并动态添加元素到列中
- 25. 将同名键词典加入到熊猫数据框中
- 26. C#从数据库中加载单词并将它们添加到“选择”类型的列表中?
- 27. 大熊猫数据框中添加一个新的列和fillna
- 28. 将熊猫数据框值写入特定表格中的特定单元格。
- 29. 使用熊猫,添加timedelta到主数据框中的新行?
- 30. 计算字符串中的数字并将它们添加到数组中
为什么不使用NLTK字标记生成器? – Dark
这是一个选项。 – muninn