语言本身并不重要,但我想我会坚持使用Javascript。Javascript - 最有效的方式来搜索数以千计的单词的文字?
本质上,我每个月都有成千上万的“评论”,并且希望通过自动化获得一份天真的快乐“评估”,并在这些评论中搜索10,000个单词(每个评论的平均单词数为21个单词,远)。
公式的工作方式(从Hedonometer借用) - 将文本中每个单词的“幸福”得分(如果在10k列表中找到)取平均值。
我会测试一些东西,也许编辑回来的结果在这里,但我甚至不知道从哪里开始。似乎是非常繁重的数据提取(虽然只需要按照课程评论进行一次) - 也许它更适合于R或SQL(可能不适用),但不确定。
我相信这个问题有时候被称为'词袋'或'词频饱和度'。
“最有效的”依赖于一堆因素.... – epascarello
呀做一些阅读和教训有很多复杂的快速字符串搜索方法上地狱。嗯。也许我会在维基百科的一些简单的方法,看看处理时间是否可以接受。 – user45867