我确实在PostgreSQL数据库中加载了20,000个文本文件,一行中有一个文件,全部存储在名为docs
的表中,其列doc_id
和doc_content
。数据库中的簇文本文档
我知道大概有8种类型的文件。这里是我的问题:
- 我如何找到这些组?
- 我可以使用一些相似性,相异性度量吗?
- PostgreSQL中是否有一些最长公共子字符串的实现?
- PostgreSQL中是否存在一些用于文本挖掘的扩展? (我发现只有Tsearch,但这似乎是最后更新于2007年)
我也许可以使用一些like '%%'
或SIMILAR TO
,但有可能是更好的方法。