与参考表模糊匹配

我试图将非标准医疗诊断描述与ICD10参考表描述相匹配以获得ICD10代码。这将是模糊匹配。例如，与参考表模糊匹配

我想匹配“瞬时缺血性发作”到“暂时性脑缺血发作，未指明”（ICD10代码G45.9）。或“不可避免的恶心，呕吐”改为“恶心呕吐，未说明”（ICD10代码R11.2）。

什么是做这种类型的模糊匹配的最佳方式，使用R或Python？

我查看了R中的stringdist包，以获得各种'字符串距离'度量，并取得了不同的成功。我也在考虑使用bag-of-word技术，但在我的情况下使用它时我不知道如何使用它。因为我比文字文件比较小字符串。

谢谢

2016-04-28 san134

这个问题的答案是否有帮助？ http://stackoverflow.com/questions/36921346/r-which-rows-have-longest-partial-string-match-between-two-vectors – Zelazny7

你能举一个你想要实现的例子吗？我不确定你有多少列以及你想要什么结果。 –

我发现fuzzywuzzy搜索fuzzy match Python。我没有使用它的经验，但它似乎可能会这样做。

“像老板模糊字符串匹配。它使用的Levenshtein距离，以帮助计算在一个简单的序列之间的差异使用包”。

你的问题是类似this one，其中有答案，可能是有关您的问题。具体来说，评分匹配有多强的概念将会很有用。

这里也一个标签上的计算器（fuzzy-comparison）可能会产生更多的线索。

2016-04-28 18:18:33

回答