2016-04-28 77 views
0

我试图将非标准医疗诊断描述与ICD10参考表描述相匹配以获得ICD10代码。这将是模糊匹配。例如,与参考表模糊匹配

我想匹配“瞬时缺血性发作”到“暂时性脑缺血发作,未指明”(ICD10代码G45.9)。或“不可避免的恶心,呕吐”改为“恶心呕吐,未说明”(ICD10代码R11.2)。

什么是做这种类型的模糊匹配的最佳方式,使用R或Python?

我查看了R中的stringdist包,以获得各种'字符串距离'度量,并取得了不同的成功。我也在考虑使用bag-of-word技术,但在我的情况下使用它时我不知道如何使用它。因为我比文字文件比较小字符串。

谢谢

+0

这个问题的答案是否有帮助? http://stackoverflow.com/questions/36921346/r-which-rows-have-longest-partial-string-match-between-two-vectors – Zelazny7

+0

你能举一个你想要实现的例子吗?我不确定你有多少列以及你想要什么结果。 –

回答

0

我发现fuzzywuzzy搜索fuzzy match Python。我没有使用它的经验,但它似乎可能会这样做。

“像老板模糊字符串匹配。它使用的Levenshtein距离,以帮助计算在一个简单的序列之间的差异使用包”。

fuzzywuzzy on github

你的问题是类似this one,其中有答案,可能是有关您的问题。具体来说,评分匹配有多强的概念将会很有用。

这里也一个标签上的计算器(fuzzy-comparison)可能会产生更多的线索。