假设您有一个包含varchar列的大表。匹配包含单词排列的行
你会如何匹配包含在VARCHAR山坳的“首选”,但数据是有点吵,包含偶尔拼写错误,例如,字行:
['$2.10 Cumulative Convertible Preffered Stock, $25 par value',
'5.95% Preferres Stock',
'Class A Preffered',
'Series A Peferred Shares',
'Series A Perferred Shares',
'Series A Prefered Stock',
'Series A Preffered Stock',
'Perfered',
'Preffered C']
字的排列在“优选”上面的拼写错误似乎表现为family resemblance,但它们几乎没有什么共同之处。请注意,拆分每个单词并在每行中的每个单词上运行levenshtein将会非常昂贵。
UPDATE:
有几个这样的,例如,其它实施例与“限制”:
['Resticted Stock Plan',
'resticted securities',
'Ristricted Common Stock',
'Common stock (restrticted, subject to vesting)',
'Common Stock (Retricted)',
'Restircted Stock Award',
'Restriced Common Stock',]
您是否具体询问“首选”,或者这是一个普遍问题? – 2009-04-08 22:27:09
这里有一小部分其他示例 – 2009-04-08 22:29:38