我试图建立一个搜索引擎,通过在线汽车分类,如Oodle,eBay电机和craigslist。我还有一个关于它们的标准车辆名称和规格的大型数据库。我想要做的是对于通过分类网站找到的每条记录,能够确切地确定它的车型(从我的数据库)。例如,我的db中的福特卡车的标准名称是: 2003福特F150。什么是车辆搜索的最佳数据挖掘方法?
但是在分类网站上,人们可能会提到的是:“2003 Ford F 150”或“2003 Ford f-150”或“03 Ford 150”。是否有一种有效的数据挖掘/文本分类算法能够将这些文本标准化为上述标准名称?