我是机器学习的新手,我正在寻找一种基于训练数据集学习字符串模式的技术。用于学习字符串模式的机器学习技术
我的问题: 我有不同类型的单词,属于不同的类别。每个类别都有一些自己的模式(例如,一个只有特殊字符的固定长度,另一个只存在于这个“单词”类别中的其他字符)。
例如:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
...
我正在寻找一个机器学习技术,了解自身的这些模式的基础上,训练数据。我已经尝试着自己定义一些预测变量(例如字符长度,特殊字符的数量......),然后使用神经网络来学习和预测类别。但那是非常不合我想要的。我想要一种技术来自己学习每个类别的模式 - 甚至可以学习我从未想过的模式。
我想为算法提供学习数据(由单词范畴示例组成),并希望它为每个类别学习模式,以便在稍后的生产中预测类似或相同的单词。
有没有一种最先进的方法来做到这一点?
感谢您的帮助
非常感谢您的结构清晰和明确的答案。我已经用weka GUI尝试过了,但没有成功。我认为有一个原因可能是我的单词不是自然语言单词,它们更像是单个随机文本标识符。 – chresse