我有一些独特的代码,从我的应用程序的各个独立组件中的字符串(例如:网站主机名)生成。更好的算法缩短英文单词
这些代码仅供机器使用,因此我希望尽可能缩短它们。
以下算法将应用于字符串中的每个单词。输出字将与短划线连接以生成唯一代码。
The current algorithm I have used:
- Skip word if length is less than 6
- Leave first character as is
- Remove every wowel in the word from the second character onwards
- 建筑消化欧盟=> archtctrl-DGST欧盟
- 亚利桑那山麓杂志=> arzn-fthlls,镁锌
有没有更好的办法来缩短英语单词离开它尽可能识别人类读者?
输出应该是确定性的,并且只要它在同一输入上运行,就会生成相同的缩短版本。
一个好的算法也应该尽量减少类似拼写单词的冲突次数。
感谢您的回复。压缩是一个不错的选择,但不可读,也不需要反转代码。同意语音方法非常重要。需要找到一个中间立场。 :)同样值得注意的是,当多个单词出现时,冲突的可能性会降低。 – Rohit