我得到了一组包含串联词,如以下字符串:“你的意思是”符号化一个连接字符串
longstring (two English words)
googlecloud (a name and an English word)
当我键入这些条款到谷歌,它承认的话(“长串”,“谷歌云”)。我的应用程序需要类似的功能。
我研究了Python和ElasticSearch提供的选项。我发现的所有令牌化示例均基于空格,大写,特殊字符等。
提供的字符串是英文的(但它们可能包含名称),我的选项是什么?它不一定要在特定的技术上。
我可以通过Google BigQuery完成此操作吗?