我目前正在尝试为公司名称进行一些自然语言处理。正则表达式用于删除公司后缀并保留原始或正面向前?
我写的正则表达式是-\s+\w+('\w+|\s+\w)
这是删除连字符后的所有文本,如果它的空格。 接下来,我然后[.,/#!$%\^&*;:{}=-_`''"<>|~()]
删除所有标点符号。三,我公司删除后缀(Reg|Ltd|PLC|NV|LTD|LLC|INC|LLP|US)
。最后,在前面和后面有一些带回车符的名字,我用"\r*\n*
解决。
我想把所有这些正则表达式拼在一起,因为我在Alteryx & Python中运行这个。
请注意:有连字符后面没有空格的公司名称,我需要保留这一点,并确保在删除标点符号时不会删除它们。
我该如何结合所有这些作品?而且,我是否正确地处理这个问题?最后,在清理字符串之后,我会将这些数据加入到另一个客户列表中以撤回特定信息。
这就是为什么所有的前端都不应该包含特别是公司的免费文本字段的原因。
我该如何将这些结合到一个模式中,还是将每个模式分开是更好的做法?
以前 MY COMPANY X,Y,Z, TENNESSEE CORPORATION L.L.C. MY COMPANY HOLDINGS, LP. (there is a carriage return after the LP.) ABN FGDF - NEW YORK - UNITED STATES COLLEGE-INRIA ABCDE - UNITED STATES MANAGEMENT MANAGERS - UNITED STATES INVESTMENT MANAGEMENT CORPORATION - CANADA AUTO-CHLOR
后 MY COMPANY XYZ TENNESSEE CORPORATION MY COMPANY HOLDINGS ABN FGDF COLLEGE-INRIA ABCDE MANAGEMENT MANAGERS INVESTMENT MANAGEMENT CORPORATION AUTO-CHLOR
注意,本科INRIA留校有连字符和下一个字符之间没有空格。
刚刚更新,之前和之后的例子增加,并清理了一些文字。 – Carson
我看到你检查'LLC',它只在你的例子中起作用,当你在之前的检查中已经取出''''。有没有其他人这样? (例如是'有史以来LLP'写为'L.L.P.'任何其他人?) – 3D1T0R
只是好奇 - 如果在该行一回车,可以在不通过删除空行被解释为空行和消除。 (我正在思考一个Alteryx对这个问题的回答。) – johnjps111