2015-10-20 111 views
0

我是相当新的阿帕奇猪,并试图使用一些固定宽度的文本。在猪中,我正在阅读每一行chararray(我知道我可以使用fixedwidthloader,但不是在这种情况下)。我正在使用的一个字段是一个电子邮件字段,一个条目具有回车,在完成的数据转储中生成额外的输出行(我显示了12行而不是我期望的9行)。我知道哪个条目有错误,但我无法使用猪过滤出来。阿帕奇猪过滤出回车

到目前为止,我试图用猪的REPLACE替换\ r或\ uFFFD,甚至尝试了一种在命令行上工作的python UDF,但不是当我通过PIG将它作为UDF运行时。任何人有任何建议?请让我知道是否需要更多细节。

+0

JasonS,如果您分享场景的样本输入/输出将会很有帮助。 – Learner

+0

我已经设法自己解决这个问题。这比我期待的要简单得多。 – JasonS

回答

0

我原来编辑的解决方案竟然只是部分时间。这次我不得不在数据通过猪之前清理数据。在原始数据文件上,我做了一个perl -i -pe 's/\r//g' filename以删除流氓回车。