2012-04-25 96 views
3

我是Amazon服务新手,并试图在Amazon EMR中运行应用程序。如何查看Amazon EMR/S3中的输出?

对于我所遵循的步骤为:创建蜂房脚本包含

1) - >创建表,在蜂巢LOAD DATA语句有一些文件,并选择*从命令。

2)创建了S3 Bucket。然后将对象加载到它中:Hive Script,File加载到表中。

3)然后创建作业流程(使用样本配置单元程序)。给定输入,输出和脚本路径(如s3n://bucketname/script.q,s3n://bucketname/input.txt,s3n:// bucketname/out /)。没有创建目录。我认为它会自动创建。

4)然后工作流程开始运行,一段时间后,我看到状态为开始,启动,运行和关闭。 5)运行SHUT DOWN状态时,会自动终止,显示SHUT DOWN的FAILES状态。

然后在S3上,我没有看到out目录。如何查看输出?我看到了守护进程,节点等目录......

还有如何在Amazon EMR中查看来自HDFS的数据?

+0

我刚刚有同样的问题;大量工作后非常痛苦。不幸的是,我让工作在完成后自动终止。你是否能够追踪你的数据和/或导致失败? – 2012-06-23 05:37:39

回答

2

您在步骤3中指定应包含广告效果的输出路径(从你的描述,它是S3N:// bucketname /出/)

如果没有,出事了你的蜂巢脚本。如果您的Hive作业失败,您会在jobtracker日志中找到关于失败/异常的信息。 jobtracker日志存在于<s3 log location>/daemons/<master instance name>/hadoop-hadoop-jobtracker-<some Amazon internal IP>.log

只有一个文件在你的日志目录中,它的S3键是上述格式。该文件将包含可能发生的任何异常。您可能想专注于文件的底部。