运维开发网

ruby – 使用SequenceFile进行Hadoop流式处理(在AWS上)

运维开发网 https://www.qedev.com 2020-07-19 22:18 出处:网络 作者:运维开发网整理
我有大量的Hadoop SequenceFiles,我想在AWS上使用Hadoop进行处理.我现有的大部分代码都是用 Ruby编写的,所以我想在Amazon EMR上使用Hadoop Streaming和我自定义的Ruby Mapper和Reducer脚本. 我找不到任何关于如何将Sequence Files与Hadoop Streaming集成的文档,以及如何将输入提供给我的Ruby脚本.我很欣
我有大量的Hadoop SequenceFiles,我想在AWS上使用Hadoop进行处理.我现有的大部分代码都是用 Ruby编写的,所以我想在Amazon EMR上使用Hadoop Streaming和我自定义的Ruby Mapper和Reducer脚本.

我找不到任何关于如何将Sequence Files与Hadoop Streaming集成的文档,以及如何将输入提供给我的Ruby脚本.我很欣赏一些关于如何启动作业的指令(直接在EMR上,或者只是一个普通的Hadoop命令行)来使用SequenceFiles以及如何期望将数据提供给我的脚本的一些信息.

– 编辑:我之前提到过StreamFiles而不是SequenceFiles.我认为我的数据文档不正确,但道歉.变化很容易回答.

答案是将输入格式指定为Hadoop的命令行参数.

-inputformat SequenceFileAsTextInputFormat

您可能希望将SequenceFile作为文本,但如果更合适,还有SequenceFileAsBinaryInputFormat.

0

精彩评论

暂无评论...
验证码 换一张
取 消