我找不到任何关于如何将Sequence Files与Hadoop Streaming集成的文档,以及如何将输入提供给我的Ruby脚本.我很欣赏一些关于如何启动作业的指令(直接在EMR上,或者只是一个普通的Hadoop命令行)来使用SequenceFiles以及如何期望将数据提供给我的脚本的一些信息.
– 编辑:我之前提到过StreamFiles而不是SequenceFiles.我认为我的数据文档不正确,但道歉.变化很容易回答.
答案是将输入格式指定为Hadoop的命令行参数.-inputformat SequenceFileAsTextInputFormat
您可能希望将SequenceFile作为文本,但如果更合适,还有SequenceFileAsBinaryInputFormat.
精彩评论