运维开发网
广告位招商联系QQ:123077622
 
广告位招商联系QQ:123077622

scala – 通过键Scalding Hadoop写入多个输出,一个MapReduce作业

运维开发网 https://www.qedev.com 2020-05-31 09:57 出处:网络 作者:运维开发网整理
如何在单个Map Reduce作业中使用Scalding(/ cascading)写入依赖于键的多个输出.我当然可以使用.filter来获取所有可能的密钥,但这是一个可怕的黑客攻击,它将启动许多工作. Scalding中有 TemplatedTsv(从0.9.0rc16及更高版本开始),与Cascading TemplateTsv完全相同. Tsv(args("input"), ('COUNTRY
如何在单个Map Reduce作业中使用Scalding(/ cascading)写入依赖于键的多个输出.我当然可以使用.filter来获取所有可能的密钥,但这是一个可怕的黑客攻击,它将启动许多工作. Scalding中有 TemplatedTsv(从0.9.0rc16及更高版本开始),与Cascading TemplateTsv完全相同.

Tsv(args("input"), ('COUNTRY, 'GDP))
.read
.write(TemplatedTsv(args("output"), "%s", 'COUNTRY))
// it will create a directory for each country under "output" path in Hadoop mode.

扫码领视频副本.gif

0

精彩评论

暂无评论...
验证码 换一张
取 消

关注公众号