运维开发网

MapReduce

0
  • Hadoop Streaming和多个reducer步骤,每个步骤之间没有映射器

    我正在排除如何多次排序我的数据,而不必每次都通过映射器. 我想设置:mapper 1 – >减速机1 —>减速机2 —>减速机3 我想制作减速机1输出(键,数据),然后让它直接进入减速机2 ……这可能吗? 我从故障排除中了解到,您可以链接作业...[详细]

    2020-05-17 10:02 分类:大数据
  • hadoop – 在mapreduce中重用可写对象

    我试图找到重用writeables与wordcount mapreduce程序中创建新对象的性能优势.然而,两个版本几乎完成相同的时间来完成输入数据. 我还尝试通过更改为任务提供更低的堆空间, <property> <name>mapred.child.java.opts</n...[详细]

    2020-05-17 09:48 分类:大数据
  • 使用自定义RecordReader在Hadoop中读取gzip压缩文件

    我正在编写一个MapReduce代码,我必须将文件名作为键读取,文件内容作为其值.为此,我发布了 this question on StackOverflow.它为文本文件工作文件,但开始给gzip文件带来问题.所以参考 LineRecordReader课程,我在代码中做了一些修改.代码段...[详细]

    2020-05-17 09:45 分类:大数据
  • algorithm – mapreduce中是否有可以并行执行的非交换减少器?

    像中位数和平均值这样的操作是非交换的.在这种情况下似乎只能有一个reducer,因为reducer需要有一个全局视图. map-reduce中是否存在可以并行执行的非交换reducer?遇到非交换操作时,人们真的使用map-reduce吗?或者只是在一台非常强大的机...[详细]

    2020-05-17 09:38 分类:大数据
  • 排序 – 如何在map中对数据进行排序减少hadoop?

    我正在使用一个具有4个MapReduce步骤的程序.我的第一步输出是: id value 1 20 2 3 3 9 4 36 我有大约1,000,000个ID,在第二步中我必须对值进行排序.此步骤的输出: id value 4 36 ...[详细]

    2020-05-16 21:49 分类:大数据
  • 使用Hadoop多输出写入多个输出启用推测执行

    我已经编写了一个mapreduce程序来处理logs.The job将副数据除了实际输出写入驱动程序代码中设置的输出路径外部的其他位置.但是启用推测执行后,不会删除被杀死任务尝试的输出.有办法避免这个问题吗? 是否可以解决除写入正常输出位置和在作...[详细]

    2020-05-16 21:41 分类:大数据
  • 如何为易处理的固有嵌套问题构造R代码?

    存在固有地需要解决几层嵌套的问题.在当前的项目中,我经常发现自己使用三个嵌套的应用程序,以便对嵌套列表结构的最深层中包含的元素执行某些操作. R的列表处理和apply-family允许为这类问题提供非常简洁的代码,但是编写它仍然让我很头疼,...[详细]

    2020-05-16 21:05 分类:大数据
  • hadoop – Hive中的计算统计模式

    如何计算Hive中的统计模式? 让我们说找到hive表中列的模式. 我们是否有任何内置的计算模式功能. official docs中没有提到模式功能(参见内置聚合函数). 但是获取列模式的查询非常简单,因此可能不需要本机函数. select age from ( sel...[详细]

    2020-05-16 20:45 分类:大数据
  • 如何计算hadoop中特定目录下的文件数?

    我是map-reduce框架的新手.我想通过提供该目录的名称找出特定目录下的文件数. 例如假设我们有3个目录A,B,C,每个目录分别有20,30,40个part-r文件.所以我有兴趣编写一个hadoop作业,它将计算每个目录中的文件/记录,即我想在以下格式化的.txt...[详细]

    2020-05-16 19:25 分类:大数据
  • Hadoop 文件系统命令行基础

    1.hadoop   2.Mapreduce 2.1 mapper 2.2 reducer   3.Code package src.com.sheepcore.loganalyze.data_preprocessing; import java.io.*; import java.util.Arrays; /** * Data preprocessing for log-ana[详细]

    2020-05-16 18:49 分类:大数据