运维开发网

MapReduce

0
  • hadoop – 描述Hive中的扩展表

    我将表存储为SequenceFile格式,我设置以下命令以启用带有BLOCK压缩的序列 – set mapred.output.compress=true; set mapred.output.compression.type=BLOCK; set mapred.output.compression.codec=org.apache.hadoop.io.compress.LzoCode...[详细]

    2020-05-16 15:20 分类:大数据
  • 在Hadoop中具有大量多个输出文件的性能

    我正在使用自定义输出格式,每个键为每个映射器输出一个新的序列文件,所以你最终会得到类似的东西. 输入 Key1 Value Key2 Value Key1 Value 档 /path/to/output/Key1/part-00000 /path/to/output/Key2/part-00000 我注意到了一...[详细]

    2020-05-16 15:12 分类:大数据
  • Hadoop / Yarn分布式shell示例

    我正在尝试运行分布式 shell示例(使用Hadoop的SVN签出,这就是为什么版本设置为3.0.0-SNAPSHOT): yarn jar share/hadoop/yarn/hadoop-yarn-applications-distributedshell-3.0.0-SNAPSHOT.jar \ -jar share/hadoop/yarn/hadoop-yarn...[详细]

    2020-05-16 15:03 分类:大数据
  • hadoop – 新API的旧API

    My Original Question 因为在This Question 中只找到了对该问题的可行性 答案是旧的API.所以这迫使我提出一个将这些行转换为New API的愚蠢问题: private long mapperCounter; @Override public void configure(JobConf conf)...[详细]

    2020-05-16 14:56 分类:大数据
  • hadoop – EMR中打开的文件过多

    我在减速器中遇到以下情况: EMFILE: Too many open files at org.apache.hadoop.io.nativeio.NativeIO.open(Native Method) at org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161) at org.[详细]

    2020-05-16 14:48 分类:大数据
  • mapreduce – RavenDb – 查询Reduce函数中聚合的字段

    我有一组代表一些工作项的文档: public class WorkItem { public string Id {get;set; public string DocumentId { get; set; } public string FieldId { get; set; } public bool IsValidated { get; set; } } p[详细]

    2020-05-16 14:42 分类:大数据
  • 反射 – Hadoop如何决定在MapTask类,OldMapper或NewMapper中运行哪个映射器?

    我无法理解MapTask类中runOldMapper(…)和runNewMapper(…)方法之间的区别. Hadoop根据JobConf中的“useNewApi”参数决定;但是在框架中何时何地设置了此参数?我认为所有工作的默认值都是FALSE.我们可以通过调用设置“mapred.mapper.new-...[详细]

    2020-05-16 14:39 分类:大数据
  • hadoop – java.lang.RuntimeException:java.lang.InstantiationException

    我试图从客户端(widows-7)运行map-reduce程序,这是map-reduce类: Configuration conf = new Configuration(); conf.addResource(new Path("C:\\app\\hadoop-2.0.0-cdh4.3.0\\etc\\hadoop\...[详细]

    2020-05-16 14:11 分类:大数据
  • hadoop – 从hdfs vs本地目录读取文件

    我是hadoop的初学者.我有两个疑问 1)如何访问存储在hdfs中的文件?是否与在java.io中使用FileReader并给出本地路径相同或者是其他什么? 2)我创建了一个文件夹,我已经复制了要存储在hdfs中的文件和mapreduce程序的jar文件.当我在任何目录...[详细]

    2020-05-16 14:00 分类:大数据
  • 理解在Hadoop中合并减少方面

    我在Hadoop中对减少方面的文件合并过程的理解存在问题,如“Hadoop:The Definitive Guide”(Tom White)中所述.引用它: When all the map outputs have been copied, the reduce task moves into the sort phase (which should properly ...[详细]

    2020-05-16 13:24 分类:大数据