运维开发网

MapReduce

0
  • hadoop – 如何将加密数据写入HDFS

    由于Apache Hadoop 2.6最近推出了HDFS-6134(静态透明数据加密),我想知道是否可以使用 Java Hadoop应用程序直接写入加密区域?该文档仅解释了命令hdfs crypto createZone keyName myKey path / encryptionZone将文件复制到加密区域,但我想...[详细]

    2020-05-16 13:05 分类:大数据
  • hadoop – 如何在java中编写MR代码时决定何时使用Map-Side Join或Reduce-Side?

    如何在 java中编写MR代码时决定何时使用Map-Side Join或Reduce-Side? 地图侧连接在数据到达Map之前执行连接.在映射端加入数据之前,Map函数需要强大的先决条件.这两种方法都有一些优点和缺点.与reduce方面相比,Map side join是有效的,但它...[详细]

    2020-05-16 12:47 分类:大数据
  • hadoop – Map-reduce作业给出了ClassNotFound异常,即使在使用yarn运行时存在mapper?

    我正在运行一个hadoop工作,当我在伪分布模式下运行它没有纱线时工作正常,但是当我用纱线运行时,它给了我类没有发现异常 16/03/24 01:43:40 INFO mapreduce.Job: Task Id : attempt_1458775953882_0002_m_000003_1, Status : FAILED Error...[详细]

    2020-05-16 11:56 分类:大数据
  • 算法 – 语料库中的有效搜索

    我有几百万个单词,我想在十亿字的语料库中搜索.什么是有效的方法来做到这一点. 我在考虑一个特里,但是有一个开源的trie实现吗? 谢谢 – 更新 – 让我补充一些关于究竟需要什么的细节. 我们有一个系统,我们抓取新闻来源,并根据单词的频率...[详细]

    2020-05-16 11:36 分类:大数据
  • 并行处理 – “令人尴尬的并行”短语的起源

    出于维基百科历史的目的,是否有人熟悉“令人尴尬的平行”这一短语的起源.我一直以为它可能是由一位首先致力于map-reduce的谷歌员工创造的.有没有人有关于原产地的具体信息? 我在高级谷歌图书搜索中找到的第一个用途来自于1978年出版的 I...[详细]

    2020-05-16 11:32 分类:大数据
  • MapReduce – 单词计数示例有什么好处

    我试图了解MapReduce有什么好处,我刚刚第一次阅读了一些介绍. 他们都使用这个在大量文档中计算单词的典型示例,但我没有看到它的好处.以下是我目前的理解,如果我错了,请纠正我. 我们指定输入文件(文档)列表. MapReduce库获取此列表并将其在...[详细]

    2020-05-16 11:20 分类:大数据
  • Cassandra上的MapReduce

    我正在研究一个简单的MapReduce程序来读取Cassandra列系列中的数据,但遇到了以下错误.任何关于如何进行的提示都非常感谢.提前致谢! Cassandra version : 1.0.3 Hadoop version : 0.20.2 HADOOP_CLASSPATH has: apache-cassandra-1.0.3.j...[详细]

    2020-05-16 11:09 分类:大数据
  • hadoop – 如何直接从mapper输出到HDFS?

    在某些标准中我们希望映射器完成所有工作并输出到HDFS,我们不希望将数据传输到reducer(将使用额外的带宽,如果有错误,请纠正我). 伪代码将是: def mapper(k,v_list): for v in v_list: if criteria: write to HDFS else:...[详细]

    2020-05-16 10:59 分类:大数据
  • 是否可以通过编写单独的mapreduce程序并行执行Hive查询?

    我已经提出了一些关于提高Hive查询性能的问题.一些答案与映射器和缩减器的数量有关.我尝试使用多个映射器和缩减器,但我没有看到执行中的任何差异.不知道为什么,可能是我没有以正确的方式做到这一点,或者我错过了别的东西. 我想知道是否可...[详细]

    2020-05-16 10:50 分类:大数据
  • Hadoop:Reducer将Mapper输出写入输出文件

    我遇到了一个非常奇怪的问题. Reducer确实有效但如果我检查输出文件,我只找到了映射器的输出. 当我尝试调试时,在将映射器的输出值类型从Longwritable更改为Text后,我发现了与count count一样的问题 package org.myorg; import java.io.I...[详细]

    2020-05-16 10:43 分类:大数据