欢迎光临
一直在努力

大数据

面试题–spark中cache和persist的区别

心生阅读(360)评论(0)

昨天面试被问到了cache和persist区别,当时只记得是其中一个调用了另一个,但没有回答出二者的不同,所以回来后重新看了源码,算是弄清楚它们的区别了。 cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不...

Spark 调优 (翻译自Tuning Spark)

心生阅读(170)评论(0)

由于大多数Spark计算任务是在内存中运行计算,任何集群中的资源限制都可能成为Spark程序的瓶颈,比如:CPU、网络、带宽、内存。通常情况下,如果内存能容纳所处理数据,主要的瓶颈则仅是网络带宽。但有些时候您也需要做一些调优,比如利用RDD...

把csv入库到hadoop集群

心生阅读(237)评论(0)

[root@MASTER01 ~]# hadoop fs -copyFromLocal /root/008.csv /user/hive/warehouse/tmp.db/ [root@MASTER01 ~]# hadoop fs -ls ...

Hdfs的的两种访问方式-运维资源

Hdfs的的两种访问方式

心生阅读(374)评论(0)

FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HD...

ambari大数据平台搭建利器--利用 Ambari 管理 Hadoop 集群-运维资源

ambari大数据平台搭建利器–利用 Ambari 管理 Hadoop 集群

心生阅读(250)评论(0)

在上一章节中,我们已经体验到 Ambari 为 Hadoop 生态圈的安装提供的便利。这已经省去了很多的人力成本。尤其是对大数据圈子的测试人员来说,自动化就容易了很多。下面我们看看如何通过 Ambari 管理 Hadoop 的集群。 Ser...

mongodb 3.4.9    sharding 数据分片集群搭建 安装文档-运维资源

mongodb 3.4.9 sharding 数据分片集群搭建 安装文档

心生阅读(313)评论(0)

一.前言 数据压力大到机器支撑不了的时候能否做到自动扩展? 在系统早期,数据量还小的时候不会引起太大的问题,但是随着数据量持续增多,后续迟早会出现一台机器硬件瓶颈问题的。而mongodb主打的就是海量数据架构,“分片”就用这个来解决海量数据...

QEDEV 运维分享 运维实战

联系我们关于作者