欢迎光临
一直在努力

标签:spark

大数据

面试题–spark中cache和persist的区别

心生阅读(225)评论(0)

昨天面试被问到了cache和persist区别,当时只记得是其中一个调用了另一个,但没有回答出二者的不同,所以回来后重新看了源码,算是弄清楚它们的区别了。 cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不...

大数据

Spark 调优 (翻译自Tuning Spark)

心生阅读(109)评论(0)

由于大多数Spark计算任务是在内存中运行计算,任何集群中的资源限制都可能成为Spark程序的瓶颈,比如:CPU、网络、带宽、内存。通常情况下,如果内存能容纳所处理数据,主要的瓶颈则仅是网络带宽。但有些时候您也需要做一些调优,比如利用RDD...

QEDEV 运维分享 运维实战

联系我们关于作者