spark
Spark SQL常见4种数据源详解
这篇文章主要介绍了Spark SQL常见4种数据源(详细),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,,需要的朋友可以参考下[详细]
2020-01-19 13:18 分类:大数据-
Apache Spark 2.0 在作业完成时却花费很长时间结束
大家在使用 Apache Spark 2.x 的时候可能会遇到这种现象:虽然我们的 Spark Jobs 已经全部完成了,但是我们的程序却还在执行。怎么回事呢?下面小编通过实例代码给大家介绍下[详细]
2020-01-15 09:12 分类:Linux 面试题--spark中cache和persist的区别
昨天面试被问到了cache和persist区别,当时只记得是其中一个调用了另一个,但没有回答出二者的不同,所以回来后重新看了源码,算是弄清楚它们的区别了。[详细]
2018-01-02 23:36 分类:大数据Spark 调优 (翻译自Tuning Spark)
由于大多数Spark计算任务是在内存中运行计算,任何集群中的资源限制都可能成为Spark程序的瓶颈,比如:CPU、网络、带宽、内存。通常情况下,如果内存能容纳所处理数据,主要的瓶颈则仅是网络带宽。但有些时候您也需要[详细]
2018-01-02 23:34 分类:大数据-
spark报错ERROR ObjectStore: Version information found in metastore differs 2.1.0 from expected schema version 1.2.0. Schema verififcation is disabled hive.metastore.schema.verification so setting version.
hadoop+spark+hive 启动pyspark终端,提示报错 ERROR ObjectStore: Version information found in metastore differs 2.1.0 from expected schema version 1.2.0. Schema verififcation is disabled hive.metastore.s[详细]
2017-12-25 17:32 分类:大数据