spark
-
Spark SQL 2.4.8 操作 Dataframe的两种方式
目录一、测试数据二、创建DataFrame方式一:DSL方式操作方式二:SQL方式操作一、测试数据7369,SMITH,CLERK,7902,1980/12/17,800,207499,ALLEN,S...[详细]
2022-04-02 00:45 分类:数据库 Jupyter生态二次开发系列(六)
本次记录一下限制用户spark8s进程数量的方法, 我们的jupyterlab是跑在pod里面的, sparkui是通过自定义jupyterlab url的方式来映射出来, 而lab url只有一个, 所以每次只能允许用户开启一个pyspark8s的notebook, 但使用过程中发现, 用户可以...[详细]
2021-04-07 12:11 分类:自动化Could not initialize derby.jdbc.AutoloadedDriver40
操作:执行Spark任务查询hive表时报NoClassDefFoundError异常异常日志:javax.jdo.JDOFatalInternalException:Unexpectedexceptioncaught.atjavax.jdo.JDOHelper.invokeGetPersistenceManagerFactoryOnImplementation(JDOHelper.java:11[详细]
2021-01-15 12:10 分类:LinuxSpark调优多线程并行处理任务实现方式
方式1: 1. 明确 Spark中Job 与 Streaming中 Job 的区别 1.1 Spark Core 一个 RDD DAG Graph 可以生成一个或多个 Job(Action操作)[详细]
2020-12-24 15:10 分类:编程语言Spark项目案例实战和分布式部署
本节使用Scala语言通过Spark平台来实现分布式操作Hbase数据库,并且打包部署到Spark集群上面。这样我们对Spark+Scala项目开发有一个完整的认识和实际工作场景的一个体会。[详细]
2020-12-01 09:31 分类:自动化-
Jupyter生态二次开发系列(三)
这次改的是用jupyterlab跑sparkonk8sjupyterlab本身是跑在k8s里面的,然后甲方因为无论开多大内存,无论用vaex还是pandas都会内存溢出,所以打算用sparkonk8s方式跑,认为这样就不会溢出了,当然,实际上还是会溢出的。如何搭建sparkonk8...[详细]
2020-10-01 09:42 分类:自动化 -
大数据技术发展(三):Spark 代替 Hadoop ? Spark Or Flink ?
在大数据领域中,选择使用 Hadoop、还是 Spark、还是 Flink,这个话题是一个非常热门的话题,这篇文章就带你探个究竟,看看到底选择哪一个技术?[详细]
2020-08-21 09:25 分类:编程语言 从0开始学习大数据之java spark编程入门与项目实践
本文实例讲述了大数据java spark编程。分享给大家供大家参考,具体如下: 上节搭建好了eclipse spark编程环境[详细]
2020-08-09 13:51 分类:编程语言Spark随机森林实现票房预测
前言 最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模.[详细]
2020-08-01 18:19 分类:编程语言