运维开发网

spark

0
  • spark之Standalone模式部署配置详解

    spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalo[详细]

    2020-06-06 10:45 分类:编程语言
  • geodocker-geomesa安装指南

    ????最近研究geopyspark原本以为大数据研究能告一段落,因为。。。 ????开玩笑的,还要一起建设社会主义呢!! 背景 ????geotrellis作为一个处理遥感数据的框架,对于遥感数据支持的很棒,但是对于矢量数据却有些不足,首先它的样式选择单...[详细]

    2020-06-03 09:48 分类:云计算
  • docker for spark

    项目需求,有一个spark-streaming的程序,读kafka的数据,需要构建一个不使用hadoop的spark 以下建立的镜像参考网络,可以稍加修改就可以使用不同的版本。 可单独启动master,worker来构建一个standaline的集群。 也可以默认启动,启动后,...[详细]

    2020-05-31 10:59 分类:云计算
  • pandas和spark dataframe互相转换实例详解

    这篇文章主要介绍了pandas和spark dataframe互相转换实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下[详细]

    2020-05-27 12:22 分类:Python
  • kubernetes环境下 创建pod过程中 异常信息总结整理

    [toc] 1、异常信息:Failed to pull image "spark:0.1": rpc error: code = Unknown desc = repository docker.io/spark not found: does not exist or no pull access 2、异常信息:Error from server (BadRequest): container[详细]

    2020-05-19 14:27 分类:云计算
  • scala 操作hdfs

    获取hdfs文件下所有文件getAllFiles 遍历 spark读取 1 package com.spark.demo 2 3 import java.io.IOException 4 import java.net.URI 5 6 import org.apache.hadoop.conf.Configuration 7 import org.apache.hadoop.fs.[详细]

    2020-05-18 08:37 分类:编程语言
  • hive分区与实际分区文件不匹配导致spark读文件出错的问题解决

    先解释下,由于历史原因导致hive中的看到分区比hdfs中的文件夹不匹配,存在hive中分区数有,实际hdfs中无此文件夹。 spark中通过sparkSQL读取hive中的该表时,将会出现异常。 解决方案: 1. 检查该表是否是外部表,如果不是,将属性修改为...[详细]

    2020-05-17 21:58 分类:大数据
  • sqarkSQL hiveSql

    查看数据库 show databases; 进入数据库 use 库名 查看表 show tables; select * from 表名 hdfs传输spark sql查询 hive找到指定路径sql查询 vim gouzheng.txt 文件名字 放入数据 1 赵强 22 m 山西阳泉 2 李鹏波 21 m 河北邯郸 3 薛晋 2...[详细]

    2020-05-17 19:53 分类:大数据
  • JVM申请的memory不够导致无法启动SparkContext

    java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration. 尝试直接在s[详细]

    2020-05-17 11:57 分类:编程语言
  • Linux下如何查看哪些进程占用的CPU内存资源最多 - 星火spark - 博客园

    linux下获取占用CPU资源最多的10个进程,可以使用如下命令组合: ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head[详细]

    2020-05-17 09:38 分类:Linux