运维开发网

spark

0
  • spark中将RDD转成DataFrame形式进行查询,再讲dataframe结构数据变成sql查询

    1)通过反射确定,需要样例类,创建一个样例类 scala> case class People(name:String,age:Int) defined class People 2)开始创建一个RDD scala> val rdd =sc.makeRDD(List(("zhangsn",20),("lisi",20),("wan...[详细]

    2020-05-09 10:34 分类:大数据
  • Spark Standalone 模式

    Spark 不仅可以运行在 Mesos 或者 Yarn 上,而且还提供独立部署模式。可以手动启动一个 master 和 多个 worker,或选用我们提供的 脚本 来启动 standalone 集群。 安装 Spark standalone 集群 独立安装 Spark 集群,只需要把编译好的版本...[详细]

    2020-05-09 10:31 分类:大数据
  • spark基础知识二

    主要围绕spark的底层核心抽象RDD进行理解。主要包括以下几个方面 RDD弹性分布式数据集的概念 RDD弹性分布式数据集的五大属性 RDD弹性分布式数据集的算子操作分类 RDD弹性分布式数据集的算子操作练习 1. RDD是什么 RDD(Resilient Distrib...[详细]

    2020-05-09 10:27 分类:大数据
  • Spark SQL, DataFrames and Datasets 指南

    概述 Spark SQL 是 Spark 处理结构化数据的模块; 与基础的 Spark RDD API 不同, Spark SQL 提供的接口提供给 Spark 更多的关于数据和执行计算的结; 内在的, Spark SQL 使用这些额外的信息去执行额外的优化; 这里有几种包括 SQL 和 Datase...[详细]

    2020-05-09 10:23 分类:大数据
  • Update:sparksql:第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作

    8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset (DataFrame) 的基础操作 导读 这一章节主要目的是介绍 Dataset 的基础操作, 当然, DataFrame 就是...[详细]

    2020-05-09 10:18 分类:大数据
  • spark基础知识一

    1. spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processing. spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用...[详细]

    2020-05-09 10:16 分类:大数据
  • 基于spark的关系型数据库到HDFS的数据导入

    基于spark将关系型数据库数据导入hdfs,支持增量追加导入、覆盖导入和去重导入 package com.shenyuchong; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; imp...[详细]

    2020-05-09 10:11 分类:大数据
  • Spark GraphX图计算【代码实现,源码分析】

    一.简介   参考:https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现   1 package big.data.analyse.graphx 2 3 import org.apache.log4j.{Level, Logger} 4 import org.apache.spark.graphx._ 5 import org.[详细]

    2020-05-09 10:08 分类:大数据
  • spark原理

    原理: RDD: 使用内存--基本处理单位RDD:弹性分布式数据集 spark处理的时候,处理的是RDD数据(相当于是将块数据加载到内存中) 类似:  [1,2,3,4,5,...]        1个节点处理 [1,2]   1个节点处理[3,4,5] ......   stage: 一个 Job 会...[详细]

    2020-05-09 10:04 分类:大数据
  • pandas.DataFrame的groupby()方法的基本使用

    pandas.DataFrame的groupby()方法是一个特别常用和有用的方法。让我们快速掌握groupby()方法的基础使用,从此数据分析又多一法宝。 首先导入package: import pandas as pd import numpy as np groupby的最基本操作 df = pd.DataFrame({‘...[详细]

    2020-05-09 10:01 分类:大数据