spark
spark中将RDD转成DataFrame形式进行查询,再讲dataframe结构数据变成sql查询
1)通过反射确定,需要样例类,创建一个样例类 scala> case class People(name:String,age:Int) defined class People 2)开始创建一个RDD scala> val rdd =sc.makeRDD(List(("zhangsn",20),("lisi",20),("wan...[详细]
2020-05-09 10:34 分类:大数据Spark Standalone 模式
Spark 不仅可以运行在 Mesos 或者 Yarn 上,而且还提供独立部署模式。可以手动启动一个 master 和 多个 worker,或选用我们提供的 脚本 来启动 standalone 集群。 安装 Spark standalone 集群 独立安装 Spark 集群,只需要把编译好的版本...[详细]
2020-05-09 10:31 分类:大数据-
spark基础知识二
主要围绕spark的底层核心抽象RDD进行理解。主要包括以下几个方面 RDD弹性分布式数据集的概念 RDD弹性分布式数据集的五大属性 RDD弹性分布式数据集的算子操作分类 RDD弹性分布式数据集的算子操作练习 1. RDD是什么 RDD(Resilient Distrib...[详细]
2020-05-09 10:27 分类:大数据 Spark SQL, DataFrames and Datasets 指南
概述 Spark SQL 是 Spark 处理结构化数据的模块; 与基础的 Spark RDD API 不同, Spark SQL 提供的接口提供给 Spark 更多的关于数据和执行计算的结; 内在的, Spark SQL 使用这些额外的信息去执行额外的优化; 这里有几种包括 SQL 和 Datase...[详细]
2020-05-09 10:23 分类:大数据-
Update:sparksql:第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset (DataFrame) 的基础操作 导读 这一章节主要目的是介绍 Dataset 的基础操作, 当然, DataFrame 就是...[详细]
2020-05-09 10:18 分类:大数据 spark基础知识一
1. spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processing. spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用...[详细]
2020-05-09 10:16 分类:大数据基于spark的关系型数据库到HDFS的数据导入
基于spark将关系型数据库数据导入hdfs,支持增量追加导入、覆盖导入和去重导入 package com.shenyuchong; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; imp...[详细]
2020-05-09 10:11 分类:大数据-
Spark GraphX图计算【代码实现,源码分析】
一.简介 参考:https://www.cnblogs.com/yszd/p/10186556.html 二.代码实现 1 package big.data.analyse.graphx 2 3 import org.apache.log4j.{Level, Logger} 4 import org.apache.spark.graphx._ 5 import org.[详细]
2020-05-09 10:08 分类:大数据 -
-
pandas.DataFrame的groupby()方法的基本使用
pandas.DataFrame的groupby()方法是一个特别常用和有用的方法。让我们快速掌握groupby()方法的基础使用,从此数据分析又多一法宝。 首先导入package: import pandas as pd import numpy as np groupby的最基本操作 df = pd.DataFrame({‘...[详细]
2020-05-09 10:01 分类:大数据