运维开发网

spark

0
  • spark 读写oracle常见问题分析

    基于Spark SQL 读写Oracle 的简单案例分析常见问题 1 概述 本文主要内容包含Spark SQL读写 Oracle表数据的简单案例,并针对案例中比较常见的几个问题给出解决方法。 最后从常见的java.lang.ClassNotFoundException(无法找到驱动类)的...[详细]

    2020-04-08 10:37 分类:大数据
  • Spark SQL网站搜索综合案例实战

    以京东为例找出搜索平台上用户每天搜索排名5名的产品,The hottest!   用户登录京东网站,在搜索栏搜索的时候,将用户每天搜索排名前5名的商品列出来。     一:生成模拟京东用户搜索的测试数据。 l SparkSQLUserlogsHottest.log测...[详细]

    2020-04-08 10:33 分类:大数据
  • spark 窗口函数row_number练习以及用spark core实现

    常用于对数据进行分组并取每个分组中的TopN数据。 示例数据如下: class1 90 class2 56 class1 87 class1 76 class2 88 class1 95 class1 74 class2 87 class2 67 class2 77 1、直接使用Spark core中的api来实现分组取topN功能:  首先将...[详细]

    2020-04-08 10:30 分类:大数据
  • 为什么说coarseGrainedExecutorBackend要通信的对象driverUrl是driverEndpoint而不是ClientEndpoint

    背景:集群启动的时候启动了master和worker 用户提交程序时: 1. 首先new spark context,其中会new dagScheduler,taskSchedulerImpl和sparkDeploySchedulerBackend,并start taskSchedulerImpl。 2. 在taskSchedulerImpl start时,会star...[详细]

    2020-04-08 10:25 分类:大数据
  • 怎样升级spark集群到更新的版本?

    怎样升级spark集群到更新的版本? -IMF-李明 说明: · 事实上升级spark很简单,因为spark并不是传统意义上‘安装’在你的集群上,你只需要:下载并解压合适的版本,进行一定的配置,并修改SPARK_HOME等环境变量(后两点可选); · 本文...[详细]

    2020-04-08 10:20 分类:大数据
  • spark学习1

    1.算子的分类 大致可以分为三大类算子。 1)Value数据类型的Transformation算子,这种变换并不触发提交 作业,针对处理的数据项是Value型的数据。 2)Key-Value数据类型的Transfromation算子,这种变换并不触发 提交作业,针对处理的数据...[详细]

    2020-04-08 10:15 分类:大数据
  • spark core 2.0 BlockId

    BlockId identified a particular Block of data, usually associated with a single file. A Block can be uniquely identified by its filenme, but eatch type of Block has a dirrent set of keys which produce[详细]

    2020-04-08 10:11 分类:大数据
  • spark streaming广告点击系统需求分析与技术架构

    广告点击系统实时分析: 广告来自于网站或者移动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过JavaScript、Ajax或者Socket往后台发送点击的日志数据,在这里我们是要基于Spark Streaming做实时在线统计,那么数...[详细]

    2020-04-08 10:06 分类:大数据
  • spark 输出结果压缩(gz)

    如果不想往下看,可以直接看结果: maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class); 恩,没错。就只这么一行简单的代码实现了gz压缩,但是为什么网上一直没找到呢,这个我不太清楚, 可能是他们没碰到吧。     最近...[详细]

    2020-04-08 10:03 分类:大数据
  • spark初探--单机快速安装

    上次接触spark还在2013年,那会应该是0.*的版本,相当的不稳定,近两年spark越来越火,实在是受不了诱惑,膜拜膜拜。 安装那点小事    单机伪分布尝尝鲜,下载http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz,要...[详细]

    2020-04-08 09:59 分类:大数据