运维开发网

spark

0
  • Python搭建Spark分布式集群环境

    前言 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使[详细]

    2020-05-09 11:35 分类:Python
  • hbase安装和spark集成常见问题

    一、zookeeper集成 使用自带zookeeper可参考hbase官网 https://hbase.apache.org/book.html#quickstart 二、spark/hadoop集成 需要将jar放到hadoop的lib下 或者在spark提交命令中添加 --driver-class-path /opt/hadoop-2.7.7/lib/*:/opt/...[详细]

    2020-05-09 11:31 分类:大数据
  • spark程序与参数的关系

    What is spark.python.worker.memory? Spark on YARN resource manager: Relation between YARN Containers and Spark Executors? When running Spark on YARN, each Spark executor runs as a YARN container 所以说,-[详细]

    2020-05-09 11:07 分类:大数据
  • Spark 资源调度包 stage 类解析

    spark 资源调度包 Stage(阶段) 类解析 类注释: /** * A stage is a set of parallel tasks all computing the same function that need to run as part * of a Spark job, where all the tasks have the same shuffle dependenc[详细]

    2020-05-09 11:02 分类:大数据
  • 基于Spark的电影推荐系统(推荐系统~7)

    基于Spark的电影推荐系统(推荐系统~7) 22/100 发布文章 liuge36 第四部分-推荐系统-实时推荐 本模块基于第4节得到的模型,开始为用户做实时推荐,推荐用户最有可能喜爱的5部电影。 说明几点 1.数据来源是 testData 测试集的数据。这里面...[详细]

    2020-05-09 10:58 分类:大数据
  • 基于Spark的电影推荐系统(推荐系统~2)

    第四部分-推荐系统-数据ETL 本模块完成数据清洗,并将清洗后的数据load到Hive数据表里面去 前置准备: spark +hive vim $SPARK_HOME/conf/hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type=...[详细]

    2020-05-09 10:54 分类:大数据
  • 基于Spark的电影推荐系统(推荐系统~1)

    第四部分-推荐系统-项目介绍 行业背景: 快速:Apache Spark以内存计算为核心 通用 :一站式解决各个问题,ADHOC SQL查询,流计算,数据挖掘,图计算 完整的生态圈 只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速 “...[详细]

    2020-05-09 10:49 分类:大数据
  • spark的安装配置

    环境说明: 操作系统: centos7 64位 3台 centos7-1 192.168.111.10 master centos7-2 192.168.111.11 slave1 centos7-3 192.168.111.12 slave2 1.安装jdk,配置jdk环境变量   https://www.cnblogs.com/zhangjiahao/p/8551362....[详细]

    2020-05-09 10:45 分类:大数据
  • Spark-stream,kafka结合

    先列参考文献: Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher):http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html kafka(Java Client端Producer API):http:[详细]

    2020-05-09 10:42 分类:大数据
  • Spark配置参数详解

    以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的conf/spark-e...[详细]

    2020-05-09 10:38 分类:大数据