kafka
Centos上将zookeeper和kafka设置为开机自启
一、首先kafka和zookeeper的安装请查看上一篇随笔 二、配置服务文件 1、进入服务配置文件下 [详细]
2020-05-14 12:41 分类:LinuxC++临时变量的回顾思考以及librdkafka设置回调函数注意点
1 生命周期 如果仅仅是临时变量,并没有调用new来在堆上创建空间,那么注意 : 生命周期仅在该作用域中,即声明该临时变量的{}中; 2 使用(librdkafka C++回调使用) 在创建临时变量后,如果想使用该变量的指针,那么一定要注...[详细]
2020-05-13 21:59 分类:编程语言-
大数据数据仓库-基于大数据体系构建数据仓库(Hive,Flume,Kafka,Azkaban,Oozie,SparkSQL)
背景 接着上个文章数据仓库简述,想写一篇数据仓库常用模型的文章,但是自己对数据仓库模型的理解程度和建设架构并没有下面这个技术专家理解的深刻,并且自己去组织语言,可能会有不准确的地方,怕影响大家对数据仓库建模的理解,数据仓库...[详细]
2020-05-13 20:04 分类:大数据 Flink生成Parquet格式文件实战
1.概述 在流数据应用场景中,往往会通过Flink消费Kafka中的数据,然后将这些数据进行结构化到HDFS上,再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后,将消费后的数据结构化到Hive数据仓库中。...[详细]
2020-05-09 18:23 分类:大数据Scala实战高手****第6课 :零基础实战Scala集合操作及Spark源码解析
本课内容 1.Spark中Scala集合操作鉴赏 2.Scala集合操作实战 ------------------------------------------------------------------------------------------------------------------------ /** * 大数据技术是数据的集合以及对数据集...[详细]
2020-05-09 17:27 分类:编程语言-
记一次phoenix在不加索引的情况调优,由6s以上时间变成不到1s
背景: 网约车预约单查询: 这里面恶心的地方是: 1个时间窗口要查询6种时间:推送订单时间(来自mongodb)、有效抢单时间(来自mongodb)、抢单成功时间(实时kafka)、取消订单时间(实时kafka)、到达目的地时间(实时kafka)、支付时...[详细]
2020-05-09 16:40 分类:大数据 Spark-stream,kafka结合
先列参考文献: Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher):http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html kafka(Java Client端Producer API):http:[详细]
2020-05-09 10:42 分类:大数据Spark2.x(六十):在Structured Streaming流处理中是如何查找kafka的DataSourceProvider?
本章节根据源代码分析Spark Structured Streaming(Spark2.4)在进行DataSourceProvider查找的流程,首先,我们看下读取流数据源kafka的代码: SparkSession sparkSession = SparkSession.builder().getOrCreate(); Datase...[详细]
2020-05-08 19:30 分类:大数据Spark 系列(十六)—— Spark Streaming 整合 Kafka
一、版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下: spark-streaming-kafka-0-8 spark-streaming-kafka-0-10 Kafka 版本 0.8.2.1 or higher 0....[详细]
2020-05-08 18:38 分类:大数据