运维开发网

kafka

0
  • spark知识体系04-Spark Streaming

    基础概念 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, join, window 等的高级...[详细]

    2020-04-22 15:12 分类:大数据
  • Linux下Kafka分布式集群安装教程

    Kafka(http://kafka.apache.org/) 是由 LinkedIn 使用 Scala 编写的一个分布式消息系统,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础,具有高水平扩展和高吞吐量。Spack、Ela[详细]

    2020-04-22 13:23 分类:Linux
  • docker运行kafka manager

    序 本文简单介绍下docker运行kafka以及kafka manager 镜像 docker pull dockerkafka/zookeeper docker pull dockerkafka/kafka docker pull dockerkafka/kafka-manager 启动 docker run -it --rm --name kafkadocker_zookeeper_1 -p[详细]

    2020-04-21 19:45 分类:云计算
  • [Spark streaming 基础]--使用低阶API消费Kafka数据(手动更新offset)

    版本:spark(1.6.0)+kafka(0.9.0)+zookeeper(3.4.6)       由于目前spark每天需要从kafka中消费数亿条左右的消息,集群压力比较大,会导致job不同程度的异常退出。原来使用spark1.6.0版本中的createStream函数,但是在数据处理速度跟不...[详细]

    2020-04-21 12:42 分类:大数据
  • [Spark streaming基础]--消费Kafka的方式对比(Receiver-based Approach vs Direct Approach)

    原文链接:https://www.jianshu.com/p/b4af851286e5 前言 这个算是Spark Streaming 接收数据相关的第三篇文章了。 前面两篇是: Spark Streaming 数据产生与导入相关的内存分析 Spark Streaming 数据接收优化 Spark Streaming 接受数据的...[详细]

    2020-04-21 12:38 分类:大数据
  • Kafka shell

    Topic:可以理解为一个队列,生产者和消费者面向的都是一个 topic。 Partition:主要为了做负载,实现扩展性,一个非常大的 topic 可以分布到多个 broker(即服务器)上,一个 topic 可以分为多个 partition,每个 partition 是一个有序的...[详细]

    2020-04-21 09:25 分类:大数据
  • kafka server.properties 配置文件详解

    1.Broker.id broker.id=2 一般采用ip的后三位来用来标识是哪台kafka的broker,利于定位和排错 2.Prot tcp用来监控的kafka端口 listeners=PLAINTEXT://192.168.43.17:9092 3.Zookeeper.connect ...[详细]

    2020-04-21 09:09 分类:大数据
  • Spark Streaming优雅的关闭策略优化

    前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。 到目前为止还有几个问题: (1)有关spark streaming集成kafka时,如果kafka新增分区, 那么spark streaming程序能不能动态识别到而不...[详细]

    2020-04-21 08:25 分类:大数据
  • Flume整合Kafka完成实时数据采集

    agent选择 agent1 exec source + memory channel + avro sink agent2 avro source + memory channel  模拟实际工作中的场景,agent1 为A机器,agent2 为B机器。   avro source: 监听avro端口,并且接收来自外部avro信息, avro sink:...[详细]

    2020-04-20 15:15 分类:大数据
  • FLUME安装&环境(二):拉取MySQL数据库数据到Kafka

    Flume安装成功,环境变量配置成功后,开始进行agent配置文件设置。   1.agent配置文件(mysql+flume+Kafka) #利用Flume将MySQL表数据准实时抽取到Kafka a1.channels = c1 a1.sinks = k1 a1.sources = s1   #sources(mysql) a1.sources...[详细]

    2020-04-20 09:09 分类:大数据