运维开发网

分组

0
  • spark 例子groupByKey分组计算2

    spark 例子groupByKey分组计算2 例子描述: 大概意思为,统计用户使用app的次数排名 原始数据: 000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E:62:20,15097003,,2016/6/8 17:10,2016/6/8 17:10,690,6218,11=0|12=200,2016/7/5 11:11 00...[详细]

    2020-04-22 10:19 分类:大数据
  • Mongo.aggregate

    aggregate 聚合管道功能: 对文档进行过滤,查询出符合条件的文档 对文档进行变换,改变文档的输出形式 使用sanic_motor模块连接数据库 from sanic import Sanic from sanic.views import HTTPMethodView from sanic.response import jso...[详细]

    2020-04-21 15:47 分类:大数据
  • Mongodb删除重复数据

    假如有以下的数据表。 db.user {   account:String //账号 } 删除有重复account的记录。 首先,查找一下是否有重复的数据,也就是user表是否有重复的account. 按account进行分组,计算每个分组的记录数,记录数大于1的,就说明存在重复...[详细]

    2020-04-21 12:42 分类:大数据
  • Django框架介绍和安装

    一、Django框架的介绍 2005年发布,采用Python语言编写的开源框架 早期的时候Django主做新闻和内容管理的[详细]

    2020-04-21 11:07 分类:Python
  • Elasticsearch聚合分析

    预先设置 在进行聚合分析的是皇后首先把文本的field的fielddata属性设置为true PUT /ecommerce/_mapping/product { "properties": { "tags": { "type": "text", "fielddata":...[详细]

    2020-04-21 09:26 分类:大数据
  • 【翻译】Flume 1.8.0 User Guide(用户指南) Processors

    Flume Sink Processors 接收器组允许用户将多个接收器分组到一个实体中。接收器处理器可用于在组内的所有接收器上提供负载平衡功能,或在出现暂时故障时实现从一个接收器到另一个接收器的故障转移。 所需属性以粗体显示。 Property Name ...[详细]

    2020-04-20 20:07 分类:大数据
  • poj3046 Ant Counting——多重集组合数

    题目:http://poj.org/problem?id=3046 就是多重集组合数(分组背包优化); 从式子角度考虑:(干脆看这篇博客) https://blog.csdn.net/viphong/article/details/48110525 从意义的角度来考虑: 当 j<=a[i] 时,f[i][j] = f[i-1][j] ...[详细]

    2020-04-20 10:02 分类:自动化
  • elasticsearch 聚合查询

    1. 按照 tags 字段 进行分组 GET /ecommerce/product/_search { "size": 0,   "aggs": {     "group_by_tag": {       "terms": {         "field": "tags",      ...[详细]

    2020-04-17 20:09 分类:大数据
  • Flume(5)-Ganglia监控

    一. 安装Ganglia 1. 安装httpd服务与php sudo yum -y install httpd php 2. 安装其他依赖 sudo yum -y install rrdtool perl-rrdtool rrdtool-devel sudo yum -y install apr-devel 3. 安装ganglia sudo rpm -Uvh http://dl.fedor[详细]

    2020-04-17 19:49 分类:大数据
  • Kafka副本机制

    一、什么是副本机制: 通常是指分布式系统在多台网络互联的机器上保存有相同的数据拷贝   二、副本机制的好处: 1、提供数据冗余 系统部分组件失效,系统依然能够继续运转,因而增加了整体可用性以及数据持久性 2、提供高伸缩性 支持横向...[详细]

    2020-04-17 16:39 分类:大数据