运维开发网

大数据

0
  • Python大数据之从网页上爬取数据的方法详解

    本文实例讲述了Python大数据之从网页上爬取数据的方法。分享给大家供大家参考,具体如下:[详细]

    2020-05-19 12:57 分类:Python
  • 大数据--hive查询

    一、全表查询和特定列查询 1、全表查询: ------------------------------------------------------------------- hive (db_test)> select * from dept; OK dept.deptno dept.dname dept.loc 10 ACCOUNTING 1700 20 RESEARCH 1800 30 ...[详细]

    2020-05-18 15:43 分类:大数据
  • Hive2优化参数

    最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:Hive是什么  Hive是面向大数据的数据仓库,是一种将SQL转换为mapreduce的工具。 二:mapreduce的基本流程及阶段可进行的优化...[详细]

    2020-05-18 14:02 分类:大数据
  • Hive调优-萌贝树母婴无骗子

    1 Fetch 抓取   Hive调优-萌贝树母婴无骗子,Fectch 抓取是指对某些情况下的查询不必使用 MapReduce 计算将 hive.fetch.task.conversion 设置成 more,在全局查找、字段查找、limit查找等都不走 MapReduce2 本地模式   Hive调优-萌贝...[详细]

    2020-05-18 13:58 分类:大数据
  • 大数据第二章hadoop概述

    hadoop简介 hadoop是基于Java语言开发的,具有很好的跨平台性,并且可以部署在廉价的计算机群众,hadoop的核心是分布式文件系统HDFS(hadoop distributed file system)和mapreduce,HDFS具有较高的读写速度和和好的容错性和可伸缩性并且具...[详细]

    2020-05-18 13:54 分类:大数据
  • SRA|GEO|Taxonomy|Pubmed|MeSH|EBI|Uniprot|Human project|Ensembl|UCSC

    生物医学大数据:   SRA:Sequence Read Archive (SRA) makes biological sequence data available to the research community to enhance reproducibility and allow for new discoveries by comparing data sets. 其中的reads是[详细]

    2020-05-18 12:01 分类:大数据
  • Hive:数据倾斜

    数据倾斜问题 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 数据倾斜是指:mapreduce程...[详细]

    2020-05-18 10:22 分类:大数据
  • Hive的基本介绍(一)

    01 Hive的基本介绍 1、hive产生的原因 · a) 方便对文件及数据的元数据进行管理,提供统一的元数据管理方式 ? b) 提供更加简单的方式来访问大规模的数据集,使用SQL语言进行数据分析 2、hive是什么? The Apache Hive ? data warehouse s...[详细]

    2020-05-17 19:16 分类:大数据
  • 大数据 -- Hadoop集群环境搭建

    首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会...[详细]

    2020-05-17 19:07 分类:大数据