运维开发网

大数据

0
  • SRA|GEO|Taxonomy|Pubmed|MeSH|EBI|Uniprot|Human project|Ensembl|UCSC

    生物医学大数据:   SRA:Sequence Read Archive (SRA) makes biological sequence data available to the research community to enhance reproducibility and allow for new discoveries by comparing data sets. 其中的reads是[详细]

    2020-05-18 12:01 分类:大数据
  • Hive:数据倾斜

    数据倾斜问题 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 数据倾斜是指:mapreduce程...[详细]

    2020-05-18 10:22 分类:大数据
  • Hive的基本介绍(一)

    01 Hive的基本介绍 1、hive产生的原因 · a) 方便对文件及数据的元数据进行管理,提供统一的元数据管理方式 ? b) 提供更加简单的方式来访问大规模的数据集,使用SQL语言进行数据分析 2、hive是什么? The Apache Hive ? data warehouse s...[详细]

    2020-05-17 19:16 分类:大数据
  • 大数据 -- Hadoop集群环境搭建

    首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会...[详细]

    2020-05-17 19:07 分类:大数据
  • 比hive快10倍的大数据查询利器presto部署

    目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询。但因其基于MR,运行速度是一个弊端,通常运行...[详细]

    2020-05-17 14:15 分类:大数据
  • 1-hadoop-入坑

    大数据 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。 适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网...[详细]

    2020-05-16 19:04 分类:大数据
  • 大数据-Hadoop安装

    进入到Hadoop安装包路径下 [[email protected] ~]$ cd /opt/software/     解压安装文件到/opt/module下面 [[email protected] software]$ tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/   查看是否解压成功 [[email protected] ...[详细]

    2020-05-16 18:53 分类:大数据
  • 大数据云计算高级实战Hadoop,Flink,Spark,Kafka,Storm,Docker高级技术大数据和Hadoop技能

    大数据和Hadoop技能可能意味着有你的梦想事业和被遗忘之间的差异。骰子引用:“技术专业人员应该志愿参与大数据项目,这使他们对目前的雇主更有价值,对其他雇主更有销路。” 1.与Hadoop的职业: 根据福布斯2015年的一份报告,...[详细]

    2020-05-15 18:51 分类:大数据
  • 大数据备忘录———将数据从orcle导入impala中

    上周遇到了将数据从orcle导入到impala的问题,这个项目耽误了我近一周的时间,虽然是种种原因导致的,但是还是做个总结。 需求首先是跑数据,跑数据这个就不叙述,用的是公司的平台。 讲讲耽误我最久的事吧 数据的导入导出。 将数据从orc...[详细]

    2020-05-15 18:46 分类:大数据