运维开发网

hive

0
  • 大数据在公司使用的阶段

    虽然大家都在玩大数据,但是大部分人还是在第1和2阶段,部分公司可能到了第3阶段,因为其中涉及的专业知识太多,运维工程师,开发工程师,数据工程师,云工程师等等不一而足。   阶段1 技术试验阶段 在此阶段,你的团队可能会安装一个Ha...[详细]

    2020-05-18 12:18 分类:大数据
  • Hive 3、Hive 的安装配置(本地derby模式)

    这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可; $ vim hive-site.xml    <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby...[详细]

    2020-05-18 12:11 分类:大数据
  • SRA|GEO|Taxonomy|Pubmed|MeSH|EBI|Uniprot|Human project|Ensembl|UCSC

    生物医学大数据:   SRA:Sequence Read Archive (SRA) makes biological sequence data available to the research community to enhance reproducibility and allow for new discoveries by comparing data sets. 其中的reads是[详细]

    2020-05-18 12:01 分类:大数据
  • pyhive

    from pyhive import hive import pandas as pd import numpy as np class myhive():     def __init__(self,host,port,auth,username,password,database):          self.host=host          self.port=port[详细]

    2020-05-18 11:48 分类:大数据
  • OCP-052考试题库汇总(51)-CUUG内部解答版

    Your database is open in archive mode. LOG_archive_DEST is set to Fast Recovery Area (FRA) and It is 100% full when a log switch takes place. No alternative or optional archive destinations are define[详细]

    2020-05-18 11:41 分类:大数据
  • HiveSQL整理

    1.用json_tuple函数处理json字符串 //创建外部表 读取整个json字符串 use hive_01; create external table weibo_json(json string) location ‘/usr/test/weibo_info‘; //载入数据 load data local inpath ‘/usr/test/testdate/weibo‘...[详细]

    2020-05-18 11:20 分类:大数据
  • hive分组排序(rank函数+partiton实现)

    Rank 1.函数说明 RANK() 排序相同时会重复,总数不会变 DENSE_RANK() 排序相同时会重复,总数会减少 ROW_NUMBER() 会根据顺序计算 2.数据准备(手巧时切记用tab分开,不要用空格,会报错0 孙悟空    语文    87 孙悟空    ...[详细]

    2020-05-18 10:50 分类:大数据
  • hive设置参数进行性能优化

    set hive.merge.mapredfiles=true; set hive.merge.mapfiles=true; set mapred.max.split.size=5073741824; set dfs.block.size=1073741824; set mapreduce.map.memory.mb=8196; set mapreduce.reduce.memory.mb=819[详细]

    2020-05-18 10:47 分类:大数据
  • Hive的总结

    一, 基本了解 1.Hive的简介 -1. 由Facebook开源用于解决海量结构化日志的数据统计,后称为Apache Hive为一个开源项目。 -2. Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射成一张表,并提供类似SQL的查询功能。一个数据...[详细]

    2020-05-18 10:42 分类:大数据
  • hive小知识

    (一)内部表&外部表 未被external修饰的是内部表(managed table),被external修饰的为外部表(external table); 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.warehouse.dir...[详细]

    2020-05-18 10:38 分类:大数据