Hadoop
scala – 在Spark工作中写入HBase:存在类型的难题
我正在尝试编写一个应该将其输出放入HBase的Spark作业.据我所知,正确的方法是在org.apache.spark.rdd.PairRDDFunctions上使用saveAsHadoopDataset方法 – 这要求我的RDD由对组成. saveAsHadoopDataset方法需要一个JobConf,这就是我想要构...[详细]
2020-06-19 10:46 分类:编程语言网络 – 如何为Hadoop生态系统配置主机文件
![在此处输入图像描述] [1]这个问题可能看起来非常明显,但由于hadoop集群上主机文件的配置错误,我已经多次遇到过这个问题. 任何人都可以描述如何为hadoop和类似的环境使用设置主机文件和其他相关的网络配置(如cloudera). 特别是当我必须...[详细]
2020-06-19 09:01 分类:路由交换docker – 无法增加Max Application Master资源
我正在使用uhopper / hadoop docker image来创建纱线簇.我有3个节点,每个节点有64GB RAM.我添加了配置.我给了32GB 到纱线.总簇内存为96GB. - name: YARN_CONF_yarn_scheduler_minimum___allocation___mb value: "2048" ...[详细]
2020-06-17 12:08 分类:云计算在Linux中为什么密码少ssh无法正常工作?
我在我的集群中连接了3个数据节点(在所有这些数据节点中通过无字工作正常),这些节点工作正常,但是当我尝试连接另一个数据节点时,无字源ssh无法在第四个数据节点中工作.[详细]
2020-06-17 08:20 分类:Linuxscala – 在Yarn集群上提交Spark作业
我现在因为以下问题而奋斗了2天以上. 我在SCALA中编写了一个基本的“HelloWorld”脚本 object Hello extends App{ println("WELCOME TO A FIRST TEST WITH SCALA COMPILED WITH SBT counting fr. 1:15 with sleep 1") val da...[详细]
2020-06-16 08:38 分类:编程语言通过zeppelin从docker-hadoop-spark – workbench访问hdfs
我已经安装了 https://github.com/big-data-europe/docker-hadoop-spark-workbench 然后用docker-compose启动它.我导航到了the various urls mentioned in the git readme,所有人似乎都出现了. 然后我开始了一个本地的apache zeppelin: ...[详细]
2020-06-15 11:42 分类:云计算scala – :22:错误:未找到:值sc
我对Spark来说是全新的,学习正在Spark上进行.在实践中,面临的问题如下.多个步骤,安静长. 我在UNIX环境中使用spark- shell.如下错误. 步骤1 $spark-shell Welcome to ____ __ / __/__ ___ _...[详细]
2020-06-14 18:43 分类:编程语言scala – 在spark over JDBC上从远程配置单元读取数据返回空结果
我需要从spark执行远程hive服务器上的hive查询,但由于某些原因,我只收到列名(没有数据). 表中的数据,我通过HUE和 java jdbc连接检查它. 这是我的代码示例: val test = spark.read .option("url", "jdbc:hive2://remote....[详细]
2020-06-14 16:03 分类:编程语言scala – 处理记录大小超过3GB的火花
当单个记录大小超过3GB时,我会遇到异常 ` java.lang.IllegalArgumentException App > at java.nio.CharBuffer.allocate(CharBuffer.java:330) App > at java.nio.charset.CharsetDecoder.decode(CharsetDecoder.java:792) App >...[详细]
2020-06-14 15:17 分类:编程语言scala – Spark在InputSplit for Hbase期间给出Null指针异常
我使用的是Spark 1.2.1,Hbase 0.98.10和Hadoop 2.6.0.从hbase检索数据时,我得到了一个零点异常. 在下面找到堆栈跟踪. [sparkDriver-akka.actor.default-dispatcher-2] DEBUG NewHadoopRDD – Failed to use InputSplit#getLocationInfo. ...[详细]
2020-06-13 16:59 分类:编程语言