Hadoop
scala – 如何在Spark-notebook中使用Accumulo 1.6创建Spark RDD?
我有一个Vagrant图像,Spark Notebook,Spark,Accumulo 1.6和Hadoop都在运行.从笔记本,我可以手动创建一个扫描仪,并从我使用其中一个Accumulo示例创建的表中提取测试数据: val instanceNameS = "accumulo" val zooServersS = "...[详细]
2020-06-12 08:28 分类:编程语言scala – 在Spark Dataframe中将一列转换为多列
这个结构我有一个很大的数据帧(1.2GB或多或少): +---------+--------------+------------------------------------------------------------------------------------------------------+ | country | date_data |[详细]
2020-06-11 16:26 分类:编程语言scala – Spark执行程序如何运行多个任务?
例如,如果执行程序的数量是40,但任务数是80,这意味着每个执行程序将并行运行两个任务.此外,我的函数(执行哪些任务)不是正常的函数,但我在其中调用程序.因此,每项任务实际上需要几分钟才能完成.所以,我的问题是,Spark如何管理它?这些任务...[详细]
2020-06-11 16:13 分类:编程语言scala – 如何强制spark / hadoop忽略文件上的.gz扩展名并将其作为未压缩的纯文本读取?
我有以下代码: val lines: RDD[String] = sparkSession.sparkContext.textFile("s3://mybucket/file.gz") URL以.gz结尾,但这是遗留代码的结果.该文件是纯文本,不涉及压缩.然而,火花坚持将其作为GZIP文件阅读,这显然是失败的.如何...[详细]
2020-06-11 14:30 分类:编程语言scala – Spark任务不可序列化(Case Classes)
当我使用在闭包内扩展Serializable的case类或类/对象时,Spark throws Task不可序列化. object WriteToHbase extends Serializable { def main(args: Array[String]) { val csvRows: RDD[Array[String] = ... val dat...[详细]
2020-06-10 18:59 分类:编程语言scala – 当存储级别设置为磁盘时,Spark存储数据在哪里?
我想知道当存储级别设置为DISK_ONLY或MEMORY_AND_DISK时,Spark存储数据的目录(在这种情况下,数据不适合内存).因为我看到我设置的级别没有区别.如果程序崩溃MEMORY_ONLY级别,它也会崩溃所有其他级别. 在我正在使用的集群中,/ tmp目录是一个...[详细]
2020-06-10 16:19 分类:编程语言scala – 在Mappers之间共享信息的增强版MapReduce有什么好的应用程序?
我正在构建Spark框架的增强功能(http://www.spark-project.org/). Spark是加州大学伯克利分校的一个项目,可以在RAM中快速完成MapReduce. Spark是用 Scala构建的. 我正在构建的增强功能允许在映射器计算时共享一些数据.这可能很有用,例如,...[详细]
2020-06-09 21:13 分类:编程语言具有Docker的多节点Hadoop集群
我正在基于Docker的环境中规划多节点Hadoop集群的阶段.所以它应该基于轻量级易用的虚拟化系统. 当前架构(关于文档)包含1个主节点和3个从节点.该主机使用HDFS文件系统和KVM进行虚拟化. 整个云由Cloudera Manager管理.此群集上安装了多个Ha...[详细]
2020-06-09 18:04 分类:云计算如何在Docker Swarm中设置Hadoop?
我希望能够在Docker中启动Hadoop集群,使用 swarm将Hadoop节点分发到不同的物理节点. 我找到了sequenceiq图像,它允许我在docker容器中运行hadoop,但这不允许我使用多个节点.我也看了一下cloudbreak项目,但似乎需要一个openstack安装,这看起...[详细]
2020-06-09 14:26 分类:云计算