apache-spark
scala – Spark:分组数据的“数量”是转换还是行动?
我知道 count调用RDD或DataFrame是一个动作.但是在摆弄火花壳时,我发现了以下情况 scala> val empDF = Seq((1,"James Gordon", 30, "Homicide"),(2,"Harvey Bullock", 35, "Homicide"),(3,"Krist...[详细]
2020-08-01 08:33 分类:编程语言scala – Spark中的各种连接类型是什么?
我查看了文档,并说它支持以下连接类型: Type of join to perform. Default inner. Must be one of: inner, cross, outer, full, full_outer, left, left_outer, right, right_outer, left_semi, left_anti. 我查看了SQL连接上的StackOve...[详细]
2020-07-31 14:32 分类:编程语言scala – 如何在Spark中强制DataFrame评估
有时(例如,测试和bechmarking)我想强制执行在DataFrame上定义的转换.调用像count这样的动作的AFAIK并不能确保实际计算所有列,show只能计算所有行的子集(参见下面的示例) 我的解决方案是使用df.write.saveAsTable将DataFrame写入HDFS,但这...[详细]
2020-07-31 14:20 分类:编程语言如何将Scala Spark DataFrames架构导出到Json文件?
我尝试过df.write.json(“myNewJson”)虽然没有抛出任何错误或警告但它根本不会在目标中创建任何文件. df.write.format(“json”).save(“/ MyDir /”)似乎也有同样的问题.我在这里错过了一些陈述吗? 为那些可能偶然遇到同样问题的人发布...[详细]
2020-07-31 11:58 分类:编程语言scala – Spark Standalone Mode:更改HDFS输出的复制因子
在我的hdfs-site.xml中,我配置了一个复制因子1. 但是,在将结果写入hdfs时: someMap.saveAsTextFile("hdfs://HOST:PORT/out") 结果会自动复制3倍,覆盖我自己的复制因子.为了节省一些空间,我希望我的输出也有一个复制因子1. 怎么能...[详细]
2020-07-30 12:07 分类:编程语言scala – 以编程方式提交作业时Spark EC2群集上的java.io.EOFException
真的需要你的帮助来理解,我做错了什么. 我的实验的目的是以编程方式运行spark作业,而不是使用./spark-shell或./spark-submit(这些都适用于我) 环境: 我创建了一个Spark集群,其中包含1个master& 1名工人使用./spark-ec2脚本 但是,当我...[详细]
2020-07-29 17:08 分类:编程语言scala – Custom Receiver在Spark Streaming中停止工作
我正在尝试使用自定义接收器编写Spark Streaming应用程序.我应该通过提供具有预定义间隔的随机值来模拟实时输入数据. (简化)接收器如下所示,使用下面的Spark Streaming应用程序代码: class SparkStreamingReceiver extends Actor with A...[详细]
2020-07-29 17:01 分类:编程语言scala – 收藏中AnyVals的最佳FP习语
我有一个映射器函数定义如下: def foo(x:Int) = if (x>2) x*2 该方法的类型签名是Int => AnyVal.现在,如果我将此函数映射到整数列表: scala> List(-1,3,-4,0,5).map(foo) res0: List[AnyVal] = List((), 6, (), (), 10) 我需要...[详细]
2020-07-29 16:01 分类:编程语言Scala错误:’=’预期,但’;’发现
不确定导致此问题的原因:错误:’=’预期但是’;’找到. val vectors = filtered_data_by_key.map( x => { var temp x._2.copyToArray(temp) // Error occurs here (x._1, temp) }) var temp不是声明. 如果你试图在没有...[详细]
2020-07-29 14:17 分类:编程语言scala – 按照RDD值从Cassandra表中过滤
我想根据我在RDD中的值来查询Cassandra的一些数据.我的方法如下: val userIds = sc.textFile("/tmp/user_ids").keyBy( e => e ) val t = sc.cassandraTable("keyspace", "users").select("userid",...[详细]
2020-07-29 14:02 分类:编程语言