spark-dataframe
scala – Spark中的各种连接类型是什么?
我查看了文档,并说它支持以下连接类型: Type of join to perform. Default inner. Must be one of: inner, cross, outer, full, full_outer, left, left_outer, right, right_outer, left_semi, left_anti. 我查看了SQL连接上的StackOve...[详细]
2020-07-31 14:32 分类:编程语言如何将Scala Spark DataFrames架构导出到Json文件?
我尝试过df.write.json(“myNewJson”)虽然没有抛出任何错误或警告但它根本不会在目标中创建任何文件. df.write.format(“json”).save(“/ MyDir /”)似乎也有同样的问题.我在这里错过了一些陈述吗? 为那些可能偶然遇到同样问题的人发布...[详细]
2020-07-31 11:58 分类:编程语言scala – 无法解析Spark Dataframe中的列(数字列名称)
这是我的数据: scala> data.printSchema root |-- 1.0: string (nullable = true) |-- 2.0: string (nullable = true) |-- 3.0: string (nullable = true) 这不起作用:( scala> data.select("2.0").show 例外: org.ap...[详细]
2020-07-29 08:07 分类:编程语言scala – 使用SparkSession创建广播变量? Spark 2.0
是否可以使用SparkSession提供的sparkContext创建广播变量?我在sc.broadcast下不断收到错误,但是在使用org.apache.spark.SparkContext的SparkContext时,在另一个项目中我没有遇到任何问题. import org.apache.spark.sql.SparkSession ...[详细]
2020-07-28 15:49 分类:编程语言scala – SPARK DataFrame:如何根据相同的列值有效地分割每个组的数据帧
我有一个DataFrame生成如下: df.groupBy($"Hour", $"Category") .agg(sum($"value").alias("TotalValue")) .sort($"Hour".asc,$"TotalValue".desc)) 结果如下: +----+--------+--...[详细]
2020-07-28 15:10 分类:编程语言scala – 如何从DataFrame获取最后一行?
我有一个DataFrame,DataFrame hava两列’value’和’timestamp’,’timestmp’是有序的,我想得到DataFrame的最后一行,我该怎么办? 这是我的意见: +-----+---------+ |value|timestamp| +-----+---------+ | 1| 1| | 4| ...[详细]
2020-07-27 19:55 分类:编程语言scala – 值toDF不是成员org.apache.spark.rdd.RDD
def main(args: Array[String]) { val conf = new SparkConf().setMaster("local").setAppName("test") val sc = new SparkContext(conf) //require spark sql environment val sqlContext = new or[详细]
2020-07-25 20:25 分类:编程语言Scala Spark – 从简单的数据帧创建嵌套的json输出
谢谢你回来.但我面临的问题是将这些结构写入嵌套的json.不知怎的’tojson’不起作用,只是跳过嵌套的字段,导致一个扁平的结构.如何将嵌套的json格式写入HDFS? 您应该从必须嵌套在一起的字段创建结构字段. 以下是一个工作示例: 假设您拥有...[详细]
2020-07-23 19:47 分类:编程语言scala – 如何从每列的列中提取特定元素?
我在Spark 2.2.0和 Scala 2.11.8中有以下DataFrame. +----------+-------------------------------+ |item | other_items | +----------+-------------------------------+ | 111 |[[444,1.0],[详细]
2020-07-23 12:57 分类:编程语言scala – 在Apache-Spark数据帧中求和距离
以下代码给出了每列中具有三个值的数据帧,如下所示. import org.graphframes._ import org.apache.spark.sql.DataFrame val v = sqlContext.createDataFrame(List( ("1", "Al"), ("2", "...[详细]
2020-07-15 14:50 分类:编程语言