apache-spark-sql
scala – Spark中的各种连接类型是什么?
我查看了文档,并说它支持以下连接类型: Type of join to perform. Default inner. Must be one of: inner, cross, outer, full, full_outer, left, left_outer, right, right_outer, left_semi, left_anti. 我查看了SQL连接上的StackOve...[详细]
2020-07-31 14:32 分类:编程语言如何将Scala Spark DataFrames架构导出到Json文件?
我尝试过df.write.json(“myNewJson”)虽然没有抛出任何错误或警告但它根本不会在目标中创建任何文件. df.write.format(“json”).save(“/ MyDir /”)似乎也有同样的问题.我在这里错过了一些陈述吗? 为那些可能偶然遇到同样问题的人发布...[详细]
2020-07-31 11:58 分类:编程语言在Scala中返回临时Spark SQL表
首先,我使用将CSV文件转换为Spark DataFrame val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("/usr/people.csv") 在那种类型的df和返回后我可以看到 res3...[详细]
2020-07-29 08:50 分类:编程语言如何在Scala中将DataFrame模式写入文件
我有一个DataFrame从一个巨大的json文件加载并从中获取模式.架构基本上大约1000列.我希望将printSchema的相同输出保存在文件而不是控制台中. 有任何想法吗? 如果您在本地环境中工作,则可以执行以下操作: val filePath = "/path/to/...[详细]
2020-07-28 17:45 分类:编程语言从scala中的数据框添加两列
我有两列年龄和薪水存储在DF中.我只想编写一个 scala代码来逐列添加这些值.我试过了 val age_1 = df.select("age") val salary_1=df.select("salary") val add = age_1+salary_1 给我错误.请帮忙 在下面的spark是SparkSe...[详细]
2020-07-28 16:42 分类:编程语言scala – 使用SparkSession创建广播变量? Spark 2.0
是否可以使用SparkSession提供的sparkContext创建广播变量?我在sc.broadcast下不断收到错误,但是在使用org.apache.spark.SparkContext的SparkContext时,在另一个项目中我没有遇到任何问题. import org.apache.spark.sql.SparkSession ...[详细]
2020-07-28 15:49 分类:编程语言scala – 将dataframe中的字符串数据转换为double
我有一个包含double类型的csv文件.当我加载到数据帧时,我收到此消息告诉我类型字符串是 java.lang.String不能转换为java.lang.Double虽然我的数据是数字.我怎么得到这个csv文件的数据帧包含double type.how我应该修改我的代码. import or...[详细]
2020-07-28 15:18 分类:编程语言scala – SPARK DataFrame:如何根据相同的列值有效地分割每个组的数据帧
我有一个DataFrame生成如下: df.groupBy($"Hour", $"Category") .agg(sum($"value").alias("TotalValue")) .sort($"Hour".asc,$"TotalValue".desc)) 结果如下: +----+--------+--...[详细]
2020-07-28 15:10 分类:编程语言Scala – Spark在Dataframe中检索,具有最大值的行,列名称
我有一个DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5 我想要一个带有包含列的新数据框,列名称...[详细]
2020-07-28 14:53 分类:编程语言scala – 如何将数据集[(String,Seq [String])]转换为数据集[(String,String)]?
可能这是一个简单的问题,但我开始用火花冒险. 问题:我想在spark中获得以下结构(预期结果).现在我有以下结构. title1, {word11, word12, word13 …} title2, {word12, word22, word23 …} 数据存储在数据集[(String,Seq [String])]中 例外...[详细]
2020-07-28 13:02 分类:编程语言