JustDoDT

JustDoDT-->From Zero To Hero.

Windows下的IDEA开发Spark SQL操作Hive

概述 其实可以用jar包提交到spark-shell 或者spark-submit上执行自己开发的Spark SQL应用程序,但是感觉提交到服务器上执行麻烦,不易于修改代码,故想在本地执行代码。 操作步骤 启动 metastore [hadoop@hadoop001 bin]$ hive --service metastore 启动Spark里面的hiveserver2 [h...

浅析Spark SQL

概述 Spark SQL 不仅仅是SQL,她还可以处理其他的结构化数据,如Orc/Parquet/JSON;她诞生于Spark 1.0,毕业于Spark 1.3;现在为Spark SQL, DataFrames and Datasets;以前就叫Spark SQL。 Hive On Spark 只需要设置为set hive.execution.engine=spark; 生产上慎用。 ...

Spark on Yarn作业提交不上

问题描述 Spark作业跑在yarn上的时候出现作业一直提交不上 查看Yarn的日志 [hadoop@hadoop001 logs]$ tail -200f yarn-hadoop-resourcemanager-hadoop001.log 2019-05-21 07:30:40,484 INFO org.apache.hadoop.yarn.server.resourcemana...

RDD中的map,mapPartitions,mapPartitionsWithIndex,foreach, foreachPartition区别

map 首先查看源码描述 /** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f) new Ma...

RDD中的join,cogroup,groupBy的区别

cogroup 源码介绍 /** * For each key k in `this` or `other1` or `other2` or `other3`, * return a resulting RDD that contains a tuple with the list of values * for that key in `this`, `other1`...

Spark中的序列化

使用Java默认的序列化 用MEMORY_ONLY import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ListBuffer object UserApp { def main(ar...

Spark累加器,广播变量和闭包

共享变量 首先来看官方的描述 Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluster node, it works on separate copies of all the variables used in the ...

Azkaban3.57.0源码编译及简单的使用

为什么要使用WorkFlow? 因为在生产中的ETL,以及HQL等作业都是通过shell命令触发执行的,在Linux中自带了Crontab调度器,通过它可以进行简单作业的调度,但是对于一些依赖的作业,比如作业B依赖于作业A完成后才能开始,这是Crontab很难去配置了,因为配置Crontab人根本不知道作业具体是何时完成的,全凭经验感觉,这是不可取的。此时我们需要Work Flow来规划好...

Spark官方提供的监控

概述 由于生产中大多数情况是用的自己编译的Spark版本,编译的Spark中并没有日志目录,对应用程序的日志没有记录;用二进制tar包解压即可用的 Spark中是有logs目录的;在Hadoop中也有 mr-jobhistory-daemon.sh,她用于查看历史的Job情况,同理在Spark中也有Spark HistoryServer。 Web Interfaces方式的监控 配置h...

Spark2.4.2源码编译

环境准备 JDK1.8 Maven 3.6.1 Scala 2.12.8 下载源码包 https://archive.apache.org/dist/spark/spark-2.4.2/ 选择 spark-2.4.2.tgz 解压Spark 源码 tar -zxvf spark-2.4.2.tgz -C /home/h...