JustDoDT

JustDoDT-->From Zero To Hero.

HiveSQL优化

Hive 优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map 数设置 reduce 数设置 其他 Hive 执行 HQL –> Job —> Map/Reduce 执行计划 explain...

HBase和Hive的区别以及各自适用的场景

概述 HBase 和 Hive在大数据架构中处于不同位置,HBase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是相互配合使用。 两者的区别 整体区别 HBase: Hadoop database 的简称,也就是基于 Hadoop 数据库,是一种NoSQL数据库,主要适用于海量的明细数据(十亿,百亿)的随机实时查询,如日志明细,交易...

浅析Spark内存管理

概述 在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD 提供存储功...

在CentOS 6.x 中安装 ES 6.x

安装ES 下载地址:https://www.elastic.co/downloads/past-releases/elasticsearch-6-6-2 修改配置文件 $ELASTICSEARCH_HOME/config/elasticsearch.yml 修改或者添加如下内容 cluster.name: ruozedata-es-cluster node.name: justdo...

深入理解 Spark Shuffle

概述 Spark Shuffle 是 spark job 中某些算子触发的操作,更详细的说,当 RDD 依赖中出现宽依赖的时候,就会触发 shuffle 操作,shuffle 操作通常会伴随着不同的 executor / host 之间的数据复制,也正是如此,导致 shuffle 的代价高以及对应的复杂性。 举个简单的例子,spark 中算子 reduceByKey,该算子会生成一个新的...

Spark shuffle 版本迭代历程

概述 在Spark 或者 Hadoop MaReduce 的分布式计算框架中,数据被按照 key 分成一块一块的分区,打散分布在集群中的各个节点的物理存储或内存空间中,每个计算任务一次处理一个分区,但 map 端和 reduce 端的计算任务并非按照一种方式对相同的分区进行计算,例如,当需要对数据进行排序时,就需要将 key 相同的数据分布到同一个分区中,原分区的数据需要被打散重组,这个按...

Spark问题总结

Streming 程序已经失败,进程不退出 用户提交到 Yarn 上的 Spark Streaming 程序容易受到别的因素影响而导致程序失败,有时候程序失败之后 driver 进程不退出,这样无法通过监控 driver 的进程来重启 Streaming 程序。推荐将 Streaming 程序运行在 Standalone 模式的集群之上,使用 cluster 部署模式,并启用 superv...

Flink VS Spark

Flink 定义:基于数据流的有状态计算 对比Spark 1.定位 Spark:流是批的特例(Spark) Flink: 批是流的特例(Flink) 2.数据模型 Spark:RDD集合,依靠 lineage 做恢复,做容错,存在宽窄依赖 Flink: 数据量和 event 的序列,依靠 checkpoint 做恢复,保证一致性 DAG:...

HBase优化

预先分区 默认情况下,在创建 HBase 表的时候会自动创建一个 Region 分区,当导入数据的时候,所有的 HBase 客户端都向这一个 Region 写数据,直到这个 Region 足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的 Region,这样当数据写入 HBase 时,会按照 Region 分区情况,在集群内做数据的负载均衡。 Rowkey 优化 ...

浅析HBase架构

HBase 组件概述 主从模式:HBase 体系结构遵循传统的 主从 模式,在HBase 中master 为 HMaster,slave 为 HRegionServers,主从之间通过 Zookeeper 共享状态信息。 HBase 组成:从物理层面,分为3个部分: RegionServers HMaster Zookeeper RegionServers 为客户端的...