JustDoDT

JustDoDT-->From Zero To Hero.

HBase Shell 从入门到精通

HBase shell 使用 1. 概述 hbase shell 在日常用得比较多,里面有不少常用的命令,进入hbase的shell客户端。注意:本文是基于Apache HBase 2.2.3。 [root@cdp01 ~]# hbase shell HBase Shell Use "help" to get list of supported commands. Use "exit"...

用华为云镜像源码编译 Spark3.0.1

1. 环境准备 git version 1.8.3.1 java version “1.8.0_221” scala version 2.12.8 apache-maven-3.6.1 1.1 安装 git [root@hadoop001 spark]# yum install -y git 1.2 下载spark源码 git clone https://gi...

Spark WordCount 产生多少个 RDD

概述 曾经在一次面试中被问到 spark wordcount 产生多少个 RDD,您知道么?下面通过源码来说明经典的 WordCount 到底产生多少个 RDD。 经典的RDD用scala代码书写如下: import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array...

浅析 Apache Zeppelin

概述 2013年,ZEPL(以前称为NFLabs,是一家韩国的数据分析公司)启动了Zeppelin项目。 2014年12月23日,Zeppelin项目成为Apache Software Foundation中的孵化项目。 2016年6月18日,Zeppelin项目从Apache的孵化项目毕业,成为Apache Software Foundation的顶级项目。 2020年1月19日,...

Jupyter Notebook 集成Apache Spark

1.简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被用于全过程计算:开发、文档编写、运行代码和展示结果。—-Jupyter Notebook官网介绍 简而言之,Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便...

github独门秘籍

概述 github 是码农的财富,让搬砖变得容易,让天下没有难做的码农。 github 常用词含义 watch 会持续收到该项目的动态 fork 复制某个项目到自己的 github 仓库中 star 可以理解为点赞 clone 将项目下载到本地 follow 关注你感兴趣的作者,会收到他们的动态 in 关键词限制搜索范围 公式 x...

浅析Kafka数据零丢失

概述 不管是工作中对于Kafka端消息的零丢失还是在面试中,这个问题都是很常见的问题。工作会用到,面试必问,所以此问题必须要掌握。那么 Kafka 到底在什么情况下才能保证消息不丢失呢?一句话概括,Kafka只对“已提交”的消息做有限度的持久化保证。 什么是已提交的消息 当Kafka的若干个 Broker 成功地接收到一条消息并写入到日志文件后,她们会告诉生产者程序这条消...

Kafka最重要的集群参数配置

概述 本博客主要从 Kafka Broker端,Topic端,JVM 端参数,操作系统级别参数说起。目前 Kafka Broker 端提供了近200个参数,这其中绝大部分参数都不用关心。 Broker 端参数 Broker 是需要配置存储信息的,即 Broker 使用哪些磁盘。那么针对存储信息的重要参数有以下几个: log.dirs 这个是非常重要的参数,指定了 Broker...

JVM 系列文章

概述 JVM不管在 Java 还是大数据里面都离不开 JVM ,同时也是面试的时候最喜欢问的问题,深入理解 JVM 有助于我们对 Java 的理解。 以下的文章都是属于转载。 CMS 系列文章 不可错过的CMS学习笔记 类的加载 JVM的类加载机制 Java ClassLoader不再那么难以理解了 GC 性能优化文集 ...

Flink架构概述

架构 要理解一个系统,一般都是从架构开始。我们关心的问题是:系统部署成功后各个节点都启动了哪些服务,各个服务之间又是怎么相互协调的。Flink 集群架构图如下。 当 Flink 集群启动后,首先会启动一个 JobManager 和一个或者多个的 TaskManager。由 Client 提交任务给 JobManager,JobManager 再调度任务到各个 TaskManager ...