JustDoDT

Home
About
Tags

Tags

keep hungry keep foolish

Linux Python Hadoop Spark MySQL Java Hive Shell HUE HBase Scala Azkaban Flume Maxwell Kafka 数据密集型应用系统设计 InfluxDB Grafana ES Flink JVM Git Zeppelin

Linux

Linux系统中的Page Cache和Buffer Cache

ssh信任关系建立后任需要输入密码

Linux有这个用户，但是不能切换

配置多台机器SSH相互通信信任

Linux中一些常见命令(下)

Linux中一些常见的命令(中)

Linux中常见的命令(上)

Linux 系统概述

Python

Python中的正则表达式

Python中的装饰器和描述符

Python中的异常

Python中的类

Python中的文件操作

Python中的控制流程

Python中的函数

Python中的数值类型

Python中的迭代器,生成器,模块和包

Hadoop

hadoop lzo 压缩及测试

HDFS元数据管理机制

Yarn概述及其原理

Hadoop 压缩介绍

HDFS副本存放策略

浅析YARN-RM的HA

MapReduce分片

浅析HDFS中NameNode的HA

hadoop-2.6.0-cdh5.7.0-支持各种压缩的源码编译安装

YARN的Memory和CPU调优配置详解

MapReduce优化----Shuffle过程剖析及性能优化

HDFS出现Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

HDFS 架构与工作原理

JPS命令和Linux中的/tmp文件夹所遇的问题

Spark

用华为云镜像源码编译 Spark3.0.1

Spark WordCount 产生多少个 RDD

Jupyter Notebook 集成Apache Spark

Spark Streaming的Kafka读取数据的方式

SparkSQL中的Join

SparkSQL – 从0到1认识Catalyst

RDDs VS DataFrames VS Datasets

SparkSQL--从DataFrame说起

浅析Spark内存管理

深入理解 Spark Shuffle

Spark shuffle 版本迭代历程

Spark问题总结

浅析Spark Streaming反压机制

Windows下的IDEA开发Spark SQL操作Hive

浅析Spark SQL

Spark on Yarn作业提交不上

RDD中的map,mapPartitions,mapPartitionsWithIndex,foreach, foreachPartition区别

RDD中的join,cogroup,groupBy的区别

Spark中的序列化

Spark累加器,广播变量和闭包

Spark官方提供的监控

Spark2.4.2源码编译

Spark 算子所遇到的坑

为啥Spark SQL默认选择Parquet存储格式

reduceByKey,groupByKey,count,collect算子

Spark RDD中的cache,persist,checkpint

浅谈Spark RDD

Spark运行架构简介

Spark on Yarn

Spark RDD 的分区数量确定

Spark on Yarn支持bz2压缩

Spark RDD,MySQL,HDFS,Oracle的checkpoint之间的对比

MySQL

mysql中的sql_mode

MySQL5.6的安装

SQL语句(上)

MySQL中的SQL语法

SQL语句(下)

Java

JDK解压注意事项

Hive

HiveSQL优化

HBase和Hive的区别以及各自适用的场景

hive中的存储格式

Hive中的HDFS中的数据和元数据不同步的处理办法

Hive的分区表与元数据

Hive DML语句

Hive内部表和外部表

Shell

浅析Shell脚本

Shell脚本实现发送html格式的邮件且带附件

HUE

CDH版本的HUE编译安装

HBase

HBase Shell 从入门到精通

HBase优化

浅析HBase架构

浅析HBase数据模型

浅析HBase RowKey设计原则

列存储与行存储的区别

Scala

浅谈Scala

Azkaban

Azkaban3.57.0源码编译及简单的使用

Flume

Flume中的Sink到HDFS和Kafka的操作

Maxwell

Maxwell读取MySQL binlog日志到Kafka

Maxwell读取MySQL binlog日志通过stdout展示

Kafka

浅析Kafka数据零丢失

Kafka最重要的集群参数配置

Kafka数据可靠性深度解析

浅析Kafka的failover

浅析Kafka的复制机制

基于磁盘的Kafka为什么这么快

kafka+Spark Streaming管理offset的方法

SparkStreaming数据零丢失使用mysql存储kafka的offset

数据密集型应用系统设计

浅析LSM树

浅析MySQL的InnoDB存储引擎和MyISAM存储引擎

浅谈二分查找，二叉树，平衡二叉树，B树，B+树

数据模型与查询语言

InfluxDB

InfluxDB的安装及语法

Grafana

Grafana的安装及简单使用

ES

在CentOS 6.x 中安装 ES 6.x

MongoDB和Elasticsearch的对比

Flink

Flink架构概述

如何选择 State Backend

浅析Flink中的Watermark

Flink的内存管理

Flink数据转换的基本算子

Flink快速入门

Flink VS Spark

JVM

JVM 系列文章

Git

github独门秘籍

Zeppelin

浅析 Apache Zeppelin

Copyright © JustDoDT 2021
Theme on GitHub |