Toggle navigation
JustDoDT
Home
About
Tags
Tags
keep hungry keep foolish
Linux
Python
Hadoop
Spark
MySQL
Java
Hive
Shell
HUE
HBase
Scala
Azkaban
Flume
Maxwell
Kafka
数据密集型应用系统设计
InfluxDB
Grafana
ES
Flink
JVM
Git
Zeppelin
Linux
Linux系统中的Page Cache和Buffer Cache
ssh信任关系建立后任需要输入密码
Linux有这个用户,但是不能切换
配置多台机器SSH相互通信信任
Linux中一些常见命令(下)
Linux中一些常见的命令(中)
Linux中常见的命令(上)
Linux 系统概述
Python
Python中的正则表达式
Python中的装饰器和描述符
Python中的异常
Python中的类
Python中的文件操作
Python中的控制流程
Python中的函数
Python中的数值类型
Python中的迭代器,生成器,模块和包
Hadoop
hadoop lzo 压缩及测试
HDFS元数据管理机制
Yarn概述及其原理
Hadoop 压缩介绍
HDFS副本存放策略
浅析YARN-RM的HA
MapReduce分片
浅析HDFS中NameNode的HA
hadoop-2.6.0-cdh5.7.0-支持各种压缩的源码编译安装
YARN的Memory和CPU调优配置详解
MapReduce优化----Shuffle过程剖析及性能优化
HDFS出现Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
HDFS 架构与工作原理
JPS命令和Linux中的/tmp文件夹所遇的问题
Spark
用华为云镜像源码编译 Spark3.0.1
Spark WordCount 产生多少个 RDD
Jupyter Notebook 集成Apache Spark
Spark Streaming的Kafka读取数据的方式
SparkSQL中的Join
SparkSQL – 从0到1认识Catalyst
RDDs VS DataFrames VS Datasets
SparkSQL--从DataFrame说起
浅析Spark内存管理
深入理解 Spark Shuffle
Spark shuffle 版本迭代历程
Spark问题总结
浅析Spark Streaming反压机制
Windows下的IDEA开发Spark SQL操作Hive
浅析Spark SQL
Spark on Yarn作业提交不上
RDD中的map,mapPartitions,mapPartitionsWithIndex,foreach, foreachPartition区别
RDD中的join,cogroup,groupBy的区别
Spark中的序列化
Spark累加器,广播变量和闭包
Spark官方提供的监控
Spark2.4.2源码编译
Spark 算子所遇到的坑
为啥Spark SQL默认选择Parquet存储格式
reduceByKey,groupByKey,count,collect算子
Spark RDD中的cache,persist,checkpint
浅谈Spark RDD
Spark运行架构简介
Spark on Yarn
Spark RDD 的分区数量确定
Spark on Yarn支持bz2压缩
Spark RDD,MySQL,HDFS,Oracle的checkpoint之间的对比
MySQL
mysql中的sql_mode
MySQL5.6的安装
SQL语句(上)
MySQL中的SQL语法
SQL语句(下)
Java
JDK解压注意事项
Hive
HiveSQL优化
HBase和Hive的区别以及各自适用的场景
hive中的存储格式
Hive中的HDFS中的数据和元数据不同步的处理办法
Hive的分区表与元数据
Hive DML语句
Hive内部表和外部表
Shell
浅析Shell脚本
Shell脚本实现发送html格式的邮件且带附件
HUE
CDH版本的HUE编译安装
HBase
HBase Shell 从入门到精通
HBase优化
浅析HBase架构
浅析HBase数据模型
浅析HBase RowKey设计原则
列存储与行存储的区别
Scala
浅谈Scala
Azkaban
Azkaban3.57.0源码编译及简单的使用
Flume
Flume中的Sink到HDFS和Kafka的操作
Maxwell
Maxwell读取MySQL binlog日志到Kafka
Maxwell读取MySQL binlog日志通过stdout展示
Kafka
浅析Kafka数据零丢失
Kafka最重要的集群参数配置
Kafka数据可靠性深度解析
浅析Kafka的failover
浅析Kafka的复制机制
基于磁盘的Kafka为什么这么快
kafka+Spark Streaming管理offset的方法
SparkStreaming数据零丢失使用mysql存储kafka的offset
数据密集型应用系统设计
浅析LSM树
浅析MySQL的InnoDB存储引擎和MyISAM存储引擎
浅谈二分查找,二叉树,平衡二叉树,B树,B+树
数据模型与查询语言
InfluxDB
InfluxDB的安装及语法
Grafana
Grafana的安装及简单使用
ES
在CentOS 6.x 中安装 ES 6.x
MongoDB和Elasticsearch的对比
Flink
Flink架构概述
如何选择 State Backend
浅析Flink中的Watermark
Flink的内存管理
Flink数据转换的基本算子
Flink快速入门
Flink VS Spark
JVM
JVM 系列文章
Git
github独门秘籍
Zeppelin
浅析 Apache Zeppelin