JustDoDT

JustDoDT-->From Zero To Hero.

浅析Shell脚本

shell 脚本概述 shell 脚本问题 shell 脚本在工作中十分常见，以下是常见的shell用法 [root@hadoop001 shell]# sh --help GNU bash, version 4.1.2(1)-release-(x86_64-redhat-linux-gnu) Usage: sh [GNU long option] [option] ... ...

Posted by JustDoDT on April 13, 2018

CDH版本的HUE编译安装

HUE是什么？ Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job等等。 HUE的安装 HUE所需要的...

Posted by JustDoDT on April 13, 2018

Shell脚本实现发送html格式的邮件且带附件

shell 实现发送带附件的邮件邮箱开启授权认证下图为QQ邮箱开启第三方接收邮件的授权认证其他邮箱做同样的操作启动postfix #sendmial service sendmail stop chkconfig sendmail off #postfix service postfix start chkconfig postfix on 如果postfix sta...

Posted by JustDoDT on April 12, 2018

浅析YARN-RM的HA

介绍本文档浅谈YARN的ResourceManager的High Availability。RM负责追踪集群的资源和调度应用作业(比如MapReduce作业)。在Hadoop2.4之前，ResourceManager是YARN集群的单点。高可用特性就是用来解决单点问题的，通过加入一个Active/Standby的ResourceManager对来解决。架构 RM Failove...

Posted by JustDoDT on April 10, 2018

MapReduce分片

概述在进行map计算之前，map会根据输入文件计算输入分片（input split）,每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。问题 Hadoop 2.x默认的block大小是128MB，Hadoop 1.x默认的block大小是64MB，可以在hdfs-site.xml中...

Posted by JustDoDT on April 9, 2018

浅析HDFS中NameNode的HA

NameNode 高可用整体架构概述在Hadoop1.0时代，Hadoop的两大核心组件HDFS NameNode和JobTracker都存在着单点问题，这其中以NameNode的单点问题尤为严重。因为NameNode保存了整个HDFS的元数据信息，一旦NameNode挂掉，整个HDFS就无法访问，同时Hadoop生态系统中依赖于HDFS的各个组件，包括MapReduce、Hive、Pi...

Posted by JustDoDT on April 8, 2018

Hive的分区表与元数据

分区表 /user/hive/warehouse/emp/d=20180808/..... /user/hive/warehouse/emp/d=20180809/..... select .... from table where d='20180808' 大数据的瓶颈：IO,disk,network 创建分区表 create table order_partition(...

Posted by JustDoDT on April 7, 2018

MySQL5.6的安装

MySQL RPM: 学习测试快速部署 tar: 定制化企业级 RPM安装: [root@hadoop001 ~]#yum install -y mysql-server.x86_64 [root@hadoop001 ~]#yum install -y mysql.x86_64 [root@hadoop001 ~]#service mysqld start [root@hado...

Posted by JustDoDT on April 5, 2018

hadoop-2.6.0-cdh5.7.0-支持各种压缩的源码编译安装

准备环境由于CDH版本的Hadoop支持的压缩格式较少，为了根据不同的场景选择不同的压缩格式，因此，需要手动编译源码进行安装。软件版本 apache-maven-3.3.9-bin.zip findbugs-1.3.9.zip hadoop-2.6.0-cdh5.7.0-src.tar.gz protobuf-2.5.0.tar.gz jdk1.7.0_45.tar.gz ...

Posted by JustDoDT on April 5, 2018

Hive DML语句

DML语句 load 官网介绍官网语法 LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)] create table dept( deptno int, dname string, location stri...

Posted by JustDoDT on March 28, 2018