JustDoDT

JustDoDT-->From Zero To Hero.

浅析Shell脚本

shell 脚本概述 shell 脚本问题 shell 脚本在工作中十分常见,以下是常见的shell用法 [root@hadoop001 shell]# sh --help GNU bash, version 4.1.2(1)-release-(x86_64-redhat-linux-gnu) Usage: sh [GNU long option] [option] ... ...

CDH版本的HUE编译安装

HUE是什么? Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。 通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。 HUE的安装 HUE所需要的...

Shell脚本实现发送html格式的邮件且带附件

shell 实现发送带附件的邮件 邮箱开启授权认证 下图为QQ邮箱开启第三方接收邮件的授权认证 其他邮箱做同样的操作 启动postfix #sendmial service sendmail stop chkconfig sendmail off #postfix service postfix start chkconfig postfix on 如果postfix sta...

浅析YARN-RM的HA

介绍 本文档浅谈YARN的ResourceManager的High Availability。RM负责追踪集群的资源和调度应用作业(比如MapReduce作业)。在Hadoop2.4之前,ResourceManager是YARN集群的单点。 高可用特性就是用来解决单点问题的,通过加入一个Active/Standby的ResourceManager对来解决。 架构 RM Failove...

MapReduce分片

概述 在进行map计算之前,map会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。 问题 Hadoop 2.x默认的block大小是128MB,Hadoop 1.x默认的block大小是64MB,可以在hdfs-site.xml中...

浅析HDFS中NameNode的HA

NameNode 高可用整体架构概述 在Hadoop1.0时代,Hadoop的两大核心组件HDFS NameNode和JobTracker都存在着单点问题,这其中以NameNode的单点问题尤为严重。因为NameNode保存了整个HDFS的元数据信息,一旦NameNode挂掉,整个HDFS就无法访问,同时Hadoop生态系统中依赖于HDFS的各个组件,包括MapReduce、Hive、Pi...

Hive的分区表与元数据

分区表 /user/hive/warehouse/emp/d=20180808/..... /user/hive/warehouse/emp/d=20180809/..... select .... from table where d='20180808' 大数据的瓶颈:IO,disk,network 创建分区表 create table order_partition(...

MySQL5.6的安装

MySQL RPM: 学习 测试 快速部署 tar: 定制化 企业级 RPM安装: [root@hadoop001 ~]#yum install -y mysql-server.x86_64 [root@hadoop001 ~]#yum install -y mysql.x86_64 [root@hadoop001 ~]#service mysqld start [root@hado...

hadoop-2.6.0-cdh5.7.0-支持各种压缩的源码编译安装

准备环境 由于CDH版本的Hadoop支持的压缩格式较少,为了根据不同的场景选择不同的压缩格式,因此,需要手动编译源码进行安装。 软件版本 apache-maven-3.3.9-bin.zip findbugs-1.3.9.zip hadoop-2.6.0-cdh5.7.0-src.tar.gz protobuf-2.5.0.tar.gz jdk1.7.0_45.tar.gz ...

Hive DML语句

DML语句 load 官网介绍 官网语法 LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)] create table dept( deptno int, dname string, location stri...