JustDoDT

JustDoDT-->From Zero To Hero.

Hive内部表和外部表

创建数据库 CREATE DATABASE hive; desc database 在MySQL中查看元数据信息 mysql> select * from dbs\G; ********* 1. row ********* DB_ID: 1 DESC: Default Hive database DB_LOCATION_URI: hdf...

Posted by JustDoDT on March 25, 2018

YARN的Memory和CPU调优配置详解

Hadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。 YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位，具有一定的内存以及CPU资源。在YARN集群中，平衡内存、CPU、磁盘的资源的很重要的，根据经...

Posted by JustDoDT on March 24, 2018

MapReduce优化----Shuffle过程剖析及性能优化

1. Map端首先看 shufle 的过程的图形当Map 开始产生输出时，它并不是简单的把数据写到磁盘，因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂，数据首先是写到内存中的一个缓冲区，并做了一些预排序，以提升效率。每个Map 任务都有一个用来写入输出数据的循环内存缓冲区。这个缓冲区默认大小是100MB，可以通过io.sort.mb 属性来设置具体大小。当缓...

Posted by JustDoDT on March 23, 2018

SQL语句(上)

MySQL 建表语句 1.字段类型数值类型 int 整数 long 长整型 float 单精度 double 双精度 decimal 小数值金额字段字符串类型 char 定长字符串 0-255字节 abc ==》abc255 字节会自动补齐 varchar 变长字符串 0-65535字节 abc ==》abc 日期和时间类型 date...

Posted by JustDoDT on March 21, 2018

HDFS出现Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

错误信息如下： [hadoop@hadoop001 hadoop]$ hdfs dfs -lsr /d6_hive lsr: DEPRECATED: Please use 'ls -R' instead. 18/03/19 07:46:21 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your ...

Posted by JustDoDT on March 19, 2018

Linux有这个用户，但是不能切换

切换用户报错 [root@hadoop001 java]# [root@hadoop001 java]# su - uucp su: warning: cannot change directory to /var/spool/uucp: No such file or directory This account is currently not available. 查看是否存在...

Posted by JustDoDT on March 19, 2018

JDK解压注意事项

JDK 解压的时候需要注意 [root@hadoop001 java]# tar -zxvf jdk-8u144-linux-x64.tar.gz [root@hadoop001 java]# [root@hadoop001 java]# ll total 181172 drwxr-xr-x. 8 uucp 143 4096 Jul 22 2017 jdk1.8.0_144...

Posted by JustDoDT on March 18, 2018

MySQL中的SQL语法

MySQL中的SQL语法用户管理：新建用户： CREATE USER name IDENTIFIED BY 'ssapdrow'; 更改密码： SET PASSWORD FOR name=PASSWORD('fdddfd');　　权限管理: SHOW GRANTS FOR name; //查看name用户权限 GRANT SELECT ON db_name.*...

Posted by JustDoDT on March 16, 2018

SQL语句(下)

SQL语句(下) SELECT * FROM ruozedata.rzdata --部门表 dept 部门表(deptno部门编号/dname部门名称/loc地点) create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13) ); insert into dept values(10,'ACCOUN...

Posted by JustDoDT on March 15, 2018

Spark RDD,MySQL,HDFS,Oracle的checkpoint之间的对比

Spark RDD 的checkpoint 检查点（本质是通过将RDD写入Disk做检查点）是为了通过lineage（血统）做容错的辅助，lineage过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果之后有节点出现问题而丢失数据，从做检查点的RDD开始重做LIneage，就会减少开销。设置checkpoint的目录，可以是本地文件夹、也可以是HDFS。一般是在具有容错能力，...

Posted by JustDoDT on March 11, 2018