JustDoDT

JustDoDT-->From Zero To Hero.

Hive内部表和外部表

创建数据库 CREATE DATABASE hive; desc database 在MySQL中查看元数据信息 mysql> select * from dbs\G; ********* 1. row ********* DB_ID: 1 DESC: Default Hive database DB_LOCATION_URI: hdf...

YARN的Memory和CPU调优配置详解

Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。 YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。 在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经...

MapReduce优化----Shuffle过程剖析及性能优化

1. Map端 首先看 shufle 的过程的图形 当Map 开始产生输出时,它并不是简单的把数据写到磁盘,因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂,数据首先是写到内存中的一个缓冲区,并做了一些预排序,以提升效率。 每个Map 任务都有一个用来写入输出数据的循环内存缓冲区。这个缓冲区默认大小是100MB,可以通过io.sort.mb 属性来设置具体大小。当缓...

SQL语句(上)

MySQL 建表语句 1.字段类型 数值类型 int 整数 long 长整型 float 单精度 double 双精度 decimal 小数值 金额字段 字符串类型 char 定长字符串 0-255字节 abc ==》abc255 字节 会自动补齐 varchar 变长字符串 0-65535字节 abc ==》abc 日期和时间类型 date...

HDFS出现Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

错误信息如下: [hadoop@hadoop001 hadoop]$ hdfs dfs -lsr /d6_hive lsr: DEPRECATED: Please use 'ls -R' instead. 18/03/19 07:46:21 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your ...

Linux有这个用户,但是不能切换

切换用户报错 [root@hadoop001 java]# [root@hadoop001 java]# su - uucp su: warning: cannot change directory to /var/spool/uucp: No such file or directory This account is currently not available. 查看是否存在...

JDK解压注意事项

JDK 解压的时候需要注意 [root@hadoop001 java]# tar -zxvf jdk-8u144-linux-x64.tar.gz [root@hadoop001 java]# [root@hadoop001 java]# ll total 181172 drwxr-xr-x. 8 uucp 143 4096 Jul 22 2017 jdk1.8.0_144...

MySQL中的SQL语法

MySQL中的SQL语法 用户管理: 新建用户: CREATE USER name IDENTIFIED BY 'ssapdrow'; 更改密码: SET PASSWORD FOR name=PASSWORD('fdddfd');   权限管理: SHOW GRANTS FOR name; //查看name用户权限 GRANT SELECT ON db_name.*...

SQL语句(下)

SQL语句(下) SELECT * FROM ruozedata.rzdata --部门表 dept 部门表(deptno部门编号/dname部门名称/loc地点) create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13) ); insert into dept values(10,'ACCOUN...

Spark RDD,MySQL,HDFS,Oracle的checkpoint之间的对比

Spark RDD 的checkpoint 检查点(本质是通过将RDD写入Disk做检查点)是为了通过lineage(血统)做容错的辅助,lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失数据,从做检查点的RDD开始重做LIneage,就会减少开销。 设置checkpoint的目录,可以是本地文件夹、也可以是HDFS。一般是在具有容错能力,...