JustDoDT

JustDoDT-->From Zero To Hero.

浅谈Scala

1. Scala简介 官网:https://www.scala-lang.org/ Scala语言很强大,集成了面向对象和函数式编程的特点。Scala是多范式的编程语言(支持多种方式的编程) 使用面向对象编程 使用函数式编程:最大的特点 函数式编程的优点:使得代码非常简介 函数式编程的缺点:可读性太差,尤其是隐式类,隐式函数,隐式参数 ...

HDFS元数据管理机制

1. 元数据管理概述 HDFS元数据,按类型分,主要包括以下几个部分: (1) 文件、目录自身的属性信息,例如文件名、目录名、修改信息等。 (2) 文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等。 (3) 记录 HDFS 的 DataNode 的信息,用于DataNode 的管理。 按形式分为内存元数据和元数据文件两种,分别存在内存和磁盘上。 HDFS 磁盘...

列存储与行存储的区别

前言 在日常工作中接触了一些关于列式存储的大数据组件,比如HBase,hive中的orc,parquet格式都是基于列存储的。列存储和行存储的结构图比较。 在OLTP中的大多数是使用的行式存储的,对于事物、行锁等最友好。但是在OLAP中,特别是读密集型(Read-intensive)场景在存储上都偏向于列存储。 列存储有以下几大优点。 块遍历(Block Iteratio...

Spark on Yarn支持bz2压缩

1. 修改配置文件 1.1 在hdfs-core.xml文件添加如下内容 <property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io....

Yarn概述及其原理

1. Yarn 简介 Yarn 是 hadoop 集群的资源管理层。它允许不同的数据处理引擎(如图形处理、交互式 SQL、流处理、批处理)运行在 hadoop 集群中并处理 HDFS 中的数据(移动计算而非数据)。除了资源管理外,Yarn 还用于作业调用。 从资源管理方面看,Yarn 管理着由各个 NodeManager 节点的 vcore(CPU内核)和 RAM(运行时内存)共同组...

hive中的存储格式

存储格式基本概念 Hive官网关于存储格式的介绍 官网介绍: Hive supports several file formats: * Text File * SequenceFile * RCFile * Avro Files * ORC Files * Parquet * Custom INPUTFO...

Hive中的HDFS中的数据和元数据不同步的处理办法

问题描述 今天下午在hive中创建普通表的时候,死活创建不成功,但是可以创建数据库,后来发现也可以创建外部表。报错信息如下: hive (testdb)> CREATE TABLE compress_test( > cdn string, > region string...

mysql中的sql_mode

概述 在 mysql 5.7 后,sql_mode是严格模式,严格遵守sql的语法标准。 MySQL5.7中的默认SQL模式 ONLY_FULL_GROUP_BY, STRICT_TRANS_TABLES, NO_ZERO_IN_DATE, NO_ZERO_DATE, ERROR_FOR_DIVISION_BY_ZERO, NO_AUTO_CREATE_USER, NO_ENGINE...

Hadoop 压缩介绍

压缩简介 在大数据领域,压缩是无法避免的话题,比如,在电商系统中,用户的行为数据越来越大,当达到一定的量时,将会面临着,怎么快速地处理这些数据。 在Hadoop 生态系统中,对数据进行压缩处理使得提高我们的数据处理效率,如何选择压缩和使用压缩? 压缩 压缩是把数据“减少”的过程。 解压缩 将压缩过后的数据转换成原始数据的过程。 为什么使用压缩 减少文件大小 节省磁盘空...

HDFS副本存放策略

概述 何为副本存放策略 首先这里要花一些篇幅来介绍什么是副本放置策略, 有人也会叫他为副本选择策略,这源于此策略的名称, BlockPlacementPolicy.所以这个策略类重在block placement.先来看下这个策略类的功能说明: Apache官网描述 Apache官网对HDFS副本放置策略的描述 For the common case, when the repli...