博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自定义hive文件和记录格式及文本文件数据编码
阅读量:4696 次
发布时间:2019-06-09

本文共 1591 字,大约阅读时间需要 5 分钟。

(1)一段 建表语句:

[ROW FORMAT row_format] [STORED AS file_format] | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)] -- (Note: Available in Hive 0.6.0 and later) ] row_format : :DELIMITED  [FIELDS TERMINATED BY char [ESCAPED BY char]]  [COLLECTION ITEMS TERMINATED BY char]  [MAP KEYS TERMINATED BY char]  [LINES TERMINATED BY char]  [NULL DEFINED AS char] -- (Note: Available in Hive 0.13 and later)   | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)] file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat configuration) | RCFILE -- (Note: Available in Hive 0.6.0 and later) | ORC -- (Note: Available in Hive 0.11.0 and later) | PARQUET -- (Note: Available in Hive 0.13.0 and later) | AVRO -- (Note: Available in Hive 0.14.0 and later) | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

(2)根据建表语句逐层展开:hive的存储形式,引申思考下行式存储、列式存储的 在读取时的优劣

      hive表数据在存储在文件系统上的,因此需要有文件存储格式来规范化数据的存储,一边hive写数据或者读数据。hive有一些已构建好的存储格式,也支持用户自定义文件存储格式。主要由两部分内容构成file_format和row_format,两者息息相关。

(3)文件格式:TEXTFILE,SEQUENCEFILE,RCFILE  及 自定义输入格式DuallnputFormat

(4)记录格式:SerDe

(5)CSV和TSV SerDe

SerDe is a short name for "Serializer and Deserializer."Hive uses SerDe (and FileFormat) to read and write table rows.HDFS files --> InputFileFormat --> 
--> Deserializer --> Row objectRow object --> Serializer -->
--> OutputFileFormat --> HDFS files

 

load数据时 根据表的文件格式及分割方式 直接写入存储,读时校验数据

hive的读时模式 与 传统关系型数据库写入模式的差异

转载于:https://www.cnblogs.com/guapiwangxi/p/10567654.html

你可能感兴趣的文章
Java并发编程
查看>>
Git Stash用法
查看>>
sql server 2008学习8 sql server存储和索引结构
查看>>
Jquery radio选中
查看>>
postgressql数据库中limit offset使用
查看>>
测试思想-集成测试 关于接口测试 Part 2
查看>>
windows下mysql密码忘了怎么办?【转】
查看>>
php生成器使用总结
查看>>
T-SQL中的indexof函数
查看>>
javascript基础之数组(Array)对象
查看>>
mysql DML DDL DCL
查看>>
RAMPS1.4 3d打印控制板接线与测试1
查看>>
python with语句中的变量有作用域吗?
查看>>
24@Servlet_day03
查看>>
初级ant的学习
查看>>
memcached 细究(三)
查看>>
RSA System.Security.Cryptography.CryptographicException
查看>>
webservice整合spring cxf
查看>>
[解题报告] 100 - The 3n + 1 problem
查看>>
Entity Framework 学习高级篇1—改善EF代码的方法(上)
查看>>