博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hive 的 SerDe 是什么?
阅读量:4073 次
发布时间:2019-05-25

本文共 1191 字,大约阅读时间需要 3 分钟。

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见

正文

hive 的 SerDe 是什么

SerDe 是 Serializer/Deserializer 的简写。

hive使用 SerDe 进行行对象的序列与反序列化。最后实现把文件内容映射到 hive 表中的字段数据类型。

为了更好的阐述使用 SerDe 的场景,我们需要了解一下 Hive 是如何读数据的(类似于 HDFS 中数据的读写操作):

HDFS files –> InputFileFormat –> 
–> Deserializer –> Row objectRow object –> Serializer –>
–> OutputFileFormat –> HDFS files

hive 的 SerDe 类型

  • Hive 中内置 org.apache.hadoop.hive.SerDe2 库,内部封装了很多不同的 SerDe 类型。
  • hive 创建表时, 通过自定义的 SerDe 或使用 Hive 内置的 SerDe 类型指定数据的序列化和反序列化方式。
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path]
  • 如上创建表语句, 使用 row format 参数说明SerDe的类型。

  • 可以创建表时使用用户自定义的 SerDe 或者 native SerDe, 如果 ROW FORMAT 没有指定或者指定了 ROW FORMAT DELIMITED 就会使用 native SerDe。

:

  • Avro (Hive 0.9.1 and later)
  • ORC (Hive 0.11 and later)
  • RegEx
  • Thrift
  • Parquet (Hive 0.13 and later)
  • CSV (Hive 0.14 and later)
  • MultiDelimitSerDe

转载地址:http://hzgji.baihongyu.com/

你可能感兴趣的文章
VirtualBox安装Centos6.4不能为虚拟电脑打开一个新的任务
查看>>
Virtual 下安装CentOs6.4
查看>>
CentOS下配置软RAID
查看>>
GET http://test01.com/jquery-1.9.1.min.js [HTTP/1.1 404 Not Found 3ms]
查看>>
echo(),print(),print_r()之间的区别?
查看>>
jQuery中$('#selector).html('')是清空??----html()、text()、val()的区别
查看>>
欢迎使用CSDN-markdown编辑器
查看>>
Python使用web.py读取Mysql的数据
查看>>
web.py操作mysql的数据
查看>>
python类的详析
查看>>
web.py的两种更新Mysql数据的方法
查看>>
前端网址总结
查看>>
前端知识总结一
查看>>
Python 字符串的操作
查看>>
python安装依赖modules pysnmp pyasn1.type pexpect configparser
查看>>
Python操作Mongodb插入数据的两种方法:insert_one()与insert_many()
查看>>
Python函数式编程——匿名函数lambda
查看>>
Python的getattr(),setattr(),delattr(),hasattr()
查看>>
js中的constructor与prototype
查看>>
Ajax中的get和post请求比较
查看>>