Hive分隔符

你的名字 2023-07-22 07:00 20阅读 0赞

Table of Contents

特殊字符

通过digraph输入

测试数据

查看隐藏字符的方法

cat

vim


特殊字符

以下这些字符是可以在Hive中应用,并且DATAX也支持的:






























































































































char digraph hex dec official name Unicode
^@ NU 0x00 0 NULL (NUL)N \u0000
^A SH 0x01 1 START OF HEADING (SOH) \u0001
^B SX 0x02 2 START OF TEXT (STX) \u0002
^C EX 0x03 3 END OF TEXT (ETX) \u0003
^D ET 0x04 4 END OF TRANSMISSION (EOT) \u0004
^E EQ 0x05 5 ENQUIRY (ENQ) \u0005
^F AK 0x06 6 ACKNOWLEDGE (ACK) \u0006
^G BL 0x07 7 BELL (BEL) \u0007
^H BS 0x08 8 BACKSPACE (BS) \u0008
^I HT 0x09 9 CHARACTER TABULATION (HT) \u0009
^@ LF 0x0a 10 LINE FEED (LF) \u0010
^K VT 0x0b 11 LINE TABULATION (VT) \u0011
^L FF 0x0c 12 FORM FEED (FF) \u0012
^M CR 0x0d 13 CARRIAGE RETURN (CR) \u0013

注意:特殊符号中的^ 和键盘上的^ 字符是不一样的。另外特殊符号中的^和后面跟的字符是一体的,也就是说,两个字符是一个符号。

通过digraph输入

Vim中显然没有什么特殊字符选择工具,但提供了两种输入特殊字符的方式:

  • 1、通过两个字符来输入一个特殊字符(digraph)。
  • 2、直接通过编码值(ASCII或Unicode)输入。

其中digraph是一种类似双拼的方法,连续输入两个字符来表示一个特殊字符。需要先按下前导键,例如在编辑模式下输入:

  1. <Ctrl-K>Rg

如上的输入,将会出现®字符,其中”Rg”是该字符的digraph(双拼)。

特殊字符表中的digraph列就是这些字符的双拼输入字符,输入时注意大小写,双拼输入是区分大小写的。

在Windows中是无法输入特殊字符的,可以使用Unicode码进行输入。

例如:要使用^A作为分割字符可以这样写:

  1. create external table city
  2. (city_id string,city_name string )
  3. row format
  4. delimited fields
  5. terminated by '\u0001'
  6. location 'hdfs://hadoop01:8090/test/city';

测试数据

建表语句:

  1. create external table city
  2. (city_id string,
  3. city_name string,
  4. pinyin string,
  5. pingying2 string,
  6. code string,
  7. db_name string,
  8. city_status string,
  9. default_areas string,
  10. yum_city_name string)
  11. row format
  12. delimited fields
  13. terminated by '\u0000'
  14. location 'hdfs://hadoop01:8090/test/city';

如上的代码使用的^@字符作为分隔符的。

以下是数据格式样例:

format_png

将此文件直接传到Linux服务器中,使用vim打开,可以发现,字段之间的分隔符如下:

format_png 1

Hive查询出来的数据样例:

format_png 2

这里需要说一下,在特殊字符表中有两个^@ 符号,经过测试,这两个符号在作为分隔符的时候是一样的,可以认为是一样的。只是输入的时候不一样。

查看隐藏字符的方法

在Linux系统中,文本文件中是存在隐藏字符的,需要使用以下命令才能查看到:

cat

命令如下:

  1. cat -A fileName

vim

使用vim进入编辑文件的命令模式,使用以下命令:

  1. set list #显示隐藏字符
  2. set nolist #取消显示隐藏字符

发表评论

表情:
评论列表 (有 0 条评论,20人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Hive分隔符

      下面我们一起来研究文件格式。用户应该很熟悉以逗号或者制表符分隔的文本文件,也就是所谓的逗号分隔值(CSV)或者制表符分隔值(TSV)。只要用户需要,Hive是支持这些文件格

    相关 Hive应用:选取分隔符

    在使用hive的时候,分隔符是必不可少的,当学习的时候使用的都是常规分隔符,比如:逗号“,”、竖线“|”等,这些键盘上都可以直接输入的字符,但是这些字符只要是键盘上的,在针对