大数据hive学习路径,Linux基础入门

作者:澳门金莎娱乐网站

本文主要介绍简单的文本处理,本课程配套在线实验环境。

本文主要介绍简单的文本处理,本课程配套在线实验环境。

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

你可能对重定向这个概念感到些许陌生,但你应该在前面的课程中多次见过>>>操作了,并知道他们分别是将标准输出导向一个文件或追加到一个文件中。这其实就是重定向,将原本输出到标准输出的数据重定向到一个文件中,因为标准输出(/dev/stdout)本身也是一个文件,我们将命令输出导向另一个文件自然也是没有任何问题的。

这一节我们将介绍这几个命令tr,col,join,paste。实际这一节是上一节关于能实现管道操作的命令的延续,所以我们依然将结合管道来熟悉这些命令的使用。

来自@pigpdong的Hadoop/HIVE学习路径图片供大家参考,实验楼近期也推出了,希望大家能够帮助大家高效快速的学习并掌握HIVE知识。

下面我们简单的回顾一下我们前面经常用到的两个重定向操作:

1.tr命令

tr命令可以用来删除一段文本信息中的某些文字。或者将其进行转换

tr [option]...SET1 [SET2]
选项 说明
-d 删除和set1匹配的字符,注意不是全词匹配也不是按字符顺序匹配
-s 去除set1指定的在输入文本中连续并重复的字符
# 删除 "hello shiyanlou" 中所有的'o','l','h'$ echo 'hello shiyanlou' | tr -d 'olh'# 将"hello" 中的ll,去重为一个l$ echo 'hello' | tr -s 'l'# 将输入文本,全部转换为大写或小写输出$ cat /etc/passwd | tr '[:lower:]' '[:upper:]'# 上面的'[:lower:]' '[:upper:]'你也可以简单的写作'[a-z]' '[A-Z]',当然反过来将大写变小写也是可以的

图片 1

更多tr的使用,你可以使用--help或者man tr获得

还记得我们在讲打包压缩那一节提到windows/dos与linux/unix文本文件一些特殊字符不一致的问题,如断行符windows为CR+LF(rn),unix/linux为LF(n),你使用cat -A 文本 你可以看到文本中包含的不可见特殊字符。linux的n表现出来就是一个$,而windows/dos的表现为^M$,你可以直接使用dos2unixunix2dos工具在两种格式之间进行转换,使用file命令可以查看文件的具体类型。不过现在希望你在不使用上述两个转换工具的情况下,使用前面学过的命令手动完成dos文本格式到unix文本格式的转换。

图片 2HIVE学习路径.png

$ echo 'hello shiyanlou' > redirect $ echo 'www.shiyanlou.com' >> redirect$ cat redirect

2.col命令

col命令可以将Tab换成对等数量的空格建,或反转这个操作。这用来格式化代码很爽啊

col [option]
选项 说明
-x Tab转换为空格
-h 将空格转换为Tab
# 查看/etc/protocols中的不可见字符,可以看到很多^I,这其实就是Tab键转义成可见字符的符号$ cat -A /etc/protocols# 使用col -x将/etc/protocols中的Tab转换为空格,然后再使用cat查看,你发现^I不见了$ cat /etc/protocols | col -x | cat -A

图片 3

大数据技术如此火热,为满足用户们对大数据技术的学习需求,实验楼近期上线了一批大数据课程。欢迎大家前去学习体验,并对课程提出自己的建议。实验楼hadoop课程列表:《Hadoop权威指南》配套实验【Hadoop部署及管理】【Mapreduce编程系列】

当然前面没有用到的<<<操作也是没有问题的,如你理解的一样,它们的区别在于重定向的方向不一致而已,>表示是从左到右,<右到左

3.join命令

学过数据库的用户对这个应该不会陌生,这个命令就是用于将两个文件中包含相同内容的那一行合并在一起,"Talk is cheep, show me the code",那就看下面吧

join [option]... file1 file2
选项 说明
-t 指定分隔符,默认为空格
-i 忽略大小写的差异
-1 指明第一个文件要用哪个字段来对比,,默认对比第一个字段
-2 指明第二个文件要用哪个字段来对比,,默认对比第一个字段
# 创建两个文件$ echo '1 hello' > file1$ echo '1 shiyanlou' > file2$ join file1 file2# 将/etc/passwd与/etc/shadow两个文件合并,指定以':'作为分隔符$ sudo join -t':' /etc/passwd /etc/shadow# 将/etc/passwd与/etc/group两个文件合并,指定以':'作为分隔符, 分别比对第4和第3个字段$ sudo join -t':' -1 4 /etc/passwd -2 3 /etc/group

图片 4

本文由澳门金莎娱乐网站发布,转载请注明来源

关键词: