肥猫SEO论坛

找回密码
立即注册
发新帖
高端网站建设 可签合同 可上门沟通站群程序定制/蜘蛛池租用全行业SEO接单QQ1624516415全行业SEO接单QQ1624516415
2000+站点 外链一键通发原创SEO文章代写【点击】点击加入本站VIP 发帖免审核广告位招租

23万

积分

0

好友

7万

主题
发表于 2021-9-26 10:50 | 查看: 203| 回复: 0
口语数据产物(二)——SQL入门
SQL算是大数据中最经常使用的说话,对付数据产物来讲具有根本的SQL技术是必不成少的。上一篇先容了数据一般怎么抽取,然后怎样存储在数据堆栈中,这一篇先容怎样把存储好的数据提掏出来。


作为数据产物,一项根本事情便是为需求方取数据,一般来讲简略的取数数据产物是要分身的,繁杂的取数才会进级到研发来取,究竟结果研发们都很忙嘛,小事咱们本身也能够搞定的。
1、SQL思绪3分钟入门
SQL可以实现的功效不少,建表、删表、插入数据、盘问数据…这里重要先容盘问数据的SQL一般写法,SQL说话的重要逻辑也是在盘问语句这一块。

传统MySQL类数据库或大数据中,用到的Hive数据库是按行索引的,可以理解为一条一条的记实,并且大数据用到的HSQL实在跟传统SQL语句根基是一致的。

咱们常见的对数据的处置主如果这么几种:按照前提挑选数据,将记实字段横向归并,将记实纵向归并,而这对应的就是SQL语句中的盘问/子盘问、各类JOIN、UNION ALL。那种看似很长很繁杂的SQL代码,实在也就是这三种操作的连系体。

以下图所示:可以理解为数据库盘问就是将多份数据查出来,相互联系关系归并,天生一张新的表单,然后可以在新的表单的根本长进行盘问或再跟其他数据联系关系归并。


子盘微密圈问:经由过程前提从一张或多张表当选掏出数据,你可以理解多张表的盘问,实在就是像图中所示加了一些join和union all的毗连操作。若是只是从一张表中盘问,那末就只用关切这张表的记实布局,是不是有反复记实等。JOIN:至关因而对两份数据举行取并集、交集或其他调集方法的操作,是对两张表的字段举行了横向拼接,必要指定拼接的毗连瓜葛是用的哪一个字段。好比:统一个用户,在一张内外记实了他的春秋,在另外一张内外记实了他的性别,那末经由过程join操作便可以把这两个字段放到统一张新的表中,然后可以在这张新的表的根本上再举行其他操作。UNION ALL:至关因而把记实纵向花季交友叠加,好比:由于数据量比力大,营业库举行了拆表操作,将1-6月份数据放在表A,将7-12月份数据放在表B。由于是一样的记实,字段都是一致的,经由过程union all便可以做成一张新的表,同时包括A和B的数据在内里。
这里我都没有使器具体的SQL举例,由于开展来将可能会有很大的篇幅。想要进一步深刻的同窗,可以去检察相干的SQL教程,依照上面先容的思绪去进修,就不会感触苍茫了。
2. HSQL vs SQL
数据事情中,既要用SQL语句去营业库里盘问比拟数据,又要会利用HSQL在本身的平台(通常为Hue中的Hive)中盘问。两种说话除个体函数欠亨用,根基是一致的。

这里举一些例子阐明:
Hive中不支撑not in操作,一般利用not exists取代,或left outer join。Hive的切片机制(上一篇有诠释)致使取数必要加之前提利用的是哪天的数据。Hive的分层机制(一样上一篇有诠释)致使在分歧层级举行取数,公主交友逻辑是大不不异的。ODS层统一条id记实可能有大量分歧时候更新的“反复数据”,要注重举行按必定次序的去重处置。Hive中某些层级的数据中对时候的存储可能为unix timestamp格局,表示为一长串数字而不是常见的时候格局,必要在利用中举行转化。Hive中可使阳光软件园用多种数据计较框架,好比:MapReduce、Spark等,在分歧环境下选用可以得到更好的效力。相干浏览
口语数据产物(一):数据堆栈

作者:小九,一枚互金数据产物

本文由 @小九 原创公布于人人都是产物司理。未经允许,制止转载

题图来自Unsplash,基于CC0协定

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|肥猫SEO论坛 ( 鄂ICP备16024533号 )

GMT+8, 2024-11-23 13:26 , Processed in 0.020934 second(s), 19 queries .

Powered by SEO论坛 X3.4

Copyright © 2016-2022, 武汉肥猫网络科技有限公司.

快速回复 返回顶部 返回列表