-
【大数据】Presto(Trino)SQL 语法进阶
一、概述Presto(Trino)是一个快速、分布式的SQL查询引擎,可以用于查询各种数据源,包括Hadoop、NoSQL、关系型数据库等。下面是Presto(Trino)SQL语法的概述:它支持标准SQL语法,包括以下SQL命令:SELECT:用于从一个或多个表中检索数据,指定所需的列和过滤条件。
carr_fu 2023-05-19 17:54:47
-
【大数据】Presto(Trino)配置参数以及 SQL语法
一、概述Trino(前身为PrestoSQL)是一款高性能,分布式的SQL查询引擎,可以用于查询各种类型的数据存储,包括Hive、Mysql、Elasticsearch、Kafka、PostgreSQL等。在使用Trino时,可以通过一些参数来控制查询的行为,例如:coordinator节点和wor
carr_fu 2023-05-16 17:42:34
-
B站数据平台调度系统之依赖
一、背景数仓建设离不开数据模型,数据分析师通过数据模型分析归纳各类数据,模型中离不开各种数据表,表代表不同维度数据,从而表/数据之间有上下游依赖关系,数据的产出是由任务计算得出,分为周期性或实时产出,所以数据之间的依赖等价于计算任务的依赖。数据平台的调度系统作用为
carr_fu 2023-05-12 17:35:57
-
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
一、Hive小文件概述在Hive中,所谓的小文件是指文件大小远小于HDFS块大小的文件,通常小于128MB,甚至更少。这些小文件可能是Hive表的一部分,每个小文件都包含一个或几个表的记录,它们以文本格式存储。Hive通常用于分析大量数据,但它在处理小文件方面表现不佳,Hive中存在大量小文件会引起
carr_fu 2023-05-11 17:34:29
-
【大数据】yarn proxyserver 和 historyserver 讲解
一、YARNProxy概述Web应用程序代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但可以配置为以独立模式运行。代理的原因是为了减少通过YARN进行基于网络的攻击的可能性。在YARN中,应用主机(AM)有责任提供webUI并将该链接发送到RM。这引发了许多潜在的问题。
carr_fu 2023-05-10 17:35:39
-
【大数据】Hive 内置函数和 UDF 讲解
一、概述Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以满足基本的查询需求,同时还支持自定义函数(UDF)来实现更加灵活的操作。官方文档:https://cwiki.apache.org/confluence/
carr_fu 2023-05-06 17:40:38
-
Hudi整合Spark/Flink调优小总结
全网全大数据面试提升手册!部分:Spark优化1.并行度Hudi对输入进行分区默认并发度为1500,以确保每个Spark分区都在2GB的限制内(在Spark2.4.0版本之后去除了该限制),如果有更大的输入,则相应地进行调整。建议设置shuffle的并发度,配置项为hoodie.[insert
carr_fu 2023-04-23 17:57:33
-
大数据平台概述
.css-1yuhvjn{margin-top:16px;}.css-376mun{position:relative;display:inline;}.css-1hhle02.FileLinkCard{-webkit-align-items:center;-webkit-box-align:cen
carr_fu 2023-04-19 17:56:14
-
大数据专业学起来会不会很累?
.css-1yuhvjn{margin-top:16px;}.css-376mun{position:relative;display:inline;}.css-1hhle02.FileLinkCard{-webkit-align-items:center;-webkit-box-align:cen
carr_fu 2023-04-19 17:51:29
-
[新手必读] 从小白到大数据技术专家的学习历程
.css-1yuhvjn{margin-top:16px;}.css-376mun{position:relative;display:inline;}.css-1hhle02.FileLinkCard{-webkit-align-items:center;-webkit-box-align:cen
carr_fu 2023-04-19 17:50:54
-
[新手必读] 怎么才能学好大数据
.css-1yuhvjn{margin-top:16px;}.css-376mun{position:relative;display:inline;}.css-1hhle02.FileLinkCard{-webkit-align-items:center;-webkit-box-align:cen
carr_fu 2023-04-19 17:50:36
-
月增千万的数据,我用单体+单库扛下了所有~
分库分表实战内容基本上很少有人去分享,在网上能够搜出来的也大多属于一些方法论,但大部分技术开发真正缺少的恰恰是这些实操经验,所以后续的内容多以实践为主,携手诸位真正彻底悟透分库分表相
yukang 2023-03-07 15:54:23
-
300万数据导入导出优化方案,从80s优化到8s(实测)
在项目开发中往往需要使用到数据的导入和导出,导入就是从Excel中导入到DB中,而导出就是从DB中查询数据然后使用POI写到Excel上
rtyrtu85 2023-03-07 15:29:25
-
MyBatis Plus 解决大数据量查询慢问题
大数据量操作的场景大致如下:数据迁移数据导出批量处理数据在实际工作中当指定查询数据过大时,我们一般使用分页查询的方式一页一页的将数据放到内存处理。但有些情
yukang 2023-03-07 15:20:27
-
一断网才想起来,它们原来是互联网公司
互联网公司突然转型意欲何为?巨头牵手是强强联合还是各怀鬼胎?表面平静的互联网圈背后又有着怎样的别样心机?欢迎收看今天的《走进互联网》揭秘互联网公司的真实“人”生阿里的大气腾讯的野心小米
junyu 2023-03-02 14:28:06
-
大学生IT就业“流变”:从互联网大厂转向小厂
要问今天的大学毕业生求职想进入的行业,那么互联网肯定算其中一个。近日,智联招聘发布的《2022大学生就业力调研报告》显示,IT/通信/电子/互联网行业是应届生期望就业的行业。2021年9月,中国青年报
junyu 2023-03-02 14:24:59
-
一段电视剧中神秘代码,看起来很黑科技哦!
在《硅谷》这部情景喜剧中,你表现科技人不一样的一面。而在这部剧第三季的集中,出现了神秘代码。那么这些神秘的代码,究竟写的是什么?分享者称自己运行了一下,上面红框就是运行的结果。原来这段程序是花式输出字符串,它的原理,其实不
junyu 2023-03-02 14:15:27
-
2023年中国互联网的这几个趋势,你一定要知道!
日前,中国互联网协会正式发布了《中国互联网企业综合实力指数报告(2022)》。该报告能系统的反映我国互联网行业的未来发展趋势,为大家了解互联网行业发展现状和企业的发展状况提供了重要的参考。那么2022年互联网行业的发展状况如何?20
junyu 2023-03-02 14:14:07
-
36张图,一次性补全网络基础知识
OSI和TCP/IP是很基础但又非常重要的知识,很多知识点都是以它们为基础去串联的,作为底层,掌握得越透彻,理解上层时会越顺畅。今天这篇网络基础科普,就是根据OSI层级去逐一展开的。1计算机网络基础01计算机网络的分类按照网
junyu 2023-02-24 14:48:42
-
ChatGPT 的 5 大功能可以帮助你提高代码质量
英文|https://medium.com/geekculture/5-chatgpt-features-to-boost-your-daily-work-404478fd70ca翻译|杨小爱ChatGPT目前彻底改变了开发代码的方式,然而,大多数软件开发人员和数据专家仍然没有使用ChatGPT来改
junyu 2023-02-24 14:40:59