大数据新手初入门 - ITPUB技术栈

绑定完请刷新页面

取消

刷新

分享好友

×

取消复制



修改

文章目录问答目录全部主题只看栈主互动问答精华主题我发表的

置顶做为一名大数据新手，应该通过这篇文章了解大数据置顶 python实现时间序列置顶【大数据】Presto（Trino）SQL 语法进阶

carr_fu 栈主 2023-07-04 17:19:21

做为一名大数据新手，应该通过这篇文章了解大数据

.css-1yuhvjn{margin-top:16px;}.css-376mun{position:relative;display:inline;}.css-1hhle02.FileLinkCard{-webkit-align-items:center;-webkit-box-align:cen...





carr_fu 栈主 2023-07-04 09:51:43

python实现时间序列

.css-1yuhvjn{margin-top:16px;}.css-376mun{position:relative;display:inline;}.css-1hhle02.FileLinkCard{-webkit-align-items:center;-webkit-box-align:cen...





carr_fu 栈主 2023-05-19 17:55:02

【大数据】Presto（Trino）SQL 语法进阶

一、概述Presto（Trino）是一个快速、分布式的SQL查询引擎，可以用于查询各种数据源，包括Hadoop、NoSQL、关系型数据库等。下面是Presto（Trino）SQL语法的概述：它支持标准SQL语法，包括以下SQL命令：SELECT：用于从一个或多个表中检索数据，指定所需的列和过滤条件。...





carr_fu 栈主 2023-05-16 17:42:44

【大数据】Presto（Trino）配置参数以及 SQL语法

一、概述Trino(前身为PrestoSQL)是一款高性能，分布式的SQL查询引擎，可以用于查询各种类型的数据存储，包括Hive、Mysql、Elasticsearch、Kafka、PostgreSQL等。在使用Trino时，可以通过一些参数来控制查询的行为，例如：coordinator节点和wor...





carr_fu 栈主 2023-05-15 17:55:54

分库分表的 21 条法则，hold 住！

（一）好好的系统，为什么要分库分表？本文是《分库分表ShardingSphere5.x原理与实战》系列的第二篇文章，距离上一篇文章已经过去好久了，惭愧惭愧～还是不着急实战，咱们先介绍下在分库分表架构实施过程中，会接触到的一些通用概念，了解这些概念能够帮助理解市面上其他的分库分表工具...





carr_fu 栈主 2023-05-12 17:36:04

B站数据平台调度系统之依赖

一、背景数仓建设离不开数据模型，数据分析师通过数据模型分析归纳各类数据，模型中离不开各种数据表，表代表不同维度数据，从而表/数据之间有上下游依赖关系，数据的产出是由任务计算得出，分为周期性或实时产出，所以数据之间的依赖等价于计算任务的依赖。数据平台的调度系统作用为...





carr_fu 栈主 2023-05-11 17:34:40

【大数据】Hive 小文件治理和 HDFS 数据平衡讲解

一、Hive小文件概述在Hive中，所谓的小文件是指文件大小远小于HDFS块大小的文件，通常小于128MB，甚至更少。这些小文件可能是Hive表的一部分，每个小文件都包含一个或几个表的记录，它们以文本格式存储。Hive通常用于分析大量数据，但它在处理小文件方面表现不佳，Hive中存在大量小文件会引起...





carr_fu 栈主 2023-05-10 17:35:48

【大数据】yarn proxyserver 和 historyserver 讲解

一、YARNProxy概述Web应用程序代理是YARN的一部分。默认情况下，它将作为资源管理器（RM）的一部分运行，但可以配置为以独立模式运行。代理的原因是为了减少通过YARN进行基于网络的攻击的可能性。在YARN中，应用主机（AM）有责任提供webUI并将该链接发送到RM。这引发了许多潜在的问题。...





carr_fu 栈主 2023-05-06 17:41:00

【大数据】Hive 内置函数和 UDF 讲解

一、概述Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供类SQL语句操作。Hive内置了很多函数，可以满足基本的查询需求，同时还支持自定义函数(UDF)来实现更加灵活的操作。官方文档：https://cwiki.apache.org/confluence/...





carr_fu 栈主 2023-04-23 17:57:47

Hudi整合Spark/Flink调优小总结

全网全大数据面试提升手册！部分：Spark优化1.并行度Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进行调整。建议设置shuffle的并发度，配置项为hoodie.[insert...





点击加载更多

分享好友

分享这个小栈给你的朋友们，一起进步吧。

创建新的小栈

大数据新手初入门

创建时间：2022-03-21 20:33:42 分享

分享初学者学习大数据的过程，接触到的各个知识点和小项目。

展开

订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅：虚拟交易，一经交易不退款；若特殊情况，可3日内客服咨询

• 专区发布评论属默认订阅所评论专区（除付费小栈外）

栈主、嘉宾

查看更多

carr_fu
栈主

小栈成员

查看更多

LCR_
hfx2
cai116096
anyun198910

热门小栈
新小栈
更多

特邀嘉宾

亲爱的$mastername栈主，

作为我们尊贵的VIP，您可以免费邀请人脉圈的任何人加入小栈，与您共同建设、管理$stackname小栈，为您站场，期待您的小栈聚集各路大牛

⚠️注意事项：

1.被邀请嘉宾与您同享小栈部分权益，可共同活跃、管理小栈内用户；

2.嘉宾可在24小时之内通过下一步给到的链接注册登录，过期失效；

3.为大程度保护您小栈的隐私性，请在安全的环境下发给可信任的用户；

4.链接仅可单人单次使用；

5.目前多可邀请9位嘉宾入驻。

戳我，来吐槽～

修改小栈

修改封面

小栈名称
小栈简介
小栈售价

免费小栈仅享有一次修改为付费的机会，直接修改价格即可；
修改为【付费】后不可再次修改为【免费】，请谨慎操作。

取消确定

您可以在此修改小栈的图像和简介，如果您是免费小栈，可享受仅1次修改未收费小栈的机会