您的位置:首页 >公共 >

世界快看:《大数据技术从零开始》自学知识库(2022年整理)

2023-02-11 23:01:22 来源:腾讯云

大数据相关的岗位近年来增长不少,有不少朋友都在转这个方向,下面是最近整理的大数据技术知识库,供大家参考:


【资料图】

大数据技术知识库 2022

计算机组成原理

虽然很多人只要会写 SQL 就能找到工作了,但毕竟上升的天花板很有限,技术往深了研究,逃不开计算机硬件本身的原理,建议大家尽可能熟悉一些计算机硬件系统的组织结构和工作原理。

起码要能分得清啥是「内存」,啥是「硬盘」...

「公开课」

《计算机组成原理》课程,哈尔滨工业大学,刘宏伟,国家级精品课程: https://www.bilibili.com/video/BV1t4411e7LH/

「付费课」

《深入浅出计算机组成原理》,徐文浩 bothub 创始人: http://gk.link/a/11F9P

「推荐书」

《计算机组成原理》: https://u.jd.com/UI14dUf《深入理解计算机系统》: https://u.jd.com/UMgEXSa

操作系统

操作系统(Operating System,简称OS)是管理和控制计算机硬件与软件资源,直接运行在“裸机”上的最基本的系统软件,任何其他软件都必须在操作系统的支持下才能运行。操作系统是用户和计算机的接口,同时也是计算机硬件和其他软件的接口。操作系统的功能包括管理计算机系统的硬件、软件及数据资源,控制程序运行,提供人机交互界面,为其它应用软件提供支持等。

Hadoop、Kafka、Elasticsearch 等大数据相关组件,在运行前都需要调整操作系统的一些参数才能发挥更大的性能,涉及到性能相关的优化,避不开操作系统的知识。

「公开课」

《操作系统》课程,哈尔滨工业大学,李治军: https://www.bilibili.com/video/BV1d4411v7u7/

「付费课」

《趣谈 Linux 操作系统》, 刘超 前网易杭州研究院云计算技术部首席架构师: http://gk.link/a/11F9U

「推荐书」

《现代操作系统》: https://u.jd.com/UIg8tir

数据结构与算法

计算机是现代社会中用于解决问题的重要工具,支撑这个工具高效运转的就是其后的各种系统程序、应用程序。图灵奖获得者N.Wirth写了一本经典著作“程序=算法+数据结构”。数据结构,是抽象的表示数据的方式;算法,则是计算的一系列有效、通用的步骤。算法与数据结构是程序设计中相辅相成的两个方面,是计算机学科的重要基石。

不多说,这个是程序员的基础课!

「公开课」

【尚硅谷】数据结构与算法(Java数据结构与算法): https://www.bilibili.com/video/BV1E4411H73v

「付费课」

《数据结构与算法之美》,王争 前 Google 工程师: http://gk.link/a/11Fa7

「推荐书」

《数据结构与算法分析:Java语言描述》: https://u.jd.com/UIgWiBF

计算机网络

大数据应用,背后都是由运行在多台服务器上的多个服务组成的,服务与服务之间需要通过网络来交流,熟悉计算机网络能帮你快速解决大数据应用里许多莫名其妙的问题:)

「公开课」

中科大郑烇、杨坚全套《计算机网络(自顶向下方法 第7版》: https://www.bilibili.com/video/BV1JV411t7ow《计算机网络》,哈尔滨工业大学: https://www.icourse163.org/course/hit-154005

「付费课」

《趣谈网络协议》,刘超 前网易研究院云计算技术部首席架构师: http://gk.link/a/11Fa9

「推荐书」

《计算机网络:自顶向下方法》: https://u.jd.com/UKgZ6R0《计算机网络》: https://u.jd.com/UIgJNge

Linux系统

几乎所有大数据组件都运行在 Linux 上,得懂啊!

「公开课」

【尚硅谷】《3天搞定Linux,1天搞定Shell,清华学神带你通关(2022版)》: https://www.bilibili.com/video/BV1WY4y1H7d3

「付费课」

《Linux 实战技能 100 讲》,尹会生 前游戏公司技术总监,前新浪网技术经理: http://gk.link/a/11Fac《Linux 性能优化实战》,倪朋飞 资深 Linux 专家,Kubernetes 项目维护者: http://gk.link/a/11Fad

「推荐书」

《鸟哥的Linux私房菜 基础学习篇》: https://u.jd.com/UwgWOO2《Linux命令行与shell脚本编程大全》: https://u.jd.com/UtgZTab

Java

Hadoop、Spark、Flink,这些大数据组件的源代码都用到了 Java,不懂点 Java 可能连 Hadoop 的报错都看不懂。普通的 SQL 开发者与专家之间的区别,有一点就是:专家遇到了问题,懂得看源码来解决;而普通开发者搜索搜不出来就只能干等着了。

「公开课」

【尚硅谷】《Java入门视频教程》: https://www.bilibili.com/video/BV1Kb411W75N【尚硅谷】《宋红康JVM全套教程》: https://www.bilibili.com/video/BV1PJ411n7xZ/

「付费课」

《零基础学 Java》,臧萌 PayPal 数据处理组技术负责人: http://gk.link/a/11Fco《Java 性能调优实战》,刘超 前金山软件技术经理: http://gk.link/a/11Fcp

「推荐书」

《Java编程思想》: https://u.jd.com/UM3tXxr《Java核心技术》: https://u.jd.com/UKDR0ej《深入理解Java虚拟机:JVM高级特性与最佳实践》: https://u.jd.com/UdDRSAZ

Scala

Spark、Flink、Kafka 的核心代码是通过 Scala 实现的,如果要掌握这些技术,免不了!

「公开课」

【尚硅谷】《大数据技术之Scala入门到精通教程》: https://www.bilibili.com/video/BV1Xh411S7bP

「推荐书」

《Scala编程》: https://u.jd.com/UwDRTPo《Scala学习手册》: https://u.jd.com/ULDAqvN

Python

Python,著名「胶水语言」,易上手、灵活、有各种各样的库,做数据分析会用到。

「公开课」

【尚硅谷】《Python零基础入门教程全套完整版》: https://www.bilibili.com/video/BV1hW41197sB

「付费课」

《零基础学 Python》,尹会生 前游戏公司技术总监,前新浪网技术经理: http://gk.link/a/11Fct

「推荐书」

《Python学习手册》: https://u.jd.com/UID7tS1《Python基础教程》: https://u.jd.com/UK38KhP

MySQL

写 SQL 比直接写 Java 或者 Scala 代码要门槛低一些,Hive、Spark、Flink 都提供了 SQL 给大家使用。作「数据的搬运工」,写 SQL 是大数据开发人员最容易上任的一项工作了。

通过 MySQL 来了解下传统数据库的原理,以及 SQL 的基本用法。

「公开课」

【尚硅谷】《MySQL数据库教程天花板,mysql安装到mysql高级,强!硬!》: https://www.bilibili.com/video/BV1iq4y1u7vj

「推荐书」

《MySQL必知必会》: https://u.jd.com/UI3dyFN《深入浅出MySQL 数据库开发 优化与管理维护》: https://u.jd.com/UL3t11U《高性能MySQL》: https://u.jd.com/Ud32q4G

分布式系统

熟悉传统数据库的同学,如果不了解分布式数据库的话,往往在使用大数据技术的过程中会感到很差异:为啥跑个 SparkSQL 这么慢,同样的数据量,在单机 MySQL 里几百毫秒就跑完了, Hadoop 用了10台服务器还要这么久?同样的 SparkSQL,昨天还能跑成功呢,今天咋就失败了呢?

分布式系统,了解一下~

「公开课」

《【麻省理工学院—中文字幕】也只有MIT大佬才能把分布式系统讲的明明白白,油管超人气Java公开课》: https://www.bilibili.com/video/BV1CU4y1P7PE

「付费课」

《深入浅出分布式技术原理》,陈现麟 伴鱼技术中台负责人,前小米工程师: http://gk.link/a/11Fcw《分布式系统案例课》,杨波 前携程 / 拍拍贷技术总监,微服务技术专家: http://gk.link/a/11Fcx

「推荐书」

《分布式系统:概念与设计》: https://u.jd.com/UM3yOfx

Netty

Netty是一个高性能、异步事件驱动的NIO框架,它提供了对TCP、UDP和文件传输的支持,作为一个异步NIO框架,Netty的所有IO操作都是异步非阻塞的,通过Future-Listener机制,用户可以方便的主动获取或者通过通知机制获得IO操作结果。

作为当前最流行的NIO框架,Netty在互联网领域、大数据分布式计算领域、游戏行业、通信行业等获得了广泛的应用,一些业界著名的开源组件也基于Netty的NIO框架构建。

「公开课」

【尚硅谷】《Netty视频教程》: https://www.bilibili.com/video/BV1DJ411m7NR

「付费课」

《Netty 源码剖析与实战》,傅健 Netty 源码贡献者、Cisco 高级软件工程师: http://gk.link/a/11Fcy

「推荐书」

《Netty权威指南》: https://u.jd.com/Uw3tVMA《Netty实战》: https://u.jd.com/UK3DLDW

Hadoop

Hadoop是大数据领域最成熟的技术了,虽然新技术层出不穷,但 Hadoop 就是死不了,每个公司搞大数据都逃不掉要用 Hadoop。

「公开课」

《尚硅谷大数据Hadoop教程》: https://www.bilibili.com/video/BV1Qp4y1n7EN【尚硅谷】《Hadoop3.x高可用集群,HDFS、Yarn集群》: https://www.bilibili.com/video/BV1EP4y1j7V1

「付费课」

《从 0 开始学大数据》,李智慧 同程艺龙交通首席架构师,前 Intel 大数据架构师,《大型网站技术架构》作者: http://gk.link/a/11FlI《大数据经典论文解读》,徐文浩 bothub 创始人: http://gk.link/a/11FlK

「推荐书」

《Hadoop权威指南:大数据的存储与分析》: https://u.jd.com/UK33txl

HDFS

HDFS 是 Hadoop 中的分布式文件系统,基础,必懂!

「推荐书」

《Hadoop技术内幕:深入解析HadoopCommon和HDFS架构设计》: https://u.jd.com/Ut38weS

MapReduce

传统的程序运行过程中,是把数据拿过来计算,而数据量太大的时候,把那么多的数据都挨个再「拿」过来,就不划算了;大数据讲究的是把计算移动到数据那里去「算」,这就是 MapReduce 要做的事儿。

「推荐书」

《MapReduce 2.0源码分析与编程实战》: https://u.jd.com/UM3yelS

Yarn

Yarn 是 Hadoop 中管理集群中所有服务器资源的资源调度框架,计算数据要用到服务器的 CPU 和内存,要多少合适呢?程序跑得快不快,跟 Yarn 给你分配的资源有很大关系。

「推荐书」

《Hadoop技术内幕 深入解析YARN架构设计与实现原理》: https://u.jd.com/UL3Ydc4

Zookeeper

ZooKeeper 是一个开源的分布式协调服务,协调啥呢?比如,HDFS 安排了两个 NameNode 组成 HA,但同一时刻,由哪个 NameNode 来当大哥呢?让这俩 NameNode 都注册到 Zookeeper 里,交给 Zookeeper 来决定!

「公开课」

【尚硅谷】《大数据技术之Zookeeper 3.5.7版本教程》: https://www.bilibili.com/video/BV1to4y1C7gw

「付费课」

《ZooKeeper 实战与源码剖析》,么敬国 新东方集团首席架构师: http://gk.link/a/11FcB

「推荐书」

《ZooKeeper:分布式过程协同技术详解》: https://u.jd.com/Ut32vnj

Hive

不想写 Java 代码处理大量数据,只想写几行 SQL 算算,那就用 Hive 吧~

「公开课」

【尚硅谷】《大数据技术之Hive源码编译详解》: https://www.bilibili.com/video/BV1x14y177Ab【尚硅谷】《大数据Hive高级进阶教程》: https://www.bilibili.com/video/BV1Cb4y1r7p2

「推荐书」

《Hive编程指南》: https://u.jd.com/UC3rlrv《Hive实战》: https://u.jd.com/UL3yyRD

Spark

Hive 原先是基于 MapReduce 实现的,慢!换 Spark 看看~

「公开课」

【尚硅谷】《大数据Spark教程从入门到精通》: https://www.bilibili.com/video/BV11A411L7CK【尚硅谷】《大数据Spark3.0调优,Spark3.x性能优化》: https://www.bilibili.com/video/BV1QY411x7xL

「付费课」

《零基础入门 Spark》,吴磊 FreeWheel 机器学习研发经理: http://gk.link/a/11FcC《Spark 性能调优实战》,吴磊 FreeWheel 机器学习团队负责人: http://gk.link/a/11FcD

「推荐书」

《Spark权威指南》: https://u.jd.com/UK3rHSZ《Spark大数据商业实战三部曲:内核解密 商业案例 性能调优》: https://u.jd.com/Uw3nw6b

Kafka

Kafka 是 LinkedIn 开发并开源的一套分布式的高性能消息引擎服务,后来被越来越多的公司应用在自己的系统中,可以说,Kafka 是大数据时代数据管道技术的首选。在设计的时候,它就实现了高可靠、高吞吐、高可用和可伸缩,得益于这些特性,加上活跃的社区,Kafka 成为了一个完备的分布式消息引擎解决方案。

历经多年发展,Kafka 的功能和特性也在不断迭代,如今的 Kafka 集消息系统、存储系统和流式处理平台于一身,并作为连接着各种业务前台和数据后台的消息中间件,在线上环境承担了非常重要的作用。

「公开课」

【尚硅谷】《2022版Kafka3.x教程(从入门到调优,深入全面)》: https://www.bilibili.com/video/BV1vr4y1677k/

「付费课」

《Kafka 核心技术与实战》,胡夕 Apache Kafka Committer,老虎证券技术总监: http://gk.link/a/11FcG《Kafka 核心源码解读》,胡夕 Apache Kafka Committer,老虎证券技术总监: http://gk.link/a/11FcH

「推荐书」

《Kafka权威指南》: https://u.jd.com/UL3DEDh《Kafka技术内幕 图文详解Kafka源码设计与实现》: https://u.jd.com/UC3ytxR《深入理解Kafka:核心设计与实践原理》: https://u.jd.com/Ut3vuX2

Flink

目前大部分公司的大数据处理工作,使用的还是离线处理技术,但未来,流式计算必定会成为分布式计算的重要方向之一。如果你想要掌握一门具有前瞻性的流式计算处理技术,Flink 必然是你的首选。目前为止,开源界唯一真正同时做到低时延,数据一致性保障以及高吞吐的大数据处理技术,也只有 Flink。它可以在毫秒级的延迟情况下,实现每秒钟处理上亿次的消息或者事件。

「公开课」

【尚硅谷】《2022版Flink1.13实战教程(涵盖所有flink-Java知识点)》: https://www.bilibili.com/video/BV133411s7Sa

「付费课」

《Flink 核心技术与实战》,张利兵 第四范式数据中台架构师,Apache Flink 贡献者: http://gk.link/a/11FcI

「推荐书」

《深入理解Flink核心设计与实践原理》: https://u.jd.com/UC3Y9Wh

数据仓库

掌握了那么多开发技术,不就是老板要你建数仓嘛~

「公开课」

【尚硅谷】《大数据项目【电商数仓5.0】》: https://www.bilibili.com/video/BV1AT411j7hu【尚硅谷】《Flink实时数仓3.0》: https://www.bilibili.com/video/BV1TG411a7nL

「推荐书」

《数据仓库》: https://u.jd.com/UM3YZF8《Hadoop构建数据仓库实践》: https://u.jd.com/Ud3yCRC

数据治理

建数仓只是第一步,数据得管理好才行~

「推荐书」

《数据管理&治理3部曲:一本书讲透数据治理+DAMA数据管理知识体系指南+数据治理 全三册》: https://u.jd.com/UC3Sfnc

数据中台

2016年至2020年间,数据中台的概念很火,现在是落地的时候了,每个企业都不好忽悠,得为企业产生真正的利益才行~

「公开课」

《武凯说》: https://space.bilibili.com/39431579/channel/seriesdetail?sid=2158634

「付费课」

《数据中台实战课》,郭忆 网易大数据专家: http://gk.link/a/11FcK

「推荐书」

《数据中台:让数据用起来》: https://u.jd.com/UL33szb

标签: https 网络安全 HTTP 数据处理 Kafka