中间
大数据与亚马逊云,Hadoop/Spark和Docker

大数据与亚马逊云,Hadoop/Spark和Docker

这是一个为期6周的晚间项目,提供大数据技术的Hadoop和Spark生态系统的实践介绍. 本课程将涵盖Apache Hadoop的关键组件:HDFS, MapReduce和流, 蜂巢, 和火花. 编程将在Python中完成. 本课程将从回顾我们的示例所需的Python概念开始. 课程形式是交互式的. 学生上课时需要携带笔记本电脑.

*非全日制课程的学费如在9个月内被接纳,可申请参加数据科学沙巴体育安卓版下载营.
为应对COVID-19,国家重新开放, 我们所有的课程都可以在现场或远程/在线学习. 请以电邮方式注明您的选择 (电子邮件保护) 在我们班注册之后

课程日期

 
1月会议

2022年1月11日至2月17日
星期二,星期四
7:00-9:30pm

$2990.00
现在招收
Earlybird结束于2月20日
3月会议

2022年3月22日至4月28日
星期二,星期四
7:00-9:30pm

$2990.00
$2990.00
$2840.50
现在招收
Earlybird在01年5月5日结束
5月会议

2022年5月31日至7月7日
星期二,星期四
7:00-9:30pm

$2990.00
$2990.00
$2840.50
现在招收
了解更多有关我们专业发展课程的信息.
下载课程信息

产品描述

课程概述

这个为期6周的课程提供了使用Python和云计算的Apache Hadoop和Spark编程的实践介绍. 本课程涵盖的关键组件包括Hadoop分布式文件系统, MapReduce使用MRJob, Apache蜂巢, 猪, 和火花. 使用的工具和平台包括Docker、Amazon Web Services和Databricks. 在程序的前半部分,学生被要求提取一个预先构建的Docker镜像,并使用Docker容器在本地运行大多数练习. 在第二部分,学生必须访问他们的AWS和Databricks账户来运行云计算练习. 学生上课时需要携带笔记本电脑.

先决条件

充分利用课堂资源, 您需要熟悉Linux文件系统, Linux的CLI (comm和 line interface)和Linux的基本命令,如cd, ls, cp, 等. 您还需要具备基本的Python编程技能, 并且熟悉函数式编程风格, 例如, 如何使用map()函数将一个字符串列表分割成一个嵌套列表. python中的面向对象编程(OOP)是不需要的.

证书

证书将在课程圆满结束时颁发. 学生的评估是基于他们所要求的家庭作业和期末项目(如适用)的表现的及格/不及格。. 学生完成80%的家庭作业,并参加85%以上的课程,才有资格获得结业证书.

完成证书
捆绑起来,学习更多,节省更多!
浏览包
捆绑起来,学习更多,节省更多!
浏览包

演示讲座

MapReduce使用MRJob
模块
MapReduce
教练
杰克比亚尔
描述
纽约市沙巴体育正规网址的讲师杰克比亚尔正在讲解MapReduce的例子.

教学大纲

第1单元:Hadoop简介

  • 1. 数据工程工具包
    • 使用Docker容器运行Linux
    • Linux CLI命令和bash脚本
    • Python基础知识
  • 2. Hadoop MapReduce和
    • 大数据概述
    • HDFS
    • MapReduce

单元2 - MapReduce

  • 3. 使用MRJob的MapReduce
    • 协议为输入 & Output
    • 过滤
  • 4. MapReduce使用MRJob 2
    • 前n
    • 反向索引
    • 多步骤的工作

第三单元阿帕奇蜂巢

  • 5. Apache蜂巢1
    • 大数据数据库
    • 蜂巢QL和数据查询
    • 窗口和分析功能
    • MapReduce的脚本
  • 6. Apache蜂巢2
    • 表在蜂巢
    • 托管表和外部表
    • 存储格式
    • 分区和桶

第四单元阿帕奇猪

  • 7. Apache猪1
    • 概述
    • 拉丁猪:数据类型
    • 猪 Latin:关系运算符
  • 8. Apache猪2
    • 更多的猪拉丁语:关系操作符
    • 更多猪拉丁语:函数
    • 编译猪到MapReduce
    • 平行的条款
    • 加入优化

第5单元Apache Spark和AWS

  • 9. Apache Spark - Spark Core
    • 火花概述
    • 使用Databricks笔记本运行Spark
    • 使用PySpark: rdd
    • 转换和行动
  • 10. Apache Spark - Spark SQL
    • 火花DataFrame
    • SQL使用Spark SQL进行操作
  • 11. Apache Spark - Spark ML
    • ML管道使用PySpark
  • 12. Amazon Elastic MapReduce
    • 概述
    • Amazon Web Services: IAM, EC2, S3
    • 创建EMR集群
    • 提交工作
    • 介绍AWS CLI

学校的位置

纽约第八大道500号905室,邮编10018
附近的地铁
1 2 3 34、中央火车站
A C E 34、中央火车站
N Q R B D F M 34,先驱广场

教练

杰克比亚尔
杰克比亚尔
教练
杰克·拜勒是 完整的 堆栈 开发人员和 在过去的十年里,他一直致力于在线媒体机构的数据问题, 电子商务网站, 和其他网络业务. 他现在经营着自己的咨询公司, Bialerology他在沙巴体育安卓版下载(NYC data Science Academy)教授网页抓取和大数据工程.

会议日程安排

 
1月会议

2022年1月11日- 2月17日星期二 & 周四
  • 12022年1月11日,
  • 22022年1月13日
  • 32022年1月18日
  • 42022年1月20日
  • 52022年1月25日
  • 62022年1月27日
  • 72022年2月1日
  • 82022年2月3日
  • 92022年2月8日
  • 102022年2月10日
  • 112022年2月15日
  • 122022年2月17日
7:00-9:30pm

$2990.00
现在招收
Earlybird结束于2月20日
3月会议

2022年3月22日- 4月28日星期二 & 周四
  • 12022年3月22日
  • 22022年3月24日
  • 32022年3月29日
  • 42022年3月31日
  • 52022年4月5日
  • 62022年4月7日
  • 72022年4月12日,
  • 82022年4月14日
  • 92022年4月19日
  • 102022年4月21日
  • 112022年4月26日
  • 122022年4月28日
7:00-9:30pm

$2990.00
$2990.00
$2840.50
现在招收
Earlybird在01年5月5日结束
5月会议

2022年5月31日- 7月7日星期二 & 周四
  • 12022年5月31日
  • 22022年6月2日
  • 32022年6月7日
  • 42022年6月9日
  • 52022年6月14日
  • 62022年6月16日
  • 72022年6月21日
  • 82022年6月23日
  • 92022年6月28日
  • 102022年6月30日
  • 112022年7月5日
  • 122022年7月7日
7:00-9:30pm

$2990.00
$2990.00
$2840.50
现在招收

通过注册一个捆绑包来节省更多

数据科学掌握
数据科学与R:机器学习
数据科学与R:机器学习
数据科学与Python:机器学习
数据科学与Python:机器学习
大数据与亚马逊云,Hadoop/Spark和Docker
大数据与亚马逊云,Hadoop/Spark和Docker
$7970.00
总: $7970.00$7410.00