产品描述
课程概述
这个为期6周的课程提供了使用Python和云计算的Apache Hadoop和Spark编程的实践介绍. 本课程涵盖的关键组件包括Hadoop分布式文件系统, MapReduce使用MRJob, Apache蜂巢, 猪, 和火花. 使用的工具和平台包括Docker、Amazon Web Services和Databricks. 在程序的前半部分,学生被要求提取一个预先构建的Docker镜像,并使用Docker容器在本地运行大多数练习. 在第二部分,学生必须访问他们的AWS和Databricks账户来运行云计算练习. 学生上课时需要携带笔记本电脑.
先决条件
充分利用课堂资源, 您需要熟悉Linux文件系统, Linux的CLI (comm和 line interface)和Linux的基本命令,如cd, ls, cp, 等. 您还需要具备基本的Python编程技能, 并且熟悉函数式编程风格, 例如, 如何使用map()函数将一个字符串列表分割成一个嵌套列表. python中的面向对象编程(OOP)是不需要的.
证书
证书将在课程圆满结束时颁发. 学生的评估是基于他们所要求的家庭作业和期末项目(如适用)的表现的及格/不及格。. 学生完成80%的家庭作业,并参加85%以上的课程,才有资格获得结业证书.
