• 24 января 2019, четверг
  • Москва, ул.Илимская, д.5, корп.2, офис 303

Администратор кластера Apache Spark

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "УЦ Коммерсант"
1912 дней назад
с 10:00 24 января до 17:30 26 февраля 2019
Москва
ул.Илимская, д.5, корп.2, офис 303

3х дневный практический курс администрирования кластера Apache Spark, использование Spark SQL, организация потоковой обработки Spark Streaming, библиотеки машинного обучения Spark ML, построение графов Spark GraphX

Аудитория: Специалисты, администраторы, аналитики данных  желающие получить опыт настройки и использования компонентов Apache Spark (Spark SQLMLLibSpark StreamingSpark GraphX)

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix/SQL
  • Начальный опыт программирования (Scala/Python/Java)

Продолжительность: 3 дня, 24 академических часа.

 дневный интенсивный практический тренинг по знакомству с платформой для распределенной  обработки больших данных Apache Spark. В ходе лекций и лабораторных работы вы научитесь настраивать кластер Apache Spark для запуска задач на Scala и R при обработке больших массивов неструктурированных данных, применяя алгоритмы машинного обучения встроенных библиотек Spark MLLib; поймете разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets; обращаться к данным с использование Spark SQL или Hive QL; настраивать и анализировать данные в потоке Spark Streaming; интегрировать компоненты Apache Spark с другими компонентами экосистем Hadoop.

Соотношение теории к практике 40/60

Программа курса

  1. Введение в Apache Spark
    • Сравнение Hadoop и Spark
    • Сравнение Batch, Real-Time и in-Memory  процессинг
    • Особенности Apache Spark
    • Компоненты Apache Spark экосистемы
  2. Введение в RDD — Resilient Distributed Dataset
    • Что такое RDD 
    • Особенности использования RDD, RDD lineage
    • Трансформация в Spark RDD
    • Lazy evaluation и отказоустойчивость в Spark
    • Использование Persistence RDD в памяти и на диске
    • Использование key-value пар (ReduceByKey,CountByKey,SortByKey,AggregateByKey)
    • Интеграция Hadoop с SparkВыполнение базовых операций с Cloudera Manager.
  3. Запуск задач в Apache Spark
    • Знакомство с Spark-shell
    • Выполнение задач в Apache Spark
    • Написание программ в Apache Spark
    • Чтение данных с локальной файловой системы и HDFS 
    • Зависимости(Dependencies)
    • Кэширование данных в Apache Spark
    • Отказоустойчивость (Fault Tolerance)Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, RCfile, ORC, Parquet.
  4. SparkSQL, DataFrames, DataSet
    • Альтернатива RDDs
    • Сравнение DataFrame, DataSet и SQL API
    • Введение  в SparkSQL, пользовательские функции в Spark SQL
    • Использование DataFrames и DataSet, DataSets вместо RDD
    • Простые запросы, фильтрация и аггрегация DataFrames
    • Объединение (JOIN) DataFrames
    • Интеграция Hive и Spark: Hive запросы в Spark, создание Hive контекста, запись Dataframe в HiveАрхитектура Apache Spark.
  5. Управление ресурсами в кластере Apache Spark
    • Архитектура Apache Spark
    • Особенности управления ресурсами в автономном режиме кластера (Standalone)
    • Особенности управления ресурсами в режиме Hadoop кластера с YARN
    • Динамическое распределение ресурсов Dynamic Resource Allocation
    • Оптимизация Apache Spark: использование разделов (partition hash,range,map, static), управление расписанием (dynamic, fair scheduler), использование переменных (shared, broadcast) и аккумуляторов (accumulators)
    • Использование Catalyst Optimizer для оптимизации исполнения запросов
    • Project Tungsten — Оптимизация управления памятью и кэшом CPUИмпорт и обработка данных в кластере Hadoop
  6. Машинное обучение(Machine Learning) в Apache Spark
    • Введение в  Machine Learning с использованием MLLib
    • Алгоритм линейной регрессии (Linear Regression)
    • Деревья решений (Decision Trees)
    • Случайные леса (Random Forest)
    • Использование DataFrames с MLLib Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive
  7. Потоковая обработка (Streaming) в Apache Spark
    • Потоковая обработка данных для аналитики больших данных
    • Особенности реализации потоковой обработки данных в Apache Spark
    • Основные концепции потоковой обработки
    • Аггрегированные и не аггрегированные запросы
    • Обработка событий Event Time, Window и Late Events (скользящее окно событий)
    • Поддержка последних событий (Late Events) в потоковой обработке данных в Apache Spark
    • Режимы работы Apache Spark с потоковыми данными
  8. Введение в GraphX
    • GraphX и Pregel
    • Поиск в ширину (Breadth-First-Search) с использование GraphX

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше