• 28 февраля 0191, понедельник
  • Москва, ул.Илимская д.5, корп.2, офис 303

Администрирование Hadoop HortonWorks под управлением Apache Ambari

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "УЦ Коммерсант"
669759 дней назад
с 10:00 28 февраля 0191 до 17:30 1 февраля 2019
Москва
ул.Илимская д.5, корп.2, офис 303

5 дней практического обучения установке и настройке кластера Hadoop под управлением Apache Ambari на платформе HortonWorks Data Platform, безопасность Kerberos, Apache Ranger, Atlas, Knox, мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, Zeppelin, NiFi.

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива HortonWorks Data Platform и Apache Ambari.

Предварительный уровень подготовки:

  • Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

Продолжительность5 дней, 40 академических часов.

Apache Hadoop является наиболее популярной открытой платформой для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop на базе дистрибутива HortonWorks Data Platform, мониторингу и оптимизации производительности системы, резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройки безопасности системы Kerberos  на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов HortonWorks Data Platform  программного обеспечения Apache Ambari.

Соотношение теории к практике 40/60

Программа курса

  1. Введение в Big Data
    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирование pipelines и Data Lake
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name nodeData NodeYARN сервис
    • Планировщик
    • HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
    • Дисковые квоты
    • Поддержка компрессии
    • Основные форматы хранения данных TXTAVROORCParquetSequence файлы
    • Импорт(загрузка) данных на HDFS
  4. MapReduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduceYARN MapReduce v2
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop ⅔ (HortonWorks Data Platform, Cloudera Distributed HadoopMapR): различия и ограничения.
    • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость HadoopFederated NameNodeHadoop в облаке.
    • Сравнение Cloud решений для HadoopAmazon EMR.
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL
  6. Установка кластера
    • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoopкластера в облаке.
    • Автоматическая установка с использованием Ansible.
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск
    • Управление узлами
    • Сетевая топология
    • Управление обновлениями и создание локального репозитория.
  8. Оптимизация и управление ресурсами
    • Поиск узких мест.
    • Производительность
    • Файловая система
    • Data Node
    • Сетевая производительность
    • ПланировщикиFIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  9. 9. Управление кластером Hadoop с использованием Apache Ambari
    • Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari.
  10. Безопасность Hadoop
    • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorksApache RangerApache AtlasApache Knox.
    • Многопользовательский режим. Аутентификация и авторизация. Kerberoskeytabsprincipals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
    • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
    • Best practices HortonWorks .
  11. Мониторинг
    • Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: ZabbixJMX.
  12. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  13. Инструментарий Hadoop экосистемы дистрибутива HortonWorks
    • Графический интерфейс сервиса Zeppelin.
    • Введение Apache Pig.
    • Введение Apache Zookeeper
    • Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
    • Введение в Apache sqoop — установка и выполнение базовых операций.
    • Введение в Apache Flume — установка и выполнение базовых операций.
    • Введение в Apache Spark — установка и выполнение базовых операций.
    • Введение в Apache Spark — установка и выполнение базовых операций
    • Обзор и назначение компонент: Apache KafkaApache HBaseApache NiFiApache FlinkApache Zookeeper.

Примерный список практических занятий:
• Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform на локальной системе 3х-узловый кластер
• Установка -узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
• Базовые операции с кластером Hadoop и файловые операции HDFS.
• Управление ресурсами и запуском задач с использованием YARN MapReduce.
• Управление кластером с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
• Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
• Установка и выполнение базовых операций в Apache HiveApache sqoopApache FlumeApache Spark
• Выполнение задач в веб-интерфейсе Zeppelin
• Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
• Настройка высокой доступности Name Node (опционально).

Примечание
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30(возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше