Администрирование Hadoop HortonWorks под управлением Apache Ambari / События на TimePad.ru

Рекомендуемые события

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

ООО "УЦ Коммерсант"

Связаться с организатором

669568 дней назад

с 10:00 28 февраля 0191 до 17:30 1 февраля 2019

Москва

ул.Илимская д.5, корп.2, офис 303

5 дней практического обучения установке и настройке кластера Hadoop под управлением Apache Ambari на платформе HortonWorks Data Platform, безопасность Kerberos, Apache Ranger, Atlas, Knox, мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, Zeppelin, NiFi.

Восстановить билет

Вернуть билет

Аудитория: Системные администраторы, системные архитекторы, разработчики Hadoop желающие получить практические навыки по установке, конфигурированию, обслуживанию и управлению кластером Hadoop с использованием дистрибутива HortonWorks Data Platform и Apache Ambari.

Предварительный уровень подготовки:

Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен)

Продолжительность: 5 дней, 40 академических часов.

Apache Hadoop является наиболее популярной открытой платформой для распределенного хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop на базе дистрибутива HortonWorks Data Platform, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройки безопасности системы Kerberos на базе Hadoop.

Курс построен на сквозных практических примерах развертывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов HortonWorks Data Platform программного обеспечения Apache Ambari.

Соотношение теории к практике 40/60

Программа курса

Введение в Big Data
- Что такое Big Data. Понимание проблемы Big Data
- Эволюция систем распределенных вычислений Hadoop
- Принципы формирование pipelines и Data Lake
Архитектура Apache Hadoop
- Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис
- Планировщик
- HDFS
- Отказоустойчивость и высокая доступность
Hadoop Distributed File System
- Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS
- Дисковые квоты
- Поддержка компрессии
- Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
- Импорт(загрузка) данных на HDFS
MapReduce
- Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
- Ограничения и параметры MapReduce и YARN
- Управление запуском пользовательских задач (jobs) под MapReduce
Дизайн кластера Hadoop
- Сравнение дистрибутивов и версий Hadoop ⅔ (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR): различия и ограничения.
- Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке.
- Сравнение Cloud решений для Hadoop. Amazon EMR.
- Интеграция с другими решениями: streaming (DataFlow), NoSQL
Установка кластера
- Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoopкластера в облаке.
- Автоматическая установка с использованием Ansible.
- Установка и настройка кластера Hadoop в изолированном окружении (offline).
Операции обслуживания кластера Hadoop
- Дисковая подсистема
- Квоты
- Остановка, запуск, перезапуск
- Управление узлами
- Сетевая топология
- Управление обновлениями и создание локального репозитория.
Оптимизация и управление ресурсами
- Поиск узких мест.
- Производительность
- Файловая система
- Data Node
- Сетевая производительность
- Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
9. Управление кластером Hadoop с использованием Apache Ambari
- Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari.
Безопасность Hadoop
- Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks: Apache Ranger, Apache Atlas, Apache Knox.
- Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
- Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
- Best practices HortonWorks .
Мониторинг
- Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: Zabbix, JMX.
Troubleshooting
- Data Node
- Name Node
- Восстановление Name Node
Инструментарий Hadoop экосистемы дистрибутива HortonWorks
- Графический интерфейс сервиса Zeppelin.
- Введение Apache Pig.
- Введение Apache Zookeeper
- Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
- Введение в Apache sqoop — установка и выполнение базовых операций.
- Введение в Apache Flume — установка и выполнение базовых операций.
- Введение в Apache Spark — установка и выполнение базовых операций.
- Введение в Apache Spark — установка и выполнение базовых операций
- Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Flink, Apache Zookeeper.

Примерный список практических занятий:
• Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform на локальной системе 3х-узловый кластер
• Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari
• Базовые операции с кластером Hadoop и файловые операции HDFS.
• Управление ресурсами и запуском задач с использованием YARN MapReduce.
• Управление кластером с использованием Apache Ambari (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
• Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari
• Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark
• Выполнение задач в веб-интерфейсе Zeppelin
• Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально)
• Настройка высокой доступности Name Node (опционально).

Примечание:
• Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30(возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Получение и восстановление электронных билетов

Возврат билета

Нужна помощь?

Как оплатить билет?

Как получить билет?

Как вернуть билет?

Задать вопрос организатору

Связаться с организатором

Администрирование Hadoop HortonWorks под управлением Apache Ambari

Рекомендуемые события

Соотношение теории к практике 40/60

Программа курса

Регистрация

Рекомендуемые события

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!