Код: EDU-BD-HDDE Специализация: Авторские курсы: СУБД и хранилища данных
Продолжительность - 5 дней
Расписание:
5 июня 2023 года (Москва)
28 августа 2023 года (Москва)
Стоимость:
110 000 руб.
Курс "Hadoop для инженеров данных" направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop и HortonWorks Data Platform.
Соотношение теории к практике 40/60
Примечание: с 1 января 2019 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 2 компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).
Аудитория:
Специалисты по работе с большими данными, ответственные за настройку и сопровождение ввода данных в DataLake, а также желающие получить теоретические знания и практические навыки по подготовке больших данных, специфики использования процессов ETL в кластерах Hadoop, и организации Batch, streamи real-time процессинга больших данных с использованием компонентов экосистемы Hadoop.
Необходимый уровень подготовки:
Начальный опыт работы в Unix
Начальный опыт работы с SQL
Программа курса
Основные концепции Hadoop и Data Lake
Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных. Тенденции развития Hadoop.
Организация хранения данных в Hadoop Data Lake
Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
Инструменты управления кластером
Выполнение базовых операций с Cloudera Manager.
Создание и управление запросами и данными с использованием сервиса Hue/Zeppelin.
Организация и оптимизация Data Layout хранения данных в HDFS
Импорт/экспорт данных в кластер Hadoop – формирование Data Lake
Импорт и обработка данных в кластере Hadoop
Интеграция с реляционными базами данных
Структура хранения данных в таблицах
Сравнительная характеристика решений Hadoop SQL
Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
Введение в Apache Spark
Архитектура и состав Apache Spark
Основные абстракции (Dataframe, RDD)
Spark SQL
Ввод и вывод данных в Apache Spark
Spark Streaming.
Обработка слабо структурированных данных.
Apache Hive
Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
Hive LLAP, Hive on Tez
Cloudera Impala (опционально)
Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive
Оптимизация Impala запросов
Потоковые данные в Data Lake
Event Processing System. Импорт потоковых данных в кластер
Использование Kafka для работы с потоковыми данными
Использование Flume для работы с потоковыми данными (опционально только для версии 2)
Интеграция Flume + Kafka
Процессинг данных с использование Apache NiFi
Оркестрация данных с Apache Airflow
Cписокпрактических занятий:
Автоматическая установка 3-узлового кластера в облаке Amazon Web Services с использованием ClouderaManager и поддержка базовых операций с кластером Hadoop и HDFS.
Управление ресурсами и запуском задач с использованием YARNMapReduce.
Использование ApachePig для подготовки данных, операции JOIN
Использование Apache Hive для анализа данных
Оптимизация запросов JOIN в ApacheHive
Настройка partition и bucket в Apache Hive
Инкрементальный импорт/экспорт данных с помощью Apache sqoop
SQL аналитика данных с помощью ClouderaImpala
Batch процессинг данных с использованием ApacheSpark
Импорт данных с помощью Apache Flume
Построение Event Processing System с использованием ApacheFlume и Kafka
Создание и управление запросами sqoop, MapReduce, Hive, Impala с использованием веб-интерфейса B
В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.
В современном мире сложно обойтись без информационных технологий и их производных - компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. - не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных.
Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence. Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации.
В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных.
Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас!
В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на основании оценок, полученных обучающимся при проверке усвоения изучаемого материала на основании оценок за практические работы, выполненные в процессе обучения.
Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
Нужна помощь в поиске курса? Наша цель заключается в обеспечении подготовки специалистов, когда и где им это необходимо. Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса. Если вам нужен курс, который вы не видите на графике или у нас на сайте, или если Вы хотите пройти курс в другое время и в другом месте, пожалуйста, сообщите нам, по адресу mail@interface.ru или shopadmin@itshop.ru
Поговорите со своим личным тренинг-менеджером! Мы предоставляет Вам индивидуальное обслуживание. Если у вас есть потребность обсудить, все вопросы касательно обучения, свяжитесь, пожалуйста c нами по телефонам: +7 (495) 925-0049, + 7 (495) 229-0436. Или любым другим удобным для Вас средствами связи, которые Вы можете найти на сайтах www.interface.ru или www.itshop.ru
Учебный центр "Интерфейс" - в десятке ведущих учебных центров России в сфере IT.
У нас преподают такие известные эксперты, как Пржиялковский В.В., Леоненков А.В., Новичков А.Н., Зайцев А.Л., Зайцев Р.А., Большаков О.Н., Мирончик И.Я., Саксонов А.А., Пригодина Н.Ю.
Подтвердить полученные знания можно, сдав сертификационные экзамены. Учебный центр "Интерфейс" является авторизованным центром тестирования Pearson VUE
Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса.
Где Вам удобнее учиться? В Москве? Санкт-Петербурге? Подмосковье? В вашем собственном офисе? Позвоните нам по тел.:+7 (495) 925-0049 и мы обсудим удобный для Вас вариант обучения.