(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 

Курс "Анализ данных с помощью современного Apache Spark"

Код: SPARK2
Специализация: Авторские курсы: СУБД и хранилища данных

Продолжительность - 4 дня

Расписание:
12 мая 2025 года (Москва)        

Стоимость:  96 000 руб.  

4-дневный практический Курс «Анализ данных с Apache Spark» для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.

Apache Spark — это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки данных (в том числе неструктурированных и слабоструктурированных), входящий в экосистему проектов Hadoop.

Спарк состоит из следующих компонентов:

  • Ядро (Core Spark), включающее Spark SQL — возможность аналитической обработки данных с помощью SQL-запросов;
  • Streaming — надстройка для обработки потоковых данных;
  • ML — набор библиотек для подготовки данных и машинного обучения (Machine Learning);
  • GraphX — модуль распределённой обработки графов.

Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.

Современный Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра хадуп, в частности, с использованием Kubernetes в качестве системы управления кластером. Спарк поддерживает несколько популярных распределённых систем хранения данных (HDFS и совместимые с HDFS файловые системы, объектное хранилище Amazon S3), а также может работать с Delta Lake. Apache Spark предоставляет языковые API для часто используемых в области Big Data языков программирования: Java, Scala, Python и R, в современных версиях добавлен pandas API, возможность работы со Spark Connect, полезная при использовании территориально или сетево удаленных кластеров. Во время курса мы подробно разберем эти и другие особенности современного Apache Spark.Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой , POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт программирования (Python/Java)
  • Начальный опыт в экосистеме Hadoop

Соотношение теории к практике 40/60

Практический курс «Анализ данных с помощью современного Apache Spark» представляет собой 4-дневный интенсивный тренинг по использованию распределенной платформы Apache Spark для работы с большими массивами данных, в том числе — неструктурированных , и потоковой обработки информации.

Обучение Спарк содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark (Spark Core, Spark Streaming, Spark SQL, ML и GraphX) для пакетной и потоковой обработки данных. Практическая часть включает запуск и настройку компонентов, работу в среде Jupyter Notebook, прикладное использование Спарк для разработки собственных распределенных приложений пакетной и потоковой обработки информации и анализа больших данных.

На курсе вы научитесь:

  • понимать особенности использования RDD и dataframe;
  • обращаться к большим данным с использование SQL или HiveQL;
  • использовать Spark Streaming для создания распределенных приложений потоковой обработки больших данных;
  • настраивать и использовать компоненты MLLib и GraphX;
  • обрабатывать слабоструктурированные данные, представленные в форматах JSON или XML.

Программа курса

1. Обзор Apache Spark

  • Архитектура Spark. Обзор компонентов Spark и их назначения

2. Основные абстракции Apache Spark

  • Трансформации и действия, Lazy Evaluation

3. Знакомство с Dataframes

  • Structured API и основная абстракция Spark – Dataframe

4. Знакомство со Spark RDD

  • Low Level API, использование Resilient Distributed Dataset

5. Apache Spark SQL

  • Получение данных из SQL-источников и обработка данных с помощью Spark SQL
  • Отправка данных в SQL СУБД и работа с Hive QL
  • Spark SQL и Hadoop

6. Работа с источниками данных

  • Ввод и вывод в Apache Spark
  • Работа с файлами и базами данных

7. Производительность и параллелизм в Apache Spark

  • Планы выполнения запроса: логические и физические

8. Конфигурирование Apache Spark

  • Принципы конфигурирования и основные настройки

9. Spark Streaming и Structured Streaming

  • Виды потоковой обработки в Apache Spark
  • Особенности исполнения streaming кода
  • Checkpoint в Spark Streaming

10. GraphX и ML

  • Место и особенности графовых моделей в программировании
  • Задачи машинного обучения и проблематика больших данных
  • Основные возможности Spark ML

11. Обработка слабоструктурированных данных

  • Работа с JSON и XML файлами, особенности и возможности

12. Современный Spark

  • pandas API в spark
  • Spark Connect: долгоживущие сессии
  • Spark on Kubernetes (будущее в настоящем)
  • Delta Lake — технологическая основа LakeHouse

Программа читается совместно с Школа Больших Данных.

В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.


В современном мире сложно обойтись без информационных технологий и их производных - компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. - не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных.

Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence. Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации.

В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных.

Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас!

В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на основании оценок, полученных обучающимся при проверке усвоения изучаемого материала на основании оценок за практические работы, выполненные в процессе обучения.

Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.

  • Нужна помощь в поиске курса?
    Наша цель заключается в обеспечении подготовки специалистов, когда и где им это необходимо. Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса. Если вам нужен курс, который вы не видите на графике или у нас на сайте, или если Вы хотите пройти курс в другое время и в другом месте, пожалуйста, сообщите нам, по адресу mail@interface.ru или shopadmin@itshop.ru
  • Поговорите со своим личным тренинг-менеджером!
    Мы предоставляет Вам индивидуальное обслуживание. Если у вас есть потребность обсудить, все вопросы касательно обучения, свяжитесь, пожалуйста c нами по телефонам: +7 (495) 925-0049, + 7 (495) 229-0436. Или любым другим удобным для Вас средствами связи, которые Вы можете найти на сайтах www.interface.ru или www.itshop.ru


 Распечатать »
 Правила публикации »
   
 Рекомендовать »  
 

Магазин программного обеспечения   WWW.ITSHOP.RU
ABBYY Lingvo x6 Английская Домашняя версия, электронный ключ
NERO 2016 Classic ESD. Электронный ключ
Stimulsoft Reports.Ultimate Single License Includes one year subscription, source code
ABBYY Lingvo x6 Европейская Профессиональная версия, электронный ключ
Panda Global Protection - ESD версия - на 1 устройство - (лицензия на 1 год)
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Поиск курсов
 
 
Интересные факты

Учебный центр "Интерфейс" - в десятке ведущих учебных центров России в сфере IT.

  • У нас преподают такие известные эксперты, как Пржиялковский В.В., Леоненков А.В., Новичков А.Н., Зайцев А.Л., Зайцев Р.А., Большаков О.Н., Мирончик И.Я., Саксонов А.А., Пригодина Н.Ю., Красникова С.А.
  • Учебный центр "Интерфейс" проводит авторизованные курсы по продуктам компаний Microsoft, ERwin, Embarcadero (CodeGear), Postgres Professional
  • Подтвердить полученные знания можно, сдав сертификационные экзамены. Учебный центр "Интерфейс" является авторизованным центром тестирования Pearson VUE
  • Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
  • Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса.
  • Где Вам удобнее учиться? В Москве? Санкт-Петербурге? Подмосковье? В вашем собственном офисе? Позвоните нам по тел.:+7 (495) 925-0049 и мы обсудим удобный для Вас вариант обучения.

Горячая линия:
+ 7 (495) 925-0049
mail@interface.ru
Отправить быстрое сообщение

Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Новости ITShop.ru - ПО, книги, документация, курсы обучения
Обучение для IT-профессионалов
Обучение и сертификация Microsoft
IT сертификация
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100