(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

Источник: habrahabr

16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале - выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Flickr / Jer Thorp / CC

Data Scientist: аналитик, математик, программист

Профессия Data scientist - относительно новая, причем не только для России, но и для всего мира. Само собой, не все задачи из сферы профессиональных интересов современного специалиста по работе с данными появились в последние годы - какие-то из них ранее решали программисты, специалисты по статистике, бизнес-аналитики.

Более того, вопрос о том, что именно должен знать и уметь Data scientist остается открытым: например, на сайте Американской статистической ассоциации еще недавно велись дебаты о том, принесет ли появление "науки о данных" смерть статистике (и насколько тесно связаны эти дисциплины) и что общего у тех, кто работает на позициях Business scientist, Data scientist, Data analyst и Statistician.

Безусловно, большое количество различных терминов и названий должностей порождает определенную путаницу. Например, Винсент Грэнвилл (Vincent Granville), предприниматель и исследователь, развивавший аналитическое направление в Visa, Microsoft, eBay и NBC, выделяет целых 16 различных дисциплин и профессий, так или иначе пересекающихся с тематикой Data science - от таких направлений как искусственный интеллект и предсказательное моделирование до профессий вроде актуариев (в страховании) и квантов (в высокочастотном трейдинге). С одной стороны, такое многообразие может запутать новичка, с другой - это явный признак, что без работы будущий специалист в Data science точно не останется.

Вне зависимости от того, как будет называться та или иная должность, от специалиста по работе с данными ожидается, что он будет обладать знаниями сразу в нескольких дисциплинах. Среди наиболее важных Андрей Созыкин, выступая на лекции в Университете ИТМО, отметил:

  • Знание математики, прикладной статистики и теории вероятностей
  • Умение программировать (в частности на Python) и работать с библиотеками для анализа данных
  • Понимание актуальных методов машинного обучения (к которым относится не только глубокое обучение)

Для того, чтобы "влиться" в эту сферу, Андрей Созыкин рекомендует, в частности, следующие курсы:

  • Machine Learning (Coursera, курс от Эндрю Ына)
  • Neural Networks for Machine Learning (Coursera, курс от Джефри Хинтона)
  • Data Analyst (Udacity, курс подготовлен совместно с Facebook)
  • Machine Learning Engineer (Udacity, курс подготовлен совместно с Kaggle)

Освоить теорию, по словам Андрея Созыкина, можно примерно за год - в особенности, если вы уже обучаетесь на специальности с уклоном в статистику или IT. Медицинский или естественнонаучный бекграунд, опыт работы в банковском секторе или страховании, тоже могут быть как нельзя кстати.

Андрей подчеркивает, что будущему специалисту важно обладать не только фундаментальными, инженерными знаниями, но и разбираться в предметной области, в которой будет идти работа. В конце концов, одна из проблем, с которой сейчас сталкиваются крупные компании, работающие с Большими данными, - невозможность эффективного применить на практике полученные результаты исследований.

Разумеется, человек с таким набором знаний - большая редкость. Поэтому и Data science, как правило, - дисциплина не одиночная, а "командная":

Это принципиально мультидисциплинарное направление. […] допустим, кто-то отлично программирует, кто-то на очень высоком уровне знает математику, а кто-то разбирается в тех же банках, а все вместе они выдают результат

- Андрей Созыкин

"Аналитический урбанизм"


Необычный пример такого мультидисциплинарного подхода - работа специалиста по Большим данным и Data science Клаудио Сильвы, профессора Политехнического института и Центра городских исследований и прогресса Нью-Йоркского университета. В 2015 году он впервые посетил Университет ИТМО и дал интервью о том, как Data science может быть связана с урбанистикой.

Клаудио воспринимает информацию, которая генерируется в городах, как "безотходное производство": Большие данные, создающиеся в процессе работы многочисленных городских служб и предприятий, могут послужить городу во благо. Например, специалисты по работе с данными в Нью-Йорке разработали продукт, позволяющий инженерам городских путей эффективно использовать информацию о передвижении нью-йоркских такси.

Нам важно, чтобы все решения, принимаемые городскими управленцами, инженерами, архитекторами, следовали логике данных, чтобы они не были спонтанными или плохо взвешенными. У нас есть возможность более широко смотреть на то, как должен развиваться город, и нужно пользоваться ею

- Клаудио Сильва

По словам Андрея Созыкина, основные направления для развития сферы Data science - разработка аппаратного обеспечения для ускорения обучения, создание более сложных и точных алгоритмов обучения и построения сетей. Не менее важная задача - научиться лучше понимать, как "думает" сеть - от этого зависит то, насколько широко будут применяться разработки специалистов по Data science в сферах, непосредственно связанных с жизнью человека:

Для нас она [сеть] работает в так называемом режиме black box - "черного ящика". Мы не понимаем, что у нее происходит внутри и почему она предлагает именно такие варианты. В медицине это неприемлемо, ведь в этой области мы должны четко объяснить и аргументировать каждое действие

-Андрей Созыкин

Отметим, что в Университете ИТМО работой в направлении Data science занимается, в частности, Институт наукоемких компьютерных технологий (НИИ НКТ). О том, как сотрудники Института создают модели развития событий в местах массового скопления людей, анализируют настроение толпы и оценивают общественное мнение по данным социальных сетей

Интернет-магазин
Введение в технологии BIG DATA (EDU-BD-01)
 
Цена: 30 340 руб.
 
 
 
Цель курса - дать углубленное представление о технологиях Big Data, особенностях и перспективах их использования на практике.
 
Продолжительность - 4 дня Ближайшая дата проведения: 10 января 2018 года


 Распечатать »
 Правила публикации »
  Обсудить материал в конференции Дискуссии и обсуждения общего плана »
Написать редактору 
 Рекомендовать » Дата публикации: 24.05.2017 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
CorelDRAW Graphics Suite 2017. Электронный ключ
go1984 pro
ABViewer Enterprise пользовательская
ESET NOD32 Антивирус на 1 год для 3ПК или продление на 20 месяцев
Pinnacle Studio 18 Standard ESD. Электронный ключ.
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
3D сканер SENSE
CubeX Duo
MakerBot Replicator 5th GEN
MakerBot Replicator 2-head
CubeX
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Компьютерные книги. Рецензии и отзывы
Краткие описания программ и ссылки на них
Новые программы для Windows
СУБД Oracle "с нуля"
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
Обсуждения в форумах
IBM Watson - компьютерная лингвистика (1)
Интересная статья. Хотелось бы больше информации по системе PIQUANT получить.
 
 
 



    
rambler's top100 Rambler's Top100