(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Метаданные - ключ к управлению большими данными

Источник: itweek

В эпоху больших данных необходим новых подход к управлению данными, пишут на портале InformationWeek сотрудники eBay Аруп Малиаккал Падманабхан (старший менеджер команды инжиниринга платформы) и Тиффани Нгуен (старший программный инженер). Данные поступают из множества источников и должны распределяться по предприятию в различных форматах.

Объем, разнообразие и быстрота поступления данных продолжают расти ошеломительными темпами, что ставит перед компаниями две неотложные проблемы: как выделить из этих данных знания, которые послужат основой действий, и как защитить данные. Решение обеих проблем напрямую связано с управлением данными.

Необходимый уровень управления может обеспечить экосистема Hadoop с помощью метаданных. В идеале - на единой платформе данных.

Новый подход к управлению необходим по ряду причин. В эпоху больших данных они распределяются по предприятию. Данные могут быть структурированными, неструктурированными, полуструктурированными и т. д. Источники данных недоступны тем командам, которые должны управлять данными.

В таких условиях управление данными преследует три важные цели:

  • поддержание качества данных;
  • реализация контроля доступа и других мер для обеспечения безопасности данных;
  • выделение метаданных из наборов данных, чтобы содействовать их защите и потреблению конечными пользователям.

Решения в экосистеме Hadoop

Одним из способов управления данными в среде Hadoop является расстановка тегов. При таком подходе метаданные, которые будут управлять использованием данных, встраиваются в сами данные при прохождении ими различных систем предприятия. Более того, метаданные расширяются и включают дополнительную информацию помимо таких обычных атрибутов, как размер файла, разрешения, даты модификации и т. д. Например, они могут включать сведения о бизнесе, что поможет специалисту по данным оценить полезность данных в конкретной предсказательной модели.

Наконец, в отличие от самих корпоративных данных метаданные могут быть централизованы на единой платформе.

Стандартная файловая система Hadoop Distributed File System (HDFS) способна присваивать расширенные атрибуты, что позволяет обогатить метаданные. Но для больших данных это не всегда подходит. К счастью, имеются альтернативные решения. Система управления метаданными Apache Atlas позволяет присваивать данным теги, а также может служить централизованным хранилищем метаданных. Такое хранилище станет "единым окном" для аналитиков, которые ищут релевантные наборы данных. Кроме того, пользователи популярных систем извлечения данных Hive и Spark SQL, которые являются дружественными для Hadoop, могут самостоятельно расставлять теги.

В целях безопасности Atlas может быть интегрирован с Apache Ranger - системой, обеспечивающей доступ к платформам Hadoop на основе ролей.

Проблемы загрузки метаданных

Как первоначальная загрузка метаданных на платформу Atlas, так и поэтапная загрузка в последующем сопряжены со значительными трудностями. На крупных предприятиях на начальном этапе основную проблему будет представлять объем данных. Для повышения эффективности загрузки может потребоваться оптимизация программного кода.

Последующая поэтапная загрузка представляет более сложную проблему, поскольку таблицы, индексы и авторизованные пользователи непрерывно меняются. Если эти изменения не будут быстро отражаться в доступных метаданных, конечным результатом станет снижение качества данных, доступных конечным пользователям. Чтобы избежать такой проблемы, в число строительных блоков системы следует добавить прослушивателей событий, которые будут фиксировать и обрабатывать изменения практически в реальном времени. Решение реального времени означает не просто улучшение качества данных. Оно также повышает производительность труда разработчиков, которым больше не придется ждать пакетной обработки.

Фундамент цифровой трансформации

Компании осуществляют цифровую трансформацию и пытаются стать в большей степени управляемыми данными. В данной связи высшему руководству следует помнить, что на этом пути нельзя достичь результатов без качества данных и что это требует сильного управления. Если затрагиваются большие данные, то управление на базе расширенных метаданных, хранящихся в центральном репозитории, является работоспособным решением.



 Распечатать »
 Правила публикации »
  Обсудить материал в конференции Дискуссии и обсуждения общего плана »
Написать редактору 
 Рекомендовать » Дата публикации: 03.12.2018 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Kerio Connect - Server (incl 5 users, 1 yr SWM)
DeviceLock Endpoint DLP Suite - от 1 ПК до 24 ПК
Acronis Backup 12.5 Standard Windows Server Essentials License incl. AAP ESD 1 Range
DevExpress / ASP.NET Subscription
Антивирус ESET NOD32 SMALL Business Pack renewal for 5 user. Электронный ключ.
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Компьютерный дизайн - Все графические редакторы
СУБД Oracle "с нуля"
Краткие описания программ и ссылки на них
Проект mic-hard - все об XP - новости, статьи, советы
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
Обсуждения в форумах
IBM Watson - компьютерная лингвистика (1)
Интересная статья. Хотелось бы больше информации по системе PIQUANT получить.
 
 
 



    
rambler's top100 Rambler's Top100