(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

MS SQL Server 2012 раскладывает данные "по полочкам"

Источник: cnews

Любой бизнес опирается на информацию. Данные о заказчиках и контрагентах, собственных сотрудниках, продажах и поставках - все это содержится в десятках и сотнях таблиц баз данных, без которых сегодня немыслима успешная деловая деятельность. База данных (БД) является виртуальным аналогом вместительного шкафа с документами - это единое место для хранения, упорядочения и доступа ко всей информации предприятия.

Но всегда ли бизнес эффективно хранит и использует эту информацию?

Традиционно система управления базой данных (СУБД) считается лишь хранилищем информации для определенного программного приложения. Причем последнее обычно поддерживает работу с различными СУБД от нескольких производителей. Например, "1С: Предприятие 8.2" работает с разными версиями SQL Server, PostgreSQL, IBM DB2, Oracle Database и т. д.

По этой причине многие заказчики, как правило, не задумываются о том, какую СУБД приобрести для своих бизнес-приложений. Основным критерием для них остаётся тот факт, что она должна удовлетворять системным требованиям бизнес-приложения и предлагаться по доступной цене (а в некоторых случаях - и бесплатно). Немногие задумывается над тем, что СУБД может обладать дополнительным и очень полезным функционалом. В то же время бизнес часто ставит перед ИТ-системами новые задачи, которые уже не в состоянии решить стандартные хранилища данных.

Речь идет, прежде всего, о производительности: сегодня количество данных в компаниях увеличивается настолько быстрыми темпами, что старые технологии по хранению и обработке информации уже не позволяют обеспечить приемлемые показатели. Соответственно, решение этой задачи является актуальной проблемой, доставляющей немало хлопот современным предприятиям.

Довольно часто бизнесу приходится работать с данными из различных источников

Сегодня в хранилищах различных организаций накоплены внушительные объемы данных, которые уже не подвергаются никакой модификации. Тем не менее, выполнение всестороннего анализа этой информации позволяет выявить определенные тенденции в деловой активности компании, спрогнозировать будущие результаты и тем самым сформировать стратегию развития бизнеса. Это вторая важная задача, над решением которой часто приходится задумываться компаниям, желающим выстоять в конкурентной борьбе.

И, наконец, третья задача связана с обработкой, "очисткой" данных, поступающих из разных источников, для хранения их в некой унифицированной форме. На языке экспертов этот процесс обозначают термины MDM (Master Data Management) и DQS (Data Quality Service). Вышеуказанную задачу легко пояснить на примере сортировки писем в почтовом отделении.

 Сортировщик группирует письма исходя из адреса доставки, однако люди часто пишут его по-разному. Так, если город назначения - Москва, то одни его пишут как г. Москва, другие - просто Москва, третьи - гор. Москва, иностранцы могут написать Moscow или Moskva, встречается также ошибочное написание, например Масква или Moskwa. Но когда сортировщик на почте просматривает эти адреса, он понимает, что это все вариации в написании одного и того же адреса. В то же время, для компьютера г. Москва и гор. Москва - это разные адреса, и чтобы заставить его обрабатывать как один адрес, данные должны предварительно пройти "очистку" и унификацию.

Для решения трех вышеописанных задач производители СУБД предлагают дополнительные решения. За отдельную плату. Например, для решения задач бизнес-аналитики компания Oracle предлагает систему Oracle Business Intelligence (BI). Это обширный комплекс технологий и приложений, обеспечивающих представление внутренней организации бизнеса и включающих BI-приложения, технологические BI-платформы и хранилища данных. В свою очередь, IBM, разработчик известной СУБД DB2, поставляет своим заказчикам аналитическую систему IBM Cognos Business Intelligence.

Для подготовки данных в соответствии со стандартами НСИ (нормативно-справочной информации) IBM предлагает решение класса MDM/DQS: IBM WebSphere Product Center

Впрочем, всегда ли необходимо приобретать дополнительные возможности за дополнительные деньги? Новый SQL Server 2012 обладает широким и разносторонним функционалом, значительно выходящим за рамки стандартной СУБД. Более того, уже традиционно Microsoft включает в состав своего ПО модули, которые у других производителей поставляются как отдельные платные продукты. Как решаются в новой СУБД MS SQL Server все три вышеописанные задачи?

Многообразие технологий

SQL Server 2012 содержит большой набор технологий, отвечающих за управление данными предприятия (EIM, Enterprise Information Management) и позволяющих решать ряд проблем, с которыми сталкивается компания, работающая с большим количеством номенклатурной, учетной и справочной информации. Функциональность EIM в SQL Server 2012 реализуется такими сервисами, как Data Quality Services (DQS), Master Data Services (MDS) и SQL Server Integration Services (SSIS). Но если механизмы MDS, отвечающие за создание и поддержание мастер-данных, и механизмы SSIS, ведающие процессами ETL, были значительно обновлены и улучшены в новой версии, то механизм DQS является нововведением, появившимся только в SQL 2012.

Функции MDM и DQS

Довольно часто бизнесу приходится работать с данными из различных источников. Нередко информация, которую необходимо занести в корпоративную базу данных, является "сырой", то есть не соответствующей стандартным требованиям компании. Чтобы не превратить БД в некую "свалку" необработанных данных, эту информацию необходимо соответствующим образом подготовить. Для реализации этой цели служат системы MDM и DQS.

Термин MDM (Master Data Management) на русский язык переводится как "служба управления нормативно-справочной информацией". Фактически, это система управления мастер-данными, которая направлена на то, чтобы привести их единому стандарту (так сказать, к "общему знаменателю"). Мы уже упоминали выше про суть MDM на примере сортировки писем в почтовых отделениях. А вот пример, более приближенный к реальному бизнесу. Крупный розничный магазин, торгующий канцелярскими товарами, заключил контракты с множеством поставщиков, которые поставляют ему белую бумагу для принтеров и копиров. При этом один контрагент указывает в счет-фактуре для оплаты бумаги свой товар как "Бумага белая копировальная", другой - "бумага для принтера", третий - "бумага Xerox". И хотя на самом деле это одна и та же бумага, в ERP-системе предприятия она занесена под разными названиям. В результате, работа с подобными "сырыми" данными приводит к значительным сложностям при сбыте и учете.

Чтобы решить проблему подобного "разнобоя", используется мастер-справочник: поступающая информация сопоставляется с мастер-данными в справочнике.

Впервые функция MDM появилась еще в SQL Server 2008 R2, однако возможности MDM были значительно ограничены. В 2012-й версии функционал MDM улучшен и доработан.

Прежде всего, появилась возможность выполнять групповые операции над записями. В старой версии SQL Server эта функция отсутствовала. Кроме того, раньше требовалась довольно сложная работа по преобразованию данных в такой формат, который "понятен" MDM-функции. Теперь работа с MDM стала гораздо проще, поскольку можно предоставлять данные в своем "родном" формате.

Все записи, атрибуты, иерархии и бизнес-правила, используемые для хранения и обработки мастер-данных, задаются в SQL Server 2012 с помощью специальных метамоделей. Эти метамодели могут быть настроены таким образом, чтобы полностью соответствовать информационной структуре компании.

Необходимо отметить, что все записи и иерархии системы находятся под версионным контролем. При этом в любой момент времени можно добавить новую версию данных/иерархии и просмотреть все доступные для использования версии записей и иерархии.

Отдельного упоминания заслуживает функция нечеткого поиска (fuzzy search), позволяющая находить близкие, но не совпадающие полностью значения. Данный механизм во многом решает проблемы дублирования данных, возникающие при внесении схожей информации из различных источников, а также из-за ошибок операторов, допускающих опечатки во время работы.

Кроме того, новая версия SQL Server позволяет в удобной форме определять и настраивать различные бизнес- правила, которые контролируют качество заносимых в систему данных.

Изменения мастер-данных отслеживаются в специальном транзакционном журнале, который фиксирует такие параметры, как изменение данных, а также кто и когда их осуществил. Ценность этого модуля состоит не только в отслеживании всех этапов работы с данными, но и в возможности вернуться к одной из предыдущих версий.

Вся работа с данными в хранилище НСИ происходит через специальный изолирующий слой публикации данных, который необходим для обеспечения повышенного уровня безопасности, унификации методов взаимодействия с хранилищем и интеграции с Корпоративной Сервисной Шиной.

Новый SQL Server позволяет разграничить доступ к следующим частям: функционалу, моделям, записям и полям. При этом поддерживается наследование и каскадирование прав доступа. Например, пользователь может иметь права на редактирование информации о поставках, но при этом лишь права на чтение данных по продажам.

В системе можно выделить три типа ролей пользователей: специалист НСИ, эксперт НСИ и администратор НСИ. Специалист НСИ отвечает за поддержание НСИ в корректном и актуальном состоянии. Интерфейс MDM-модуля позволяет ему осуществлять утверждение/отклонение запросов на добавление и изменение элементов, изменять и добавлять записи вручную, просматривать журнал изменений и возвращаться к одной из предыдущих версий. Специалист НСИ оповещается по электронной почте о возникновении ситуаций, требующих его вмешательства. Например: в систему поступили данные, требующие дополнительного утверждения, или данные, не удовлетворяющие определенному набору бизнес-правил.

Основной задачей Эксперта НСИ является управление моделями (иерархией и классификаторами) и различными функциональными параметрами системы. Эксперт НСИ может через веб-интерфейс системы задать/изменить метамодель (в том числе и иерархию, связи между элементами и пр.), создать новую версию метамодели, определить и отредактировать бизнес-правила, задать параметры для нечеткого поиска.

Администратор НСИ отвечает за нефункциональную часть системы. Интерфейс Администратора предоставляет такие возможности как разграничение прав доступа всех пользователей, настройка оповещений, настройка интеграционной части системы.


Сегодня в хранилищах различных организаций накоплены внушительные объемы данных, которые уже не подвергаются никакой модификации

Совершенно новой функцией SQL Server 2012 можно назвать Data Quality Service (DQS), службу управления качеством данных. Этот сервис определяет пригодность тех или иных данных, используемых для принятия каких-либо бизнес-решений. В принципе, подобные операции были возможны и в SQL Server 2008 R2 благодаря таким механизмам как Fuzzy Logic, Data Cleansing и т. п. Теперь же все эти инструменты объединены в единый сервис DQS.

Со своей задачей это решение справляется, создавая и поддерживая набор базы знаний качества данных Data Quality Knowledge Base (DQKB), представляющей собой формальное описание механизмов загрузки, обработки и преобразования данных, согласно форматам, определенным в системе EIM. Таким образом, использование DQS вводит новую роль на предприятии - роль Управляющего Данными (Data Steward), человека, ответственного за обеспечение и поддержание определенного качества данных внутри предприятия, что дает возможность прочим системам, использующим эти данные, работать прозрачно, прямолинейно и без взаимных коллизий.

DQS позволяет определять синтаксические ошибки, проводить валидацию, взаимное соответствие, искать синонимы, устранять коллизии. Например, для выявления синтаксических ошибок используется алгоритм под названием "Анна Каренина", который позволяет загружать в EIM-систему данные, написанные в разном формате, имеющие синтаксические или орфографические ошибки, не соответствующие логике ввода (например - перепутаны имя и фамилия в полях ввода Ф.И.О.) и т.п. Таким образом, данные проходят очистку и унификацию.

Службы Data Quality Services можно запускать как автономное средство или интегрировать со службами SQL Server Integration Services (SSIS). Пользователи SQLServer 2012 смогут получать доступ к веб-сайту Windows Azure Marketplace Data Market, который можно использовать в качестве источника сторонних данных для проверки и очистки данных в рамках проектов по оценке качества данных.

Бизнес-анализ в SQL Server 2012

Благодаря расширению языка запросов и появлению иерархии "многие ко многим" новая СУБД от Microsoft обеспечивает качественно новые возможности анализа. Это позволяет пользователям интегрировать данные практически из любого источника, создавать эффективные отчеты и аналитические приложения. Кроме того, теперь появилась возможность обмениваться данными анализа и совместно работать над ними с помощью привычных инструментов Microsoft® Excel 2010 и Microsoft SharePoint 2010.

Среди новых и улучшенных функций продукта в области BI стоит отметить такие инструменты как BISM и PowerView.

BI Semantic Model (BISM)

Это новая семантическая модель BI в SQL Server 2012, которая позволяет сделать разработку OLAP-кубов проще. Фактически, она является заменой существующей модели UDM (Unified Dimensional Model), которая сейчас считается стандартом для разработки BI-кубов и включает в себя правила и методологию создания основных элементов аналитической модели: измерений, иерархий, показателей, моделей Data Mining и т.п. Однако UDM - крайне сложный для освоения механизм, требующий навыков многомерного проектирования моделей данных. В отличие от неё, BISM предлагает более простую табличную форму представления модели данных.

BISM - это простая и понятная система, позволяющая строить простые запросы гораздо более эффективно и быстро. Этот факт открывает новые горизонты для использования комплексной аналитики, в том числе и бизнес-пользователями, которые теперь могут самостоятельно строить сложные и многомерные аналитические запросы, используя простой и понятный механизм BISM, внешне похожий на таблицы Excel.

При этом UDM также остается и продолжает развиваться параллельно с BISM, предоставляя более глубинные, но и более сложные подходы к формированию OLAP-моделей, которые могут потребоваться в сложных проектах.

Особенности применения BISM и UDM рассмотрим на примерах, приведенных ниже.

Предположим, сотруднику необходимо просмотреть итоги продаж в компании за последний месяц. Ему достаточно подключится к таблице с данными по сбыту и BISM "подтянет" все связанные таблицы. Далее сотрудник может подключиться через RSS к какому-либо экономическому сайту, загрузить текущую рыночную сводку и подключить её к своему отчету. Таким образом, BISM позволяет построить отчет не только по своей компании, но и сравнить их со средними показателями по рынку в целом. При желании можно быстро подключать и другие таблицы, например данные по продажам конкурентов.

А вот UDM используется для создания сложных запросов с множеством условий. Допустим, необходимо найти клиентов компании, закупки которых росли хотя бы месяц в диапазоне от 5% до 8% , у которых годовой оборот не превышает 100 тыс. долл., и при этом наиболее часто покупаемый ими продукт входит в десятку самых продаваемых продуктов компании. Подобный комплексный запрос можно сделать только в многомерной модели UDM.

PowerView

Еще одно нововведение в SQL Server 2012 - это новая подсистема визуализации и репортинга под названием PowerView (ранее называвшаяся Project Crescent), которая представляет собой высокоинтерактивное решение для визуализации и модификации отчетности через веб-интерфейс. PowerView использует мощнейшую графическую web-платформу Silverlight, которая позволяет использовать анимационные и графические эффекты, а также совершенно новые визуальные элементы, позволяющие ярко и образно отображать аналитическую информацию. Значительное внимание уделено внешнему виду графики и интерфейсу, который стал более удобным и эффективным.

Помимо этого, важной особенностью PowerView является возможность полной модификации отчетов (что раньше отсутствовало в отчетности Reporting Services). Работая в связке с BISM, она позволяет пользователям получать доступ к той информации, которая им необходима прямо во время просмотра отчета и без привлечения IT-службы.

Индекс ColumnStore

Для ускорения производительности обработки данных в новой СУБД SQL Server 2012 используется столбцовое хранение данных в памяти: так называемый индекс ColumnStore. Разработка индекса ColumnStore объединяет технологию VertiPaq (которая является основанием для PowerPivot) и новую парадигму выполнения запросов, называемую пакетной обработкой, и обеспечивает беспрецедентное увеличение скорости обработки типичных запросов к хранилищу данных.

Фактически индекс ColumnStore - это индекс, создаваемый поверх существующей таблицы, основанной на строчном хранении, который обеспечивает представление данных, распределяющее индекс по определенным столбцам. Конкретный уровень роста производительности зависит от данных и характера запроса, и (по результатам тестирования и при наиболее благоприятном стечении обстоятельств) данная технология позволяет добиться 100-кратного повышения производительности.

В отличие от большинства СУБД, предлагающих исключительно функции хранения данных, SQL Server 2012 предоставляет гораздо более широкий функционал. Разработчики Microsoft немало потрудились над тем, чтобы улучшить уже существующие модули и интегрировать ряд новых инструментов. Новый "Сиквел Сервер" превратился в мощный многофункциональный комплекс, предоставляющий множество различных дополнительных средств, которые сослужат хорошую службу для тех, кто желает "выжать" всё из ИТ.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 04.04.2012 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Microsoft 365 Business Basic (corporate)
Microsoft 365 Apps for business (corporate)
Microsoft 365 Business Standard (corporate)
Microsoft Office для дома и учебы 2019 (лицензия ESD)
Microsoft Office 365 Профессиональный Плюс. Подписка на 1 рабочее место на 1 год
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Безопасность компьютерных сетей и защита информации
Новости ITShop.ru - ПО, книги, документация, курсы обучения
CASE-технологии
Программирование на Microsoft Access
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
Новые материалы
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100