От Данных К Информации

В последнее время в специализированной прессе все чаще появляется «загадочная» аббревиатура ILM — Information Lifecycle Management. Ведущие разработчики один за другим предлагают решения для той или иной части ILM, прекрасно описывая общую схему хранения данных в реорганизованном соответствующим образом дата-центре.

Однако, на наш взгляд, у российских заказчиков пока не сложилось четкого понимания, что такое ILM. Первое, что следует отметить: ILM – это не панацея, не технология, не решение и не руководство к действию.

Эта концепция отражает современный взгляд на корпоративные данные; совокупность управленческих практик, направленных на достижение оптимального баланса между ценностью информации для бизнеса и стоимостью инфраструктуры ее хранения.

ILM, по данным SNIA (Ассоциация индустрии сетей хранения данных, www.snia.org ) — это политики, процессы, практики, услуги и инструменты, используемые для сопоставления деловой ценности информации с наиболее подходящей и экономически эффективной инфраструктурой с момента создания информации до места ее развертывания.

Информация сопоставляется с бизнес-требованиями посредством политик управления и уровней обслуживания, связанных с приложениями, данными и метаданными.

Проще говоря, это концепция автоматического размещения данных в инфраструктуре дата-центра на основе требований бизнеса к параметрам безопасности, доступности информации и с учетом ее бизнес-ценности, актуальности и минимизации затрат на хранение.

Какие проблемы хранения данных помогает решить ILM? Не утоните в океане данных Ни для кого не секрет, что объем корпоративной информации увеличивается с каждым годом, причем очень серьезно.

По отчетам IDC, объем хранимых и обрабатываемых данных растет более чем на 70% в год. В среднестатистической современной компании три тысячи сотрудников ежедневно передают терабайты данных по электронной почте.

По оценкам Gartner, во всем мире в 2005 году ежедневно отправлялось 36 миллиардов электронных сообщений – в три раза больше, чем в 2001 году.

В некоторых конкретных отраслях, таких как медицина, объемы информации переживают экспоненциальный рост. Ситуация осложняется требованиями нормативных актов и внутрикорпоративных стандартов, которые требуют длительного хранения отдельных видов информации – иногда в течение 5-10 лет. Это означает, что компания, имеющая корпоративные данные скромного объема в 1 ТБ и показывающая прирост этих объемов на 60% в год (не самый крупный по современным меркам), через 10 лет будет хранить уже 110 ТБ информации.

Увеличение более чем в 100 раз! Проблема взрывного роста объемов данных тесно связана с другой проблемой: процессы управления распределенной инфраструктурой дата-центров постоянно усложняются.

Современный дата-центр состоит из тысяч взаимодействующих компонентов — серверов, элементов системы хранения данных (логических блоков, дисков, контроллеров, серверов управления, ленточных накопителей и т. д.), сети хранения данных и элементов локальной сети (маршрутизаторов, хост-контроллеров, адаптеров и т. д.).

) и т. д.).

Для управления сложной инфраструктурой используются специальные инструменты, причем для каждого типа элемента инфраструктуры они свои.

И чем больше разнородных компонентов в дата-центре, тем больше инструментов управления вам приходится использовать.

Что еще больше увеличивает сложность системы.

Кроме того, использование специализированных инструментов управления инфраструктурой не решает главную проблему — управление лавинообразно растущим потоком данных.

Компании продолжают хранить информацию в дорогих высокопроизводительных системах и, несмотря на падающую стоимость оборудования, с каждым годом тратят на ее хранение все больше средств.

Процесс резервного копирования становится все более сложным и занимает все больше времени.

При этом существующие средства управления недостаточно автоматизируют процессы хранения информации — администраторы фактически вручную выделяют место для ее хранения, устанавливают подключение к необходимым серверам, создают расписание резервного копирования, определяют источники и места назначения.

Текущую ситуацию в сфере хранения данных можно охарактеризовать следующим образом: объем данных катастрофически растет, и существующие инструменты управления не справляются с этим .

Нужны ли бизнесу все данные, хранящиеся в системах? Возвращаясь к примеру компании, которая за 10 лет увеличила объем корпоративной информации в 100 раз, зададимся вопросом: действительно ли ее бизнесу необходимы эти 110 ТБ данных, находящихся в оперативном хранилище? Очевидно нет. Со временем меняются как ценность данных, так и требования к их доступности и безопасности.

Таким образом, стоимость финансовой операции максимальна в течение первого месяца, а затем неуклонно снижается.

Кроме того, финансовая запись в ERP-системе компании и, скажем, личное письмо сотрудника имеют разную ценность для бизнеса на момент создания.

При этом все данные, включая устаревшие и ненужные, располагаются в операционных высокопроизводительных хранилищах дата-центра, при этом там должны храниться только те, к которым предъявляются высокие требования к доступности.

Анализ Enterprise Storage Group показывает, как ценность информации для бизнеса меняется с течением времени в зависимости от типа информации.

От данных к информации

Мы можем сделать важный вывод: разные классы информации имеют разную ценность для бизнеса, и эта ценность меняется со временем.

Следующим важным свойством корпоративных данных является их состояние.

Сгенерированные данные сохраняются в дата-центре для последующей обработки, а затем изменяются в зависимости от задач, решаемых бизнесом.

Пока данные изменяются, они находятся в активном состоянии и называются оперативными.

Но со временем наступает момент, когда данные «фиксируются» и уже не подлежат изменениям.

Их можно использовать для формирования новых документов, сводных отчетов и т. д. Такие данные называются справочными данными.

Естественным способом хранения справочных данных является архив.

В современных центрах обработки данных принято хранить живые и справочные данные вместе в одних и тех же репозиториях, что не только увеличивает стоимость хранения, но и создает трудности с соблюдением правил, регулирующих хранение определенных типов информации.

Наконец, есть еще одно условие – устаревшие данные, которые больше нигде не используются, а срок их хранения, регламентированный нормативными актами, истек.

Такие данные больше не нужны бизнесу, имеют нулевую ценность и могут быть удалены.

В настоящее время устаревшие данные отслеживаются практически вручную, удаление их из системы — административный кошмар, а хранение — пустая трата денег.

Вперед и вверх! Описывая текущую ситуацию с хранением данных, мы намеренно не акцентировали внимание на разнице между данными и информацией.

Аналогично эти различия не учитываются в современной практике организации процессов и инфраструктуры хранения.

Однако этот аспект является одним из наиболее важных в концепции ILM: данные ≠ информация Данные — это просто набор байтов, способ представления бизнес-информации в инфраструктуре хранения.

С этой точки зрения все они равноценны, поскольку их семантика не определена, и здесь важны такие параметры, как надежность хранения, безопасность и доступность.

Именно на этих характеристиках работают современные системы хранения данных и инструменты управления инфраструктурой.

Информация — это данные, которые имеют определенное значение для бизнеса.

Данные со схожей структурой, идентично расположенные в системе хранения, могут иметь совершенно разное значение и, следовательно, разную ценность для компании.

Например, личное письмо сотрудника, отправленное по электронной почте, и письмо того же сотрудника, содержащее конфиденциальную информацию о клиенте.

ILM предлагает отойти от управления данными и сосредоточиться на управлении информацией.

Для этого необходимо сначала изменить подход к его хранению.

ILM предлагает классифицировать деловую информацию компании до того, как она попадет в инфраструктуру хранения.

Классификация — это процесс, необходимый для эффективного управления жизненным циклом информации, придания хранимым данным адекватной семантики.

Для этого процесса вводятся понятия целей уровня обслуживания (SLO) и «политик», на основе которых будет управляться хранение информации.

SLO определяет, какие показатели ключевых характеристик (надежность, доступность и т.п.

) должна обеспечить инфраструктура хранения для данного класса информации.

«Политики» определяют необходимые действия с конкретными классами информации при возникновении определенных условий (например, при истечении срока жизни информации).

Основой формирования SLO и политик являются бизнес-требования и бизнес-процессы компании, а также различные нормативные акты.

Таким образом, подход к хранению данных в дата-центре становится информационно-ориентированным.

От данных к информации

Создаваемая информация засекречена, с ней связаны определенные SLO, на основании которых интегрированный в инфраструктуру механизм управления размещает эту информацию в соответствии с заданными политиками.

Это означает, что информация, требующая высокой доступности, будет поступать в высокопроизводительные системы хранения, а информация, не являющаяся критичной для бизнеса, будет размещаться в недорогом хранилище.

При этом механизмы работы приложений с данными не меняются, а средства управления постоянно контролируют ценность информации, ее состояние и перемещают ее в адекватные системы хранения в соответствии с политиками и SLO. В какой-то момент жизненного цикла информация может стать ссылочной, устаревшей или использоваться повторно.

Тогда механизм контроля в первом случае перенесет его в архив, во втором - просто удалит, а в третьем - переклассифицирует и свяжет с другим SLO. Таким образом, дата-центр, построенный по системе ILM, дает следующие основные преимущества:

снижение затрат на хранение информации (за счет своевременной передачи данных в недорогие системы хранения и уничтожения устаревшей информации); Строгое соблюдение правил хранения данных за счет автоматического применения политик; достижение соответствия характеристик хранения (надежность, защищенность, доступность и т.п.
) различным классам информации; исключение дублирования информации (за счет управления справочными данными).
И при этом информация всегда предоставляется в нужном месте, в нужное время и по нужной цене.

Теги: #ILM #хранилище #предприятие #Чулан