Нажмите "Enter", чтобы перейти к содержанию

Хранилище данных это: Что представляет собой хранилище данных? | Основные понятия | Amazon Web Services

Содержание

Хранилище данных (Data Warehouse) · Loginom Wiki

Разделы: Источники данных

Loginom: Deductor Warehouse

Хранилище данных представляет собой предметно-ориентированный, интегрированный, неизменчивый и поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений. Хранилища данных позволяют эффективнее, быстрее и качественнее предоставлять данные для систем их аналитической обработки, чем обычные СУБД.

  • Предметная ориентированность означает, что данные в хранилище объединены в соответствии с областями, которые они описывают, а не с приложениями, которые их используют.
  • Интегрированность означает, что хранилище должно поддерживать совместное хранение данных различной природы, форматов и типов, отражающих различные аспекты предметной области, а не отдельные бизнес-функции. Данные содержатся внутри хранилища в его едином внутреннем формате.
  • Неизменчивость подразумевает, что для данных в хранилище предусмотрена только операция добавления, а удалять или изменять их нельзя. Если какие-либо изменения все же необходимы, «перегружается» все хранилище целиком. Необходимость такого подхода объясняется тем, что при промышленной эксплуатации хранилища совместно с аналитическими платформами один и тот же запрос к нему, выполняемый в любое время, должен обеспечить предоставление одних и тех же данных. Очевидно, что если бы в хранилище были разрешены изменения, то два одинаковых запроса, выполняемые с некоторым интервалом, в течение которого данные могли измениться, сформируют два различных набора данных, анализ которых может привести к некорректным заключениям и выводам, что недопустимо.
  • Поддержка хронологии указывает на то, что хранение данных организовано с учетом даты и времени их появления, для чего каждой записи присваивается специальная метка времени (time stamp), что позволяет извлекать данные в хронологическом порядке и анализировать временные последовательности.

Хранилища могут использовать реляционную модель, когда данные в них нормализованы, или многомерную, использующую так называемые измерения. В нормализованных хранилищах данные содержатся в таблицах третьей нормальной формы. Преимущество нормализованных ХД заключается в простоте разработки и управления. Недостатком является необходимость денормализации данных «на лету» при их извлечении из множества таблиц при выполнении сложных аналитических запросов.

При формировании больших выборок это приводит к значительным задержкам в получении данных, а если хранилище и аналитическая платформа интегрированы в информационную систему предприятия, то возрастает нагрузка на всю систему, что может осложнить работу многих пользователей. Данную проблему частично удается решить, используя в хранилище модель данных, основанную на измерениях. Применяются две разновидности многомерных моделей данных — «звезда» и «снежинка». Все загружаемые в хранилище данные обязательно должны быть определены как измерение, атрибут либо факт.

Кроме собственно данных, описывающих бизнес-процессы компании, в хранилище содержатся метаданные — служебные данные, описывающие структуру хранилища, содержащие информацию о принадлежности данных к тому или иному типу или виду (измерение, атрибут или факт). С помощью метаданных формируется семантический слой, который обеспечивает визуальные средства управления данными и метаданными. Метаданные в хранилищах разделяют на технические (обеспечивают работу самого хранилища), и бизнес-метаданные (описывают структуру данных в рамках заданной бизнес-модели).

В промышленной эксплуатации основными источниками данных для хранилищ являются OLTP-системы. Кроме этого, источниками быть любые файлы в информационной системе предприятия, где содержится структурированная информация, анализ которой, как ожидается, может дать полезные знания. Такие файлы могут иметь различные типы и форматы — электронные таблицы (Excel), настольные СУБД (Access), текст с разделителями (TXT, CSV-файлы), файлы учетных систем (1С:Предприятие, Парус) и т.д. Поэтому для хранилищ данных очень важно иметь развитые средства для загрузки и интегрирования данных из различных типов и форматов.

Автором концепции хранилищ данных в том виде, в каком она существует в настоящее время, считается Билл Инмон, который ввел данный термин в 1970-х. Большой вклад в развитие теории хранилищ данных и практики их использования в области бизнес-анализа и поддержки принятия решений внес Ральф Кимбалл, который также является автором многомерной модели данных.

Озеро данных, хранилище данных и база данных… В чем разница?

Сейчас есть довольно много модных словечек, касающихся управления данными. Озера данных, хранилища данных и базы данных – что это такое? В этой статье мы рассмотрим их, а также их определения, ключевые различия и то, как мы видим в будущее в этой сфере.

 

Определение озера данных

Если вам нужна полная и подробная информация по этому вопросу, вы можете прочитать нашу статью «Что такое озеро данных?» Но здесь мы можем сказать вам одно: «Озеро данных – это место для хранения ваших структурированных и неструктурированных данных, а также метод организации больших объемов очень разнообразных данных из разных источников».

Озеро данных имеет тенденцию очень быстро принимать данные и обрабатывать их позже, на лету, когда люди к ним обращаются.

Никогда не пропускайте новости о больших данных! Подпишитесь на блог Big Data, чтобы получать свежие сообщения прямо на свой почтовый ящик!

 

Определение хранилища данных

Хранилище данных собирает данные из различных источников, внутренних или внешних, и оптимизирует данные для извлечения в коммерческих целях. Данные обычно структурированы, часто из реляционных баз данных, но могут быть и неструктурированными.

В первую очередь, хранилище данных предназначено для сбора бизнес-информации и позволяет компаниям интегрировать свои данные, управлять ими и анализировать их на многих уровнях.

 

Определение базы данных

По сути, база данных – это организованный набор данных. Базы данных классифицируются по способу хранения этих данных. Ранние базы данных были плоскими и ограничивались простыми строками и столбцами. Сегодня популярными базами данных являются:

  • Реляционные базы данных, которые хранят свои данные в таблицах.
  • Объектно-ориентированные базы данных, которые хранят свои данные в объектных классах и подклассах.

 

Витрина данных, болото данных и другие термины

Но есть и другие термины, такие как «витрина данных» и «болото данных», которые мы здесь вкратце рассмотрим, чтобы вы могли выглядеть совсем как эксперт в сфере данных.

Корпоративное хранилище данных (EDW): это хранилище данных, которое обслуживает всю компанию.

Витрина данных: витрина данных используется отдельными отделами или группами и намеренно ограничена по объему, поскольку она рассматривает то, что пользователям нужно прямо сейчас, из данных, которые уже существуют.

Болото данных: когда ваше озеро данных становится беспорядочным и неуправляемым, оно превращается в болото данных.

 

Различия между озерами данных, хранилищами данных и базами данных

Озера данных, хранилища данных и базы данных предназначены для хранения данных. Итак, почему же существуют разные способы хранения данных и что в них важного? В этом разделе мы рассмотрим существенные различия, и каждое определение будет основано на предыдущем.

 

База данных

Базы данных возникли первыми еще в 1950-х годах, а реляционные базы данных стали популярными в 1980-х.

Базы данных созданы для мониторинга и обновления структурированных данных в реальном времени, и в них обычно находятся только самые свежие данные.

 

Хранилище данных

Но хранилище данных – это модель для поддержки потока данных из операционных систем в системы принятия решений. По сути, это означает, что компании обнаруживали, что их данные поступают из разных мест, и им требовалось отдельное место для их анализа. Следовательно, это означало рост хранилищ данных.

Например, предположим, что у вас есть бонусная карта в сети продуктовых магазинов. В базе данных могут быть ваши данные с последними покупками для анализа текущих покупательских тенденций. Хранилище данных может содержать записи обо всех товарах, которые вы когда-либо покупали, и оно будет оптимизировано, чтобы специалистам по данным было легче анализировать все эти данные.

 

Озеро данных

Теперь давайте добавим озеро данных. А поскольку это более новый термин, мы поговорим о нем подробнее. Озера данных, как способ хранения неструктурированных данных более экономичным способом, начали расти примерно в 2000-х годах. Ключевая фраза здесь – рентабельность.

Хотя базы данных и хранилища данных могут обрабатывать неструктурированные данные, они делают это не очень эффективно. При таком большом количестве данных хранение всех ваших данных в базе данных или хранилище данных может стать весьма дорогостоящим.

Кроме того, есть ограничение по времени и усилиям. Данные, которые поступают в базы данных и хранилища данных, необходимо очистить и подготовить перед сохранением. А с сегодняшними неструктурированными данными это может оказаться долгим и трудным процессом, когда вы даже не совсем уверены, что данные будут использоваться.

Вот почему озера данных вышли на первый план. Озеро данных в основном предназначено для обработки неструктурированных данных самым экономичным способом. Напоминаем, что неструктурированные данные могут быть чем угодно, от текста до данных социальных сетей и машинных данных, таких как файлы журналов и данные датчиков с устройств IoT.

 

Пример озера данных

Возвращаясь к примеру с продуктовым магазином, который мы использовали с хранилищем данных, вы можете подумать о добавлении озера данных в смесь, когда вам нужен способ хранения больших данных. Подумайте о социальных настроениях, которые вы собираете, или о результатах рекламы. Все это неструктурировано, но представляет ценность, и может храниться в озере данных и работать как с вашим хранилищем данных, так и с вашей базой данных.

Примечание 1. Наличие озера данных не означает, что вы можете просто загрузить свои данные волей-неволей. Это приводит к огромному количеству данных, но в то же время, упрощает процесс, а новые технологии, такие как каталог данных, будут постоянно упрощать поиск и использование данных в вашем озере данных.

Примечание 2. Если вам нужна дополнительная информация об идеальной архитектуре озера данных, вы можете прочитать полную статью, которую мы написали по этой теме. В ней объясняется, почему вы захотите, чтобы ваше озеро данных было построено на хранилище объектов и Apache Spark, а не на Hadoop.

 

Какое будущее у озер данных, хранилищ данных и баз данных?

Сможет ли одна из этих технологий превзойти другие?

Мы так не думаем.

Вот что мы видим. По мере роста ценности и объема неструктурированных данных озеро данных будет становиться все более популярным. Но всегда найдется место и для баз данных и хранилищ данных.

Вы, вероятно, продолжите хранить свои структурированные данные в базе данных или хранилище данных. Но в наши дни все больше компаний переносят свои неструктурированные данные в озера данных в облако, где их экономичнее хранить и легче перемещать, когда это необходимо.

Эта рабочая нагрузка, которая по-разному задействует базу данных, хранилище данных и озеро данных, работает и работает хорошо. Мы и дальше будем видеть ее в обозримом будущем.

Если вас интересует озеро данных, и вы хотите попробовать создать его самостоятельно, мы предлагаем бесплатную пробную версию озера данных с пошаговым руководством. Начните сегодня и не забудьте подписаться на блог Oracle Big Data, чтобы получать последние новости на свой почтовый ящик.

 

 

традиционная и облачная / Хабр

Привет, Хабр! На тему архитектуры хранилищ данных написано немало, но так лаконично и емко как в статье, на которую я случайно натолкнулся, еще не встречал.

Предлагаю и вам познакомиться с данной статьей в моем переводе. Комментарии и дополнения только приветствуются!


(Источник картинки)

Введение

Итак, архитектура хранилищ данных меняется. В этой статье рассмотрим сравнение традиционных корпоративных хранилищ данных и облачных решений с более низкой первоначальной стоимостью, улучшенной масштабируемостью и производительностью.

Хранилище данных – это система, в которой собраны данные из различных источников внутри компании и эти данные используются для поддержки принятия управленческих решений.

Компании все чаще переходят на облачные хранилища данных вместо традиционных локальных систем. Облачные хранилища данных имеют ряд отличий от традиционных хранилищ:

  • Нет необходимости покупать физическое оборудование;
  • Облачные хранилища данных быстрее и дешевле настроить и масштабировать;
  • Облачные хранилища данных обычно могут выполнять сложные аналитические запросы гораздо быстрее, потому что они используют массовую параллельную обработку.

Традиционная архитектура хранилища данных

Следующие концепции освещают некоторые из устоявшихся идей и принципов проектирования, используемых для создания традиционных хранилищ данных.

Трехуровневая архитектура

Довольно часто традиционная архитектура хранилища данных имеет трехуровневую структуру, состоящую из следующих уровней:

  • Нижний уровень: этот уровень содержит сервер базы данных, используемый для извлечения данных из множества различных источников, например, из транзакционных баз данных, используемых для интерфейсных приложений.
  • Средний уровень: средний уровень содержит сервер OLAP, который преобразует данные в структуру, лучше подходящую для анализа и сложных запросов. Сервер OLAP может работать двумя способами: либо в качестве расширенной системы управления реляционными базами данных, которая отображает операции над многомерными данными в стандартные реляционные операции (Relational OLAP), либо с использованием многомерной модели OLAP, которая непосредственно реализует многомерные данные и операции.
  • Верхний уровень: верхний уровень — это уровень клиента. Этот уровень содержит инструменты, используемые для высокоуровневого анализа данных, создания отчетов и анализа данных.


Kimball vs. Inmon

Два пионера хранилищ данных: Билл Инмон и Ральф Кимбалл предлагают разные подходы к проектированию.

Подход Ральфа Кимбалла основывается на важности витрин данных, которые являются хранилищами данных, принадлежащих конкретным направлениям бизнеса. Хранилище данных — это просто сочетание различных витрин данных, которые облегчают отчетность и анализ. Проект хранилища данных по принципу Кимбалла использует подход «снизу вверх».

Подход Билла Инмона основывается на том, что хранилище данных является централизованным хранилищем всех корпоративных данных. При таком подходе организация сначала создает нормализованную модель хранилища данных. Затем создаются витрины размерных данных на основе модели хранилища. Это известно как нисходящий подход к хранилищу данных.

Модели хранилищ данных

В традиционной архитектуре существует три общих модели хранилищ данных: виртуальное хранилище, витрина данных и корпоративное хранилище данных:

  • Виртуальное хранилище данных — это набор отдельных баз данных, которые можно использовать совместно, чтобы пользователь мог эффективно получать доступ ко всем данным, как если бы они хранились в одном хранилище данных;
  • Модель витрины данных используется для отчетности и анализа конкретных бизнес-линий. В этой модели хранилища – агрегированные данные из ряда исходных систем, относящихся к конкретной бизнес-сфере, такой как продажи или финансы;
  • Модель корпоративного хранилища данных предполагает хранение агрегированных данных, охватывающих всю организацию. Эта модель рассматривает хранилище данных как сердце информационной системы предприятия с интегрированными данными всех бизнес-единиц

Звезда vs. Снежинка

Схемы «звезда» и «снежинка» — это два способа структурировать хранилище данных.

Схема типа «звезда» имеет централизованное хранилище данных, которое хранится в таблице фактов. Схема разбивает таблицу фактов на ряд денормализованных таблиц измерений. Таблица фактов содержит агрегированные данные, которые будут использоваться для составления отчетов, а таблица измерений описывает хранимые данные.

Денормализованные проекты менее сложны, потому что данные сгруппированы. Таблица фактов использует только одну ссылку для присоединения к каждой таблице измерений. Более простая конструкция звездообразной схемы значительно упрощает написание сложных запросов.

Схема типа

«снежинка»

отличается тем, что использует нормализованные данные. Нормализация означает эффективную организацию данных так, чтобы все зависимости данных были определены, и каждая таблица содержала минимум избыточности. Таким образом, отдельные таблицы измерений разветвляются на отдельные таблицы измерений.

Схема «снежинки» использует меньше дискового пространства и лучше сохраняет целостность данных. Основным недостатком является сложность запросов, необходимых для доступа к данным — каждый запрос должен пройти несколько соединений таблиц, чтобы получить соответствующие данные.


ETL vs. ELT

ETL и ELT — два разных способа загрузки данных в хранилище.

ETL (Extract, Transform, Load) сначала извлекают данные из пула источников данных. Данные хранятся во временной промежуточной базе данных. Затем выполняются операции преобразования, чтобы структурировать и преобразовать данные в подходящую форму для целевой системы хранилища данных. Затем структурированные данные загружаются в хранилище и готовы к анализу.

В случае

ELT (Extract, Load, Transform)

данные сразу же загружаются после извлечения из исходных пулов данных. Промежуточная база данных отсутствует, что означает, что данные немедленно загружаются в единый централизованный репозиторий.

Данные преобразуются в системе хранилища данных для использования с инструментами бизнес-аналитики и аналитики.


Организационная зрелость

Структура хранилища данных организации также зависит от его текущей ситуации и потребностей.

Базовая структура позволяет конечным пользователям хранилища напрямую получать доступ к сводным данным, полученным из исходных систем, создавать отчеты и анализировать эти данные. Эта структура полезна для случаев, когда источники данных происходят из одних и тех же типов систем баз данных.

Хранилище с промежуточной областью является следующим логическим шагом в организации с разнородными источниками данных с множеством различных типов и форматов данных. Промежуточная область преобразует данные в обобщенный структурированный формат, который проще запрашивать с помощью инструментов анализа и отчетности.

Одной из разновидностей промежуточной структуры является добавление витрин данных в хранилище данных. В витринах данных хранятся сводные данные по конкретной сфере деятельности, что делает эти данные легко доступными для конкретных форм анализа.

Например, добавление витрин данных может позволить финансовому аналитику легче выполнять подробные запросы к данным о продажах, прогнозировать поведение клиентов. Витрины данных облегчают анализ, адаптируя данные специально для удовлетворения потребностей конечного пользователя.


Новые архитектуры хранилищ данных

В последние годы хранилища данных переходят в облако. Новые облачные хранилища данных не придерживаются традиционной архитектуры и каждое из них предлагает свою уникальную архитектуру.

В этом разделе кратко описываются архитектуры, используемые двумя наиболее популярными облачными хранилищами: Amazon Redshift и Google BigQuery.

Amazon Redshift


Amazon Redshift

— это облачное представление традиционного хранилища данных.

Redshift требует, чтобы вычислительные ресурсы были подготовлены и настроены в виде кластеров, которые содержат набор из одного или нескольких узлов. Каждый узел имеет свой собственный процессор, память и оперативную память. Leader Node компилирует запросы и передает их вычислительным узлам, которые выполняют запросы.

На каждом узле данные хранятся в блоках, называемых срезами. Redshift использует колоночное хранение, то есть каждый блок данных содержит значения из одного столбца в нескольких строках, а не из одной строки со значениями из нескольких столбцов.

Redshift использует архитектуру MPP (Massively Parallel Processing), разбивая большие наборы данных на куски, которые назначаются слайсам в каждом узле. Запросы выполняются быстрее, потому что вычислительные узлы обрабатывают запросы в каждом слайсе одновременно. Узел Leader Node объединяет результаты и возвращает их клиентскому приложению.

Клиентские приложения, такие как BI и аналитические инструменты, могут напрямую подключаться к Redshift с использованием драйверов PostgreSQL JDBC и ODBC с открытым исходным кодом. Таким образом, аналитики могут выполнять свои задачи непосредственно на данных Redshift.

Redshift может загружать только структурированные данные. Можно загружать данные в Redshift с использованием предварительно интегрированных систем, включая Amazon S3 и DynamoDB, путем передачи данных с любого локального хоста с подключением SSH или путем интеграции других источников данных с помощью API Redshift.

Google BigQuery

Архитектура BigQuery не требует сервера, а это означает, что Google динамически управляет распределением ресурсов компьютера. Поэтому все решения по управлению ресурсами скрыты от пользователя.

BigQuery позволяет клиентам загружать данные из Google Cloud Storage и других читаемых источников данных. Альтернативным вариантом является потоковая передача данных, что позволяет разработчикам добавлять данные в хранилище данных в режиме реального времени, строка за строкой, когда они становятся доступными.

BigQuery использует механизм выполнения запросов под названием Dremel, который может сканировать миллиарды строк данных всего за несколько секунд. Dremel использует массивно параллельные запросы для сканирования данных в базовой системе управления файлами Colossus. Colossus распределяет файлы на куски по 64 мегабайта среди множества вычислительных ресурсов, называемых узлами, которые сгруппированы в кластеры.
Dremel использует колоночную структуру данных, аналогичную Redshift. Древовидная архитектура отправляет запросы тысячам машин за считанные секунды.

Для выполнения запросов к данным используются простые команды SQL.

Panoply

Panoply обеспечивает комплексное управление данными как услуга. Его уникальная самооптимизирующаяся архитектура использует машинное обучение и обработку естественного языка (NLP) для моделирования и рационализации передачи данных от источника к анализу, сокращая время от данных до значения как можно ближе к нулю.

Интеллектуальная инфраструктура данных Panoply включает в себя следующие функции:

  • Анализ запросов и данных — определение наилучшей конфигурации для каждого варианта использования, корректировка ее с течением времени и создание индексов, сортировочных ключей, дисковых ключей, типов данных, вакуумирование и разбиение.
  • Идентификация запросов, которые не следуют передовым методам — например, те, которые включают вложенные циклы или неявное приведение — и переписывает их в эквивалентный запрос, требующий доли времени выполнения или ресурсов.
  • Оптимизация конфигурации сервера с течением времени на основе шаблонов запросов и изучения того, какая настройка сервера работает лучше всего. Платформа плавно переключает типы серверов и измеряет итоговую производительность.


По ту сторону облачных хранилищ данных

Облачные хранилища данных — это большой шаг вперед по сравнению с традиционными подходами к архитектуре. Однако пользователи по-прежнему сталкиваются с рядом проблем при их настройке:

  • Загрузка данных в облачные хранилища данных нетривиальна, а для крупномасштабных конвейеров данных требуется настройка, тестирование и поддержка процесса ETL. Эта часть процесса обычно выполняется сторонними инструментами;
  • Обновления, вставки и удаления могут быть сложными и должны выполняться осторожно, чтобы не допустить снижения производительности запросов;
  • С полуструктурированными данными трудно иметь дело — их необходимо нормализовать в формате реляционной базы данных, что требует автоматизации больших потоков данных;
  • Вложенные структуры обычно не поддерживаются в облачных хранилищах данных. Вам необходимо преобразовать вложенные таблицы в форматы, понятные хранилищу данных;
  • Оптимизация кластера. Существуют различные варианты настройки кластера Redshift для запуска ваших рабочих нагрузок. Различные рабочие нагрузки, наборы данных или даже различные типы запросов могут потребовать иной настройки. Для достижения оптимальной работы, необходимо постоянно пересматривать и при необходимости дополнительно настраивать конфигурацию;
  • Оптимизация запросов — пользовательские запросы могут не соответствовать передовым методам и, следовательно, будут выполняться намного дольше. Вы можете работать с пользователями или автоматизированными клиентскими приложениями для оптимизации запросов, чтобы хранилище данных могло работать так, как ожидалось
  • Резервное копирование и восстановление — несмотря на то, что поставщики хранилищ данных предоставляют множество возможностей для резервного копирования ваших данных, их нетривиально настроить и они требуют мониторинга и пристального внимания

Ссылка на оригинальный текст: panoply.io/data-warehouse-guide/data-warehouse-architecture-traditional-vs-cloud

Хранилище Данных — это… Что такое Хранилище Данных?

Хранилище данных (англ. Data Warehouse) — очень большая предметно-ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес-процессов с целью поддержки принятия решений в организации. Строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений. Данные, поступающие в хранилище данных, становятся доступны только для чтения. Данные из промышленной OLAP-анализ не использовал ресурсы промышленной системы и не нарушал её стабильность. Данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных несколько отстает от OLTP-системы.

Принципы организации хранилища

  1. Проблемно-предметная ориентация: данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
  2. Интегрированность: объединяет данные т.о., чтобы они удовлетворяли всем требованиям всего предприятия, а не единственной функции бизнеса.
  3. Некорректируемость: данные в хранилище данных не создаются, т.е. поступают из внешних источников, не корректируются, не удаляются.
  4. Зависимость от времени: данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Дизайн хранилищ данных

Существуют два архитектурных направления — нормализованные хранилища данных и размерностные хранилища.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы — витрины данных. Нормализованые хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ — высокая избыточность информации, проблемы с интегрированностью данных из нескольких таблиц одновременно.

Размерностные хранилища используют схему «звезда» или «снежинка». При этом в центре звезды находятся данные (таблица фактов) а размерности образуют лучи звезды. Различные таблицы фактов совместно используют таблицы размерностей, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (Пример — факты продаж и поставок товара). Таблицы данных и соответствующие размерности образуют архитектуру «ШИНА». Размерности часто создаются в третьей нормальной форме (медленно изменяющиеся размерности), для протоколирования изменения в размеростях. Основым достоинством размерностных хранилищ является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным размерностям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных а также управление и изменение размерностей данных.

Процессы работы с данными

Источниками данных могут быть:

  1. Традиционные системы регистрации операций (БД)
  2. Отдельные документы
  3. Наборы данных

Источники данных классифицируются:

  1. Территориальное и административное размещение.
  2. Степень достоверности.
  3. Частота обновляемости.
  4. Система хранения и управления данными.

Операции с данными:

  1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.
  2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.
  3. Загрузка — помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.
  4. Анализ — OLAP, Data Mining, Reporting итд.
  5. Представление результатов анализа.

Вся эта информация используется в словаре метаданных. В словарь метаданных автоматически включаются словари источников данных. Здесь же форматы данных для их последующего согласования, периодичность пополнения данных, согласованность во времени.

Задача словаря метаданных состоит в том, чтобы освободить разработчика от необходимости стандартизировать источники данных.

Создание хранилищ данных не должно противоречить действующим системам сбора и обработки информации.

Специальные компоненты словарей должны обеспечивать своевременное извлечение из словарей и обеспечить преобразование к единому формату на основе словаря метаданных.

Логическая структура данных хранилища данных отличается от структуры данных источников данных.

Для разработки эффективного процесса преобразования необходима хорошо проработанная модель корпоративных данных и модель технологии принятия решений.

Данные для пользователя удобно представлять в многоразмерных БД, где в качестве размерности могут выступать время, цена или географический регион.

Кроме извлечения данных из БД, принятия решений важен процесс извлечения знаний, в соответствии с информационными потребностями пользователя.

С точки зрения пользователя в процессе извлечения знаний из БД должны решаться след. преобразования: данные -> информация -> знания -> полученные решения.

Ссылки

См. также

Wikimedia Foundation. 2010.

Хранилище данных — это… Что такое Хранилище данных?

Хранилище данных (англ. Data Warehouse) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Данные, поступающие в хранилище данных, как правило, доступны только для чтения. Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы транзакционной системы и не нарушал её стабильность. Как правило, данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных может несколько отставать от OLTP-системы.

Принципы организации хранилища

  1. Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
  2. Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
  3. Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.
  4. Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Дизайн хранилищ данных

Существуют два архитектурных направления – нормализованные хранилища данных и хранилища с измерениями.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ – большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы.

Хранилища с измерениями используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (Таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (Пример – факты продаж и поставок товара). Таблицы данных и соответствующие измерениями образуют архитектуру «шина». Измерения часто создаются в третьей нормальной форме, в том числе, для протоколирования изменения в измерениях. Основным достоинством хранилищ с измерениями является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным измерениям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных, а также управление и изменение измерений данных.

Процессы работы с данными

Источниками данных могут быть:

  1. Традиционные системы регистрации операций
  2. Отдельные документы
  3. Наборы данных

Операции с данными:

  1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.
  2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.
  3. Загрузка – помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.
  4. Анализ – OLAP, Data Mining, сводные отчёты.
  5. Представление результатов анализа.

Вся эта информация используется в словаре метаданных. В словарь метаданных автоматически включаются словари источников данных. Здесь же форматы данных для их последующего согласования, периодичность пополнения данных, согласованность во времени.

Задача словаря метаданных состоит в том, чтобы освободить разработчика от необходимости стандартизировать источники данных.

Создание хранилищ данных не должно противоречить действующим системам сбора и обработки информации.

Специальные компоненты словарей должны обеспечивать своевременное извлечение из словарей и обеспечить преобразование к единому формату на основе словаря метаданных.

Логическая структура данных хранилища данных отличается от структуры данных источников данных.

Для разработки эффективного процесса преобразования необходима хорошо проработанная модель корпоративных данных и модель технологии принятия решений.

Данные для пользователя удобно представлять в многоразмерных БД, где в качестве измерения могут выступать время, цена или географический регион.

Кроме извлечения данных из БД, принятия решений важен процесс извлечения знаний, в соответствии с информационными потребностями пользователя.

С точки зрения пользователя в процессе извлечения знаний из БД должны решаться след. преобразования: данные → информация → знания → полученные решения.

См. также

1) Что такое хранилище данных?

Что такое хранилище данных?

Хранилища данных (DW) является процессом сбора и управления данными из различных источников , чтобы обеспечить значимые бизнес — идею. Хранилище данных обычно используется для подключения и анализа бизнес-данных из разнородных источников. Хранилище данных является ядром системы BI, которая построена для анализа данных и отчетности.

Это смесь технологий и компонентов, которая помогает стратегическому использованию данных. Это электронное хранилище большого объема информации, предназначенное для бизнеса и предназначенное для обработки запросов и анализа вместо обработки транзакций. Это процесс преобразования данных в информацию и своевременного предоставления их пользователям, чтобы изменить ситуацию.

В этом уроке вы узнаете больше о

База данных поддержки принятия решений (хранилище данных) поддерживается отдельно от оперативной базы данных организации. Однако хранилище данных — это не продукт, а среда. Это архитектурная конструкция информационной системы, которая предоставляет пользователям текущую и историческую информацию поддержки принятия решений, которую трудно получить или представить в традиционном хранилище оперативных данных.

Многие знают, что база данных, разработанная 3NF для системы инвентаризации, имеет таблицы, связанные друг с другом. Например, отчет о текущей инвентарной информации может включать более 12 объединенных условий. Это может быстро замедлить время ответа на запрос и отчет. Хранилище данных предоставляет новый дизайн, который может помочь сократить время отклика и повысить производительность запросов для отчетов и аналитики.

Система хранилища данных также известна под следующим именем:

  • Система поддержки принятия решений (DSS)
  • Исполнительная информационная система
  • Информационная система управления
  • Решение для бизнес-аналитики
  • Аналитическое приложение
  • Хранилище данных

История Datawarehouse

Datawarehouse помогает пользователям понимать и повышать производительность своей организации. Потребность в хранении данных развивалась по мере того, как компьютерные системы становились все более сложными и нужными для обработки растущих объемов информации. Тем не менее, хранилище данных не новость.

Вот некоторые ключевые события в эволюции хранилища данных:

  • 1960 — Дартмут и Дженерал Миллс в совместном исследовательском проекте разрабатывают термины измерения и факты.
  • 1970 — Nielsen и IRI представляют витрины размерных данных для розничных продаж.
  • 1983 — Tera Data Corporation представляет систему управления базами данных, которая специально разработана для поддержки принятия решений
  • Хранилище данных началось в конце 1980-х годов, когда сотрудник IBM Пол Мерфи и Барри Девлин разработали хранилище бизнес-данных.
  • Однако настоящую концепцию дал Инмон Билл. Он считался отцом хранилища данных. Он написал о множестве тем для строительства, использования и обслуживания склада и Корпоративной информационной фабрики.

Как работает Datawarehouse?

Хранилище данных работает как центральное хранилище, куда информация поступает из одного или нескольких источников данных. Данные поступают в хранилище данных из транзакционной системы и других реляционных баз данных.

Данные могут быть:

  1. Структурированные
  2. Полуструктурированный
  3. Неструктурированные данные

Данные обрабатываются, преобразуются и принимаются, так что пользователи могут получить доступ к обработанным данным в хранилище данных с помощью инструментов бизнес-аналитики, клиентов SQL и электронных таблиц. Хранилище данных объединяет информацию, поступающую из разных источников, в одну комплексную базу данных.

Объединяя всю эту информацию в одном месте, организация может более целостно анализировать своих клиентов. Это помогает гарантировать, что он рассмотрел всю доступную информацию. Хранилище данных делает возможным интеллектуальный анализ данных. Data Mining ищет шаблоны данных, которые могут привести к увеличению продаж и прибыли.

Типы хранилищ данных

Три основных типа хранилищ данных:

1. Хранилище корпоративных данных:

Enterprise Data Warehouse — это централизованное хранилище. Он обеспечивает поддержку принятия решений по всему предприятию. Он предлагает унифицированный подход к организации и представлению данных. Это также дает возможность классифицировать данные в соответствии с предметом и предоставлять доступ в соответствии с этими подразделениями.

2. Оперативное хранилище данных:

Оперативное хранилище данных, которое также называют ODS, — это не что иное, как хранилище данных, которое требуется, когда ни хранилище данных, ни системы OLTP не поддерживают потребности организаций в отчетности. В ODS хранилище данных обновляется в режиме реального времени. Следовательно, это широко предпочитается для рутинных действий, таких как хранение записей сотрудников.

3. Data Mart:

Витрина данных является подмножеством хранилища данных. Он специально разработан для определенной сферы бизнеса, такой как продажи, финансы, продажи или финансы. В независимой витрине данных данные могут собираться непосредственно из источников.

Основные этапы хранилища данных

Ранее организации начали относительно простое использование хранилищ данных. Однако со временем началось более сложное использование хранилищ данных.

Ниже приведены общие этапы использования хранилища данных:

Оперативная база данных в автономном режиме:

На этом этапе данные просто копируются из операционной системы на другой сервер. Таким образом, загрузка, обработка и создание отчетов о скопированных данных не влияют на производительность операционной системы.

Автономное хранилище данных:

Данные в хранилище данных регулярно обновляются из оперативной базы данных. Данные в Datawarehouse отображаются и преобразуются в соответствии с целями Datawarehouse.

Хранилище данных в реальном времени:

На этом этапе хранилища данных обновляются всякий раз, когда в оперативной базе данных происходит какая-либо транзакция. Например, система бронирования авиабилетов или ж / д.

Интегрированное хранилище данных:

На этом этапе хранилища данных постоянно обновляются, когда операционная система выполняет транзакцию. Затем Datawarehouse генерирует транзакции, которые передаются обратно в операционную систему.

Компоненты хранилища данных

Четыре компонента хранилищ данных:

Диспетчер загрузки: Диспетчер загрузки также называется фронтальным компонентом. Он выполняет все операции, связанные с извлечением и загрузкой данных в хранилище. Эти операции включают преобразования для подготовки данных для ввода в хранилище данных.

Warehouse Manager: Warehouse Manager выполняет операции, связанные с управлением данными в хранилище. Он выполняет такие операции, как анализ данных, для обеспечения согласованности, создания индексов и представлений, генерации денормализации и агрегирования, преобразования и объединения исходных данных, а также архивирования и обработки данных.

Менеджер запросов: Менеджер запросов также известен как бэкэнд-компонент. Он выполняет все операции, связанные с управлением пользовательскими запросами. Операции этих компонентов хранилища данных являются прямыми запросами к соответствующим таблицам для планирования выполнения запросов.

Инструменты доступа конечного пользователя:

Он подразделяется на пять различных групп, таких как 1. Отчетность о данных 2. Инструменты запросов 3. Инструменты разработки приложений 4. Инструменты EIS, 5. Инструменты OLAP и инструменты интеллектуального анализа данных.

Кому нужно хранилище данных?

Хранилище данных необходимо для всех типов пользователей, таких как:

  • Лица, принимающие решения, которые полагаются на большое количество данных
  • Пользователи, которые используют настраиваемые сложные процессы для получения информации из нескольких источников данных.
  • Он также используется людьми, которым нужна простая технология для доступа к данным.
  • Это также важно для тех людей, которые хотят системного подхода к принятию решений.
  • Если пользователь хочет быстрой работы с огромным объемом данных, который необходим для отчетов, таблиц или диаграмм, хранилище данных оказывается полезным.
  • Хранилище данных — это первый шаг, если вы хотите обнаружить «скрытые шаблоны» потоков и группировок данных.

Для чего используется хранилище данных?

Вот наиболее распространенные сектора, где используется хранилище данных:

Авиакомпания:

В системе «Авиакомпания» она используется для оперативных целей, таких как назначение экипажа, анализ прибыльности маршрута, продвижение программ для часто летающих пассажиров и т. Д.

Банковское дело:

Он широко используется в банковском секторе для эффективного управления ресурсами, имеющимися на столе. Немногие банки также использовали для исследования рынка, анализа эффективности продукта и операций.

Здравоохранение:

Сектор здравоохранения также использовал хранилище данных для выработки стратегии и прогнозирования результатов, формирования отчетов о лечении пациентов, обмена данными со связанными страховыми компаниями, службами медицинской помощи и т. Д.

Государственный сектор:

В государственном секторе хранилище данных используется для сбора информации. Это помогает правительственным учреждениям вести и анализировать налоговые записи, записи политики здравоохранения для каждого человека.

Инвестиционно-страховой сектор:

В этом секторе склады в основном используются для анализа моделей данных, тенденций покупателей и отслеживания изменений на рынке.

Сохранить цепочку:

В розничных сетях хранилище данных широко используется для распространения и маркетинга. Он также помогает отслеживать товары, структуру покупок, рекламные акции, а также используется для определения ценовой политики.

Телекоммуникационная:

Хранилище данных используется в этом секторе для продвижения продукции, принятия решений о продажах и принятия решений о распространении.

Индустрия гостеприимства:

Эта отрасль использует складские услуги для разработки, а также оценки своих рекламных и рекламных кампаний, где они хотят ориентироваться на клиентов, на основе их отзывов и моделей поездок.

Шаги по внедрению хранилища данных

Лучший способ устранить бизнес-риски, связанные с реализацией Datawarehouse, — это использовать стратегию, состоящую из трех частей, как показано ниже

  1. Стратегия предприятия : здесь мы определяем технические, включая текущую архитектуру и инструменты. Мы также определяем факты, размеры и атрибуты. Отображение данных и преобразование также передается.
  2. Поэтапная доставка : внедрение Datawarehouse должно осуществляться поэтапно в зависимости от предметных областей. Связанные бизнес-объекты, такие как бронирование и выставление счетов, должны быть сначала реализованы, а затем интегрированы друг с другом.
  3. Итеративное прототипирование : вместо подхода большого взрыва к реализации, Datawarehouse следует разрабатывать и тестировать итеративно.

Вот ключевые шаги в реализации Datawarehouse вместе с его результатами.

шаг Задания Практические результаты
1 Необходимо определить масштаб проекта Определение области
2 Необходимо определить потребности бизнеса Логическая модель данных
3 Определить требования к операционному хранилищу данных Модель хранилища оперативных данных
4 Приобретать или разрабатывать инструменты для извлечения Извлечение инструментов и программного обеспечения
5 Определить требования к хранилищу данных Модель данных перехода
6 Документ пропущенных данных Сделать список проектов
7 Сопоставляет оперативное хранилище данных с хранилищем данных Карта интеграции данных D / W
8 Разработка базы данных хранилища данных Дизайн базы данных D / W
9 Извлечение данных из оперативного хранилища данных Интегрированные экстракты данных D / W
10 Загрузить хранилище данных Начальная загрузка данных
11 Ведение хранилища данных Постоянный доступ к данным и последующие загрузки

Лучшие практики для реализации хранилища данных

  • Определите план проверки согласованности, точности и целостности данных.
  • Хранилище данных должно быть хорошо интегрировано, четко определено и с временными отметками.
  • При разработке Datawarehouse убедитесь, что вы используете правильный инструмент, придерживайтесь жизненного цикла, позаботьтесь о конфликтах данных и будьте готовы к тому, что вы ошибаетесь.
  • Никогда не заменяйте операционные системы и отчеты
  • Не тратьте слишком много времени на извлечение, очистку и загрузку данных.
  • Убедитесь, что все заинтересованные стороны, включая бизнес-персонал, вовлечены в процесс внедрения Datawarehouse. Установить, что хранилище данных является совместным / групповым проектом. Вы не хотите создавать хранилище данных, которое бесполезно для конечных пользователей.
  • Подготовьте план обучения для конечных пользователей.

Зачем нам нужно хранилище данных? Преимущества недостатки

Преимущества хранилища данных:

  • Хранилище данных позволяет бизнес-пользователям быстро получать доступ к критически важным данным из некоторых источников в одном месте.
  • Хранилище данных предоставляет согласованную информацию о различных межфункциональных действиях. Он также поддерживает специальные отчеты и запросы.
  • Хранилище данных помогает интегрировать множество источников данных, чтобы снизить нагрузку на производственную систему.
  • Хранилище данных помогает сократить общее время обработки для анализа и отчетности.
  • Реструктуризация и интеграция упрощают использование отчетов и анализа.
  • Хранилище данных позволяет пользователям получать доступ к критически важным данным из нескольких источников в одном месте. Таким образом, это экономит время пользователя на получение данных из нескольких источников.
  • Хранилище данных хранит большое количество исторических данных. Это помогает пользователям анализировать различные периоды времени и тенденции, чтобы делать прогнозы на будущее.

Недостатки хранилища данных:

  • Не идеальный вариант для неструктурированных данных.
  • Создание и внедрение хранилища данных — это, безусловно, запутанное время.
  • Хранилище данных может сравнительно быстро устареть
  • Трудно вносить изменения в типы данных и диапазоны, схему источника данных, индексы и запросы.
  • Хранилище данных может показаться простым, но на самом деле оно слишком сложное для обычных пользователей.
  • Несмотря на все усилия по управлению проектами, объем проекта хранилищ данных всегда будет увеличиваться.
  • Иногда пользователи склада разрабатывают различные бизнес-правила.
  • Организации должны тратить много своих ресурсов на обучение и внедрение.

Будущее хранилищ данных

  • Изменения в нормативных ограничениях могут ограничивать возможность объединения источников разнородных данных. Эти разрозненные источники могут включать неструктурированные данные, которые трудно хранить.
  • По мере увеличения размера баз данных оценки того, что составляет очень большую базу данных, продолжают расти. Сложно создавать и запускать системы хранилищ данных, размер которых постоянно увеличивается. Доступные сегодня аппаратные и программные ресурсы не позволяют хранить большой объем данных в сети.
  • Мультимедийные данные не могут быть легко обработаны как текстовые данные, тогда как текстовая информация может быть получена с помощью реляционного программного обеспечения, доступного сегодня. Это может быть предметом исследования.

Инструменты хранилища данных

На рынке доступно много инструментов для хранения данных. Вот некоторые из наиболее выдающихся:

1. MarkLogic:

MarkLogic — это полезное решение для работы с хранилищами данных, которое делает интеграцию данных проще и быстрее с использованием множества корпоративных функций. Этот инструмент помогает выполнять очень сложные поисковые операции. Он может запрашивать различные типы данных, такие как документы, отношения и метаданные.

https://developer.marklogic.com/products/

2. Оракул:

Oracle является лидирующей в отрасли базой данных. Он предлагает широкий выбор решений для хранилищ данных как локально, так и в облаке. Это помогает оптимизировать качество обслуживания клиентов за счет повышения операционной эффективности.

https://www.oracle.com/index.html

3. Amazon RedShift:

Amazon Redshift является инструментом хранилища данных. Это простой и экономичный инструмент для анализа всех типов данных с использованием стандартного SQL и существующих инструментов BI. Это также позволяет выполнять сложные запросы к петабайтам структурированных данных, используя технику оптимизации запросов.

https://aws.amazon.com/redshift/?nc2=h_m1

Вот полный список полезных инструментов Datawarehouse.

КЛЮЧ ОБУЧЕНИЯ

  • Хранилище данных работает как центральное хранилище, где информация поступает из одного или нескольких источников данных.
  • Три основных типа хранилищ данных — это хранилище корпоративных данных, операционное хранилище данных и Data Mart.
  • Общее состояние хранилища данных: автономная рабочая база данных, автономное хранилище данных, хранилище данных в реальном времени и интегрированное хранилище данных.
  • Четыре основных компонента Datawarehouse: менеджер нагрузки, менеджер хранилища, менеджер запросов, инструменты доступа для конечного пользователя
  • Datawarehouse используется в различных отраслях, таких как авиалинии, банковское дело, здравоохранение, страхование, розничная торговля и т. Д.
  • Внедрение Datawarehosue является стратегией, состоящей из трех частей: Стратегия предприятия, поэтапная доставка и итеративное прототипирование.
  • Хранилище данных позволяет бизнес-пользователям быстро получать доступ к критически важным данным из некоторых источников в одном месте.

 

Хранилища данных в Microsoft Azure — Azure Architecture Center

Хранилище данных — это централизованный репозиторий интегрированных данных из одного или нескольких разнородных источников. Хранилища данных содержат текущие и архивные данные и обычно применяются для создания отчетов и анализа данных.

Для помещения данных в хранилище данных они периодически извлекаются из разных источников важной бизнес-информации. В процессе перемещения эти данные можно отформатировать, очистить, проверить, свести и реорганизовать. Есть также возможность сохранить данные с самым низким уровнем детализации и применить для составления отчетов агрегированные представления, доступные в хранилище. В любом случае хранилище данных становится местом постоянного хранения данных для создания отчетов, анализа и бизнес-аналитики.

Архитектуры хранилища данных

Ниже представлены эталонные архитектуры комплексного хранилища данных в Azure.

Когда следует использовать это решение

Используйте хранилище данных, если на основе большого объема данных из операционных систем вам нужно получить данные в удобочитаемом формате. Для хранилища данных не обязательно применять такую же сжатую структуру данных, которая используется в базах данных OLTP. Вы можете присвоить столбцам новые имена, понятные для бизнес-пользователей и аналитиков, изменить структуру схемы для упрощения связей и объединить несколько таблиц в одну. Следующие действия помогут тем пользователям, которым необходимо создавать отчеты и анализировать данные в системах бизнес-аналитики, не обращаясь за помощью к администраторам базы данных (DBA) или разработчикам.

Рассмотрите возможность применить хранилище данных, если вы намерены повысить производительность транзакционных систем, используемых в качестве источника данных, сохраняя архивные данные в другом месте. Хранилища данных упрощают доступ к архивным данным из множества расположений, предоставляя централизованное место хранения с поддержкой стандартных форматов, ключей и моделей данных.

Поскольку хранилища данных оптимизированы для чтения данных, они позволяют быстрее формировать отчеты по сравнению с транзакционной системой в качестве источника.

Другие преимущества:

  • В хранилище данных могут храниться исторические данные из нескольких источников, благодаря чему оно представляет собой единственный «источник истины».
  • Вы можете повышать качество данных путем их очистки в процессе импорта в хранилище данных.
  • Средства создания отчетов не мешают работе транзакционных систем при обработке запросов. Хранилище данных позволяет транзакционной системе сосредоточиться на обработке операций записи, взяв на себя значительную часть запросов на чтение.
  • Хранилище данных позволяет объединять данные от разных программ.
  • Средства интеллектуального анализа данных помогают находить скрытые закономерности посредством автоматизированных методов.
  • Хранилища данных позволяют предоставить безопасный доступ авторизованным пользователям и ограничить доступ для всех остальных. Бизнес-пользователям не требуется доступ к исходным данным, что устраняет потенциальный вектор атаки.
  • Хранилища данных упрощают создание решений бизнес-аналитики, таких как кубы OLAP.

Сложности

Чтобы правильно настроить хранилища данных в соответствии с требованиями организации, вам нужно решить следующие проблемы:

  • Достаточное время для правильного моделирования бизнес-концепции. Хранилища данных управляются информацией. Необходимо стандартизировать деловые термины и общие форматы (валют, дат и т. п.). Также необходимо изменить структуру схемы данных, чтобы сделать ее понятной для бизнес-пользователей, сохранив точность статистических выражений и связей между данными.

  • Планирование и настройка оркестрации данных. Учтите такие факторы, как метод копирования данных из исходной транзакционной системы в хранилище данных и графики перемещения в него архивных данных из хранилищ операционных данных.

  • Сохранение или повышение качества данных путем их очистки в процессе импорта в хранилище данных.

Хранение данных в Azure

Вы можете использовать один или несколько источников данных, например от систем взаимодействия с клиентами или бизнес-приложений. В большинстве случаев эти данные хранятся в одной или нескольких базах данных OLTP. Данные могут существовать и на других носителях, такие как сетевые папки, Azure Storage Blob или Data Lake. Также данные могут размещаться в самом хранилище данных или в реляционной базе данных, например базе данных SQL Azure. Уровень хранилища аналитических данных создается для обработки запросов от средств аналитики и создания отчетов, которые выполняются к хранилищу данных. Эту функцию аналитического хранилища в Azure можно возложить на Azure Synapse или Azure HDInsight в сочетании с Hive или Interactive Query. Кроме того, требуется некоторый уровень оркестрации, чтобы перемещать или копировать данные в хранилище данных. Например, это можно делать с помощью Фабрики данных Azure или Oozie в Azure HDInsight.

Существует несколько вариантов реализации хранилища данных в Azure, выбор которых зависит от ваших потребностей. Ниже приведены списки, разбитые на две категории: симметричная многопроцессорная обработка (SMP) и массовая параллельная обработка (MPP).

SMP:

MPP:

Как правило, хранилища данных SMP лучше всего подходят для небольших и средних наборов данных (от 4 до 100 ТБ), в то время как MPP часто используется для больших данных. Разграничение между небольшими, средними и большими данными частично связано с их определением в вашей организации и поддерживаемой инфраструктурой. (См. раздел о возможностях хранилищ в статье Choosing an OLTP data store in Azure (Выбор хранилища данных OLTP в Azure).)

Помимо размеров данных важным определяющим фактором также выступает шаблон рабочей нагрузки. Например, сложные запросы могут быть слишком медленными для решения SMP, из-за чего для них потребуется решение MPP. Системы на основе MPP обычно имеют более низкую производительность операций с данными небольшого размера из-за того, что задания распределяются и консолидируются между узлами. Если размеры данных уже превышают 1 ТБ и будут постоянно расти, рекомендуется выбрать решение MPP. Однако, если размеры данных меньше, но рабочие нагрузки превышают доступные ресурсы вашего решения SMP, тогда следует выбрать решение MPP.

Данные в вашем хранилище могут быть получены из нескольких источников данных, включая озеро данных, например Azure Data Lake Storage. Чтобы просмотреть видео-семинар, где сравниваются различные преимущества служб MPP, которые могут использовать Azure Data Lake, перейдите по этой ссылке.

Системы SMP характеризуются одним экземпляром системы управления реляционной базой данных, который использует все ресурсы (ЦП, память и диск). Систему SMP можно масштабировать. Если SQL Server запущен на виртуальной машине, ее размер можно увеличить. Базу данных SQL Azure можно масштабировать вертикально, выбрав другой уровень служб.

Системы MPP можно масштабировать горизонтально, добавляя дополнительные вычислительные узлы (которые имеют собственные ЦП, память и подсистемы ввода-вывода). Существуют физические ограничения для масштабирования сервера, при этом желательно горизонтальное масштабирование, в зависимости от рабочей нагрузки. Однако различия в отправке запросов, моделировании и секционировании данных означают, что для решений MPP требуется другой набор навыков.

Дополнительные сведения о решении SMP см. в разделе Более детальный обзор Базы данных SQL Azure и SQL Server на виртуальных машинах Azure.

Azure Synapse (прежнее название — хранилище данных SQL Azure) также может использоваться для небольших и средних наборов данных, где рабочая нагрузка интенсивно использует память и вычислительные ресурсы. Узнайте больше о шаблонах и стандартных сценариях использования Azure Synapse:

Основные критерии выбора

Чтобы ограничить количество вариантов, сначала ответьте на следующие вопросы:

  • Вы хотите использовать управляемую службу, а не управлять собственными серверами?

  • Вы работаете с очень большими наборами данных или с высоко сложными, долго выполняющимися запросами? Если да, выберите решение MPP.

  • Какой источник данных требуется для большого набора данных: структурированный или неструктурированный? Неструктурированные данные могут требовать обработки в среде больших данных, такой как Spark в HDInsight, Azure Databricks, Hive LLAP в HDInsight или Azure Data Lake Analytics. Все они могут использовать в качестве модулей ELT (извлечение, загрузка, преобразование) и ETL (извлечение, преобразование и загрузка). Они могут преобразовывать обработанные данные в структурированные данные, что упрощает загрузку в Azure Synapse или другое хранилище. Для структурированных данных Azure Synapse имеет уровень производительности, оптимизированный для ресурсоемких вычислительных нагрузок, требующих сверхвысокой производительности.

  • Вы хотите отделить исторические данные от текущих рабочих данных? Если это так, выберите один из вариантов, для которого требуется оркестрация. Это автономные хранилища данных, оптимизированные для интенсивного доступа на чтение, которые лучше всего подходят в качестве отдельного хранилища исторических данных.

  • Нужно ли интегрировать данные из нескольких источников за пределами хранилища данных OLTP? Если да, рассмотрите варианты, которые позволяют легко интегрировать несколько источников данных.

  • Требуется ли вам мультитенантность? Если да, Azure Synapse вам не подойдет. Дополнительные сведения см. в статье Шаблоны и антишаблоны Azure Synapse.

  • Вы предпочитаете реляционное хранилище данных? В этом случае выберите вариант с реляционным хранилищем данных. При этом обратите внимание, что при необходимости вы можете использовать такой инструмент, как PolyBase, для запроса нереляционных хранилищ данных. Если вы решили использовать PolyBase, выполните тесты производительности для неструктурированных наборов данных в рамках вашей рабочей нагрузки.

  • Вам требуется отчетность в реальном времени? Если вам требуется быстрое время отклика запросов при больших объемах одноэлементных вставок, выберите вариант с поддержкой отчетов в реальном времени.

  • Вам нужно поддерживать большое количество одновременных пользователей и подключений? Возможность поддержки нескольких одновременных пользователей и подключений зависит от некоторых факторов.

    • Дополнительные сведения см. в статье Ограничения ресурсов Базы данных SQL Azure.

    • SQL Server поддерживает не более 32 767 одновременных подключений пользователей. При запуске на виртуальной машине производительность будет зависеть от размера виртуальной машины и других факторов.

    • Azure Synapse имеет ограничения на параллельные запросы и подключения. Дополнительные сведения см. в статье Управление параллелизмом и рабочей нагрузкой в Azure Synapse. Рассмотрите возможность использования дополнительных служб, таких как Azure Analysis Services, чтобы преодолеть ограничения Azure Synapse.

  • Какой тип рабочей нагрузки вы используете? Как правило, решения хранилищ MPP лучше всего подходят для аналитических, пакетно-ориентированных рабочих нагрузок. Если ваши рабочие нагрузки являются транзакционными со множеством небольших операций чтения и записи или несколькими построчными операциями, рассмотрите возможность использования одного из вариантов SMP. Единственным исключением является использование потоковой обработки в кластере HDInsight, например Spark Streaming, и хранение данных в таблице Hive.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

Общие возможности

Функция База данных SQL Azure SQL Server (виртуальная машина) Azure Synapse Apache Hive в HDInsight Hive LLAP в HDInsight
Является управляемой службой Да Нет Да Да 1 Да 1
Требуется оркестрация данных (содержит копию простых или исторических данных) Нет Нет Да Да Да
Простая интеграция нескольких источников данных Нет Нет Да Да Да
Поддержка приостановки вычислительных ресурсов Нет Нет Да Нет 2 Нет 2
Реляционное хранилище данных Да Да Да Нет Нет
Отчеты в реальном времени Да Да Нет Нет Да
Гибкие точки восстановления и резервных копий Да Да Нет3 Да 4 Да 4
SMP/MPP SMP SMP MPP MPP MPP

[1] Настройка и масштабирование вручную.

[2] Кластеры HDInsight можно удалить, когда они не нужны, а затем повторно создать. Присоедините внешнее хранилище данных к кластеру, чтобы ваши данные сохранялись в случае его удаления. Можно использовать фабрику данных Azure для автоматизации жизненного цикла вашего кластера, создав кластер HDInsight по требованию для обработки рабочей нагрузки, а затем удалив его после завершения обработки.

[3] В Azure Synapse можно восстановить базу данных до любой точки восстановления за последние семь дней. Моментальные снимки создаются каждые четыре-восемь часов и доступны в течение семи дней. Если моментальный снимок старше семи дней, то срок его действия истекает и его точка восстановления перестает быть доступной.

[4] Рассмотрите возможность использования внешнего хранилища метаданных Hive, которое можно заархивировать и восстановить при необходимости. Для данных могут использоваться стандартные варианты резервного копирования и восстановления, которые применяются к хранилищу BLOB-объектов или хранилищу Data Lake Storage. Для большей гибкости и простоты можно также использовать сторонние решения для резервного копирования и восстановления HDInsight, например Imanis Data.

Масштабируемость

Функция База данных SQL Azure SQL Server (виртуальная машина) Azure Synapse Apache Hive в HDInsight Hive LLAP в HDInsight
Избыточные региональные серверы для высокого уровня доступности Да Да Да Нет Нет
Поддержка масштабирования запросов (распределенных) Нет Нет Да Да Да
Динамическая масштабируемость Да Нет Да 1 Нет Нет
Выполняющееся в памяти кэширование данных Да Да Да Да Да

[1] Azure Synapse позволяет выполнять вертикальное масштабирование, настраивая количество единиц использования хранилища данных (DWU). См. статью Управление вычислительными ресурсами в Azure Synapse.

Возможности системы безопасности

Функция База данных SQL Azure SQL Server на виртуальной машине Azure Synapse Apache Hive в HDInsight Hive LLAP в HDInsight
Аутентификация SQL / Azure Active Directory (Azure AD) SQL / Azure AD / Active Directory SQL / Azure AD Локальные средства или Azure AD 1 Локальные средства или Azure AD 1
Авторизация Да Да Да Да Да 1
Аудит Да Да Да Да Да 1
Шифрование неактивных данных Да 2 Да 2 Да 2 Да 2 Да 1
Безопасность на уровне строк Да Да Да Нет Да 1
Поддержка брандмауэров Да Да Да Да Да 3
Динамическое маскирование данных Да Да Да Нет Да 1

[1] Требуется использовать присоединенный к домену кластер HDInsight.

[2] Требуется использовать прозрачное шифрование данных (TDE) для шифрования и расшифровки неактивных данных.

[3] Поддерживается при использовании в виртуальной сети Azure.

Дополнительные сведения о защите хранилища данных:

Что такое хранилище данных? Общие сведения о типах хранения данных

Современный деловой мир все больше зависит от данных. Компании собирают огромные объемы информации от своих клиентов: даты рождения, адреса доставки, данные платежных карт, историю покупок и другие описательные метаданные. Компании также должны поддерживать важные внутренние данные, такие как интеллектуальная собственность, коммуникации и стратегические операционные данные.

Разработка стратегий хранения, управления и защиты ценной информации является главным приоритетом успешного бизнеса.Эти компании полагаются на руководство и поддержку экспертов и процедур по хранению данных для разработки и внедрения решений для хранения данных, которые соответствуют их бизнес-моделям. Учитывая, что утечка данных обходится компаниям в среднем в 3,86 миллиона долларов за инцидент, эффективные решения для хранения данных — это не просто роскошь, это необходимость.

Хранение данных — это технология, которая надежно записывает и надлежащим образом хранит цифровую информацию , так что она хранится в безопасности и может быть легко извлечена в любой момент.Это критически важный и растущий аспект бизнес-функции, который вдохновил — и продолжает вдохновлять — на многочисленные технологические инновации. Аппаратное и программное обеспечение для хранения данных заметно мощнее и совершеннее, чем всего несколько лет назад.

Устройства хранения данных играют важную роль в аварийном восстановлении и обеспечении непрерывности бизнеса. Выбор правильного решения для хранения данных может быть разницей между успехом и дорогостоящей утечкой конфиденциальной информации.

Потребность в высококачественных решениях для хранения данных

Даже в нашем развивающемся безбумажном обществе возможности хранения ограничены. Несмотря на то, что сегодня данные занимают меньше места на физическом плане, чем в эпоху гибких дисков , компании все еще пытаются найти достаточно места для своих потребностей в хранении данных. Это особенно актуальная проблема для компаний, которые используют большие, громоздкие устаревшие центры обработки данных . Однако хранение данных включает в себя гораздо больше, чем поиск удобного места для хранения цифровой информации .

Бизнес-данные должны храниться таким образом, чтобы их можно было извлекать, передавать и обрабатывать в соответствии с операционными требованиями компании; растет спрос на технологии, которые могут безопасно и эффективно выполнять эти три функции.

Решения потребительского класса, которые обычно предназначены для индивидуального использования или использования в малых компаниях, часто не могут удовлетворить эти требования. Поэтому необходимы высококачественные продукты для хранения данных корпоративного класса.

Характеристики эффективного хранилища данных

Определение того, какое решение для хранения данных лучше всего подходит для конкретного бизнеса, во многом зависит от потребностей организации. Нет решения, одинаково подходящего для каждого бизнеса. Например, небольшой розничный бизнес с относительно небольшим количеством клиентов не имеет таких требований к хранению, как крупная транснациональная корпорация, которая контролирует личную информацию, связанную с миллионами людей.Тем не менее, есть определенные характеристики, которыми должно обладать все оборудование для хранения данных.

Скорость . В сегодняшней быстро меняющейся бизнес-среде информация должна быть легко доступна для поиска и загрузки. Сетевые устройства хранения данных (NAS), которые по сути функционируют как файловые серверы, обычно предлагают наилучший вариант для быстрого доступа и передачи данных.

Безопасность – Данные должны быть защищены от несанкционированного доступа. Неспособность установить строгие меры безопасности часто приводит к снижению репутации и деятельности компании.Украденные данные могут стоить компаниям миллионы долларов при расчетах и ​​могут подорвать доверие к ним их клиентов. Слабая безопасность также может привести к тому, что бизнес не будет соответствовать нормативным требованиям, таким как Стандарт безопасности данных индустрии платежных карт (PCI DSS), который применяется к любому бизнесу, обрабатывающему кредитные или дебетовые карты, и Мобильность и подотчетность медицинского страхования. Закон (HIPAA), который применяется в первую очередь к сфере здравоохранения. Нарушение этих правил может привести к крупным штрафам, если не к утечке конфиденциальных данных.

Высококачественное шифрование, особенно AES 256, стало передовой практикой для современного оборудования для обеспечения безопасности данных. Также важно иметь физические средства защиты устройств защиты данных, такие как замки, ключи шифрования и материальные барьеры.

Целостность — Относится к безопасности данных, целостность данных гарантирует, что информация сохраняется в надлежащем состоянии. Это первостепенная задача для любой организации, которая защищает личную информацию, такую ​​как финансовые или медицинские записи, а также для специалистов-криминалистов, которым необходимо хранить цифровые доказательства в соответствии с законом, чтобы обеспечить их допустимость в суде.Контейнеры данных не должны подвергать информацию преднамеренному или случайному удалению, повреждению или ухудшению качества данных. Данные также должны сохранять свою целостность во время передачи, избегая пакетных ошибок и однобитовых ошибок.

Надежность – Данные Устройства хранения и системы должны защищать от угрозы внутреннего сбоя. Это та область, в которой системы хранения корпоративного уровня, обычно изготавливаемые из более долговечных материалов и компонентов, чем электроника потребительского уровня, работают особенно хорошо.Создание избыточности в системах хранения данных, где файлы существуют в нескольких копиях на нескольких жестких дисках, является важной функцией. RAID — избыточный массив независимых (или недорогих) дисков — конфигурации сохраняют данные на нескольких дисках, так что в случае отказа одного диска остальные могут восстановиться без потери производительности или данных.

Эффективность — Даже небольшие предприятия могут накапливать огромные объемы данных. Поэтому их решения для хранения данных должны обеспечивать компактное хранение данных и эффективную организацию данных, чтобы избежать простоев.Одним из полезных инструментов в этом начинании является виртуализация, которая резко сокращает количество дублированных данных в системе и оптимизирует емкость хранилища.

Портативность — не всем предприятиям требуется эта функция, но устройство хранения данных , которое можно легко переносить с одного сайта на другой, обеспечивает дополнительные преимущества с точки зрения безопасности и гибкости. Например, съемочные группы могут использовать портативное решение для временного хранения материалов, созданных на месте во время съемок, которые происходят вдали от основного производственного центра.Точно так же нефтегазовая промышленность нуждается в портативных устройствах, которые могут собирать данные о бурении в полевых условиях. Отдельные устройства NAS позволяют хранить данные на переносных серверах, которые можно использовать в качестве офисов на ходу.

Настраиваемость . Возможность свободно изменять такие функции, как емкость хранилища, конфигурации совместимости ОС, сетевые среды, программное обеспечение и порты подключения, позволяет бизнесу полностью оптимизировать свои решения для хранения данных, а не ограничиваться стандартными предварительно настроенными параметрами. это может быть не идеально.

Масштабируемость . Аппаратное и программное обеспечение для обеспечения безопасности данных должно иметь возможность расти вместе с вашим бизнесом. Расширение операций не должно требовать капитального ремонта вашей существующей инфраструктуры данных. Лучшие решения должны быть адаптированы к потребностям увеличенной емкости хранения .

Служба поддержки клиентов . В идеале решение для хранения данных должно сопровождаться технической поддержкой, на которую бизнес может положиться при устранении неполадок. Это не должна быть общая линия помощи; вам необходимо иметь немедленный доступ к профессионалу, специально обученному для решения проблем с оборудованием вашей марки.

Типы хранения данных

Лучшие решения для хранения данных дополняют операционные потребности и бюджет организации. Некоторым предприятиям требуются инструменты, позволяющие быстро извлекать данные для обслуживания клиентов. Другим предприятиям просто нужно безопасное место, где старые данные могут храниться долгосрочные . Как правило, предприятия используют одно из следующих решений или комбинацию двух или более:

  • Хранилище с прямым подключением (DAS) . Этот тип решения для хранения данных физически подключается к определенному компьютеру, например к жесткому диску рядом с вашим монитором.Данные, хранящиеся таким образом, обычно доступны только с компьютера, связанного с устройством (устройствами) DAS. DAS — это распространенный и традиционный тип хранения данных, включающий жесткие диски, приводы DVD/Blu-Ray, флэш-накопители и твердотельные накопители.
  • Программно-определяемое хранилище (SDS) . Как следует из названия, SDS предлагает решение для хранения данных, не зависящее от физического оборудования. Инфраструктура на основе SDS может использовать стандартные для отрасли серверы, что обеспечивает улучшенную масштабируемость и балансировку нагрузки, а также огромную гибкость в управлении данными и их переносе.
  • Сеть хранения данных (SAN) — это тип высокопроизводительной компьютерной сети, в которой используется хранилище на уровне блоков. При правильном развертывании сети SAN имеют высокий уровень избыточности и могут обеспечить быстрое извлечение данных. Поскольку блочное хранилище разбивает данные и хранит их в нескольких средах, оно может создавать более эффективные пути доступа к информации. Это особенно ценно в средах данных, где важна скорость поиска.

В сетях хранения данных используются различные протоколы: Интернет-интерфейс малых компьютеров (iSCSI), Fibre Channel (FC), Fibre Channel через Ethernet (FCoe) или экспресс-память с энергонезависимой памятью через Fabric (NVMe-oF).

  • Облачное хранилище . Этот тип решения помещает данные в интернет-среду и может быть доступен через веб-устройство при условии, что у пользователя есть действительные разрешения (например, пароль). Стандартной практикой является разделение этого решения на три отдельные подкатегории: частное, общедоступное и гибридное облако. Все три варианта имеют свои преимущества и недостатки, но гибридные облачные среды являются наиболее популярными, их развертывают 36% компаний.Однако они также оставляют больше всего возможностей для взлома.
  • Облачное хранилище обычно основано на архитектуре хранилища объектов , хотя также возможны конфигурации файлового и блочного хранилища. Облачное хранилище легко масштабируется — при необходимости его емкость легко увеличить. Когда вы работаете с облачным провайдером, предлагающим программное обеспечение как услугу (SaaS), вам обычно никогда не приходится платить за дополнительное пространство для хранения, чем необходимо.
  • Сетевое хранилище (NAS) — это файловая система хранения, в которой используется иерархия, сильно напоминающая старомодные бумажные системы хранения.Это позволяет нескольким компьютерам хранить и совместно использовать цифровые файлы в одной сети (или интрасети), часто с использованием нескольких жестких дисков, организованных в конфигурации RAID.

В зависимости от точной конфигурации RAID системы NAS могут обеспечивать высокий уровень резервирования, возможности восстановления данных и возможности совместной работы в дополнение к повышенной производительности системы. Общие методы RAID для управления данными включают чередование (RAID 0 — простейшая конфигурация, в которой отсутствует реальная избыточность), зеркалирование (RAID 1), распределенную четность (RAID 5) и чередование в сочетании с зеркалированием (RAID 10 или 1+0).Огромное разнообразие вариантов хранения и резервного копирования является одним из основных преимуществ, связанных с системами NAS. Доступные по цене и простые в настройке, эти системы являются идеальным решением для хранения данных для многих типов предприятий, больших и малых.

Технический прогресс резко снизил некогда непомерную стоимость хранения данных на уровне предприятия и сделал эти решения доступными для малого и среднего бизнеса. Больше нет причин работать без высокопроизводительного, безопасного и эффективного хранилища данных.

Управляете ли вы крупной корпорацией или небольшим семейным магазином, у Ciphertex Data Security есть решения, на которые вы можете положиться. Постоянно растущая линейка продуктов Ciphertex включает в себя портативные серверы NAS, портативные одиночные накопители с шифрованием, серверы для монтажа в стойку, специализированное программное обеспечение операционной системы и аксессуары для устройств для транспортировки и подключения.

Мы обслуживаем несколько отраслей, от военного сектора до медицины. Для получения дополнительной информации свяжитесь с нами по телефону 818-773-8989 .

Что такое хранилище данных? — ВЕРСИЯ ДАННЫХ

Хранилище данных описывает, какой тип, где и как аппаратное или программное обеспечение хранит, удаляет, создает резервные копии, систематизирует и защищает информацию. Это включает в себя хранение данных во временном или постоянном хранилище. Оцифровка производства, известная как Индустрия 4.0, является хорошим примером того, как огромные объемы данных, анализ в режиме реального времени и быстрота стимулируют инновации и повышают требования к хранению данных.

Простота использования бумажной перфокарты для хранения данных давно отошла на второй план.Сегодня данные можно хранить не только на жестких дисках, картах памяти и DVD, но и в облаке, на атомах и ДНК. Ответьте на эти вопросы, чтобы лучше понять, что такое хранилище данных:

  • Что за штука хранит данные? Например, данные могут храниться на жестких дисках, флэш-накопителях, в системах энергонезависимой памяти Express (NVMe) и ДНК. Виртуальная программно-определяемая инфраструктура также может хранить данные.
  • Где хранятся данные? Например, данные могут храниться локально, на фермах серверов, в Интернете вещей (IoT) или через службу хранения данных в качестве поставщика облачных услуг.
  • Как хранятся данные? Например, в твердотельных накопителях для хранения данных используются «электронно программируемые и стираемые микросхемы памяти». Другие устройства хранения могут использовать LightStore, экологически чистую технологию, или флэш-память, «электронный энергонезависимый носитель данных, который стирается и перепрограммируется электрически» для хранения данных.

Другие определения хранения данных включают:

  • «Возможность хранить все потенциально ценные активы данных под рукой, организовывать и защищать их по мере роста объемов информации.” (Дженнифер Зайно)
  • Инфраструктура, необходимая для обработки информации, которую необходимо сохранить. (Эмбер Ли Деннис)
  • «Аппаратные и программные технологии, связанные с хранением информации». (Gartner)
  • Архитектура, обеспечивающая «высокую пропускную способность ввода-вывода и доступность данных». (Forbes)
  • «Обеспечение доступности данных для пользователей в режиме реального времени». (TechRepublic)

Варианты использования хранилища данных включают:

  • Увеличение емкости наборов данных глубокого обучения
  • Добавление хранилища данных в военный беспилотник, чтобы он мог использовать периферийные вычисления
  • Использование онлайн-хранилища данных для более ценных данных о маркетинге и продажах
  • Хранение больших объемов видеоданных для анализа
  • Сохранение удобочитаемой информации о цепи ДНК

Предприятия используют хранилище данных для:

  • Хранение больших объемов данных
  • Защита информации
  • Перенос данных из одного места в другое
  • Защита от потери данных
  • Включение искусственного интеллекта (ИИ)

Изображение использовано по лицензии Shutterstock.ком

Что такое хранилище данных? — Определение и технологии — Видео и стенограмма урока

Технологии хранения данных

Существует множество различных технологий, используемых для хранения данных, и постоянно создаются новые методы. Некоторые хранят данные временно, а некоторые в течение длительного периода времени. Многие остаются внутри компьютера или устройства, в то время как другие являются переносными и могут использоваться на разных устройствах или храниться в других местах. Существует много распространенных технологий, используемых для хранения данных.

Давайте рассмотрим некоторые из них:

Оперативная память (ОЗУ)

Также известная как память или компьютерная память, ОЗУ — это то, что компьютеры используют для временного хранения информации, чтобы компьютер мог легко получить к ней доступ в виде ты работаешь. Это очень похоже на вашу собственную кратковременную память — вещи появляются и исчезают быстро и не сохраняются постоянно.

Жесткий диск

Большинство компьютеров и ноутбуков используют аппаратные средства для хранения данных. Обычно они остаются внутри устройства и хранят информацию, такую ​​как компьютерные программы и файлы.В отличие от оперативной памяти, жесткие диски хранят данные постоянно, чтобы их можно было извлечь позже, подобно вашей собственной долговременной памяти.

Флэш-накопитель

Флэш-накопители , также известные как флэш-накопители или USB-накопители, представляют собой небольшие портативные запоминающие устройства, которые можно подключать к USB-порту устройства. После того, как данные сохранены на флэш-накопителе, они остаются там и могут быть удалены и использованы на других устройствах. Это распространенный метод перемещения файлов между компьютерами.

Карта SD (Secure Digital)

Карты SD (Secure Digital) — это небольшие карты, обычно используемые в цифровых камерах и смартфонах для хранения файлов, например цифровых фотографий. Как и флешки, их можно легко извлечь и получить к ним доступ на других устройствах.

CD и DVD

Точно так же, как на них можно хранить музыку или фильмы, CD и DVD можно использовать для хранения компьютерных данных. Как и другие методы хранения, они полезны для обмена данными между разными устройствами или местами.Компакт-диски и DVD обычно считаются хорошими вариантами для долговременного хранения данных.

Магнитные ленты

Обычно называемые резервными лентами, многие предприятия используют картриджи с магнитной лентой для резервного копирования данных для долгосрочного хранения. Данные хранятся магнитно на длинных полосах ленты, намотанных внутри картриджа. По своей природе они похожи на кассеты, которые когда-то использовались для записи музыкальных альбомов.

Твердотельный накопитель (SSD)

Твердотельные накопители (SSD) — это запоминающие устройства нового поколения, используемые в компьютерах и функционирующие как жесткие диски.Эти устройства хранения данных используют флэш-память для хранения информации, к которой можно получить доступ в электронном виде.

M.2 Storage

M.2 — это форм-фактор твердотельного накопителя, который заменяет предыдущий стандарт mSATA. Хотя эти диски компактны по размеру, они могут хранить столько же информации, сколько SSD Express с энергонезависимой памятью. Диски M.2 не подключаются к материнской плате с помощью кабеля, вместо этого они подключаются непосредственно к материнской плате с помощью специального разъема M.2.

Краткий обзор урока

Напомним, что данные должны храниться надлежащим образом, чтобы их можно было снова использовать технологическими устройствами. Хранение данных — это термин, обозначающий способ хранения информации в цифровом формате, который может быть извлечен позднее. Существует множество различных технологий для хранения данных. Данные могут временно храниться с использованием таких технологий, как RAM , или сохраняться на таких устройствах, как жесткие диски , флэш-накопители , SD-карты , компакт-диски и DVD-диски , а также резервные картриджи с магнитной лентой .CD/DVD и магнитные ленты для резервного копирования обычно являются лучшими вариантами для долговременного хранения данных.

Безопасность хранилища данных — Насколько безопасны ваши данные?

Безопасность хранения данных включает в себя защиту ресурсов хранения и хранящихся в них данных — как локальных, так и во внешних центрах обработки данных и в облаке — от случайного или преднамеренного повреждения или уничтожения, а также от несанкционированного использования и использования. Это область, которая имеет решающее значение для предприятий, поскольку большинство утечек данных в конечном итоге вызваны сбоем в системе безопасности хранилища данных.

Безопасное хранилище данных:

Безопасное хранение данных в совокупности относится к ручным и автоматизированным вычислительным процессам и технологиям, используемым для обеспечения безопасности и целостности хранимых данных. Это может включать физическую защиту оборудования, на котором хранятся данные, а также программное обеспечение безопасности.

Безопасное хранение данных применяется к данным в состоянии покоя, хранящимся на жестких дисках компьютера/сервера, портативных устройствах, таких как внешние жесткие диски или USB-накопители, а также в онлайн/облаке, в сетевой сети хранения данных (SAN) или в сетевом хранилище (NAS). ) системы.

Как достигается безопасное хранение данных:

  • Шифрование данных
  • Механизм контроля доступа к каждому устройству хранения данных/программному обеспечению
  • Защита от вирусов, червей и других угроз повреждения данных
  • Физические/обслуживаемые устройства хранения и безопасность инфраструктуры
  • Применение и реализация многоуровневой/многоуровневой архитектуры безопасности хранилища

Безопасное хранение данных имеет важное значение для организаций, которые имеют дело с конфиденциальными данными, как для предотвращения кражи данных, так и для обеспечения бесперебойной работы.

Безопасность данных против защиты данных:

Безопасность хранилища и безопасность данных тесно связаны с защитой данных. Безопасность данных в первую очередь подразумевает защиту частной информации от рук тех, кто не имеет права ее просматривать. Это также включает защиту данных от других типов атак, таких как программы-вымогатели, которые блокируют доступ к информации, или атаки, которые изменяют данные, делая их ненадежными.

Защита данных больше связана с тем, чтобы данные оставались доступными после менее гнусных инцидентов, таких как сбои системы или компонентов или даже стихийные бедствия.

Но они пересекаются в их общей потребности обеспечить надежность и доступность информации, а также в необходимости восстановления после любых инцидентов, которые могут угрожать данным организации. Специалисты по хранению данных часто сталкиваются с проблемами безопасности и защиты данных одновременно, и одни и те же передовые методы могут помочь решить обе проблемы.

Угрозы безопасности данных:

Прежде чем рассматривать способы обеспечения безопасности хранения данных, важно понять, с какими типами угроз сталкиваются организации.

Агенты угроз можно разделить на две категории: внешние и внутренние.

Агенты внешних угроз включают:

  • Национальные государства
  • Террористы
  • Хакеры, киберпреступники, организованные преступные группы
  • Конкуренты, осуществляющие «промышленный шпионаж»

Агенты внутренних угроз включают:

  • Злонамеренные инсайдеры
  • Плохо обученный или небрежный персонал
  • Недовольные сотрудники

Другие угрозы включают:

  • Пожары, наводнения и другие стихийные бедствия
  • Отключение электроэнергии

Уязвимости хранилища:

Еще одним важным фактором, вызывающим интерес к безопасности хранения данных, являются уязвимости, присущие системам хранения.Среди них:

  • Отсутствие шифрования  — Хотя некоторые высокопроизводительные устройства NAS и SAN включают автоматическое шифрование, многие продукты на рынке не поддерживают эти возможности. Это означает, что организациям необходимо установить отдельное программное обеспечение или устройство шифрования, чтобы убедиться, что их данные зашифрованы.
  • Облачное хранилище  — Все больше предприятий предпочитают хранить часть или все свои данные в облаке.Хотя некоторые утверждают, что облачное хранилище более безопасно, чем локальное хранилище, облако усложняет среду хранения и часто требует от персонала хранилища изучения новых инструментов и внедрения новых процедур для обеспечения надлежащей защиты данных.
  • Неполное уничтожение данных  — Когда данные удаляются с жесткого диска или другого носителя, могут остаться следы, которые могут позволить неавторизованным лицам восстановить эту информацию. Администраторы и менеджеры хранилища должны гарантировать, что любые данные, стертые из хранилища, будут перезаписаны, чтобы их нельзя было восстановить.
  • Отсутствие физической защиты  — Некоторые организации не уделяют должного внимания физической безопасности своих устройств хранения данных. В некоторых случаях они не учитывают, что инсайдер, например сотрудник или член бригады по уборке, может получить доступ к физическим устройствам хранения и извлечь данные, минуя все тщательно спланированные сетевые меры безопасности.

Принципы безопасности хранения данных:

На самом высоком уровне безопасность хранения данных направлена ​​на обеспечение «ЦРУ» — конфиденциальность, целостность и доступность.

  • Конфиденциальность:  Сохранение конфиденциальности данных путем обеспечения невозможности доступа к ним по сети или локально посторонними лицами является ключевым принципом безопасности хранилища для предотвращения утечек данных.
  • Целостность:  Целостность данных в контексте безопасности хранения данных означает, что данные нельзя подделать или изменить.
  • Доступность:  В контексте безопасности хранения данных доступность означает минимизацию риска того, что ресурсы хранения будут уничтожены или станут недоступны либо преднамеренно, например, во время DDoS-атаки, либо случайно, из-за стихийного бедствия, сбоя питания или механической поломки. .

Рекомендации по безопасности данных:

Чтобы реагировать на эти технологические тенденции и устранять присущие их системам хранения уязвимости, эксперты рекомендуют организациям внедрять следующие передовые методы обеспечения безопасности данных:

  1. Политики безопасности хранения данных  — Предприятия должны иметь письменно оформленные политики, определяющие соответствующие уровни безопасности для различных типов данных, которыми они располагают. Очевидно, что общедоступные данные нуждаются в гораздо меньшей безопасности, чем ограниченные или конфиденциальные данные, и организация должна иметь модели, процедуры и инструменты безопасности для применения соответствующих средств защиты.Политики также должны включать сведения о мерах безопасности, которые должны быть развернуты на устройствах хранения, используемых организацией.
  2. Контроль доступа  — Контроль доступа на основе ролей необходим для безопасной системы хранения данных, а в некоторых случаях может быть уместна многофакторная аутентификация. Администраторы также должны обязательно изменить все пароли по умолчанию на своих устройствах хранения и обеспечить использование пользователями надежных паролей.
  3. Шифрование  — данные должны быть зашифрованы как при передаче, так и при хранении в системах хранения.Администраторы хранилища также должны иметь безопасные системы управления ключами для отслеживания своих ключей шифрования.
  4. Предотвращение потери данных  — Многие эксперты говорят, что одного шифрования недостаточно для обеспечения полной безопасности данных. Они рекомендуют организациям также развертывать решения для предотвращения потери данных (DLP), которые могут помочь найти и остановить любые текущие атаки.
  5. Надежная сетевая безопасность  — Системы хранения не существуют в вакууме; они должны быть окружены надежными системами сетевой безопасности, такими как брандмауэры, защита от вредоносных программ, шлюзы безопасности, системы обнаружения вторжений и, возможно, решения безопасности на основе расширенной аналитики и машинного обучения.Эти меры должны помешать большинству кибератак получить доступ к устройствам хранения данных.
  6. Надежная защита конечных точек  — Точно так же организациям также необходимо убедиться, что у них есть соответствующие меры безопасности на ПК, смартфонах и других устройствах, которые будут получать доступ к хранимым данным. В противном случае эти конечные точки, особенно мобильные устройства, могут стать слабым звеном киберзащиты организации.
  7. Избыточность  — Резервное хранилище, включая технологию RAID, не только помогает повысить доступность и производительность, но в некоторых случаях также может помочь организациям смягчить последствия инцидентов, связанных с безопасностью.
  8. Резервное копирование и восстановление  — Некоторые успешные атаки вредоносных программ или программ-вымогателей подвергают риску корпоративные сети настолько, что единственный способ восстановления — это восстановление из резервных копий. Менеджеры по хранению должны убедиться, что их системы и процессы резервного копирования подходят для таких событий, а также для целей аварийного восстановления. Кроме того, им необходимо убедиться, что системы резервного копирования имеют тот же уровень безопасности данных, что и основные системы.

Профессиональные ИТ-услуги Hypertec по запросу:

Hypertec Professional IT Services предлагает команду технических экспертов и специалистов по управлению проектами, которые помогут вам максимизировать ваши инвестиции в информационные технологии.Опытная команда Hypertec предлагает широкий спектр профессиональных услуг, от консультаций до развертывания, призванных помочь вам сократить время окупаемости.

Знаете ли вы, сколько времени тратится непродуктивно, пока вы или ваши сотрудники пытаются самостоятельно настроить и исправить проблемы по телефону? Hypertec предлагает различные управляемые услуги, включая мониторинг сети и поддержку удаленного управления для автоматического обновления. Меньшее количество сеансов поддержки означает, что ИТ-отдел может сосредоточиться на важных текущих задачах.

Почему будущее хранения данных (по-прежнему) за магнитной лентой

Неудивительно, что недавние достижения в области анализа больших данных и искусственного интеллекта создали для предприятий сильные стимулы для сбора информации о каждом измеримом аспекте их бизнеса . А финансовые правила теперь требуют, чтобы организации хранили записи гораздо дольше, чем в прошлом. Так что компании и учреждения всех мастей держатся все больше и больше.

Исследования показывают [PDF], что объем записываемых данных увеличивается на 30–40 процентов в год. В то же время емкость современных жестких дисков, на которых хранится большая часть этих данных, увеличивается менее чем в два раза быстрее. К счастью, большая часть этой информации не требует мгновенного доступа. И для таких вещей магнитная лента — идеальное решение.

Серьезно? Лента? Сама идея может вызвать образ барабанов, прерывисто вращающихся рядом с громоздким мейнфреймом, в старом фильме, таком как Desk Set или Dr.Стрейнджлав . Итак, быстрая проверка на практике: лента никогда не исчезала!


Действительно, большая часть мировых данных все еще хранится на пленке, включая данные для фундаментальных наук, таких как физика элементарных частиц и радиоастрономия, человеческое наследие и национальные архивы, крупные кинофильмы, банковское дело, страхование, разведка нефти и многое другое. Есть даже группа людей (включая меня, имеющую образование в области материаловедения, инженерии или физики), чья работа заключается в постоянном совершенствовании ленточных накопителей.

Лента существует уже давно, да, но технология не застыла во времени.Наоборот. Подобно жесткому диску и транзистору, магнитная лента значительно продвинулась вперед за десятилетия.

Первая коммерческая цифровая ленточная система хранения, IBM Model 726, могла хранить около 1,1 мегабайта на одной катушке с лентой. Сегодня современный ленточный картридж может вмещать 15 терабайт. А одна роботизированная ленточная библиотека может содержать до 278 петабайт данных. Для хранения такого количества данных на компакт-дисках потребовалось бы более 397 миллионов из них, которые, если их сложить, образовали бы башню высотой более 476 километров.

Лента действительно не обеспечивает таких высоких скоростей доступа, как жесткие диски или полупроводниковые запоминающие устройства. Тем не менее, у среды много преимуществ. Начнем с того, что хранение на магнитной ленте более энергоэффективно: как только все данные записаны, картридж с лентой просто спокойно устанавливается в слот в роботизированной библиотеке и вообще не потребляет энергии. Лента также чрезвычайно надежна, частота ошибок на четыре-пять порядков ниже, чем у жестких дисков. А лента очень надежна благодаря встроенному шифрованию на лету и дополнительной безопасности, обеспечиваемой самой природой носителя.В конце концов, если картридж не установлен в накопитель, доступ к данным или их изменение невозможно. Этот «воздушный зазор» особенно привлекателен в свете растущих темпов кражи данных посредством кибератак.

Автономный характер ленты также обеспечивает дополнительную линию защиты от ошибочного программного обеспечения. Например, в 2011 году ошибка в обновлении программного обеспечения привела к тому, что Google случайно удалил сохраненные сообщения электронной почты примерно в 40 000 учетных записей Gmail. Эта потеря произошла, несмотря на то, что несколько копий данных хранились на жестких дисках в нескольких центрах обработки данных.К счастью, данные также были записаны на ленту, и Google в конечном итоге смог восстановить все потерянные данные из этой резервной копии.

Инцидент с Gmail в 2011 году стал одним из первых случаев раскрытия информации о том, что поставщик облачных услуг использует ленту для своих операций. Совсем недавно Microsoft сообщила, что ее Azure Archive Storage использует ленточное хранилище IBM.

Несмотря на все эти плюсы, основная причина, по которой компании используют ленту, обычно кроется в простой экономике. Ленточные хранилища стоят в шесть раз меньше, чем вы должны были бы заплатить за хранение того же объема данных на дисках, поэтому ленточные системы можно найти почти везде, где хранятся огромные объемы данных.Но поскольку магнитная лента в настоящее время полностью исчезла из продуктов потребительского уровня, большинство людей не знают о ее существовании, не говоря уже об огромных достижениях технологии записи на магнитную ленту, достигнутых за последние годы и продолжающихся в обозримом будущем.

Все это говорит о том, что лента была с нами на протяжении десятилетий и будет с нами еще десятилетия. Как я могу быть так уверен? Читать дальше.

Лента пережила так долго, как она есть, по одной фундаментальной причине: она дешевая.И все время дешевеет. Но всегда ли так будет?

Можно было бы ожидать, что если возможности записи все большего количества данных на магнитные диски уменьшаются, то же самое должно быть справедливо и для лент, использующих ту же базовую технологию, но еще более старых. Удивительная реальность заключается в том, что для ленточных накопителей это увеличение емкости не показывает никаких признаков замедления. На самом деле, он должен продолжаться еще много лет с исторической скоростью около 33 процентов в год, а это означает, что вы можете ожидать удвоения мощности примерно каждые два-три года.Думайте об этом как о законе Мура для магнитной ленты.

Это отличная новость для всех, кому приходится иметь дело с резким ростом объема данных при неизменном бюджете хранилища. Чтобы понять, почему лента по-прежнему имеет такой большой потенциал по сравнению с жесткими дисками, рассмотрим, как эволюционировали ленты и жесткие диски.

Оба используют одни и те же основные физические механизмы для хранения цифровых данных. Они делают это в виде узких дорожек в тонкой пленке магнитного материала, в которых магнетизм переключается между двумя состояниями полярности.Информация кодируется в виде последовательности битов, представленных наличием или отсутствием перехода магнитной полярности в определенных точках дорожки. С момента появления ленточных и жестких дисков в 1950-х годах производители обоих движимы мантрой «плотнее, быстрее, дешевле». на много порядков

Такое снижение стоимости является результатом экспоненциального увеличения плотности информации, которая может быть записана на каждом квадратном миллиметре магнитной подложки.Эта плотность является произведением плотности записи вдоль дорожек данных и плотности этих дорожек в перпендикулярном направлении.

Раньше плотность записи на ленты и жесткие диски была одинаковой. Но гораздо больший размер рынка и доходы от продажи жестких дисков обеспечили финансирование гораздо более масштабных исследований и разработок, что позволило их производителям более агрессивно расширяться. В результате текущая плотность жестких дисков большой емкости примерно в 100 раз выше, чем у самых современных ленточных накопителей.

Тем не менее, благодаря гораздо большей площади поверхности, доступной для записи, современные ленточные системы обеспечивают собственную емкость картриджа до 15 ТБ, что больше, чем у самых емких жестких дисков на рынке. Это правда, несмотря на то, что оба типа оборудования занимают примерно одинаковое количество места.

Внутри и снаружи: современный ленточный картридж Linear Tape-Open (LTO) состоит из одной катушки. После установки картриджа лента автоматически подается на катушку, встроенную в приводной механизм. Фото: Виктор Прадо

За исключением емкости, рабочие характеристики ленточных и жестких дисков, конечно, сильно различаются. Большая длина ленты в картридже — обычно сотни метров — приводит к тому, что среднее время доступа к данным составляет от 50 до 60 секунд по сравнению с 5–10 миллисекундами для жестких дисков. Но скорость записи данных на ленту, как это ни удивительно, более чем в два раза превышает скорость записи на диск.

За последние несколько лет масштабирование плотности хранения данных на жестких дисках снизилось с исторического среднего значения около 40 процентов в год до 10-15 процентов.Причина связана с некоторой фундаментальной физикой: чтобы записать больше данных в данной области, вам нужно выделить меньшую область для каждого бита. Это, в свою очередь, уменьшает сигнал, который вы можете получить, когда читаете его. И если вы слишком сильно уменьшите сигнал, он потеряется в шуме, который возникает из-за зернистой природы магнитных зерен, покрывающих диск.

Фоновый шум можно уменьшить, уменьшив эти зерна. Но трудно уменьшить магнитные зерна сверх определенного размера, не ставя под угрозу их способность сохранять магнитное состояние стабильным образом.Наименьший размер, который можно использовать для магнитной записи, известен в этом бизнесе как суперпарамагнитный предел. И производители дисков достигли этого.

До недавнего времени это замедление не было очевидным для потребителей, потому что производители жестких дисков могли компенсировать это, добавляя к каждому устройству больше головок и пластин, что позволяло увеличить емкость при том же размере. Но сейчас как доступное пространство, так и стоимость добавления дополнительных головок и пластин ограничивают прибыль, которую могут получить производители дисков, и плато начинает становиться очевидным.

В настоящее время разрабатываются несколько технологий, которые могут обеспечить масштабирование жестких дисков за пределы сегодняшнего суперпарамагнитного предела. К ним относятся магнитная запись с нагреванием (HAMR) и магнитная запись с использованием микроволн (MAMR), методы, которые позволяют использовать более мелкие зерна и, следовательно, позволяют намагничивать меньшие области диска. Но эти подходы увеличивают стоимость и создают неприятные инженерные проблемы. И даже если они будут успешными, масштабирование, которое они обеспечивают, по мнению производителей, скорее всего, останется ограниченным.Western Digital Corp., например, которая недавно объявила, что, вероятно, начнет поставки жестких дисков MAMR в 2019 году, ожидает, что эта технология позволит масштабировать плотность записи всего на 15 процентов в год.

В отличие от этого, оборудование для хранения данных на магнитных лентах в настоящее время работает с поверхностной плотностью, которая значительно ниже суперпарамагнитного предела. Таким образом, закон Мура на ленте может действовать в течение десятилетия или более, не сталкиваясь с такими препятствиями со стороны фундаментальной физики.

Тем не менее, лента — сложная технология.Его съемный характер, использование тонкой полимерной подложки, а не жесткого диска, и одновременная запись до 32 дорожек параллельно создают значительные трудности для дизайнеров. Вот почему моя исследовательская группа в исследовательской лаборатории IBM в Цюрихе усердно работала над поиском способов обеспечения непрерывного масштабирования ленточных накопителей либо за счет адаптации технологий жестких дисков, либо за счет изобретения совершенно новых подходов.

В 2015 году мы и наши сотрудники из FujiFilm Corp. показали, что, используя сверхмалые частицы феррита бария, ориентированные перпендикулярно ленте, можно записывать данные с плотностью, более чем в 12 раз превышающей достижимую с помощью современных коммерческих технологий.А совсем недавно в сотрудничестве с Sony Storage Media Solutions мы продемонстрировали возможность записи данных с плотностью записи, которая примерно в 20 раз превышает текущий показатель для современных ленточных накопителей. Чтобы представить это в перспективе, если бы эта технология была коммерциализирована, киностудия, которой сейчас может понадобиться дюжина ленточных картриджей для архивирования всех цифровых компонентов высокобюджетного фильма, смогла бы разместить их все на одном устройстве. Лента.

Наплыв данных: современные ленточные библиотеки могут хранить сотни петабайт, тогда как IBM 726 (справа), представленный в 1952 году, мог хранить всего пару мегабайт. Фотографии: Дэвид Паркер/Science Source; справа: IBM

Чтобы включить эту степень масштабирования , нам пришлось сделать кучу технических усовершенствований. Во-первых, мы улучшили способность головок чтения и записи следовать по тонким дорожкам на ленте, ширина которых в нашей последней демонстрации составляла всего около 100 нанометров.

Нам также пришлось уменьшить ширину устройства считывания данных — магниторезистивного датчика, используемого для считывания записанных дорожек данных — с нынешнего микрометрового размера до менее 50 нм.В результате сигнал, который мы могли уловить таким крошечным ридером, становился очень зашумленным. Мы компенсировали это увеличением отношения сигнал/шум, присущего носителям, которое зависит от размера и ориентации магнитных частиц, а также от их состава, а также от гладкости и гладкости поверхности ленты. Чтобы еще больше помочь, мы улучшили схемы обработки сигналов и исправления ошибок, используемые в нашем оборудовании.

Чтобы наш новый прототип носителя мог хранить записанные данные десятилетиями, мы изменили природу магнитных частиц в записывающем слое, сделав их более стабильными.Но это изменение усложнило запись данных, в первую очередь, до такой степени, что обычный ленточный преобразователь не мог надежно записывать на новый носитель. Поэтому мы использовали специальную записывающую головку, которая создает магнитные поля намного сильнее, чем обычные головки.

Объединив эти технологии, мы смогли считывать и записывать данные в нашей лабораторной системе с линейной плотностью 818 000 бит на дюйм. (По историческим причинам ленточные инженеры по всему миру измеряют плотность данных в дюймах.) В сочетании с 246 200 дорожек на дюйм, которые может обрабатывать новая технология, наш прототип устройства достиг плотности 201 гигабит на квадратный дюйм. Если предположить, что один картридж может вместить 1140 метров ленты (разумное предположение, основанное на уменьшенной толщине используемых нами новых ленточных носителей), то эта плотность соответствует емкости картриджа в колоссальные 330 ТБ. Это означает, что на один ленточный картридж можно записать столько же данных, сколько на тачку с жесткими дисками.

В 2015 году Консорциум индустрии хранения информации , организация, в которую входят HP Enterprise, IBM, Oracle и Quantum, а также множество академических исследовательских групп, выпустила то, что она назвала « Международная дорожная карта хранения данных на магнитных лентах.В этом прогнозе предсказывалось, что к 2025 году плотность ленточных накопителей достигнет 91 ГБ на квадратный дюйм. Экстраполируя тенденцию, можно предположить, что к 2028 году она превысит 200 ГБ на квадратный дюйм. будущее ленточных накопителей. Но вам не нужно беспокоиться о том, что они были слишком оптимистичны. Лабораторные эксперименты, которые мы с коллегами недавно провели, показывают, что 200 Гб на квадратный дюйм вполне возможны. траектория роста, которую она имела по крайней мере еще одно десятилетие, на мой взгляд, вполне обеспечена.

В самом деле, магнитная лента может быть одной из последних информационных технологий, которая будет следовать закону Мура, сохраняя его в течение следующего десятилетия, если не дольше. И эта полоса, в свою очередь, только увеличит экономическое преимущество ленты по сравнению с жесткими дисками и другими технологиями хранения. Таким образом, даже если вы редко увидите ее за пределами черно-белого фильма, магнитная лента, какой бы старой она ни была, будет здесь еще долгие годы.

Эта статья появилась в печатном выпуске за сентябрь 2018 года под названием «Ленточное хранилище возвращается.»

Какой из 3 типов лучше всего подходит для вашего бизнеса?

Хранение данных: обзор 3 основных типов и определение того, что лучше всего подходит для вашего бизнеса

(Альтернативное название — Хранение данных: какой из 3 типов лучше для вашего бизнеса?

Я помню, как несколько лет назад впервые начал свой бизнес. И одной из последних вещей, о которых я думал, пытаясь запустить его, было то, как я собирался хранить свои данные.

Как мой бизнес , Click Intelligence начал расти, файлы начали накапливаться в моем ноутбуке.Я быстро понял, что больше не могу безнаказанно использовать свои маленькие флешки в качестве резервного хранилища.

По данным компании Gartner, занимающейся информационными технологиями и исследованиями, 43% компаний немедленно прекратили свою деятельность из-за «серьезной потери» компьютерных записей, а еще 51% навсегда закрылись в течение двух лет.

На рынке представлено три основных типа хранения данных: облачное, серверное (также известное как гиперконвергенция) и традиционное. Независимо от того, сколько лет вашему бизнесу, важно понимать, какие у вас есть варианты хранения данных, и использовать их соответствующим образом.

1. Облачное хранилище

Облачное хранилище — это просто удаленные вычисления, в которых хранятся ваши данные, чтобы вы могли получить к ним доступ в любое время и в любом месте. Идея облачных вычислений в виде «межгалактической компьютерной сети» была представлена ​​в 1969 году, и с тех пор она претерпела значительные изменения, отмечает Computer Weekly.

«Людям нравятся облака, потому что они кажутся волшебством», — сказал Энтони Р. Ховард, автор бестселлера «Невидимый враг: Черный лис» и эксперт по технологиям. «Я использую термин «автоматический», когда речь идет об облаке, потому что конечному пользователю не нужно ничего делать, например, делать какие-либо обновления; все ваши проблемы с хранением данных возникают у кого-то другого, когда вы используете облако.»

Другие преимущества облака включают гибкость, аварийное восстановление, автоматические обновления программного обеспечения, расширение совместной работы и доступную структуру ценообразования с оплатой по мере использования. С другой стороны, Ховард советует проявлять осторожность в отношении рисков безопасности и соответствия требованиям: «Вы не знаете, где хранятся ваши данные, что может быть проблемой для некоторых отраслей».

Несмотря на то, что количество нарушений безопасности остается низким, особенно в одной отрасли, где конфиденциальность является обязательным требованием, всегда существует риск: HIMSS, идейный лидер в области трансформации здравоохранения с помощью медицинских ИТ, в ходе опроса обнаружил, что всего 2.У 4% респондентов произошла утечка данных у их облачного провайдера.

Подходят ли облачные вычисления для вашего бизнеса? За последние несколько лет он, безусловно, набрал популярность. «Теперь это так же обычно, как облака в небе», — написала сотрудница Business.com Эшли Юнитт. Идеальные кандидаты для этого включают предприятия:

  • С меньшими бюджетами.
  • Возможно, потребуется расширить использование хранилища.
  • Нужна гибкость для увеличения или уменьшения затрат и хранения по мере необходимости.
  • Не нужно беспокоиться об обслуживании.
  • Это требует сотрудничества между членами команды.

2. Серверное (гиперконвергентное)

Серверное или гиперконвергентное хранилище — это данные, хранящиеся на отдельных серверах в центре обработки данных, обычно на вашем бизнес-сайте. Предприятия с бюджетом на это могут оценить их скорость и внутренний контроль. При гиперконвергенции у вас есть разные серверы, и ваши данные чередуются между ними.

«Идея гиперконвергенции заключается в абстрагировании других уровней инфраструктуры для простоты и гибкости.Программно-определяемые сети (SDN) привносят преимущества стандартизации в виртуализацию сети и снижают затраты на оборудование и уровни управления», — сообщает Information Week.

Из-за высокой цены (более 75 тыс. по словам нашего эксперта) и необходимого физического пространства малый бизнес не будет типичным кандидатом на гиперконвергенцию. Предприятия с большими бюджетами, которые могут позволить себе хранить их и управлять ими самостоятельно, как правило, лучше подготовлены. Несмотря на этот тег, гиперконвергенция может упростить управление и снизить расходы, отмечает BizTech.В статье добавлено: «… это также обеспечивает быстрый и экономичный способ избежать чрезмерно сложной чудовищной инфоструктуры, которая создавалась с течением времени».

3. Традиционные системы хранения

Традиционное хранилище обычно используется в качестве метода резервного копирования для облака. В целях безопасности к нему обычно можно получить доступ только при входе в интернет-соединение, в котором он хранится. Он будет отображаться на вашем компьютере как отдельная локальная сеть, вы можете увидеть на своем компьютере диск e, f или g.«Этим легко управлять, и люди к этому очень привыкли», — сказал Ховард. «Вы сбрасываете на него свое хранилище, и все. Если людям нужно больше места для хранения, вы добавляете больше дисков. Диски можно удалять, перезаписывать и дублировать по мере необходимости».

Основные преимущества:

  • Доступность по цене
  • Более быстрый доступ к данным
  • Масштабируемость

Существует два основных способа приобретения традиционных систем хранения: купить сеть хранения данных у поставщика технологий (Dell, EMC и т.) или сходите в местный магазин технологических продуктов и купите сетевое хранилище (NAS). Если у вас небольшой бизнес, Ховард отмечает, что небольшое сетевое хранилище должно работать нормально и стоить менее 500 долларов, но оно может не прослужить долго, и если оно выйдет из строя, вам придется нанять кого-нибудь, чтобы это починить.

Сообщите мне, какую технологию хранения данных вы выберете.

14 вещей, которые вам нужно знать об управлении хранилищем данных

Когда дело доходит до хранения данных, не существует универсального решения, поэтому, прежде чем решить, где и как хранить данные, сначала поймите, какой объем и тип у вас есть, а также почему вам нужно их хранить.

Так как же сформулировать надежную стратегию управления хранилищем данных? IDG обратилась к десяткам экспертов по хранению данных и управлению данными, в результате чего были получены 14 лучших предложений относительно того, какие шаги необходимо предпринять, чтобы выбрать подходящее решение(я) для хранения данных для вашей организации, и как вы можете лучше обеспечить надлежащую защиту своих данных и извлекаемый.

1. Знайте свои данные

«Чтобы разработать эффективную и рентабельную стратегию хранения данных, организации должны сначала понять важность и ценность своих данных для бизнеса», — говорит Гириш Дадж, старший директор по управлению продуктами в Sungard Availability Services. .

Итак, формулируя политику управления хранением данных, задайте следующие вопросы:

  • Как скоро мне потребуются данные, если они потеряны?

  • Как быстро мне нужно получить доступ к данным?

  • Как долго мне нужно хранить данные?

  • Насколько это должно быть безопасно?

  • Какие нормативные требования необходимо соблюдать?

2. Не пренебрегайте неструктурированными данными

«Подумайте, как вы можете объединить многоструктурированные данные из ваших транзакционных систем с полуструктурированными или неструктурированными данными с ваших почтовых серверов, сетевых файловых систем и т. д.», — говорит Аарон Розенбаум, директор по управлению продуктами компании MarkLogic, поставщика решений для баз данных. «Убедитесь, что выбранная вами платформа управления данными позволит вам комбинировать все эти типы без месяцев или лет усилий по моделированию данных».

3. Поймите свои потребности в соответствии требованиям

«Если вы являетесь публичной компанией или работаете в строго регулируемой отрасли, такой как финансовые услуги или здравоохранение, планка соответствия и безопасности была установлена ​​​​высокой», — говорит Джей Аткинсон, генеральный директор провайдер облачного хостинга AIS Network.

«Если вы решите передать хранение и управление данными на аутсорсинг, убедитесь, что ваш поставщик управляемых услуг имеет учетные данные, необходимые для обеспечения высокобезопасной среды, соответствующей требованиям. Неспособность работать в полном соответствии может привести к суровым санкциям позже», — говорит Аткинсон

4. Установите политику хранения данных

«Установка правильных политик хранения данных необходима как для внутреннего управления данными, так и для соблюдения законодательства», — говорит Крис Гроссман. , старший вице-президент по корпоративным приложениям Rand Worldwide и Rand Secure Archive, поставщика решений для архивирования данных и управления ими.«Некоторые из ваших данных должны храниться в течение многих лет, в то время как другие данные могут понадобиться только в течение нескольких дней».

«При настройке процессов определите наиболее важные данные организации и соответствующим образом расставьте приоритеты для ресурсов управления хранением», — говорит Скотт-Коули. «Например, электронная почта может быть главным приоритетом компании, но хранение и архивирование данных электронной почты для одной конкретной группы, по словам руководителей, может быть более важным, чем для других групп», — говорит он. «Убедитесь, что эти приоритеты установлены, чтобы ресурсы управления данными могли быть сосредоточены на наиболее важных задачах.

5. Ищите решение, которое соответствует вашим данным, а не наоборот

«Многие думают, что единственный выбор — это нужна им DAS, SAN или NAS», — говорит Оливье Тьерри, директор по маркетингу компании Pivot3, поставщик конвергентных, высокодоступных общих хранилищ и виртуальных серверных устройств. «Это важный выбор, но его недостаточно», — продолжает он.

«Хотя сеть хранения данных Fibre Channel может быть отличной для выполнения большого количества операций чтения/записи с малой задержкой в ​​достаточно структурированной базе данных, она обычно не предназначена для работы со скачкообразными неструктурированными рабочими нагрузками видео, — говорит Тьерри.Таким образом, «вместо того, чтобы выбирать универсальную стратегию, более разумные покупатели теперь учитывают характеристики рабочей нагрузки и выбирают правильную стратегию хранения для своей работы».

Точно так же «ищите решение, которое обеспечивает гибкость выбора места хранения данных: локально и/или в облаке», — говорит Джесси Липсон, основатель ShareFile и вице-президент и генеральный директор по совместному использованию данных в Citrix. «Решение должно позволить вам использовать существующие инвестиции в платформы данных, такие как общие сетевые ресурсы и SharePoint.

И если у вас, как и у многих компаний в наши дни, есть мобильные сотрудники, выбранное вами решение для управления данными и хранения «должно быть оптимизировано для мобильных и виртуальных платформ, а также для настольных компьютеров и ноутбуков — и обеспечивать единообразие работы на любой платформе, включая возможности мобильного редактирования и интуитивно понятный интерфейс на мобильных устройствах, виртуальных рабочих столах или рабочих столах».

6. Не позволяйте первоначальным затратам влиять на ваше решение

«Реальная стоимость хранения зависит от эксплуатации решения в течение нескольких лет, — говорит Энтони Фалько, соучредитель и генеральный директор Orchestrate.ио. Поэтому «убедитесь, что вы действительно понимаете свои эксплуатационные расходы [или общую стоимость владения]: персонал, сторонняя поддержка, мониторинг, даже вероятность потери данных, которая, безусловно, требует затрат», — говорит он. «Все это быстро затмевает первоначальные затраты на покупку и развертывание».

«Многие пользователи покупают системы хранения (системы или услуги) из-за больших первоначальных скидок или из-за того, что они забывают продумать стоимость выбранных ими хранилищ в будущем», — добавляет Джон Хайлз, старший менеджер по продуктам поставщика решений для хранения данных Spectra Logic.

«Учитывая масштабируемость, обновление технологий и эксплуатационные расходы, такие как питание, администрирование, занимаемая площадь и продление поддержки с течением времени, можно существенно изменить приобретаемое хранилище», — говорит Хайлз. «Учет долгосрочных последствий этих характеристик хранилища и покупка хранилища, обеспечивающего наилучшую совокупную стоимость владения с течением времени, снижает вероятность того, что долгосрочные затраты намного превысят краткосрочные скидки».

7. Используйте подход многоуровневого хранения

«Экономьте деньги, используя только самое быстрое хранилище, такое как SSD, для данных, которые вы активно используете, и используйте менее дорогие платформы, такие как облако, для хранения ваших архивных данных или резервных копий», — говорит Аарон Розенбаум, директор по управлению продуктами компании MarkLogic, поставщика решений для баз данных.«Убедитесь, что ваши системы могут использовать разные уровни хранения, чтобы при изменении требований к производительности приложения вам не нужно было изменять его архитектуру».

8. Знайте свои облака

«Все облака хранения не одинаковы», — предупреждает Андрес Родригес, генеральный директор Nasuni, предоставляющей инфраструктуру хранения как услугу. «Некоторые облака оптимизированы для архивирования, другие обладают производительностью и стабильностью, чтобы выступать в качестве серверной части для основной системы хранения данных, а третьи не стоят риска ни для каких целей», — объясняет он.«Облако с самой низкой ценой может оказаться намного дороже в долгосрочной перспективе, если данные будут потеряны или недоступны».

9. Тщательно проверяйте поставщиков систем хранения данных

«На рынке существует множество жизнеспособных решений для хранения данных, которые будут соответствовать вашим требованиям, — говорит Майк Гарбер, старший директор по управлению платформами в страховой компании Independence Blue Cross. «Выберите поставщика хранилища, у которого есть отличная техническая поддержка, а также внимательная команда по работе с клиентами», — говорит он. «Когда проблемы возникают в сети хранения, они обычно оказывают большое влияние на вашу организацию.Ваша способность своевременно решать эти проблемы будет иметь решающее значение для вашего успеха».

Также важно «составить список всего, что вы хотите, чтобы ваше решение для защиты данных делало, и спросить поставщиков, какую часть списка они могут охватить», — говорит Джарретт Поттс, директор по маркетингу поставщика решений для резервного копирования данных STORServer.

«Организациям, ищущим поставщиков хранилищ, следует обратить пристальное внимание на емкость, производительность, доступность и отказоустойчивость, — говорит Милтон Лин, главный специалист по облачным вычислениям в Force 3, которая предоставляет различные технологические решения.«Также важно искать поставщиков, которые предлагают инновационные функции, такие как тонкое выделение ресурсов, многоуровневое распределение и дедупликация».

Наконец, вы должны помнить, что вы «не можете передать все риски, связанные с [вашими] данными, просто храня их на стороннем объекте», — предупреждает Крис Реффкин, старший менеджер отдела консультирования по рискам в Crowe Horwath LLP. «Организация несет полную ответственность за свои данные», — говорит он.

«Эта обязанность включает проведение должной осмотрительности не только во время закупок, но и на протяжении всего жизненного цикла отношений с поставщиками.Это также означает, что в случае наихудшего сценария [вам необходимо иметь] соответствующий контракт, чтобы покрыть расходы на нарушение и т. д.», — говорит Реффкин.

10. Не храните избыточные данные

«У многих компаний нет плана по хранению», — говорит Майкл Клэппертон, ИТ-директор компании George Little Management, организатора торговых выставок. Вместо этого «они, как правило, собирают и сохраняют избыточные данные», — говорит он.

«Раньше это не было проблемой, когда диск стоил дорого; компании гораздо тщательнее планировали, что хранить», — говорит Клэппертон.«Но поскольку емкость более доступная по цене, тенденция состоит в том, чтобы хранить все. Проблема заключается в том, чтобы определить, что действительно, а что устарело, а также в производительности базы данных». Поэтому перед сохранением данных проанализируйте их и «выберите самый надежный источник», удалив копии.

11. Обеспечьте безопасность своих данных

«При управлении данными в любой ИТ-среде безопасность должна стоять на первом месте, — говорит Нил Коле, вице-президент по глобальной инфраструктуре и операциям компании Informatica, поставщика программного обеспечения для интеграции данных. .

«Безопасность обеспечивается двумя способами: данные должны быть защищены как виртуально, так и физически, — говорит Коул. «Данные также должны быть зашифрованы, чтобы они не могли быть прочитаны или использованы недобросовестными третьими лицами, если они когда-либо выйдут из-под контроля или будут взломаны (что действительно происходит)».

Кроме того, Коул советует выполнять резервное копирование зашифрованных данных на ленту и размещать их в безопасном внешнем месте, «чтобы в случае чрезвычайной ситуации или стихийного бедствия можно было воссоздать данные и корпоративную систему».

12.Используйте дедупликацию, моментальные снимки и клонирование

«Это может сэкономить вам значительное количество места, предоставляя вам контроль версий ваших данных», — говорит Дэвид Шталь, директор по ИТ в цифровом агентстве Huge. «Некоторые из более поздних файловых систем, таких как ZFS, делают все это и имеют открытый исходный код. Но коммерческие продукты, такие как NetApp, делают это годами».

Добавляет Дуг Хейзелман, вице-президент по продуктовой стратегии Veeam Software: «Теперь моментальные снимки SAN можно преобразовывать в резервные копии, которые ИТ-отдел может хранить вне офиса, что позволяет ИТ-отделу выполнять резервное копирование среды несколько раз в час, а не только один раз в день.

13. Убедитесь, что вы можете найти данные после их сохранения

«Возможность легкого поиска ваших данных, хранящихся в электронном виде, и мгновенного предоставления точных результатов имеет решающее значение для получения максимальной отдачи от ваших данных ежедневно и в экстренных ситуациях. , например, когда ваши данные нужны для судебного разбирательства», — говорит Крис Гроссман, старший вице-президент по корпоративным приложениям, Rand Worldwide и Rand Secure Archive, поставщику решений для архивирования данных и управления ими. «В конце концов, если вы не можете найти нужные данные, когда они вам нужны, какой смысл вообще архивировать ваши данные?»

14.Имейте план аварийного восстановления и постоянно тестируйте его.

«Все дело в выздоровлении, — говорит Поттс. «Все резервные копии в мире не смогут вас спасти, если вы не сможете восстановить [ваши данные]». Поэтому какой бы метод или методы резервного копирования вы ни использовали, обязательно проверяйте их — и не только раз в год или раз в месяц.

«Выполняйте выборочное восстановление каждую неделю», — советует Поттс. «Проводите тестирование аварийного восстановления и проверяйте свои пулы данных [периодически, чтобы вы могли] быть уверены, что сможете восстановить свои данные».

«Всегда помните правило 3-2-1», — добавляет Дэйв Гамильтон, Дэйв ведет подкаст Mac Geek Gab в The Mac Observer.«Поддерживайте не менее трех копий всего, что вам нужно, по крайней мере в двух разных форматах, причем по крайней мере одна из них находится вне офиса».

Присоединяйтесь к сообществам Network World на Facebook и LinkedIn, чтобы комментировать самые важные темы.

Ваш комментарий будет первым

Добавить комментарий

Ваш адрес email не будет опубликован.