Что представляет собой хранилище данных? | Основные понятия | Amazon Web Services
Начать работу с Amazon Redshift
Что представляет собой хранилище данных?
Хранилище данных — это центральный репозиторий информации, которую можно анализировать для принятия более обоснованных решений. Данные поступают в хранилище из транзакционных систем, реляционных баз данных и других источников — как правило, с определенной периодичностью. Бизнес‑аналитики, специалисты по работе с данными и лица, ответственные за принятие решений, получают доступ к данным с помощью инструментов бизнес‑аналитики, SQL‑клиентов и других приложений для аналитики.
Сегодня данные и инструменты аналитики незаменимы для компаний, которые стремятся сохранять преимущества перед конкурентами. Чтобы превращать данные в полезную аналитическую информацию, следить за эффективностью ведения бизнеса и принимать обоснованные решения, компании используют отчеты, панели управления и различные аналитические инструменты. За этими отчетами, панелями управления и аналитическими инструментами стоят хранилища данных, которые эффективно хранят данные, минимизируя количество операций чтения и записи и быстро возвращая результаты запросов сотням и тысячам пользователей одновременно.
Как разрабатываются хранилища данных?
Архитектура хранилища данных включает несколько уровней. Верхний уровень — интерфейсный клиент, предоставляющий результаты с использованием инструментов формирования отчетов, поиска и анализа данных. Средний уровень — аналитический механизм, который используется для доступа к данным и их анализа. Нижний уровень архитектуры — сервер базы данных, отвечающий за загрузку и хранение данных. Данные хранятся двумя разными способами: 1) данные, к которым нужен частый доступ, хранятся в очень быстром хранилище (например, на SSD-дисках), и 2) данные с нечастым доступом хранятся в более дешевом хранилище объектов, например в Amazon S3. Хранилище данных автоматически выполняет перенос часто используемых данных в «быстрое» хранилище для оптимизации скорости запросов.
Как работает хранилище данных?
Хранилище данных может содержать несколько баз данных. В каждой базе данных хранятся данные, упорядоченные по таблицам и столбцам. В каждом столбце вы можете определить описание данных: целые числа, поле данных, строка и т. д. Таблицы можно структурировать в схемы, которые во многом похожи на папки с файлами. После поступления данные хранятся в различных таблицах, описанных в этой схеме. С ее помощью инструменты запросов определяют, к каким таблицам данных следует обратиться для анализа.
Каковы преимущества использования хранилища данных?
Хранилище данных обеспечивает следующие преимущества:
- возможность принимать обоснованные решения;
- консолидация данных из множества источников;
- исторический анализ данных;
- высокое качество, непротиворечивость и точность данных;
- изолирование операций аналитики от транзакционных БД для повышения производительности обеих систем.
Как сочетаются друг с другом хранилища данных, базы данных и озера данных?
В организациях для хранения и анализа данных традиционно применяются разные сочетания баз данных, озер данных и хранилищ данных. Архитектура озерного хранилища данных Amazon Redshift упрощает такую интеграцию.
По мере роста объема и разнообразия данных следует применять один или несколько следующих шаблонов для работы с данными в базе данных, озере данных и хранилище данных.
Изображение (выше). Загрузка данных в базу данных или озеро данных, предварительная обработка данных и перемещение нужных частей в хранилище данных, затем подготовка отчетов.
Изображение (выше). Загрузка данных в хранилище данных, анализ и предоставление общего доступа к данным для других сервисов аналитики и машинного обучения.
Хранилище данных предназначено для аналитики, что предусматривает чтение больших объемов данных для выявления тенденций и связей между ними. База данных используется для захвата и хранения данных, например для записи сведений о транзакциях.
В отличие от хранилища данных, озеро данных представляет собой централизованный репозиторий для всех данных, как структурированных, так и неструктурированных. Для хранилища данных требуется табличная организация данных, и важную роль в этом механизме играет схема данных. Табличный формат нужен для того, чтобы использовать запросы SQL для получения данных. Но табличный формат требуется не для всех приложений. Некоторые из них, например для аналитики больших данных, полнотекстового поиска и машинного обучения умеют работать с частично структурированными или полностью нескруктурированными данными.
Сравнение хранилища данных и озера данных
Характеристики | Хранилище данных | Озеро данных |
---|---|---|
Данные | Реляционные данные из транзакционных систем, операционных баз данных и групп бизнес‑приложений | Любые данные, в том числе структурированные, частично структурированные или неструктурированные |
Схема | Часто разрабатывается еще до реализации хранилища данных, но может создаваться и на этапе анализа (схема при записи или схема при чтении) | Записывается в момент анализа (схема при чтении) |
Соотношение цены и производительности | Самая высокая скорость выполнения запросов за счет использования локального хранилища | Ускоренное выполнение запросов за счет использования недорогого хранилища и разделения процессов вычисления и хранения |
Качество данных | Данные, прошедшие строгую проверку для использования в качестве главной и достоверной версии | Любые данные, проверенные и не проверенные (необработанные данные) |
Пользователи | Бизнес‑аналитики, разработчики и специалисты по работе с данными | Бизнес‑аналитики (используют проверенные данные), специалисты по работе с данными, разработчики и инженеры, создатели архитектур данных |
Аналитика | Пакетные отчеты, бизнес‑аналитика и визуализация | Машинное обучение, исследовательская аналитика, изучение данных, потоковая передача, операционная аналитика, большие данные, профилирование |
Сравнение хранилища данных с базой данных
Характеристики | Хранилище данных | Транзакционная база данных |
---|---|---|
Подходящие рабочие нагрузки | Аналитика, отчеты, большие данные | Обработка транзакций |
Источник данных | Сбор и нормализация данных из множества источников | Захват данных в исходном виде из одного источника, например из транзакционной системы |
Захват данных | Пакетные операции записи, обычно по заданному расписанию | Непрерывные операции записи по мере поступления новых данных для повышения пропускной способности транзакций |
Нормализация данных | Денормализованные схемы, например «звезда» или «снежинка» | Статические схемы с высокой степенью нормализации |
Хранилище данных | Рассчитано на упрощение доступа и повышение скорости выполнения запросов за счет использования столбчатых хранилищ | Рассчитана на операции записи в один строчно‑ориентированный физический блок с высокой пропускной способностью |
Доступ к данным | Рассчитано на уменьшение количества операций ввода‑вывода и достижение максимальной пропускной способности при работе с данными | Большое количество мелких операций чтения |
Чем отличаются витрина данных и хранилище данных?
Витрина данных — это хранилище данных, предназначенное для определенного отдела или подразделения, например финансового отдела, отдела маркетинга или продаж. Витрина данных меньше по объему, имеет определенную специализацию и может содержать обобщенные данные, наиболее актуальные для пользователей. Витрина данных может даже являться частью хранилища данных.
Сравнение хранилища данных и витрины данных
Характеристики | Хранилище данных | Витрина данных |
---|---|---|
Охват | Централизовано, содержит данные из разных областей | Децентрализована, содержит данные из определенной области |
Пользователи | Вся организация | Отдельное сообщество или отдел |
Источник данных | Множество источников | Один или несколько источников либо часть данных из хранилища данных |
Размер | Большой, от сотен гигабайтов до петабайтов | Небольшой, обычно до десятков гигабайтов |
Проектирование | Сверху вниз | Снизу вверх |
Детализация данных | Полные подробные данные | Может содержать обобщенные данные |
Как развертывать хранилище данных в AWS?
AWS позволяет использовать все основные преимущества, связанные с предоставлением вычислительных ресурсов по требованию: доступ к практически бесконечным ресурсам хранилища и вычислительным ресурсам, масштабирование системы параллельно с увеличением объема собираемых, хранимых и запрашиваемых данных, оплата только подготовленных ресурсов.
На следующем рисунке представлены основные шаги комплексного аналитического процесса (стека). AWS предоставляет для каждого из этих шагов широкий ассортимент управляемых сервисов.
Изображение (вверху). AWS предлагает широкий набор продуктов и сервисов для каждого шага аналитического процесса.
Amazon Redshift — наш быстрый, полностью управляемый и экономичный сервис для хранения данных. Он предоставляет хранилище для данных объемом до многих петабайтов и аналитику озера данных объемом до нескольких эксабайтов, которые объединены в один сервис с оплатой по факту использования.
Дальнейшие шаги
- Воспользуйтесь пошаговым руководством и осуществите развертывание хранилища данных Amazon Redshift »
- Начните работу, воспользовавшись двухмесячной бесплатной пробной версией »
Вход в Консоль
Подробнее об AWS
- Что такое AWS?
- Что такое облачные вычисления?
- Многообразие, равенство и инклюзивность AWS
- Что такое DevOps?
- Что такое контейнер?
- Что такое озеро данных?
- Безопасность облака AWS
- Новые возможности
- Блоги
- Пресс‑релизы
Ресурсы для работы с AWS
- Начало работы
- Обучение и сертификация
- Библиотека решений AWS
- Центр архитектуры
- Вопросы и ответы по продуктам и техническим темам
- Аналитические отчеты
- Партнеры AWS
Разработчики на AWS
- Центр разработчика
- Пакеты SDK и инструментарий
- .
NET на AWS
- Python на AWS
- Java на AWS
- PHP на AWS
- JavaScript на AWS
Поддержка
- Свяжитесь с нами
- Обратиться в службу поддержки
- Центр знаний
- AWS re:Post
- Обзор AWS Support
- Юридическая информация
- Работа в AWS
Amazon.com – работодатель равных возможностей. Мы предоставляем равные права представителям меньшинств, женщинам, лицам с ограниченными возможностями, ветеранам боевых действий и представителям любых гендерных групп любой сексуальной ориентации независимо от их возраста.
Поддержка AWS для Internet Explorer заканчивается 07/31/2022. Поддерживаемые браузеры: Chrome, Firefox, Edge и Safari. Подробнее »
Что такое хранилище данных? | Определение, компоненты, архитектура
Хранилище данных — это цифровая система хранения, которая выполняет объединение и согласование больших объемов данных из разных источников. Она предоставляет данные для бизнес-аналитики, отчетов и анализа, а также обеспечивает поддержку нормативных требований. С ее помощью компании превращают свои данные в ценную информацию и принимают взвешенные решения на основе данных. Хранилища данных объединяют текущие и исторические данные в одном месте и выступают единым источником достоверной информации для организации.
Данные поступают в хранилище данных из операционных систем (например, ERP и CRM), баз данных и внешних источников, таких как системы партнеров, устройства Интернета вещей, погодные приложения и социальные сети — обычно с определенной периодичностью. Появление облачных вычислений привело к изменению ландшафта. В последние годы системы хранения данных, помимо традиционной локальной инфраструктуры, размещаются в различных местах, включая локальные решения, частные и общедоступные облака.
Современные хранилища данных предназначены для обработки структурированных и неструктурированных данных, таких как видео, файлы изображений и данные с датчиков. Некоторые из них используют встроенную аналитику и технологию базы данных in-memory (когда набор данных хранится в памяти компьютера, а не на диске) для обеспечения доступа к достоверным данным в реальном времени и принятия взвешенных решений. Без хранилища данных очень сложно объединять данные из неоднородных источников, обеспечивать нужный формат для аналитики и получать актуальное и долгосрочное представление о данных во времени.
Преимущества хранилищ данных
Хорошо спроектированное хранилище данных является фундаментом любой успешной программы бизнес-анализа или аналитики. Его основная задача — обеспечить создание отчетов и работу информационных панелей и аналитических инструментов, которые стали незаменимыми для современного для бизнеса. Хранилище данных предоставляет информацию для принятия решений на основе данных и помогает делать правильный выбор во всех случаях — от разработки новых продуктов до определения уровня запасов. Хранилище данных обеспечивает множество преимуществ. Вот некоторые из них:
- Повышение качества бизнес-аналитики. При использовании хранилищ данных лица, ответственные за принятие решений, получают доступ к данным из разных источников, и им больше не приходится принимать решения на основе неполной информации.
- Ускорение выполнения запросов. Хранилища данных создаются специально для быстрого извлечения и анализа данных. При использовании хранилищ можно очень быстро запрашивать большие объемы консолидированных данных, не привлекая для этого ИТ-персонал.
- Повышение качества данных. Перед загрузкой в хранилище система создает задачи по очистке данных и вносит их в рабочий список для последующей обработки, обеспечивая преобразование данных в согласованный формат для последующей аналитики и принятия решений на основе высококачественных и точных данных.
- Исторический ракурс. Хранилище содержит большие объемы исторических данных и позволяет лицам, принимающим решения, изучать прошлые тенденции и проблемы, делать прогнозы и постоянно совершенствовать бизнес.
Что может содержаться в хранилище данных?
Когда хранилища данных впервые стали популярными в конце восьмидесятых, они предназначались для хранения информации о людях, продуктах и транзакциях. Эти так называемые структурированные данные были аккуратно организованы и отформатированы для простоты доступа. Однако вскоре компаниям захотелось хранить, извлекать и анализировать неструктурированные данные — такие как документы, изображения, видео, электронные письма, сообщения в социальных сетях и необработанные данные от датчиков оборудования.
Современное хранилище данных может вмещать как структурированные, так и неструктурированные данные. Объединяя эти типы данных и устраняя разрозненность между ними, компании могут получить полную и всестороннюю картину для извлечения наиболее ценной аналитической информации.
Ключевые термины
В мире хранилищ данных существует множество терминов, в которых необходимо разобраться. Вот самые важные из них. Ознакомьтесь с другими терминами и часто задаваемыми вопросами в нашем глоссарии.
Хранилище данных и база данных
И базы данных, и хранилища данных являются системами хранения данных, однако они служат разным целям. В базе данных обычно хранятся данные для определенной сферы деятельности. В хранилище данных содержатся актуальные и исторические данные по всему предприятию, которые используются для бизнес-анализа и аналитики. Хранилища данных используют сервер базы данных для получения данных из БД организации и имеют дополнительные функции для моделирования данных, управления жизненным циклом данных, интеграции источников данных и других операций.
Хранилище данных и озеро данных
И хранилища данных, и озера данных используются для хранения больших данных, но это совершенно разные системы хранения. В хранилище данных содержатся данные, отформатированные для определенной цели, тогда как в озере данные хранятся в исходном, необработанном состоянии, и их назначение еще не определено. Хранилища и озера данных часто дополняют друг друга. Например, если хранящиеся в озере необработанные данные необходимы для ответа на какой-либо вопрос бизнеса, их можно извлечь, очистить, преобразовать и использовать в хранилище данных для анализа. При выборе подходящего решения для хранения данных необходимо учитывать объем данных, производительность базы данных и цену хранения.
Хранилище данных и витрина данных
Витрина данных — это часть хранилища данных, специальным образом секционированная для отделов или направлений бизнеса, таких как продажи, маркетинг или финансы. Некоторые витрины создаются и для отдельных операционных целей. Если хранилище данных служит центральным «складом» данных для всей компании, то витрина предоставляет соответствующие данные избранной группе пользователей. Это упрощает доступ к данным, ускоряет анализ и дает этим пользователям возможность контролировать собственные данные. В одном хранилище данных часто развертывается несколько витрин.
Ключевые компоненты хранилища данных
Типичное хранилище данных состоит из четырех основных компонентов: центральной базы данных, инструментов ETL (извлечение, преобразование, загрузка), метаданных и инструментов доступа. Все эти компоненты разработаны с прицелом на обеспечение максимальной скорости, что позволяет быстро получать результаты и оперативно анализировать данные.
- Центральная база данных. Фундамент хранилища данных. Традиционно применялись стандартные реляционные базы данных, работающие локально или в облаке. Но из-за появления больших данных, потребности в высокой производительности в реальном времени и резкого снижения стоимости оперативной памяти базы данных in-memory быстро набирают популярность.
- Интеграция данных. Данные извлекаются из исходных систем и модифицируются, обеспечивая согласованность информации для оперативного использования в аналитике, при помощи различных способов интеграции данных — таких как ETL (извлечение, преобразование, загрузка) и ELT, репликация данных в реальном времени, обработка пакетных данных, преобразование данных, услуги по обеспечению качества и обогащению данных.
- Метаданные. Это данные о ваших данных. Они определяют источник, механизм использования, значения и другие функции наборов данных в хранилище данных. Существуют бизнес-метаданные, которые добавляют контекст к имеющимся данным, и технические метаданные, которые описывают способ доступа к данным, включая их местоположение и структуру.
- Инструменты доступа к хранилищу данных. Инструменты доступа позволяют пользователям взаимодействовать с данными в хранилище. Примерами инструментов доступа могут быть инструменты создания запросов и отчетов, инструменты разработки приложений, инструменты интеллектуального анализа данных и инструменты OLAP.
Архитектура хранилища данных
В прошлом хранилища данных работали в виде слоев, соответствовавших потоку бизнес-данных.
- Слой данных. Данные извлекаются из источников, а затем преобразуются и загружаются на нижний уровень с помощью инструментов ETL. Нижний уровень включает сервер баз данных, витрины данных и озера данных.
На этом уровне создаются метаданные; инструменты интеграции данных, такие как виртуализация данных, используются для беспрепятственного объединения и агрегирования данных.
- Семантический слой. На среднем уровне серверы оперативной аналитической обработки (OLAP) и оперативной обработки транзакций (OLTP) реструктурируют данные для быстрого выполнения сложных запросов и применения аналитических инструментов.
- Слой аналитики. Верхним уровнем является уровень клиентов фронтэнд-сервера. Он содержит инструменты доступа к хранилищу данных, которые позволяют пользователям работать с данными, создавать информационные панели и отчеты, отслеживать KPI, добывать и анализировать данные, создавать приложения — и многое другое. Этот уровень часто включает инструментальные средства или изолированную среду для исследования данных и разработки новых моделей данных.
Хранилища данных были разработаны для поддержки процесса принятия решений, а их создание и техническое обслуживание осуществлялось ИТ-специалистами. Однако в последние несколько лет они эволюционировали в сторону расширения возможностей бизнес-пользователей, уменьшая их зависимость от ИТ-персонала для получения доступа к данным и извлечения ценных аналитических сведений. Вот несколько ключевых возможностей хранилищ данных, которые расширили возможности бизнес-пользователей:
- Семантический или бизнес-слой, который поддерживает фразы на естественном языке и позволяет мгновенно понимать данные, определять взаимосвязи между элементами в модели данных и обогащать поля данных новой бизнес-информацией.
- Виртуальные рабочие области позволяют командам переносить модели данных и связи в одно защищенное и управляемое место, поддерживая более эффективное сотрудничество с коллегами благодаря единому общему пространству и использованию общего набора данных.
- Облачные технологии еще больше оптимизировали процесс принятия решений, обеспечивая глобальное расширение возможностей сотрудников при помощи обширного набора инструментов и функций, позволяющего легко выполнять задачи анализа данных.
Они могут подключать новые приложения и источники данных без привлечения ИТ-специалистов.
Первые шаги
Попробуйте наше облачное хранилище данных прямо сейчас.
Бесплатная пробная версия
Семь главных преимуществ облачного хранилища данных
Популярность облачных хранилищ данных растет — и тому есть причины. Эти современные хранилища обладают рядом достоинств по сравнению с традиционными локальными версиями. Вот семь главных преимуществ облачного хранилища данных.
- Быстрое развертывание. Облачное хранилище данных позволяет при помощи нескольких щелчков мышью приобретать практически неограниченный объем вычислительных мощностей и памяти, а также создавать собственное хранилище данных, витрины данных и изолированные среды из любого места за считанные минуты.
- Низкая совокупная стоимость владения (TCO). Модели ценообразования «хранилище данных как услуга» (DWaaS) устроены таким образом, что вы платите только за те ресурсы, которые вам нужны, и только тогда, когда они вам нужны.
Вам не придется прогнозировать свои долгосрочные потребности или оплачивать в течение года больше вычислительных ресурсов, чем необходимо. Можно избежать таких предварительных затрат, как дорогостоящее оборудование, серверные помещения и обслуживающий персонал. Отделение цен на хранение данных от цен на вычисления также дает возможность снизить затраты.
- Эластичность. Облачное хранилище данных позволяет динамически наращивать и сокращать масштаб по мере необходимости. Облако предоставляет виртуализированную и сильно распределенную среду, способную управлять огромными объемами данных, которые могут увеличиваться и уменьшаться.
- Безопасность и аварийное восстановление. Во многих случаях облачные хранилища данных обеспечивают более надежную защиту и шифрование данных, чем локальные хранилища. Автоматическое дублирование и резервирование данных позволяют минимизировать риск их потери.
- Технологии реального времени. Облачные хранилища данных, построенные на технологии баз данных in-memory, могут обеспечить чрезвычайно высокую скорость обработки данных, что позволяет получать данные в режиме реального времени для мгновенного понимания ситуации.
- Новые технологии. Облачные хранилища данных позволяют легко интегрировать новые технологии, такие как машинное обучение, которые могут предоставить бизнес-пользователям управляемый опыт и поддержку принятия решений — например, в виде вопросов, которые рекомендуется задавать.
- Расширение возможностей бизнес-пользователей. Облачные хранилища данных расширяют возможности сотрудников в равной степени и в глобальном масштабе, обеспечивая единое представление данных из различных источников и обширный набор инструментов и функций, позволяющий легко выполнять задачи анализа данных. Они могут подключать новые приложения и источники данных без привлечения ИТ-специалистов.
Лучшие практики организации хранилищ данных
При создании нового хранилища данных или добавлении новых приложений в существующее хранилище применяйте проверенные рекомендации, обеспечивающие достижение поставленных целей и экономию времени и средств. Некоторые из них ориентированы на использование в бизнес-сценариях, другие являются частью общей ИТ-программы. Приведенный ниже список является хорошей отправной точкой, а для работы с партнерами по технологиям и услугам предусмотрены дополнительные практики.
Лучшие практики для бизнес-подразделений
- Определите, какая информация вам нужна. Точно представляя свои первоначальные потребности, вы сможете найти подходящие источники данных. Часто рекомендации по данным можно получить у отраслевых объединений, клиентов и поставщиков.
- Задокументируйте местоположение, структуру и качество имеющихся у вас данных. После этого можно будет выявить пробелы в данных и определить бизнес-правила для преобразования данных в соответствии с требованиями вашего хранилища.
- Создайте команду. В нее должны входить сторонники из числа высшего руководства, менеджеры и сотрудники, которые будут использовать и предоставлять информацию. Например, определите стандартные отчеты и KPI, необходимые им для выполнения задач.
- Определите приоритеты сценариев применения хранилища данных.
Выберите один или два пилотных проекта с разумными требованиями и высокой ценностью для бизнеса.
- Выберите надежного технологического партнера по организации хранилищ данных. В его активе должны быть услуги по внедрению и опыт, необходимые для ваших проектов. Убедитесь, что они соответствуют вашим потребностям в развертывании, включая облачные сервисы и локальные варианты.
- Разработайте хороший план проекта. Вместе с командой сформулируйте реалистичный концептуальный проект и график, который обеспечит поддержку связи и отчетность по состоянию проекта.
Лучшие практики для ИТ-отдела
- Контролируйте производительность и безопасность. Информация в вашем хранилище данных очень ценна — но, чтобы приносить пользу организации, она должна быть легко доступной. Внимательно отслеживайте использование системы, обеспечивая высокий уровень производительности.
- Поддерживайте стандарты качества данных, метаданные, структуру и управление. Новые источники ценных данных регулярно становятся доступными, но они требуют согласованного управления в рамках хранилища данных.
Следуйте процедурам очистки данных, определения метаданных и соблюдения стандартов управления.
- Обеспечьте гибкость архитектуры. По мере все более активного использования хранилища данных всей компанией и бизнес-подразделениями вы обнаружите широкий спектр потребностей в витринах данных и хранилищах. Гибкая платформа будет поддерживать их намного лучше, чем жестко ограниченный продукт.
- Автоматизируйте процессы технического обслуживания. Помимо повышения ценности бизнес-аналитики, машинное обучение позволяет автоматизировать функции технического управления хранилищем данных, обеспечивая поддержание скорости и сокращение эксплуатационных расходов.
- Стратегически используйте облако. Бизнес-подразделения и отделы имеют разные потребности в развертывании. При необходимости используйте локальные системы, а облачные хранилища данных применяйте для масштабируемости, снижения затрат и доступа с телефонов и планшетов.
Заключение
Современные хранилища данных, и все чаще это облачные хранилища, будут ключевым компонентом любого проекта цифровой трансформации для материнских компаний и их бизнес-подразделений. Они эффективно используют возможности существующих бизнес-систем, особенно при объединении данных из нескольких внутренних систем с новой важной информацией от внешних организаций.
Информационные панели, KPI, предупреждения и отчеты поддерживают требования высшего руководства, линейных руководителей и персонала, а также важные потребности клиентов и поставщиков. Хранилища данных также позволяют осуществлять быстрый и сложный поиск и анализ данных, не нарушая работу других бизнес-систем.
Благодаря гибкой структуре, позволяющей начать с малого и расширяться по мере необходимости, головные офисы и бизнес-подразделения могут оптимизировать процесс принятия решений и повысить эффективность работы в целом с помощью современных технологий хранения данных.
Подробнее о хранилищах данных от SAP
Унифицированные данные и аналитика для принятия обоснованных решений в облаке.
Подробнее
Другие материалы серии
Глоссарий по хранилищам данных
Озеро данных — это место для хранения всех видов больших данных, будь то структурированные данные из бизнес-систем или неструктурированные данные из мобильных приложений, социальных сетей либо устройств Интернета вещей (IoT). Поскольку данные хранятся в естественном формате — структурированном, неструктурированном, полуструктурированном или двоичном — для проведения анализа различных типов данных могут потребоваться преобразование, нормализация или другая обработка. Большинство озер данных базируются в облаке в силу больших объемов хранимых данных, необходимости высокоскоростного подключения к распределенным источникам и требований к масштабируемости.
«ETL» расшифровывается как «extract, transform, and load» — извлечение, преобразование и загрузка. Вместе эти операции составляют процесс, охватывающий получение данных от источника и преобразование в их в пригодный для использования формат, а затем перемещение в хранилище данных или другое место для хранения. Процесс ETL особенно полезен для транзакционных данных, однако более продвинутые инструменты могут также обрабатывать другие различные типы неструктурированных данных.
Витрина данных представляет собой секционированный сегмент хранилища данных, ориентированный на определенную область деятельности или команду — например, отдел финансов или маркетинга. Витрины упрощают отделам быстрый доступ к релевантным для них данным и аналитике, а также управление собственными наборами данных в более крупном хранилище данных.
Модели данных являются основополагающим элементом процесса разработки программного обеспечения и аналитики. Модель данных описывает, как структурированы данные и в какой форме они хранятся в базе данных. Модель данных представляет собой структуру отношений между элементами данных в БД, а также руководство по использованию данных.
Моделированием данных называется процесс создания моделей данных. При создании структуры базы данных или хранилища данных проектировщик начинает с разработки диаграммы потоков данных, поступающих в БД или хранилище и исходящих из них. Такая диаграмма потоков используется для определения характеристик форматов данных, структур и функций обработки базы данных, которые гарантируют соответствие потоков данных предъявляемым к ним требованиям. Моделирование обеспечивает стандартизированный метод согласованного определения и форматирования содержимого базы данных во всех системах, благодаря чему различные приложения могут совместно использовать одни и те же данные.
Корпоративное хранилище данных содержит все текущие и исторические бизнес-данные в одном месте; это совокупность процессов управления основными данными, организации хранилища данных и стратегии управления данными, основанная на целостном подходе к управлению данными. Корпоративные хранилища обеспечивают благоприятную среду для работы аналитических программных приложений и поддержки точных общекорпоративных KPI и отчетов. Многие такие хранилища размещаются в облаке для масштабируемости, доступности и простоты использования.
Новостная рассылка SAP Insights
Подпишитесь сегодня
Подпишитесь на рассылку и будьте в курсе самых важных новостей.
Другие материалы
Что такое хранилище данных? | ИБМ
Хранилище данных определено
Существует два типа цифровой информации: входные и выходные данные. Пользователи предоставляют входные данные. Компьютеры предоставляют выходные данные. Но центральный процессор компьютера не может ничего вычислить или выдать выходные данные без участия пользователя.
Пользователи могут вводить входные данные непосредственно в компьютер. Однако в начале компьютерной эры они обнаружили, что постоянный ввод данных вручную отнимает много времени и энергии. Одним из краткосрочных решений является компьютерная память, также известная как оперативная память (ОЗУ). Но его емкость хранения и сохранение памяти ограничены. Память только для чтения (ПЗУ), как следует из названия, данные можно только читать, но не обязательно редактировать. Они управляют основными функциями компьютера.
Несмотря на то, что в компьютерной памяти были достигнуты успехи с динамической ОЗУ (DRAM) и синхронной DRAM (SDRAM), они по-прежнему ограничены стоимостью, объемом и сохранением памяти. Когда компьютер выключается, снижается и способность оперативной памяти сохранять данные. Решение? Хранилище данных.
Имея место для хранения данных, пользователи могут сохранять данные на устройство. И если компьютер выключается, данные сохраняются. И вместо того, чтобы вручную вводить данные в компьютер, пользователи могут указать компьютеру извлекать данные с устройств хранения. Компьютеры могут считывать входные данные из различных источников по мере необходимости, а затем создавать и сохранять выходные данные в тех же источниках или в других местах хранения. Пользователи также могут делиться хранилищем данных с другими.
Сегодня организациям и пользователям требуется хранилище данных для удовлетворения современных вычислительных потребностей высокого уровня, таких как проекты больших данных, искусственный интеллект (ИИ), машинное обучение и Интернет вещей (IoT). И другая сторона необходимости хранения огромных объемов данных — это защита от потери данных из-за аварии, сбоя или мошенничества. Таким образом, чтобы избежать потери данных, организации также могут использовать хранилище данных в качестве решения для резервного копирования.
Как работает хранилище данных
Проще говоря, современные компьютеры или терминалы подключаются к устройствам хранения напрямую или через сеть. Пользователи инструктируют компьютеры о доступе к данным и сохранении данных на этих устройствах хранения. Однако на фундаментальном уровне существует две основы для хранения данных: форма, в которой данные принимаются, и устройства, на которых данные записываются и хранятся.
Устройства хранения данных
Для хранения данных независимо от формы пользователям необходимы запоминающие устройства. Устройства хранения данных делятся на две основные категории: непосредственное хранилище и сетевое хранилище.
Хранилище с прямым подключением , также известное как хранилище с прямым подключением (DAS), как следует из названия. Это хранилище часто находится в непосредственной близости и напрямую связано с вычислительной машиной, обращающейся к нему. Часто это единственная подключенная к нему машина. DAS также может предоставлять достойные услуги локального резервного копирования, но совместное использование ограничено. Устройства DAS включают гибкие диски, оптические диски — компакт-диски (CD) и цифровые видеодиски (DVD) — жесткие диски (HDD), флэш-накопители и твердотельные накопители (SSD).
Сетевое хранилище позволяет нескольким компьютерам получать к нему доступ через сеть, что упрощает обмен данными и совместную работу. Возможности внешнего хранилища также делают его более подходящим для резервного копирования и защиты данных. Двумя распространенными настройками сетевого хранилища являются сетевое хранилище (NAS) и сеть хранения данных (SAN).
NAS часто представляет собой единое устройство, состоящее из избыточных контейнеров хранения или избыточного массива независимых дисков (RAID). Хранилище SAN может представлять собой сеть из нескольких устройств различных типов, включая SSD и флэш-накопители, гибридное хранилище, гибридное облачное хранилище, программное обеспечение и устройства для резервного копирования, а также облачное хранилище. Вот чем отличаются NAS и SAN:
NAS
- Одно запоминающее устройство или RAI
- Система хранения файлов
- Сеть TCP/IP Ethernet
- Ограниченные пользователи
- Ограниченная скорость
- Ограниченные возможности расширения
- Низкая стоимость и простота установки
SAN
- Сеть из нескольких устройств
- Блочная система хранения
- Сеть Fibre Channel
- Оптимизирован для нескольких пользователей
- Повышение производительности
- Высокая расширяемость
- Более высокая стоимость и сложная установка
Типы запоминающих устройств
SSD и флэш-память
Флэш-память — это твердотельная технология, использующая микросхемы флэш-памяти для записи и хранения данных. Флэш-накопитель на твердотельном диске (SSD) хранит данные с помощью флэш-памяти. По сравнению с жесткими дисками твердотельная система не имеет движущихся частей и, следовательно, имеет меньшую задержку, поэтому требуется меньшее количество твердотельных накопителей. Поскольку большинство современных твердотельных накопителей основаны на флэш-памяти, флэш-память является синонимом твердотельной системы.
Исследуйте флэш-память
Гибридное хранилище
Твердотельные накопители и флэш-память обеспечивают более высокую пропускную способность, чем жесткие диски, но массивы на флэш-дисках могут быть более дорогими. Многие организации применяют гибридный подход, сочетая скорость флэш-памяти с емкостью жестких дисков. Сбалансированная инфраструктура хранения данных позволяет компаниям применять подходящие технологии для различных потребностей в хранении данных. Он предлагает экономичный способ перехода от традиционных жестких дисков без полного перехода на флэш-память.
Откройте для себя гибридное хранилище
Облачное хранилище
Облачное хранилище представляет собой экономичную масштабируемую альтернативу хранению файлов на локальных жестких дисках или в сетях хранения данных. Поставщики облачных услуг позволяют вам сохранять данные и файлы в удаленном месте, к которому вы получаете доступ через общедоступный Интернет или выделенное частное сетевое соединение. Провайдер размещает, защищает, управляет и обслуживает серверы и связанную с ними инфраструктуру, а также гарантирует, что у вас будет доступ к данным, когда они вам понадобятся.
Узнайте больше об облачном хранилище
Гибридное облачное хранилище
Гибридное облачное хранилище сочетает в себе элементы частного и общедоступного облака. Благодаря гибридному облачному хранилищу организации могут выбирать, в каком облаке хранить данные. Например, строго регулируемые данные, к которым предъявляются строгие требования по архивированию и репликации, обычно больше подходят для среды частного облака. В то время как менее конфиденциальные данные могут храниться в общедоступном облаке. Некоторые организации используют гибридные облака, чтобы дополнить свои внутренние сети хранения публичным облачным хранилищем.
Изучение гибридного облачного хранилища
Программное обеспечение и устройства для резервного копирования
Хранилище и устройства для резервного копирования защищают данные от потери в результате стихийных бедствий, сбоев или мошенничества. Они периодически делают копии данных и приложений на отдельном вторичном устройстве, а затем используют эти копии для аварийного восстановления. Устройства резервного копирования варьируются от жестких дисков и твердотельных накопителей до ленточных накопителей и серверов, но хранилище резервных копий также может предлагаться как услуга, также известная как резервное копирование как услуга (BaaS). Как и большинство решений «как услуга», BaaS предоставляет недорогой вариант защиты данных, сохраняя их в удаленном месте с возможностью масштабирования.
Обзор резервного копирования и восстановления хранилища
Формы хранения данных
Данные могут быть записаны и сохранены в трех основных формах: хранилище файлов, хранилище блоков и хранилище объектов.
Файловое хранилище
Хранилище файлов, также называемое файловым хранилищем или хранилищем на основе файлов, представляет собой методологию иерархического хранения, используемую для организации и хранения данных. Другими словами, данные хранятся в файлах, файлы организованы в папки, а папки организованы в виде иерархии каталогов и подкаталогов.
Блочное хранилище
Блочное хранилище, иногда называемое хранилищем на уровне блоков, представляет собой технологию, используемую для хранения данных в блоках. Затем блоки сохраняются как отдельные части, каждая из которых имеет уникальный идентификатор. Разработчики предпочитают блочное хранилище для вычислительных ситуаций, требующих быстрой, эффективной и надежной передачи данных.
Хранилище объектов
Хранилище объектов, часто называемое хранилищем на основе объектов, представляет собой архитектуру хранения данных для обработки больших объемов неструктурированных данных. Эти данные не соответствуют или не могут быть легко организованы в традиционной реляционной базе данных со строками и столбцами. Примеры включают электронную почту, видео, фотографии, веб-страницы, аудиофайлы, данные датчиков и другие типы мультимедиа и веб-контента (текстового или нетекстового).
Хранение данных для бизнеса
Память компьютера и локальное хранилище могут не обеспечивать достаточный объем памяти, защиту хранилища, доступ нескольких пользователей, скорость и производительность для корпоративных приложений. Таким образом, в большинстве организаций в дополнение к системе хранения NAS используется та или иная форма SAN.
SAN
SAN, которую иногда называют сетью за серверами, представляет собой специализированную высокоскоростную сеть, к которой подключены серверы и устройства хранения. Он состоит из коммуникационной инфраструктуры, которая обеспечивает физические соединения, позволяя любому устройству соединяться по сети с помощью взаимосвязанных элементов, таких как коммутаторы и директора. SAN также можно рассматривать как расширение концепции шины хранения. Эта концепция позволяет устройствам хранения данных и серверам соединяться друг с другом с помощью аналогичных элементов, таких как локальные сети (LAN) и глобальные сети (WAN). SAN также включает в себя уровень управления, который организует соединения, элементы хранения и компьютерные системы. Этот уровень обеспечивает безопасную и надежную передачу данных.
Традиционно к серверу можно было подключить только ограниченное количество устройств хранения. В качестве альтернативы SAN обеспечивает гибкость сети, позволяя одному серверу или множеству разнородных серверов в нескольких центрах обработки данных совместно использовать общую утилиту хранения. SAN также устраняет традиционное выделенное соединение между сервером и хранилищем и концепцию, согласно которой сервер эффективно владеет устройствами хранения и управляет ими. Таким образом, сеть может включать в себя множество устройств хранения, включая диски, магнитные ленты и оптические накопители. А утилита хранения может располагаться далеко от серверов, которые она использует.
Компоненты SAN
Инфраструктура хранения — это основа, на которой основана информация. Следовательно, инфраструктура хранения данных должна поддерживать бизнес-цели и бизнес-модель компании. Инфраструктура SAN обеспечивает повышенную доступность сети, доступность данных и управляемость системы. В этой среде простого развертывания большего количества и более быстрых устройств хранения данных недостаточно. Хорошая SAN начинается с хорошего дизайна.
Основными компонентами SAN являются Fibre Channel, серверы, устройства хранения, а также сетевое оборудование и программное обеспечение.
Волоконный канал
Первый элемент, который следует учитывать при реализации любой сети SAN, — это возможность подключения компонентов хранилища и сервера, которые обычно используют Fibre Channel. Сети SAN, такие как локальные сети, соединяют интерфейсы хранения во множество сетевых конфигураций и на большие расстояния.
Серверная инфраструктура
Серверная инфраструктура лежит в основе всех решений SAN, и эта инфраструктура включает в себя сочетание серверных платформ. Благодаря таким инициативам, как консолидация серверов и интернет-торговля, потребность в SAN возрастает, что повышает важность сетевых хранилищ.
Система хранения
Система хранения может состоять из дисковых и ленточных систем. Дисковая система может включать жесткие диски, твердотельные накопители или флэш-накопители. Ленточная система может включать ленточные накопители, ленточные автозагрузчики и ленточные библиотеки.
Сетевая система
Подключение SAN состоит из аппаратных и программных компонентов, которые соединяют между собой устройства хранения и серверы. Аппаратное обеспечение может включать в себя концентраторы, коммутаторы, директора и маршрутизаторы.
Решения
Решения для хранения данных
Преобразуйте и улучшите свой бизнес с помощью комплексного решения для хранения данных, которое интегрирует и обновляет существующую ИТ-инфраструктуру, сокращая при этом затраты.
Флэш-память
Благодаря технологии all-flash единой платформенной системы устраните разрозненные разрозненные хранилища, упростив управление данными локально или в облаке.
Виртуализация хранилища
Сократите затраты и сложность с помощью виртуализации хранилища. Виртуализированное хранилище позволяет централизовать управление, чтобы упростить смешанные среды и выявить скрытые емкости.
Технология хранения на магнитной ленте
Изучите надежную технологию хранения на магнитных лентах с воздушным зазором, долгосрочным хранением, устойчивостью к киберугрозам и энергоэффективностью по более низкой цене, чем другие носители. Сохраняйте, защищайте и защищайте свои данные с минимальными затратами с помощью ленточных хранилищ IBM.
Программно-определяемое хранилище (SDS)
Программно-определяемое хранилище означает более интеллектуальные решения для хранения данных. Отделите интеллектуальность и функциональность от оборудования для хранения данных, чтобы получить наилучшую конфигурацию хранилища без каких-либо компромиссов.
Частное облачное хранилище
Получите частное облачное хранилище, необходимое для достижения ваших целей.
Ресурсы
Что такое компьютерная память и как она используется?
Хранение данных – это коллективные методы и технологии, которые собирают и сохраняют цифровую информацию на электромагнитных, оптических или кремниевых носителях. Хранилище используется в офисах, центрах обработки данных, периферийных средах, удаленных местах и домах людей. Память также является важным компонентом мобильных устройств, таких как смартфоны и планшеты. Потребители и предприятия полагаются на хранилище для хранения информации, начиная от личных фотографий и заканчивая критически важными для бизнеса данными.
Хранилище часто используется для описания устройств, которые подключаются к компьютеру — напрямую или по сети — и которые поддерживают передачу данных посредством операций ввода-вывода (I/O). Устройства хранения могут включать жесткие диски (HDD), твердотельные накопители (SSD) на основе флэш-памяти, приводы оптических дисков, ленточные системы и другие типы носителей.
Почему важно хранить данные С появлением больших данных, расширенной аналитики и изобилия устройств Интернета вещей (IoT) хранение как никогда важно для обработки растущих объемов данных. Современные системы хранения также должны поддерживать использование искусственного интеллекта (ИИ), машинного обучения и других технологий ИИ для анализа всех этих данных и извлечения их максимальной ценности.
Современные сложные приложения, аналитика баз данных в режиме реального времени и высокопроизводительные вычисления также требуют высокоплотных и масштабируемых систем хранения, будь то сети хранения данных (SAN), масштабируемые и масштабируемые сетевые хранилища (NAS). ), платформы хранения объектов или конвергентная, гиперконвергентная или компонуемая инфраструктура.
Ожидается, что к 2025 году будет сгенерировано 163 зеттабайта (ZB) новых данных, согласно отчету ИТ-аналитической компании IDC. Оценка представляет собой потенциальное десятикратное увеличение по сравнению с 16 ZB, произведенными до 2016 года. IDC также сообщает, что только в 2020 году было создано или воспроизведено 64,2 ZB данных.
Как работает хранилище данных Термин «хранилище» может относиться как к хранимым данным, так и к интегрированным аппаратным и программным системам, используемым для сбора, управления, защиты и определения приоритетов этих данных. Данные могут поступать из приложений, баз данных, хранилищ данных, архивов, резервных копий, мобильных устройств или других источников, и они могут храниться локально, в периферийных вычислительных средах, на объектах совместного размещения, на облачных платформах или в любой их комбинации.
Требования к емкости хранилища определяют, сколько памяти необходимо для поддержки этих данных. Например, простые документы могут занимать всего килобайты памяти, в то время как графические файлы, такие как цифровые фотографии, могут занимать мегабайты, а видеофайлы могут занимать гигабайты памяти.
В компьютерных приложениях обычно указываются минимальные и рекомендуемые требования к емкости, необходимые для их запуска, но это только часть истории. Администраторы хранилища также должны учитывать, как долго данные должны храниться, применимые нормативные требования, используются ли методы сокращения данных, требования к аварийному восстановлению (DR) и любые другие проблемы, которые могут повлиять на емкость.
В этом видео от CHM Nano Education объясняется роль магнетизма в хранении данных.
Жесткий диск представляет собой круглую пластину, покрытую тонким слоем магнитного материала. Диск вставляется в шпиндель и вращается со скоростью до 15 000 оборотов в минуту (об/мин). При вращении данные записываются на поверхность диска с помощью магнитных записывающих головок. Высокоскоростной исполнительный рычаг позиционирует записывающую головку на первое доступное место на диске, позволяя записывать данные по кругу.
На электромеханическом диске, таком как HDD, блоки данных хранятся в секторах. Исторически жесткие диски использовали сектора размером 512 байт, но ситуация начала меняться с введением расширенного формата, который может поддерживать сектора размером 4096 байт. Расширенный формат увеличивает плотность битов на каждой дорожке, оптимизирует способ хранения данных и повышает эффективность формата, что приводит к увеличению емкости и надежности.
На большинстве твердотельных накопителей данные записываются на объединенные микросхемы флэш-памяти NAND, которые используют либо ячейки с плавающим затвором, либо ячейки ловушки заряда для сохранения своих электрических зарядов. Эти заряды определяют состояние двоичного бита (1 или 0). Технически SSD — это не накопитель, а скорее интегральная схема, состоящая из кремниевых чипов миллиметрового размера, которые могут содержать тысячи или даже миллионы нанотранзисторов.
Многие организации используют иерархическую систему управления хранилищем для резервного копирования своих данных на дисковые устройства. Резервное копирование данных считается передовой практикой, когда данные необходимо защитить, например, когда организации подпадают под действие правовых норм. В некоторых случаях организация будет записывать свои резервные данные на магнитную ленту, используя ее в качестве третичного уровня хранения. Однако такой подход практикуется реже, чем в прошлые годы.
Организация также может использовать виртуальную ленточную библиотеку (VTL), которая вообще не использует ленты. Вместо этого данные записываются на диски последовательно, но сохраняют характеристики и свойства ленты. Ценность VTL заключается в его быстром восстановлении и масштабируемости.
Измерение объемов храненияЦифровая информация записывается на целевой носитель с помощью программных команд. Наименьшей единицей измерения в памяти компьютера является бит, который имеет двоичное значение 0 или 1. Значение бита определяется уровнем электрического напряжения, содержащегося в одном конденсаторе. Восемь бит составляют один байт.
Компьютеры, системы хранения и сетевые системы используют два стандарта для измерения объемов памяти: десятичная система с основанием 10 и двоичная система с основанием 2. Для небольших объемов хранения расхождения между двумя стандартами обычно не имеют большого значения. Однако эти несоответствия становятся гораздо более заметными по мере увеличения емкости хранилища.
Различия между двумя стандартами можно увидеть при измерении как битов, так и байтов. Например, следующие измерения показывают разницу в значениях битов для нескольких распространенных десятичных (с основанием 10) и двоичных (с основанием 2) измерений:
- 1 килобит (Кб) равен 1000 бит; 1 кибибит (Kib) равен 1024 битам
- 1 мегабит (Мб) равен 1000 Кб; 1 мебибит (Миб) равен 1024 КБ
- 1 гигабит (Гб) равен 1000 Мб; 1 гибибит (Gib) равен 1024 МБ
- 1 терабит (Тб) равен 1000 Гб; 1 тебибит (тиб) равен 1024 гиб
- 1 петабит (Pb) равен 1000 Tb; 1 пебибит (пиб) равен 1024 тиб
- 1 эксабит (Eb) равен 1000 Pb; 1 exbibit (Eib) равен 1024 Pib
Различия между десятичными и двоичными стандартами также можно увидеть для нескольких распространенных измерений байтов:
- 1 килобайт (КБ) равен 1000 байт; 1 кибибайт (КиБ) равен 1024 байтам
- 1 мегабайт (МБ) равен 1000 КБ; 1 мебибайт (МиБ) равен 1024 КиБ
- 1 гигабайт (ГБ) равен 1000 МБ; 1 гибибайт (ГиБ) равен 1024 МБ
- 1 терабайт (ТБ) равен 1000 ГБ; 1 тебибайт (ТиБ) равен 1024 ГиБ
- 1 петабайт (ПБ) равен 1000 ТБ; 1 пебибайт (ПиБ) равен 1024 ТиБ
- 1 эксабайт (ЭБ) равен 1000 ПБ; 1 эксбибайт (EiB) равен 1024 PiB
Измерения хранилища могут относиться к емкости устройства или объему данных, хранящихся в устройстве. Суммы часто выражаются с использованием десятичных соглашений об именах, таких как килобайты, мегабайты или терабайты, независимо от того, основаны ли суммы на десятичных или двоичных стандартах.
К счастью, многие системы теперь различают эти два стандарта. Например, производитель может указать доступную емкость на устройстве хранения как 750 ГБ, что основано на десятичном стандарте, в то время как операционная система указывает доступную емкость как 698 ГиБ. В этом случае ОС использует двоичный стандарт, четко показывая несоответствие между двумя измерениями.
Некоторые системы могут предоставлять измерения на основе обоих значений. Примером этого является IBM Spectrum Archive Enterprise Edition, в котором для представления хранения данных используются как десятичные, так и двоичные единицы измерения. Например, система отобразит значение 512 терабайт как 9.0234 512 ТБ (465,6 ТиБ) .
Немногим организациям требуется одна система хранения или подключенная система, которая может хранить эксабайт данных, но есть системы хранения, которые масштабируются до нескольких петабайт. Учитывая скорость, с которой растут объемы данных, эксабайтное хранилище может в конечном итоге стать обычным явлением.
Оперативная память (ОЗУ) — это аппаратное обеспечение компьютера, в котором временно хранятся данные, к которым процессор компьютера может быстро получить доступ. Данные могут включать в себя файлы ОС и приложений, а также другие данные, важные для текущих операций компьютера. Оперативная память является основной памятью компьютера и работает намного быстрее, чем обычные устройства хранения, такие как жесткие диски, твердотельные накопители или оптические диски.
ОЗУ компьютера обеспечивает немедленную доступность данных для процессора, как только они потребуются.
Самая большая проблема с оперативной памятью заключается в том, что она энергозависима. Если компьютер теряет питание, все данные, хранящиеся в оперативной памяти, теряются. Если компьютер выключается или перезагружается, данные необходимо загрузить заново. Это сильно отличается от типа постоянного хранилища, предлагаемого твердотельными накопителями, жесткими дисками или другими энергонезависимыми устройствами. Если они теряют питание, данные все равно сохраняются.
Хотя большинство запоминающих устройств намного медленнее, чем оперативная память, их энергонезависимость делает их необходимыми для выполнения повседневных операций.
Устройства хранениятакже дешевле в производстве и могут хранить гораздо больше данных, чем ОЗУ. Например, большинство ноутбуков имеют 8 ГБ или 16 ГБ оперативной памяти, но они также могут поставляться с сотнями гигабайт или даже терабайтами памяти.
RAM обеспечивает мгновенный доступ к данным. Хотя хранилище также связано с производительностью, его конечная цель — обеспечить безопасное хранение данных и доступ к ним при необходимости.
techtarget.com/searchstorage/definition/storage&enablejsapi=1&origin=https://www.techtarget.com» type=»text/html» frameborder=»0″> Оценка иерархии храненияОрганизации все чаще используют многоуровневое хранилище для автоматизации размещения данных на различных носителях. Данные размещаются на определенном уровне в зависимости от емкости, производительности и соответствия требованиям. Уровни данных, в самом простом случае, начинаются с классификации данных как первичных или вторичных, а затем их сохранения на носителе, наиболее подходящем для этого уровня, с учетом того, как используются данные и какой тип носителя для этого требуется.
Значения первичных и вторичных хранилищ менялись с годами. Первоначально основное хранилище относилось к ОЗУ и другим встроенным устройствам, таким как кэш-память L1 процессора, а вторичное хранилище относилось к твердотельным накопителям, жестким дискам, лентам или другим энергонезависимым устройствам, которые поддерживали доступ к данным посредством операций ввода-вывода.
Основное хранилище обычно обеспечивало более быстрый доступ, чем вторичное хранилище, из-за близости хранилища к процессору компьютера. С другой стороны, вторичное хранилище может содержать гораздо больше данных и может реплицировать данные на резервные устройства хранения, обеспечивая при этом высокую доступность активных данных. Это было также дешевле.
Хотя такое использование все еще сохраняется, термины первичное и вторичное хранилище приобрели немного разные значения. В наши дни основное хранилище, иногда называемое основным хранилищем, обычно относится к любому типу хранилища, которое может эффективно поддерживать повседневные приложения и бизнес-процессы. Основное хранилище обеспечивает непрерывную работу рабочих нагрузок приложений, занимающих центральное место в повседневном производстве и основных направлениях деятельности компании. Первичные носители данных могут включать твердотельные накопители, жесткие диски, память класса хранения (SCM) или любые устройства, обеспечивающие производительность и емкость, необходимые для выполнения повседневных операций.
Напротив, вторичное хранилище может включать практически любой тип хранилища, не считающийся первичным. Вторичное хранилище может использоваться для резервных копий, моментальных снимков, справочных данных, архивных данных, старых операционных данных или любых других типов данных, которые не являются критически важными для основных бизнес-операций. Вторичное хранилище обычно поддерживает резервное копирование и аварийное восстановление и часто включает облачное хранилище, которое иногда является частью конфигурации гибридного облака.
Цифровая трансформация бизнеса также побудила все больше и больше компаний использовать несколько облачных хранилищ, добавляя удаленный уровень, расширяющий вторичное хранилище.
Типы устройств/носителей данных В самом широком смысле носители данных могут относиться к широкому спектру устройств, обеспечивающих различные уровни емкости и скорости. Например, это может быть кэш-память, динамическая оперативная память (DRAM) или основная память; магнитная лента и магнитный диск; оптические диски, такие как CD, DVD и Blu-ray; твердотельные накопители на основе флэш-памяти, устройства SCM и различные варианты хранения в оперативной памяти. Однако при использовании термина «хранилище данных» большинство людей имеют в виду жесткие диски, твердотельные накопители, устройства SCM, оптические накопители или ленточные системы, отличая их от энергозависимой памяти компьютера.
используют пластины, уложенные друг на друга, покрытые магнитным носителем, с головками дисков, которые считывают и записывают данные на носитель. Жесткие диски широко используются в персональных компьютерах, серверах и корпоративных системах хранения данных, но их быстро вытесняют твердотельные накопители, которые обеспечивают превосходную производительность, обеспечивают большую надежность, потребляют меньше энергии и занимают меньше места. Они также начинают достигать ценового паритета с жесткими дисками, хотя этого еще не произошло.
Внешний жесткий диск Большинство твердотельных накопителей хранят данные на микросхемах энергонезависимой флэш-памяти. В отличие от вращающихся дисков, твердотельные накопители не имеют движущихся частей и все чаще встречаются во всех типах компьютеров, несмотря на то, что они дороже жестких дисков. Некоторые производители также поставляют устройства хранения данных, в которых используется флэш-память на серверной части и высокоскоростной кэш-память, например DRAM, на внешней стороне.
В отличие от жестких дисков, флэш-накопители не используют движущиеся механические части для хранения данных, что обеспечивает более быстрый доступ к данным и меньшую задержку по сравнению с жесткими дисками. Флэш-память является энергонезависимой, как и жесткие диски, что позволяет данным сохраняться в памяти, даже если система хранения теряет питание, но флэш-память еще не достигла того же уровня надежности, что и жесткий диск, что приводит к гибридным массивам, которые объединяют оба типа носителей. (Стоимость является еще одним фактором при разработке гибридных хранилищ.) Однако, когда речь идет о долговечности твердотельных накопителей, типы рабочих нагрузок и устройства NAND также могут играть важную роль в долговечности устройства, и в этом отношении твердотельные накопители могут значительно отличаться от одного устройства к другому.
С 2011 года все больше предприятий внедряют массивы all-flash на основе технологии флэш-памяти NAND в качестве дополнения или замены массивов жестких дисков. Организации также начинают использовать устройства SCM, такие как твердотельные накопители Intel Optane, которые обеспечивают более высокую скорость и меньшую задержку, чем хранилища на основе флэш-памяти.
Intel Optane SSD на базе 3D XPoint Когда-то внутренние и внешние оптические накопители широко использовались в потребительских и бизнес-системах. На оптических дисках может храниться программное обеспечение, компьютерные игры, аудиоконтент или фильмы. Их также можно использовать в качестве вторичного хранилища для любого типа данных. Тем не менее, достижения в области технологий жестких дисков и твердотельных накопителей, а также распространение потоковой передачи через Интернет и флэш-накопителей с универсальной последовательной шиной (USB) уменьшили зависимость от оптических накопителей. Тем не менее, оптические диски гораздо более долговечны, чем другие носители данных, и их производство недорого, поэтому они до сих пор используются для аудиозаписей и фильмов, а также для долгосрочного архивирования и резервного копирования данных.
встраиваются в цифровые камеры и мобильные устройства, такие как смартфоны, планшеты, аудиомагнитофоны и медиаплееры. Флэш-память также используется на картах Secure Digital, CompactFlash, MultiMediaCard (MMC) и USB-накопителях.
Флэш-память Физические магнитные гибкие диски в наши дни используются редко, если вообще используются. В отличие от старых компьютеров, новые системы не оснащены дисководами для гибких дисков. Использование гибких дисков началось в 19 в.70-х, но диски были сняты с производства в конце 1990-х. Иногда вместо 3,5-дюймовой физической дискеты используются виртуальные дискеты, что позволяет пользователям монтировать файл образа так же, как диск A: на компьютере.
Поставщики корпоративных хранилищ предлагают интегрированные системы NAS, помогающие организациям собирать большие объемы данных и управлять ими. Аппаратное обеспечение включает в себя массивы хранения или серверы хранения, оснащенные жесткими дисками, флэш-накопителями или их гибридной комбинацией. Система NAS также поставляется с программным обеспечением ОС для хранения данных для предоставления услуг данных на основе массива.
Схема массива хранения Многие корпоративные массивы хранения поставляются с программным обеспечением для управления хранением данных, которое предоставляет средства защиты данных для архивирования, клонирования или управления резервным копированием, репликацией или моментальными снимками. Программное обеспечение также может обеспечивать управление на основе политик для управления размещением данных для их многоуровневого хранения во вторичном хранилище данных или для поддержки плана аварийного восстановления или долгосрочного хранения. Кроме того, многие системы хранения теперь включают функции сокращения объемов данных, такие как сжатие, дедупликация данных и тонкое выделение ресурсов.
Во многих современных бизнес-системах хранения используются три основных варианта: хранилище с прямым подключением (DAS), NAS и сеть хранения данных (SAN).
Массив корпоративного хранения FlashBlade от Pure StorageПростейшей конфигурацией является DAS, которая может быть внутренним жестким диском на отдельном компьютере, несколькими дисками на сервере или группой внешних дисков, которые подключаются непосредственно к серверу через такой интерфейс, как интерфейс малых компьютеров (SCSI). Serial Attached SCSI (SAS), Fibre Channel (FC) или Internet SCSI (iSCSI).
NAS — это файловая архитектура, в которой несколько файловых узлов совместно используются пользователями, как правило, в локальной сети на основе Ethernet (LAN). Система NAS имеет несколько преимуществ. Для этого не требуется полнофункциональная операционная система корпоративного хранилища, устройствами NAS можно управлять с помощью утилиты на основе браузера, а каждому сетевому узлу назначается уникальный IP-адрес, что упрощает управление.
С масштабируемым NAS тесно связано хранилище объектов, которое устраняет необходимость в файловой системе. Каждый объект представлен уникальным идентификатором, и все объекты представлены в одном плоском пространстве имен. Хранилище объектов также поддерживает широкое использование метаданных.
Сеть SAN может охватывать несколько центров обработки данных, которым требуется высокопроизводительное блочное хранилище. В среде SAN блочные устройства отображаются для хоста как локально подключенное хранилище. Каждый сервер в сети может получить доступ к общему хранилищу, как если бы это был диск с прямым подключением.
techtarget.com/searchstorage/definition/storage&enablejsapi=1&origin=https://www.techtarget.com» type=»text/html» frameborder=»0″> Современные технологии храненияДостижения в области флэш-памяти NAND в сочетании с падением цен в последние годы проложили путь к программно-определяемым системам хранения. Используя эту конфигурацию, предприятие устанавливает твердотельные накопители по стандартной цене на серверы на базе архитектуры x86, а затем использует стороннее программное обеспечение для хранения данных или пользовательский код с открытым исходным кодом для применения управления хранением.
Express с энергонезависимой памятью (NVMe) — это стандартный отраслевой протокол, разработанный специально для твердотельных накопителей на основе флэш-памяти. NVMe быстро становится протоколом де-факто для флеш-накопителей. Флэш-память NVMe позволяет приложениям напрямую взаимодействовать с центральным процессором (ЦП) через каналы PCIe Interconnect Peripheral Component Interconnect Express (PCIe), минуя необходимость передачи наборов команд SCSI через адаптер сетевой хост-шины.
NVMe может использовать преимущества технологии SSD так, как это невозможно с интерфейсами SATA и SAS, которые были разработаны для более медленных жестких дисков. По этой причине NVMe over Fabrics (NVMe-oF) был разработан для оптимизации связи между твердотельными накопителями и другими системами через сетевую структуру, такую как Ethernet, FC и InfiniBand.
Энергонезависимый двухрядный модуль памяти (NVDIMM) представляет собой гибридное устройство NAND и DRAM со встроенным резервным питанием, которое подключается к стандартному слоту DIMM на шине памяти. Устройства NVDIMM выполняют обычные вычисления в DRAM, но используют флэш-память для других операций. Однако для распознавания устройства хост-компьютеру требуются необходимые драйверы базовой системы ввода-вывода (BIOS).
NVDIMM используются в основном для расширения системной памяти или повышения производительности хранилища, а не для увеличения емкости. Текущие модули NVDIMM на рынке имеют максимальную емкость 32 ГБ, но форм-фактор увеличил плотность с 8 ГБ до 32 ГБ всего за несколько лет.
Энергонезависимый двухрядный модуль памяти (NVDIMM) представляет собой гибрид NAND и DRAM. Основные поставщики систем хранения данныхКонсолидация на корпоративном рынке в последние годы привела к расширению круга поставщиков первичных систем хранения. Те компании, которые вышли на рынок с дисковыми продуктами, в настоящее время получают большую часть своих продаж от систем хранения на основе флэш-памяти или гибридных систем хранения, включающих как твердотельные накопители, так и жесткие диски.
Ведущие поставщики на рынке включают:
- Dell EMC, подразделение хранения данных Dell Technologies
- Hewlett Packard Enterprise (HPE)
- Хитачи Вантара
- Хранилище IBM
- Инфинидат
- NetApp
- Чистое хранилище
- Корпорация Квант
- Кумуло
- Тинтри
- Вестерн Диджитал
Более мелкие поставщики, такие как Drobo, iXsystems, QNAP и Synology, также продают различные типы продуктов для хранения данных.
Ваш комментарий будет первым