Подробное объяснение концепций и технологий хранения данных
Все, с чем мы взаимодействуем и над чем работаем, создает данные в цифровом мире. Какие бы взаимодействия мы ни совершали в компьютерном мире, оставляют после себя данные. Все файлы, изображения, аудио/видео файлы, которые мы ежедневно просматриваем и используем, являются не чем иным, как данными. В конце концов, мы остаёмся без внимания к данным, с которыми мы имеем дело. Сейчас мы переживаем вершину эры доступа к данным. Было бы лучше понять концепции и технологии хранения данных.
Все эти данные, очевидно, будут представлены в форме 1 и 0, что представляет собой не что иное, как двоичные данные. Эти данные необходимо где-то хранить и в какой-то форме, чтобы получить к ним доступ позже. Эти данные могут понадобиться для обработки или для получения какой-либо информации позже.
Хранение данных очень важно и привело к развитию многих технологий. В конце 1970-х и начале 1980-х годов в сфере хранения появились новые технологии, и за этот период произошло множество событий.
Концепции хранения
Данные могут храниться во многих форматах на любом компьютерном оборудовании. Это полностью зависит от приложения, создающего эти данные. Ниже приведены некоторые известные форматы хранения данных и механизмы доступа.
Дисковое хранилище
Многие дисковые операции, такие как «чтение» и «запись», требуют использования дискового пространства.
Дисковое хранилище на сегодняшний день является одним из наиболее часто используемых механизмов. В дисковом хранилище за определенный период времени также появилось множество типов и методов.
- Блочное хранилище. Данные хранятся в «логических блоках». Эти блоки представляют собой наименьшие единицы хранения с прикрепленными к ним адресами в любой подсистеме хранения. Операции чтения/записи на уровне диска могут использоваться для блочного хранения и доступа к блочному хранилищу.
Хранение файлов: Любой файл данных представляет собой не что иное, как набор «блоков блоков» данных. Любой файл обычно состоит из двух частей:
- Метаданные файла, в которых хранится структура каталогов и информация о файле.
- Содержимое файла, которое содержит часть данных, содержащую фактическое содержимое файла. Хранилище файлов ведет к Файловым системам, внутри которых будут каталоги, файлы, обычные файлы и т. д. метаданные, связанные с файлами. Эти файловые системы логически организованы для облегчения доступа и работы с данными.
Хранение базы данных
Хранилище БД — это хранилище данных для более быстрого доступа с привязкой к данным или без нее. Хранилище БД находится на программном уровне хранения данных и будет включать хранилище данных на основе SQL или No-SQL с механизмами первичного и вторичного ключей. Эти базы данных будут либо реляционными, либо нереляционными. В данной статье не рассматриваются эти концепции.
Вторичное хранилище
В основном это касается типа хранилища на жестком диске. Как объяснялось ранее, последние 20 с лишним лет хранилище зависало от DASD (DASDпрямого Attached S >хранилище Dустройство) или JBOD (Just Bunch Of < Strong>Диски) типы основных механизмов хранения. DASD и JBOD использовались только для операций чтения и записи на диски. Это просто набор дисков без участия управления данными или использования интеллекта.
- Диск. Диск — это одна из единиц хранения, используемая для хранения данных.
Основное хранилище
Он также известен как основной механизм хранения, в основном включает в себя оперативное запоминающее устройство.
- БАРАН
- ПЗУ
- ЭСППЗУ
Технологии хранения
1. RAID (избыточный массив независимых дисков)
Технология RAID была разработана с учетом необходимости резервного копирования, более быстрого доступа к данным и безошибочных данных с функциями доступности. RAID был разработан с использованием объединения нескольких независимых жестких дисков в одно логическое устройство. Базовая операционная система рассматривает все это как один жесткий диск (жесткий диск). RAID также обеспечивает отказоустойчивость.
RAID имеет множество функций и методов, которые разрабатывались в течение определенного периода времени. Они были разработаны на основе резервного копирования, восстановления и распределения данных на жестком диске. Ниже я объяснил некоторые необходимые и хорошо известные функции.
- Политика чтения и записи. Обычные политики чтения и опережающего чтения со сквозной и обратной записью.
- Проверка целостности. Эта операция помогает проверить правильность данных на виртуальных дисках, использующих уровни RAID 1, 5, 6, 10, 50, 60, за исключением RAID 0.
- Диск горячего резерва. Это резервный диск, который находится в состоянии ожидания. Включенное состояние можно использовать немедленно в случае сбоя любого диска в группе RAID. На этом диске обычно не будет никаких пользовательских данных.
- Уровень RAID: Чтобы обеспечить более высокую доступность данных, производительность и избыточность хранимых данных, к группе дисков применяется набор методов.
Типы RAID
RAID также подразделяется на Программный RAID и Аппаратный RAID.
Программный RAID:
- Вычисления RAID выполняются базовой ОС или системным процессором.
- Медленный отклик и низкая скорость из-за накладных расходов на вычисления.
- Многие ОС не загружаются или не могут загрузиться из-за сбоев системного зеркала или некоторых программных сбоев.
- Не застрахован от вирусных атак.
Аппаратный RAID:
- Карта будет выполнять вычисления RAID.
- Повышена скорость, поскольку выполняются только операции XOR.
- Восстановление после сбоя диска легко.
- Невосприимчивость к вирусным атакам.
Уровни RAID
За прошедший период было разработано несколько уровней RAID, наиболее популярными из которых являются:
- RAID 0
- RAID 1
- Рейд 1Е
- Рейд 5
- Рейд 5ЕЕ
- Рейд 6
- Рейд 10
Примечание. Из этих RAID здесь более подробно описаны только важные и наиболее используемые конфигурации.
RAID 0 (чередование данных)
- RAID 0 распределяет данные по нескольким дискам для повышения скорости.
- При этом для распределения данных используется чередование на уровне блоков. Обеспечивает высокую скорость чтения и записи.
- В конфигурации RAID 0 избыточность данных отсутствует.
- Никакая отказоустойчивость здесь не используется.
- RAID 0 требует минимум 2 диска.
Если какой-либо диск выйдет из строя, все данные будут потеряны. Никакой отказоустойчивости.
RAID 1 (зеркалирование данных)
- RAID 1 используется для зеркалирования данных.
- Все копии данных записываются на оба диска для обеспечения избыточности.
- Для распределения данных здесь не используется чередование.
- Для этой конфигурации требуется минимум 2 дисковых накопителя.
- Здесь происходит 50% потеря мощности и 100% резервирование.
Если один из дисков выйдет из строя, данные будут доступны на другой копии.
RAID 10 (чередующийся массив зеркальных дисков)
Эта конфигурация поможет при сбое диска в обоих наборах зеркал. Ниже приведены некоторые особенности RAID 10.
- Обеспечивает высокую скорость ввода-вывода благодаря нескольким чередующимся сегментам.
- Для этой конфигурации требуется минимум 4 диска.
- Будет доступно только 50% мощности.
- Обеспечивает хорошую производительность записи.
Примечание. Четность — это расчетное значение, используемое для восстановления данных после сбоя. Во время записи данных на том RAID-5 четность вычисляется путем выполнения над данными операции исключающего ИЛИ (XOR). Полученная четность затем записывается в том. Это помогает в распределении данных по дискам.
RAID 5 (чередование с распределенной четностью)
- Эта конфигурация распределяет данные на уровне блоков и распределяет четность между членами жестких дисков группы RAID для защиты и доступности данных.
- Четность рассчитывается с помощью операции XOR.
- Использует чередование на уровне блоков и использует распределенную четность.
- 100% резервирование.
- Обеспечивает лучшее использование емкости по сравнению с RAID 1.
RAID 6 (чередование с двойной распределенной четностью)
Здесь снова используется чередование на уровне блоков с двойной распределенной четностью.
- Здесь используются две независимые схемы распределенной четности.
- Основная цель этого — обеспечение отказоустойчивости.
- Это позволяет справиться с сбоями любых двух дисков во всем массиве.
- Для реализации этой конфигурации требуется как минимум N+2 диска.
2. DAS (хранилище с прямым подключением)
Здесь коллекция дисков, которые напрямую подключены к хосту. Это недорогая модель с простым в использовании и подключаемым механизмом. Здесь используется простое соединение либо с помощью FCS (Fibre Channel), либо с помощью кабеля SCSI. В некоторых случаях HBA (адаптер главной шины) также используется вместе с SAS (последовательное хранилище). Этот механизм ненадежен и не является эффективным способом использования. Этот механизм используется в некоторых случаях для недорогих и ненадежных моделей.
Рисунок 1. Концепции и технологии хранения данных
Рисунок 2. Соединение DAS с протоколами контроллера
3. SAN (сеть хранения данных)
Эта технология основана на концепции «Блочного ввода/вывода» с высокой скоростью. Этот механизм очень эффективен, безопасен и надежен. Этот механизм немного дороже, поскольку включает в себя множество аппаратных компонентов для подключения, контроллеров и адаптеров. Кроме того, поддерживаются различные протоколы, такие как iSCSI, SCSI, FC, FcOE, и для подключения требуется определенный интеллект.
Рисунок 3: Простое подключение SAN
На приведенной выше схеме показано простое соединение SAN. Как объяснялось ранее, подключение осуществляется с использованием протоколов на основе FC или iSCSI. SAN — это не что иное, как простой DAS, который добавляет все свое хранилище в сеть и обеспечивает блочно-ориентированный доступ к данным между целевым хранилищем в сети и компьютерной системой. SAN использует высокоскоростную выделенную сеть FC (оптоволоконный канал) или iSCSI (который представляет собой не что иное, как Ethernet).
SAN имеет множество преимуществ, перечисленных ниже:
- Доступ к SAN может осуществляться на большие расстояния (до 10-100 километров) и с высокой доступностью.
- SAN обеспечивает нам улучшенную производительность.
- Обеспечивает защиту и резервное копирование данных по сети LAN.
- Обеспечивает обмен данными с безопасностью и надежным сетевым подключением.
У SAN есть и недостатки.
- Конфигурация SAN очень дорогая, поскольку включает в себя несколько компонентов.
- Конфигурация SAN сложна и трудна.
- Обслуживание SAN требует более высоких навыков.
Рисунок 4. Сеть SAN через IP
Приведенная выше диаграмма является экстраполяцией рис.3. Здесь показано, как подсистемы SAN соединяются с помощью IP-сети. Как объяснялось ранее, SAN поддерживает только поток данных на основе блочного ввода-вывода и не допускает файловый ввод-вывод.
операции.
4. NAS (сетевое хранилище или сетевое хранилище)
NAS — это технология хранения данных виртуализации файловой системы, которая подключается к сети на основе TCP/IP с использованием соединения LAN или WAN. Доступ к нему осуществляется с использованием специализированных протоколов доступа к файлам/обмена файлами. NAS поддерживает запросы ввода-вывода и основан на файлах, в отличие от SAN, который основан на доступе на уровне блоков.
Рисунок 5. Простое подключение NAS
В NAS поддерживаются различные протоколы, такие как NFS (сетевая файловая система, NFSv3, NFSv4 и т. д.), SMB (блок сообщений сервера), CIFS (общая файловая система Интернета) или FTP (протокол передачи файлов), HTTP. Кроме того, на NAS поддерживаются такие протоколы, как AFP (протокол регистрации Apple), который используется для компьютеров MAC.
Рис. 6. Соединение NAS через сеть OverIP
NAS имеет следующие преимущества:
- Надежные операции с данными.
- Встроенные функции, такие как хорошая эффективность хранения.
- Защитите данные с помощью аутентификации.
- Автоматические оповещения по электронной почте можно легко настроить.
- Простая обработка данных и простое управление инфраструктурой.
5. ДБОД
Это не что иное, как просто связка дисков (JBOD), соединенных вместе. Здесь не используется RAID или любая другая технология хранения данных. Только что выбранная группа дисков объединяется и подключается как дисковый массив. Этот JBOD создается с использованием нескольких независимых жестких дисков, и все эти диски распознаются базовой операционной системой как один жесткий диск.
Это снова дешевая и неэффективная модель. Это будет использоваться там, где безопасность и эффективность данных не так важны. Если данные на одном из дисков потеряны и это будет потеряно навсегда.
Рекомендуем прочитать:
- Программно-определяемое хранилище и объектное хранилище в эпоху облаков и Интернета вещей
Заключение
Изучение концепций RAID, SAN и NAS поможет любому инженеру по системам хранения данных. Независимо от прогресса облачных и гиперконвергентных технологий, понимание фундаментальных концепций хранения данных очень важно. Это также поможет получить знания о концепциях LVM и облачного хранилища. Эта статья в основном посвящена часто используемым и наиболее известным типам конфигураций.
Если вы обнаружите какие-либо ошибки и опечатки в этом руководстве, сообщите нам об этом. Мы внесем соответствующие изменения и обновим руководство.