Автор:

Подсистема хранения данных

Новые технологии неизбежно приходят в нашу жизнь, и если пару веков назад научно-технический прогресс буквально продвигался со скоростью улитки и для внедрения малейших изменений требовалось несколько поколений жизни людей, то сейчас ситуация обратная и в течение жизни одного человека происходит смена нескольких технологических поколений. Это приводит нас к мысли, что необходимо постоянно учиться и осваивать новые технологии и методы для того, чтобы иметь конкурентоспособное и экономически эффективное предложение для своих клиентов.
В целом IP-видеонаблюдение можно рассматривать как один из специализированных сегментов IT-отрасли в силу того, что весь мир становится цифровым и IT-технологии проникают во все отрасли и сферы нашей жизни. Попробуем ввести поэлементную классификацию и разбить обзор на смежные сферы с точки зрения применяемых для построения систем IP-видеонаблюдения IP-видеонаблюдения элементов. Итак, из чего состоит или чем отличается любая система :
1. IP-видеокамеры.
2. Видеоаналитические алгоритмы и детекторы.
3. Сети питания, связи и передачи данных.
4. Компьютерное оборудование для обработки цифровых видеопотоков.
5. Архитектура построения систем.
6. Подсистема хранения данных.
7. Интегрированные подсистемы (СКУД, ОПС и т. д.).
8. Системы визуализации и отображения.
9. Удаленный доступ, мобильные технологии и прочие тренды.
Мы рассмотрели уже несколько пунктов из этого списка, сегодня дошла очередь до подсистемы хранения данных.
По мнению главного футуролога CISCO Дейва Эдванса, к 2020 г. каждый житель Земли будет хранить порядка 130 Тб данных, при этом объем информации в нашем мире будет ежегодно увеличиваться в 6 раз, а объем корпоративных данных в 50 раз, что будет требовать создания надежных хранилищ информации.
Попробуем рассмотреть подсистему хранения данных через призму IP-видеонаблюдения, остановившись на общем понимании основных типов подсистем хранения, их характеристиках и какую лучше всего использовать для записи видеоданных. Мы рассмотрим типы памяти и носителей, основные интерфейсы, применяемые в СХД, и технологии повышения надежности и производительности дисковых массивов (RAID), архитектуры построения и типы подсистем хранения данных, также разберем проблемы, возникающие при хранении, и изучим основных производителей СХД в мире.
Рассматривая архитектуру компьютера, мы видим, что есть несколько уровней памяти:
– Кэш (на современных процессорах 3-уровневый), располагающийся на одном кристалле с процессором, – это сверхбыстрая память объемом, как правило, в несколько мегабайт.
– ОЗУ (оперативное запоминающее устройство) – энергозависимая оперативная память, знакомая всем, объемом от нескольких единиц до десятков гигабайт, в которой хранятся данные запущенного в данный момент приложения.
– Дисковый массив – наиболее объемная энергонезависимая память долговременного хранения объемом от нескольких сотен гигабайт в персональных рабочих станциях до нескольких петабайт в ЦОД (центрах обработки данных).
Если с процессорами и оперативной памятью все как-то более-менее понятно, а основные моменты расписаны в предыдущей статье «Компьютерное оборудование для обработки цифровых видеопотоков», то с долговременной памятью все несколько сложнее. Например, даже зная необходимую емкость дискового массива под сервер, обрабатывающий несколько десятков мегапиксельных видеокамер, недостаточно просто «набить» сам сервер нужным количеством дисков, необходимо рассчитать производительность и требуемую надежность системы. Ошибка приведет к тому, что при попытке записи видео со всех ваших камер дисковая подсистема может не успеть записать весь объем поступающей видеоинформации. Непосредственно в системе видеонаблюдения это будет выглядеть либо как «дерганая» запись по всем камерам, связанная с нестабильным качеством записанных кадров, либо как «рваная» запись с отсутствующими кусками видеозаписи по некоторым камерам. Наличие таких симптомов указывает на ошибки расчета производительности дискового массива. Второй элемент – это сохранность данных (надежность доступности данных), гарантирующей непрерывность записи видеоряда. Доступ к данным может отсутствовать в случае отказа технических средств, отказа каналов связи или из-за недостатка производительности. Обеспечить надежность можно за счет дублирования аппаратных элементов и применения различных уровней RAID, что неизбежно приводит к удорожанию системы. Давайте разберемся по порядку и начнем с минимальных элементов, из которых строятся массивы хранилищ – единичного элемента хранения данных.


Рисунок 1. Перфокарта с хранимой информацией

С появлением первых систем обработки информации возникла необходимость эти данные звонить в виде, пригодном для обработки. На заре развития систем хранения данных использовались перфокарты (бумажный носитель с выбитыми отверстиями в определенных местах), магнитные ленточные накопители, позже появились более удобные флоппи диски и получившие широкое распространение в 90-х гг. CD, DVD, а позже Blue Ray оптические диски. Однако главным неудобством был ограниченный объем и необходимость замены элемента нужного тома впоследствии, что привело к широкому использованию несъемных носителей, а также параллельному развитию недорогих ленточных систем записи и роботизированных хранилищ оптических дисков для записи неоперативных данных. Широкое распространение получили НЖМД (накопитель на жестком магнитном диске), или HDD, благодаря большим объемам хранимых данных и сравнительно невысокой стоимости. Сегодня набирают популярность более дорогие и производительные твердотельные накопители SSD, не имеющие движущихся механических частей и поэтому более неприхотливые.

Рисунок 2. Сравнение HDD и SSD

й записи RAID0 (один из самых быстрых для последовательного чтения/записи) для нескольких дисков. Соответственно, по горизонтали – размер блока, по вертикали – скорость записи, или мегабайты в секунду. Блок меньше 128 Кбайт можно соотнести с нагрузкой сервера базы данных или web-сервера, блок большего объема – с работой с видеофайлами (потоковые данные). Диаграмма отражает характерную зависимость скорости записи от размеров блока данных. Видно, что при увеличении размера блока скорость записи увеличивается, так как возросший объем передаваемых поточных данных (Мбайт/с) позволяет производить запись файлов на диски СХД более крупными блоками.


Современные носители информации HDD и SSD отличаются емкостью, интерфейсом подключения, форм-фактором, скоростью вращения шпинделя, надежностью и многим другим. Основные мировые производители HDD: Seagate, Toshiba, Western Digital, Hitachi и др. HDD-диск самого большого объема емкостью 6 Тб представлен в конце 2013 г. компаниейWestern Digital. С другой стороны, все большее распространение получают SSD-накопители в мобильных устройствах, хотя применяются они и для стационарных систем. Главные недостатки SSD – ограничение циклов перезаписи, из достоинств можно выделить гораздо боле высокое время чтения/записи, невосприимчивость к колебаниям температур и вибрациям, малый размер и низкое потребление электричества. Основные производители: AData, Intel, Kingston, Corsair, SanDisk и Samsung, последний недавно полностью продал производство HDD компании Seagate. Самый емкий диск SSD представлен компанией OCZ (Toshiba) емкостью 512 Гб. Самый большой недостаток SSD – высокая цена, которая заставляет искать альтернативы в виде гибридных HDD с кэшем на базе SSD.
Для обеспечения управления большими объемами данных и возможности влиять на производительность и надежность отдельные диски объединяют в дисковые массивы и системы хранения данных, которые предназначаются для двух основных задач:
– приложения со случайным доступом к данным (транзакционные системы);
– приложения с потоковым доступом к данным (потоковые приложения).
Для транзакционных систем со случайным доступом характерно большое количество запросов сравнительно небольших объемов данных, например, в web-сервере, и наиболее действенным способом увеличения производительности является кэширование. Кэширование позволяет объединить небольшие блоки разрозненных данных в большие порции данных, которые дисковая подсистема может записать за раз, тем самым снижая количество обращений и увеличивая скорость записи.
Потоковый доступ – это последовательная запись или чтение блоков данных большого размера, например, системы видеонаблюдения. Для потоковых приложений, которыми являются системы видеонаблюдения, характерны запросы на операции с большими блоками данных (от 512 Кбайт и более). Ввиду большого размера блоков кэширование не дает существенного выигрыша в производительности операций записи/чтения. Очевидно, что для приложений с потоковым доступом самым узким местом является RAID контроллер, выполняющий расчет контрольных сумм.
Характеристиками производительности СХД являются IOPS (количество операций ввода/вывода в секунду) и Mбайт/c (объем переданных данных в секунду). Показатель IOPS приводится обычно для операций с блоками небольшого размера. Значение показателя Mбайт/c указывается для нагрузки крупными блоками. Производительность изменяется в количестве операций чтения/записи в секунду (IOPS) и в показателе суммарной скоростью передачи информации Мбайт/с.
На рис. 3 представлены результаты операции последовательно

Рисунок 3. Скорость записи блоков разных размеров в массиве Raid 0

Логически можно предположить, что необходимая скорость потокового доступа должна обеспечиваться правильным выбором RAID, высокой скоростью интерфейса и мощностью контроллера.
RAID – это избыточный массив независимых дисков, управляемый контроллером связанных между собой каналами связи и воспринимаемый внешней системой как единое целое. В зависимости от типа массива обеспечивается различная скорость и надежность.


Таблица 1. Основные конфигурации RAID

Рассмотрим, какие бывают RAID, тем более что это ключевой элемент управления скоростью и надежностью дискового массива.
RAID0 – дисковый массив из 2 и более дисков, без резервирования. Принцип записи состоит в разделении данных на фиксированные блоки и записью на несколько дисков одновременно. Является самым производительным RAID и при этом самым низконадежным, так как отказ любого диска приводит к потере данных. Объем дисков суммируется.


Рисунок 4. Схема RAID 0

RAID 1 – массив из двух дисков, являющихся полными копиями друг друга. Принцип записи состоит в параллельной записи на два диска одновременно, при этом работа продолжается, пока функционирует хоть один диск из массива. Существенный недостаток – это двукратное снижение объема доступного пространства, так как объем дисков в RAID такой схемы не суммируется.


Рисунок 5. Схема RAID 1

RAID 2 – массивы, основанные на использовании кода Хемминга. Принцип работы основан на наличии дисков с данными и дисками с кодами коррекции ошибок. Преимущество – в увеличении скорости доступа к файлам, минус – в минимальном количестве дисков, когда имеет смысл его использовать, – это 7, при этом доступна будет только примерно половина от общего объема. При этом при использовании 50–60 дисков перерасход составит всего 10–12%. То есть подходит только для многодисковых массивов.



Рисунок 6. Схема RAID 3 и 4

RAID 3 и 4 отличаются только размером блока, на который делится поступающая информация, и представляют собой массив с одним контрольным диском и обеспечивают высокую скорость чтения/записи больших блоков данных (RAID 3) и блоков данных меньшего размера (RAID 4).


Рисунок 7. Схема RAID 5

RAID 5. Главный минус RAID от 2 до 4 в том, что невозможно производить параллельные операции – записи, так как используется выделенный контрольный диск, широкую распространенность не получили. RAID 5 такого недостатка лишен, так как контрольная информация равномерно распределена в массиве, что и обусловило его экономичность и последующую популярность. Однако RAID 5 из-за необходимости постоянных вычислений контрольной суммы создает значительную нагрузку на контроллер. Такой массив позволяет потерять любой один диск. Однако процесс восстановления приводит к резкому снижению производительности, так как начинается интенсивное чтение информации со всех дисков и пересчет контрольных сумм, что может способствовать выходу из строя одного из оставшихся дисков и в этом случае весь массив рассыпается. Минимальное количество используемых дисков – три.


Рисунок 8. Схема RAID 6

RAID 6 похож на RAID 5, но обеспечивает более высокую надежность благодаря выделению под две разные контрольные суммы 2 дисков. Требует более мощного RAID контроллера и обеспечивает работоспособность при выходе из строя 2 дисков. Для организации массива необходимо минимум 4 диска.


Рисунок 9. Raid 50

Также существуют комбинированные уровни, когда применяется попытка повышения надежности и производительности путем комбинации уровней RAID. При этом первая цифра означает тип RAID, использованный на более низком уровне. Например, RAID 50 означает RAID 0, составленный из несколькихRAID 5.
Для небольших систем часто применяются программные RAID (драйверы), полностью эмулирующие работу RAID контроллера. Оборотной стороной экономии является задействование ресурсов центрального процессора, что приводит к снижению производительности всей системы в режиме пиковых нагрузок.
При решении задачи увеличения надежности необходимо учитывать также и доп. Параметры, например, при отказе интерфейса подключения всего хранилища, правильно выбранный RAID не поможет. Для этого применяется дублирование питания, RAID контроллеров, интерфейсов и подключение к нескольким серверам (обычно к двум). Тем самым все элементы получаются задублированными, что позволяет существенно повысить доступность данных даже при отказе отдельных элементов системы.
Мы рассмотрели дисковую подсистему и схемы повышения производительности и надежности, теперь попробуем взглянуть на структуру организацию хранения данных.
В мире наибольшее распространение получили три основные концепции хранения, каждая из которых имеет особенности организации, преимущества и недостатки, что в конечном итоге определяет оптимальные области их использования: SAN, NAS, SAS или DAS.
DAS (DirectAttachedStorage) применяется для хранения данных в компактных локальных ИТ-системах на небольших и средних предприятиях. В этом случае сервер приложений отвечает за хранение и поддержание в актуальном состоянии данных на внутренних дисках, которые подключены непосредственно к серверу либо, например, по оптической линии в режиме точка-точка (хотя такая схема может считаться вырожденным случаем SAN). Также любой жесткий дсик, подключенный к серверу, уже является DAS. Рассмотрим основные применяемые интерфейсы:
– IDE или ATA (AdvancedTechnologyAttachment) – параллельный интерфейс подключения оптических приводов и жестких дисков, был стандартом IBMPC, в настоящее время вытеснен своим последователем SATA.
– SATA (SerialATA) – последовательный интерфейс обмена данными с накопителями информации. На сегодня всё большее распространение получает SATA 3, позволяющий передавать данные со скоростью в 6 Гбит/с, который пришел на смену SATA 2, обеспечивавшему скорость до 3 Гбит/с. Дальнейшее развитие линейки стандарта – интерфейс SATAExpress, представляющий собой два параллельно расположенных разъема SATA. В случае использования одного разъема позволяет получить скорость 8 Гбит/с, двух – 16 Гбит/с.
– SCSI (SmallComputerSystemInterface) –набор стандартов для передачи данных между компьютерами и периферийными устройствами, является основой для дальнейшего развития средств передачи данных между серверами и хранилищами. Позволяет получить скорость до 640 Мбайт/с, в настоящее время наиболее современной реализацией является SAS.
– SAS (SerialAttached SCSI) – компьютерный интерфейс, разработанный для подключения жестких дисков и ленточных накопителей, обратно совместим с SATA, т. е. устройства SATA можно подключить к контроллеру SAS, а устройства SAS не совместимы с контроллерами SATA. Скорость передачи данных составляет 12 Гбит/с.
В случае существования у компании большого объема данных и развитой, территориально распределенной ИТ-инфраструктуры, использующей большое количество серверов, выявляются недостатки DAS-решений:
– отсутствие гибкости при одновременном использовании общего дискового пространства несколькими серверами;
– возрастание нагрузки на сеть компании при передаче данных к месту их обработки;
– невозможность территориального распределения данных и низкая масштабируемость, обеспечиваемая только за счет установки все более емких дисков, что значительно повышает стоимость систем хранения, что привело к более широкому распространению SAN, а позже и NAS.
SAN (StorageAreaNetwork) – выделенная сеть хранения данных. Появление связано с взрывным ростом объема корпоративных данных (почтовые сервера, электронный документооборот и базы данных), для которых применялись высокоскоростные и высокопроизводительные массивы данных. Таким образом, появилось большое количество серверов приложений с подключенными к ним дисковыми массивами. Однако было замечено, что не всегда удается точно рассчитать необходимый объем и с течением времени одни дисковые массивы используются интенсивнее, другие стоят полупустые, это привело к созданию единой сети хранения данных для объедения пула серверов приложений и пула дисковых массивов в единую свободно управляемую структуру, когда любому серверу можно подключить любой виртуальный раздел в дисковом массиве, называемый LUN (LogicalUnitNumber), и избавить от необходимости физической перекоммутации дисковых хранилищ.
Отличие сети хранения данных и обычной локальной сети в том, что это принципиально разные структуры, при этом, конечно, имеющие общие черты. Разберем применяемые протоколы, применяемые в сетях хранения данных:
– FibreChannel (FC) – семейство протоколов для высокоскоростной передачи данных по оптическим линиям.


Рисунок 10. Топологии FibreChannel

– FibreChannelProtocol (FCP) – транспортный протокол (как TCP в IP-сетях), инкапсулирующий SCSI по сетям FibreChannel. Существуют три основные топологии сетей на базе FC: точка-точка, управляемая петля и коммутируемая связная архитектура (switchedfabric). Switchedfabric изначально разрабатывался как сеть, пригодная для работы в реальном времени. Говоря упрощенно, без виртуализации, при подключении каждого порта происходит login, поэтому коммутатор всегда знает, где у него какой порт и что он может, и обеспечивает регулирование потока, в том числе проверку адресата еще до поступления данных, а также перезапрос данных об ошибках, минуя протокол верхнего уровня. Большие вычислительные мощности, необходимые для этого, приводят к тому, что коммутаторы FC стоят заметно дороже, чем коммутаторы для сетей Ethernet.
– iSCSI (InternetSmallComputerSystemInterface) – протокол SCSI поверх TCP/IP, применяется для подключения серверов и систем хранения. Как правило, работает поверх Gigabitили 10 GigabitEthernet. Отличается сравнительно высокой скоростью и высокой ценой.
– InfiniBand – шина, разрабатываемая IBM, применяется как для внутрисистемных, так и между системных соединений. Скорость в современных реализацияхFDRInfiniBand достигает 14 Гбит/с.
Наиболее известное специализированное решение SAN в системах видеонаблюдения – это решение от компании BoschSecurity, IP-видеокамеры которой могут по протоколу iSCSI передавать видеопотоки непосредственно в систему хранения данных.
NAS (NetworkAttachedStorage) – сетевая система хранения данных, сетевое хранилище. По сути NAS – это специализированный компьютер произвольной архитектуры с некоторым дисковым массивом, подключенный к сети напрямую без дополнительных серверов и обеспечивающий доступ к архиву по локальной сети, например, для передачи и хранения видеоизображений с IP-видеокамер.
Эти устройства не являются серверами в классическом понимании, они всего лишь снимают загрузку с серверов, обеспечивая единственную функцию – непосредственную работу с файлами. Чаще всего NAS используют для резервного копирования и совместного доступа к файлам, например, в конструкторских бюро или долговременного хранения данных, так как скорость и удобство гораздо выше, чем у ленточного накопителя, но могут применяться в системах видеонаблюдения. Подкупает универсальность, компактность, дешевизна и удобство. Управление NAS-устройством, как правило, реализовано через web-интерфейс и отличается простотой конфигурации. На сегодняшний день растущую популярность таких устройств обеспечивают представители сегмента SOHO, которые выбирают подобные устройства как недорогое решение для хранения файлов. Существуют специализированные решения на базе NAS, которые могут подключаться к IP-видеокамерам и получать с них поток напрямую, минуя сервер приложений.
Наиболее популярные протоколы, поддерживаемые NAS-устройствами:
– NFS – стандартный протокол файлового доступа UNIX систем;
– CIFS – стандартный протокол Windows систем.

Главное отличие между SAN и NAS заключается в принципе доступа к данным. В SAN передача информации осуществляется блоками, а в NAS – файлами. Это накладывает ограничения на применение данных технологий. Например, SAN видится в системе как отдельный SCSI-диск, это позволяет осуществлять загрузку сервера с него и даже форматирование этого раздела, что невозможно при использовании NAS.

В настоящее время идет процесс конвергенции всех трех принципов организации сетей хранения данных. Например, существуют SAN устройства, использующие в качестве транспорта сеть Ethernet вместо FibreChannel, так называемые IPSAN, преимущества такого решения в некоторой экономии по сравнению с «классической» FCSAN, однако, необходимо понимать, что такое решение будет работать гораздо медленнее в силу принципиальных особенностей построения.
С точки зрения масштабов систем хранения можно очень грубо классифицировать таким образом:
– СХД начального уровня строятся на базе бюджетных решений, предназначенные для решения простых задач: небольшие СУБД, «горячие» резервные копии. Отличаются простотой внедрения и поддержки, низкой надежностью. Предназначены для небольших компаний и для решения второстепенных задач в крупных компаниях. Как правило, применяются концепции DAS и NAS.


Рисунок 11. СХД начального уровня

– СХД среднего уровня, которые отличает оптимальное соотношение надежности, функциональности и цены. Такие решения и хорошо масштабируются, и позволяют решать задачи, стоящие перед средними и крупными предприятиями: средние СУБД, электронная почта, ERP и CRM. Могут применяться все три концепции DAS, SAN и NAS.


Рисунок 12. СХД среднего уровня

– CХД высокого класса, отличаются максимальной надежностью и производительностью. Такие решения совместимы не только с открытыми, но и с закрытыми платформами mainframe. Решают mission-critical задачи крупнейших корпораций, от которых зависит существование бизнеса, например, биллинг крупнейших провайдеров и глобальные ERP-системы. Как правило, строятся на основе парадигмы SAN.


Рисунок 12. Hi-End СХД

Рынок систем хранения данных по итогам 2013 г. перестал быть динамично развивающимся, и рост с этого года начал измеряться однозначными цифрами. В 2013 г. рост составил порядка 7% при общей выручке почти в 600 млн долларов США и составил примерно 68 000. Тб. Прогнозируется замедление роста, так как крупные и очень крупные заказчики, создававшие основной спрос, приблизились к насыщению, а мелкий и средний бизнес остро реагирует на ухудшение экономической ситуации в стране и все чаще выбирает облачные услуги хранения в силу их низкой стоимости.
Топ-5 наиболее крупных производителей систем хранения данных, удерживающих под своим контролем более половины рынка, выглядит так: EMC, IBM, HP, NetApp и LSI.
Увеличение масштабов применения систем видеонаблюдения, а также разрешения и частоты кадров в IP-камерах требует все большей емкости систем хранения. Масштабные проекты по внедрению емких хранилищ информации крупнейших банков, предприятий отрасли и видеонаблюдения в крупных городах продолжают внедряться, и спрос на системы хранения никогда на пропадет. Одновременно происходит снижение стоимости единицы хранения данных и разработка новых технологий: виртуализация, динамическое распределение емкости хранения между приложениями, снапшоты данных и удаленная резервная репликация для защиты от катастроф. В сегменте носителей информации наблюдается постоянное снижению цены и появление гибридных систем хранения HDD + SSD, благодаря чему все более часто технология SSD выбирается в качестве основы построения высокопроизводительных хранилищ данных. Развитие ленточных систем хранения данных продолжается с постоянным увеличением емкости кассет и плотности записи, что позволяет уверено говорить: для резервного копирования лента остается самым недорогим решением. В системах видеонаблюдения с длительным архивом ленточные накопители также могут оказаться эффективным решением.





Внимание! Копирование материалов, размещенных на данном сайте допускается только со ссылкой на ресурс http://www.tzmagazine.ru