Posts tagged ‘big data’

NetApp E5500 - новый сторадж для HPC и Bandwidth-related задач

На этой неделе NetApp продолжил расширять свою E-линейку, пока еще не слишком известную на российском рынке (впрочем, наверняка вы некоторые продукты оттуда знаете как OEM, например IBM DS, Dell MDS, некоторые другие, менее известные вендоры, такие как SGI и даже Oracle, также продают системы NetApp E-series под своими марками).

Буквально недавно я уже писал про EF540, а вот уже выпущена и E5500, дисковая система классической архитектуры, ориентированная на HPC (High-Performance Computing), и на задачи extra-high bandwidth. Это, обычно, высокопроизводительные вычислительные кластеры, используемые для научных и нженерных расчетов, под задачи области big data, нефтегаз, сейсмика, геофизика, и прочие такие же специализированные штуки.

image

Основным конкурентом для E5500 в NetApp рассматривают продукты сравнительно малоизвестной в России компании DDN (Data Direct Network), специализированной на перечисленном выше рынке высокопроизводительных, bandwidth-oriented задач, а также столь же “специальный” EMC Isilon.

Отсюда вы уже поняли, как я надеюсь, что это не general purpose сторадж, которыми в линейке NetApp остаются FAS, но если вы работает с вычислительными кластерами, GPFS и Lustre, с big data, с DSS-аналитикой, со всяческими специализированными, скорее научно-инженерными решениями типа геофизики – вот тогда это для вас.

Как вы помните, в прошлом году NetApp активно развивала модели E-series, добавляя в них более привычные для пользователей FASфичи, такие как снэпшоты, thin provisioning, репликацию, и прочее. Всего этого пока, на момент выпуска в марте на E5500 нет, официальный выпуск версии SANtricity для этой модели, с поддержкой всех этих фич, уже доступных для E2600 и E5400, намечен на конец этого года, вероятно еще нужно время на отладку. Однако уже сейчас можно начать использовать с E-series обкатанный на семействе FAS сервис Autosupport.

Не могу также не отметить крайне меня радующий факт, что NetApp, представляя новую модель, очень часто демонстрирует не только маркетинговый булшит общие слова о “крутизне” нового “решения”, но подтверждает их открытыми тестами. В данном случае NetApp опубликовал тест для SGI InfiniteStorage 5600 – это та самая наша E5500, просто продаваемая SGI как OEM-партнером, и ее результаты можно рассматривать как vanilla-E5500. Опубликованы результаты SPC-2. Почему не SPC-1, спросите, возможно, вы? Дело в том, что SPC-2 это high-bandwidth бенчмарк, объемные, но преимущественно последовательные чтения-записи, в то время, как SPC-1 это IOPS-oriented, то есть random чтения-записи. таким образом для general purpose задач, для баз данных OLTP, и прочего, более показательны результаты SPC-1, а для big data, DSS-баз, и прочего, перечисленого выше как рынок E-класса – более показателен SPC-2.

И результаты там говорят сами за себя:

image

image

Тут конечно нет главных игроков, уже упомянутых DDN и Isilon, которые предпочитают не подтверждать маркетинговые заявления открытыми бенчмарками, но и сравнение с уже опубликованными игроками также весьма показательно, в особенности для понимания, почему general-purpose массивы так посредственны и непропорционально дороги на специализированных применениях Big Data и High-bandwidth.

Из интерфейсов подключения поддерживается, как и в случае EF540, такие варианты, как восемь SAS 6Gbit/s, или же шесть Infiniband 40Gbit/s. Для конфигураций, куда нацелен E5500 это все крайне востребовано. С контроллерами E5500 будут также предлагаться несколько различных типов полок расширения, что позволяет стрить различные конфигурации, например много контроллеров для высокопроизводительного ввода-вывода, или же наоборот, много дисков (например уже знакомые вам 60 дисков NL-SAS в 4U полочные конструктивы) для сверхъемких систем. Поддерживаются и SSD для кэширования, как это уже опробовано на E5400.

Отмечу, что многим будет любопытно узнать, что кодовое название проекта E5500 в NetApp было – Soyuz, в честь знаменитой советской, ныне российской ракеты.

image

NetApp и Big Data

Следящие за новостями IT в мире не могли пройти мимо нового баззворда, стремительно катящегося сейчас по англоязычным источникам - Big Data.

Согласно определению Википедии: “Big Data - это серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия, для получения человеко-читаемых результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, альтернативных традиционным системам управления базами данных и решениями класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.” Сам же по себе термин “Big Data” (”Большие Данные”) родился в статье 2008 года в журнале Nature, и образован по аналогии с понятиями “Большая Нефть”, или “Большие Деньги”, символизирующие переход количества (объемов, скоростей обработки) данных в их некое новое качество.

Таким образом, в первую очередь, Big Data это то, что не помещается в базу данных, и методы работы с такими данными, когда нельзя “написать SQL-запрос” к ним.

В значительной степени, сложность работы с Big Data как раз и определяется сложностью нового подхода, для которого не получается применять эффективно привычные методы. Представьте, каково это, например, работать с несколькими миллионами или даже миллиардами файлов, искать в них, извлекать из них данные, записывать.
Сравнительно недавняя покупка компанией продуктовой линейки Engenio, и ряда программных продуктов стороних разработчиков, будучи слитой воедино, дала значительный толчок для работ в этом направлении. Так, NetApp активно занялся работами в области Hadoop, одного из открытых продуктов Apache Foundation (один из крупнейших клиентов NetApp - компания Yahoo! - как раз давний и активный пользователь и разработчик решений с Hadoop). Известны их работы в области высокопроизводительных решений с использованием Lustre (о использующей Lustre системе хранения для суперкомпьютера в Lowrence Livermore National Laboratory я уже писал ранее).

Другим продуктом, активно развиваемым в NetApp в области Big Data, является решение StorageGRID, объектное хранилище данных, позволяющее, используя высокий параллелизм, строить хранилища данных для миллионов и миллиардов файлов, с мультиплатформенным доступом, в сотни петабайтов объемом.
Недавно вышедшая версия StorageGRID 9.0 добавила к уже существующим возможностям доступа по NFS и CIFS и доступ по недавно описанному и стандартизированному в SNIA протоколу Cloud Data Management Interface (CDMI), который позволяет обращаться к объектному хранилищу с помощью HTTP-подобных запросов, создавать, администрировать и доступаться к данным облачного хранилища, с размерами, превышающими общепринятые сегодня.
Хотя на сегодня, уверен, большинству пользователей такие задачи, что решаются объектными стораджами и Big Data, все еще кажутся далеким будущим, многие вещи, казавшиеся далеким будущим еще три-пять лет назад, стали практически повседневностью сегодня, и готовиться вендорам к таким делам приходится заранее, чтобы не оказаться “на обочине” рынка.

В настоящее время интерес к Big Data, к работе с данными в этой парадигме, к используемыми для этого методам, к стораджам, пригодным для хранения таких данных, является одним из самых быстрорастущих в сегодняшнем IT. По исследованию Gartner, в 2011 году рыночный тренд Big Data был только слегка ниже, чем по теме виртуализации.

В связи же с тем, что, по некоторым смутным слухам, NetApp раздумывает о том, чтобы поставлять решения на базе стораджей E-series, в первую очередь под Big Data, и на российский рынок, вполне возможно, что StorageGRID, CDMI, Hadoop и прочие решения найдут свое место и среди российских компаний.

Big Data
http://dilbert.com/strips/comic/2012-07-29/

20/0.138

Данный блог не спонсируется, не аффилирован, и не санкционирован компанией NetApp, Inc. Излагаемая в этом блоге точка зрения выражает мнение исключительно его автора и может не совпадать с позицией NetApp, Inc.

This content is not endorsed, sponsored or affiliated with NetApp, Inc. The views expressed in this blog are solely those of the author and do not represent the views of NetApp, Inc.