Multimode VIF в NetApp (часть 2)

MAC Load-Balancing
Этот алгоритм используется не так часто, так как ему присущ ряд недостатков. Основанный на использовании MAC алгоритм балансировки вычисляет XOR между MAC-адресами пар источника и получателя. Источником будет MAC-адрес сетевой карты хосте, подключенного к контроллеру  NetApp. Получателем будет MAC-адрес VIF-интерфейса контроллера NetApp. Алгоритм работает хорошо, когда хосты и контроллер NetApp размещаются в одной подсети или VLAN. Когда хост расположен в другой подсети относительно контроллера NetApp, мы сталкиваемся с недостатками алгоритма. Для понимания того, что происходит, нам надо разобраться с тем, что происходит с фреймом Ethernet, когда он маршрутизируется по сети.

Допустим, мы хотим соединить Host1 с Controller1.

Host1 IP address - 10.10.1.10/24 (default gateway для Host1 - 10.10.1.1)
Controller1 IP address - 10.10.3.100/24 (default gateway для Controller1 - 10.10.3.1)

Выше мы задали для Host1 и Controller1 две отдельные подсети. Единственный путь передачи данных в том случае - через роутер. В рассматриваемом случае, роутер для подсетей 10.10.1.1 и 10.10.3.1 это один и тот же физический роутер, эти адреса просто два физических его интерфейса. Задача роутера - связать две подсети, и обеспечить передачу данных между ними.

Когда Host1 передает frame предназначенный для Controller1, он отправляет его на роутер по адресу default gateway, так как видит, что адрес 10.10.3.100 это IP-адрес не его локальной подсети, потому он отправляет его в адрес default gateway, по которому расположен роутер, в надежде, что роутер знает что с ним делать дальше, и найдет путь к получателю.

с Host1 на Host1Router

-IP Source: Host1 (10.10.1.10)
-MAC Source: Host1
-IP Destination: VIFController1 (10.10.3.100)
-MAC Destination: Host1DefaultRouter

с Host1Router на Controller1

-IP Source: Host1 (10.10.1.10)
-MAC Source: Controller1DefaultRouter
-IP Destination: VIFController1 (10.10.3.100)
-MAC Destination: VIFController1

Обратите внимание: MAC-адреса источника и получателя меняются, когда фрейм передается по сети. Так работает маршрутизация, и когда маршрутизаторы встречаются на пути несколько раз, то и MAC будет изменен несколько раз по пути от источника к получателю. Не важно сколько раз конкретно, главное что он меняется когда фрейм попадает в локальный сегмент контроллера. MAC источника будет являться MAC-ом роутера, а получателем – MAC-адрес VIF контроллера. Для полного понимания проблемы, допустим у нас есть четыре 1Gbps канала, объединенных в Etherchannel на Controller1. Допустим у нас есть 50 хостов в той же подсети, что и  Host1. Пары source и destination для соединения Host1 к Controller1 будут ровно теми же, что и любых других хостов в подсети host1, так как  MAC-адреса source и destination всегда будут равны Controller1DefaultRouter и VIFController1.

IP Load-Balancing
IP Load-Balancing это параметр по умолчанию для всех NetApp MultiMode VIF и наиболее часто используемый на практике метод построения MultiMode VIF на сегодня. Алгоритм не отличается от уже рассмотренного алгоритма с использованием MAC, который мы расмотрели выше. Разница только в том, что мы используем IP-адреса Источника (Source) и Получателя (Destination), которые, если вы посмотрите рассмотренный ранее вариант, никогда не менятся, в отличие от  адресов MAC. Факт того, что IP-адреса не меняются, создает сценарий, в котором у вас больше шансов получить уникальные пары, что, в результате, приводит к более равномерному распределению трафика по физическим линкам.

Для правильного понимания механизма работы следует учесть один важный момент, касающийся пар IP-адресов source и destination: при вычислении пар source-destination принимаются во внимание только последние октеты адресов. Это означает, что в адресе 10.10.1.10 будет использован для идентификации только 10 – последний октет адреса, в адресе 10.10.3.100 - только 100. Принимать во внимание этот момент следует в случае развертывания системы в сети, состоящей из нескольких подсетей, в этом случае может получиться так, что адреса из разных подсетей (но с одинаковым последним октетом) будут передаваться по одному физическому линку.

IP Aliasing
Понимание принципов алгоритмов Load-Balancing позволяет вам, как администратору, использовать их к собственной выгоде. Все NetApp VIF и физичские интерфейсы имеют возможность назначить им так называемые “алиасы”. Это просто дополнительный адрес для самого VIF. Рекомендуется назначит адреса(для VIF + определенное количество алиасов) равное числу физических линков в EtherChannel между контроллером и коммутатором, к которому подключен контроллер. Таким образом если вы используете VIF, состоящий из  4 штук 1Gbps линков в виде MultiMode VIF между контроллером и коммутатором, то назначьте один адрес для VIF и добавьте к нему три алиаса для того же VIF.

Простое назначение дополнительных адресов не поможет использовать преимущества дополнительных адресов. Вы должны убедиться, что хосты, которые смонтировали данные с контроллеров NetApp используют все эти адреса. Этого можно достичь несколькими разными путями, в зависимости от того, какие протоколы используются для доступа к данным, ниже приведены некоторые примеры для NFS.

Oracle NFS -  хосты с Oracle должны монтировать тома NFS равномерно распределяя их по доступным  IP-адресам контроллера. Если у вас есть 4 различных NFS ресурса, то смонтируйте их используя для доступа четыре различных IP-адреса контроллера. Каждый ресурс будет иметь различную пару из источника и получателя (source and destination pair) и полоса передачи между хостом и контроллером будет использована более эффективно.

VMware NFS – хосты ESX должны монтировать каждый NFS Datastore через различные IP-адреса контроллера NetApp. Такой вариант наилучшим способом использует один интерфейс VMkernel (адрес источника (source)). Если у вас больше датасторов, чем  IP-адресов, то просто распределите датасторы по доступным IP-адресам контроллера NetApp поравномернее.

Обратите внимание: Когда вы назначаете алиас интерфейсу, и у вас установлены и включены партнерские отношения между двумя контроллерами (и, естественно, их физическими интерфейсами) кластера NetApp, то в случае кластерного файловера алиасы также перенесутся на партнерский интерфейс

Ну и, наконец, обещанные шаблоны:

Continue reading ‘Multimode VIF в NetApp (часть 2)’ »

Во что обходится производительность: NetApp и EMC

На днях EMC выкатило на тесты SPECmark (тесты производительности NAS enterprise-уровня), впервые с 2007 года, свой “суперболид” на базе симметрикса и “всех порвала!!!11″.
Впрочем, как выяснилось довольно скоро, не то чтобы совсем порвала, а так, понадрывала по краю ;)
По этому поводу блоггеры NetApp вовсю ехидничают.
Судите сами:
EMC Symmetrix V-MAX, 4x V-engines, 264GB cache total
96 штук 400GB EFD flash drives (это EMC-шные SSD) в двух RAID-1
3 штуки (2 active + 1 passive) Celerra NS-G8 Datamovers в качестве NAS Gateway, 8GB cache в каждой.
24-портовый коммутатор FC, чтобы всю эту кухню пересоединять между собой
Наддув, впрыскивание закиси азота, ксеноновые фары и брызговики Sparco.

И все это счастье сисадмина, стоимостью не менее чем 6 миллионов долларов в ценах американского лиспрайса набирает аж 110621 спекмарковских попугаев по SPECsfs2008 в NFS (и 118463 в CIFS, которые никто почти и не меряет из участников).

Круто типа.
Но при этом еще в прошлом году NetApp публиковал результаты FAS6080, с ценой проекта едва ли вполовину EMC-шной, на обычных дисках (не SSD), и даже без Performance Accelerator, показавшей 120011 спекмарковских попугаев.
А результат в районе 60 тысяч, то есть вполовину EMC-шного “устройства для завоевания превосходства в датацентре” показывает довольно таки средненькая midrange FAS3160, причем при использовании PAM делает она это на всего лишь 96 дисках SATA (!)

Я уж не говорю, что по абсолютной величине их обгоняет, например система производства Huawei Symantec ;)

Материалы по теме:
Все опубликованные результаты SPECsfs2008
Ник Триантос: “Как потратить побольше, а получить поменьше”
Вон Стюарт: “Бенчмаркинг-жульничество*”
* “Жульничество”(Shenanigans) - один из любимых терминов Чака Холлиса, блоггера EMC, обычно в отношении NetApp.
Комменты к обоим вышеприведенным постам не только доставляют, но и служат интересными источниками подробностей, рекомендую.

Warranty и onsite-доставка в NetApp

Часто приходится отвечать на вопрос: “Ну понятно, в Москве, конечно, все хорошо. А что делать остальной “заМКАДной” России? Что, вот прямо “некст бизнес дэй” и по остальной России? Да не поверю никогда!”

Найти пример, чтобы и “не в Москве”, и с вылетевшей запчастью, и со включенным autosupport,  оказалось непросто. Но нашел. Вот смотрите.

Организация в городе Сургут, Тюменской области, эксплуатирует FAS3020 (6 полок дисков, 84 штуки) c октября 2007 года.

22 января 2009 года, четверг, в 08:06 PST (Pacific Standard Time, “среднекалифорнийского”, в кейсовой системе NetApp время записывается “американское”. PST это GMT-8), то есть в 19:06 московского, или 21:06 местного, сургутского, система сообщает о выходе из строя диска. Автоматически заводится кейс.

Через минуту, 08:07 он обработан сотрудником поддержки, и заведен RMA (Return Materials Autorisation), то есть отдана команда на доставку.

В 20:54 того же дня, то есть в 23 января, 7:54 утра пятницы московского или 9:54 пятницы местного делается отметка в кейсе, что кастомер уведомлен, и контакт доставки подтвержден.

23 января 2009, в 03:56 PST или 16:56 местного делается отметка, что диск отправлен.

По UPS tracking number можно отследить подробности доставки:
Delivered on: 26.01 (понедельник), 14:26, местного времени.

Другой обнаруженный случай “немосковской” onsite dielivery. Калуга. Также FAS3020, 2 полки дисков, с июля 2008.

10/15/2009 02:05:22 PST  - отказ диска зарегистрирован в кейсе.
10/15/2009 05:33:10 PST – RMA заведен, получено потверждение об отправке из UPS.
10/17/2009 03:34:17 PST - “customer requests case be closed on NOW: Hi Disk is replaced. Ok to close”

Oracle на NetApp – вся библиотека techlibrary

Уверен, вы уже знакомы с черезвычайно полезны ресурсом на сайте NetApp, сборником справочной литературы, Best Practices, и рекомендаций по многочисленным областям применений систем хранения NetApp. Расположен он вот по этому адресу: http://www.netapp.com/us/library/

А ниже собраны для примера все документы NetApp касающиеся только одного продукта – СУБД Oracle.

Возможно практическим dba такая подборка будет полезна, а остальных впечатлит размерами :)

NetApp Best Practices
http://media.netapp.com/documents/tr-3369.pdf  Best Practices for Oracle (through 10g)
http://media.netapp.com/documents/tr-3633.pdf  Best Practices for 11g
http://media.netapp.com/documents/tr-3761.pdf  Best Practices for SnapManager 3
http://media.netapp.com/documents/tr-3426.pdf  SnapManager with 10g RAC Grid
http://media.netapp.com/documents/tr-3442.pdf  SAP on Unix and Oracle with NFS
http://media.netapp.com/documents/ra-0002.pdf  Test/Dev Reference Architecture with Data Guard
http://media.netapp.com/documents/tr-3803.pdf  Oracle VM Best Practices

Performance
http://media.netapp.com/documents/tr-3700.pdf  Oracle 11g Protocol Performance on Linux
http://media.netapp.com/documents/tr-3495.pdf  Storage Protocol Performance on Linux
http://media.netapp.com/documents/tr-3408.pdf  Storage Protocol Performance on AIX
http://media.netapp.com/documents/tr-3496.pdf  Storage Protocol Performance on Solaris
http://media.netapp.com/documents/tr-3322.pdf  Oracle NFS Performance on Solaris
http://media.netapp.com/documents/tr-3557.pdf  HP-UX NFS Performance on 10g
http://media.netapp.com/documents/tr-3357.pdf  Oracle 9i RAC OLTP performance on iSCSI
http://media.netapp.com/documents/tr-3753.pdf  OLTP Performance with NetApp Performance Acceleration Module
http://media.netapp.com/documents/tr-3622.pdf  11g Single Instance Sequential Workload Performance with DNFS and iSCSI on Windows
http://media.netapp.com/documents/tr-3628.pdf  Sequential Workload Performance with iSCSI and NFS

Data Protection
http://media.netapp.com/documents/tr-3520.pdf  SAP Data Protection for Unix on Fibre Channel
http://media.netapp.com/documents/tr-3211.pdf  Data Protection for 9i on Windows
http://media.netapp.com/documents/tr-3368.pdf  Data Protection for 10g on Asianux
http://media.netapp.com/documents/tr-3377.pdf  Oracle with NetApp Open Systems SnapVault (OSSV)

Applications
http://media.netapp.com/documents/tr-3444.pdf  SAP on Microsoft Windows with NetApp
http://media.netapp.com/documents/tr-3533.pdf  SAP on Unix with Fibre Channel
http://media.netapp.com/documents/tr-3391.pdf  Oracle E-Business Suite on NetApp
http://media.netapp.com/documents/tr-3797.pdf  SAP TDMS (Test Data Migration Server) on NetApp
http://media.netapp.com/documents/tr-3300.pdf  Cloning Oracle E-Business Suite with SnapMirror
http://media.netapp.com/documents/tr-3366.pdf  SAP Data Protection on Oracle on Windows
http://media.netapp.com/documents/tr-3365.pdf  SAP Data Protection on Unix and NFS
http://media.netapp.com/documents/tr-3672.pdf  Fusion Middleware Disaster Recovery

Real Applicaiton Clusters
http://media.netapp.com/documents/tr-3572.pdf  Oracle 10gR2 NFS Setup
http://media.netapp.com/documents/tr-3572.pdf  Oracle 10g RAC with ASM on NFS
http://media.netapp.com/documents/tr-3349.pdf  Oracle 10g RAC with ASM on iSCSI
http://media.netapp.com/documents/tr-3189.pdf  Oracle 9i RAC on Red Hat 3
http://media.netapp.com/documents/tr-3413.pdf  Oracle 10g RAC on SUSE
http://media.netapp.com/documents/tr-3536.pdf  Oracle 10g RAC on SUSE9
http://media.netapp.com/documents/tr-3555.pdf  Oracle 10g RAC Cluster Synchronization Services with NetApp
http://media.netapp.com/documents/tr-3527.pdf  Oracle 10g with Power Linux (RHEL AS4 U3)
http://media.netapp.com/documents/tr-3542.pdf  Oracle 10g RAC on AIX
http://media.netapp.com/documents/tr-3479.pdf  Oracle 10g RAC on AIX
http://media.netapp.com/documents/tr-3330.pdf  Oracle 10g RAC with RHEL 3
http://media.netapp.com/documents/tr-3389.pdf  Oracle RAC for HP Service Guard/HP LVM over Fibre Channel
http://media.netapp.com/documents/tr-3399.pdf  Oracle RAC on IBM HACMP SAN

DNFS
http://media.netapp.com/documents/tr-3614.pdf  HA for Oracle with DNFS on NetApp MetroCluster

Disaster Recovery
http://media.netapp.com/documents/tr-3455.pdf  Disaster Recovery for Oracle on NetApp
http://media.netapp.com/documents/tr-3639.pdf  Disaster Recovery with Sun Cluster and NetApp MetroCluster

Misc
http://media.netapp.com/documents/tr-3646.pdf  Oracle 11g with VMWare
http://media.netapp.com/documents/tr-3803.pdf  Upgrading to 11g leveraging SnapMirror, FlexClone, and Real Applicaiton Testing
http://media.netapp.com/documents/tr-3762.pdf  Oracle Data Masking with SnapManager for Oracle
http://media.netapp.com/documents/tr-3792.pdf  Database Migration to Large ONTAP 8.0 Aggregates
http://media.netapp.com/documents/tr-3414.pdf  Ensuring Oracle Data Integrity with NetApp SnapValidator
http://media.netapp.com/documents/tr-3469.pdf  Enterprise Manager plug-in for NetApp
http://media.netapp.com/documents/tr-3781.pdf  NetApp with Oracle ILM Assistant
http://media.netapp.com/documents/tr-3791.pdf  Leveraging Transportable Tablespaces with Flexclones
http://media.netapp.com/documents/tr-3575.pdf  Oracle 10g with Decru DataFort on RHEL 4 on FCP

NDMP – что это, и как использовать?

NDMP – Network Data Management Protocol – это разработанный еще в 90-х годах компаниями NetApp и Legato(ныне EMC Software Group) сетевой IP-протокол, и концепция архитектуры резервного копирования для NAS-устройств. Основной идеей, создавшей концепцию NDMP, являлось желание дать NAS-системам хранения, представляющим из себя обычно довольно мощный сервер сам по себе, возможность самостоятельно, своими силами осуществлять резервное копирование своего содержимого.

(Дальше много текста с картинками)

Continue reading ‘NDMP – что это, и как использовать?’ »

Утилита сбора диагностических данных nSANity

Любопытую утилитку предлагает NetApp, на сайте NOW, в разделе инструментов (нужен логин в NOW!).

nSANity Diagnostic and Configuration Data Collector 1.1.14

Это сборщик диагностической и конфигурационной информации. Причем не только для NetApp.

# Data ONTAP Storage Controllers
# Windows 2003 and 2008 hosts
# VMware ESX hosts (excluding i variants)
# Linux hosts with kernel 2.6
# Solaris hosts
# AIX hosts
# HP-UX 11i hosts
# Brocade switches
# McData switches (EOS, EOSn)
# Cisco switches (IOS, NXOS and SANOS)
# QLogic switches

Работает по следующим протоколам:

# HTTP/HTTPS is used for communicating with Data ONTAP
# SSH is used for communicating with Cisco, Brocade, VMware ESX, Linux, Solaris, AIX and HP-UX.
# WMI is used for communicating with Windows hosts
# A telnet fallback is available for McData switches when SSH is not enabled

Запускается так:

c:\> nsanity ontap://root:*@storage1

при этом спросит пароль рута (звездочку можно заменить на собственно пароль, что, понятно, не рекомендуется)

Собранный пак инфы в gzip можно развалить на отдельные файлы так:

c:\> nsanity –x zipfilename.gz

Есть версия под Linux и Windows.

Производительность iSCSI на 10G Ethernet

В блогах MSDN найден любопытный документ тестирования iSCSI на 10G Ethernet, с использованием MS Windows Server 2008, Hyper-V, и системы хранения NetApp FAS3070.
Даже несмотря на то, что использовался довольно старенький сторадж (3070 это топовая модель предыдущей midrange-линейки, в настоящий момент уже не выпускаемая, вся серия 3000 уже целиком заменена на 3100), и чисто “софтверный” iSCSI, результаты могут показаться любопытными тем, кто еще раздумывает “А насколько быстр на самом деле этот непонятный iSCSI?”

http://download.microsoft.com/download/F/B/3/FB38CA2C-6694-4D25-8452-4A28668A87F2/MSFT-NetApp-10G.docx

Следует отметить, что карты 10G Ethernet, например рассматриваемая в этом тестировании двупортовая Intel 10 Gigabit AF DA dual port Server Adapter по ценам Price.ru стоит ~770$, а вообще 10G адаптеры начинаются уже от 500$.

Консольный кабель и переустановка системы

Иногда пользователям попадается система хранения с “богатым прошлым”, “доставшаяся в наследство”, или иной странный некомплект. Часто встает вопрос, как привести такую систему в исходное состояние, избавившись от “тяжелого наследства” установленной конфигурации прежних владельцев.

Для начала, вам следует найти консольный кабель. Он идет в комплекте поставки но, в случае, когда концы системы утеряны, бывает с ними же уходит и кабель.

В качестве консольного кабеля прекрасно подойдет аналогичный консольный кабель RJ-45-to-DB-9 от оборудования Cisco. Его распиновка такова:

Pinouts RJ45
Pin# Signal
1    connected to pin 8
2    Not connected
3    TXD (from appliance)
4    GND
5    GND
6    RXD (to appliance)
7    Not connected
8    connected to pin 1 

Для справки также привожу распиновку стандартного RS-232 serial DB-9

Pinouts DB9
Pin# Signal Data Flow Description
1    DCD    input     data carrier detected
2    SIN    input     serial input
3   SOUT    output    serial output
4    DTR    output    data terminal ready
5    GND    N/A       signal ground
6    DSR    input     data set ready
7    RTS    output    request to send
8    CTS    input     clear to send
9     RI    input     ring indicator 

Для сброса системы в “состояние с завода” следует выполнить в консоли загруженной системы, войдя от имени root, следующие команды:

>priv set advanced

>halt -c factory

После перезагрузки все ранее сделанные изменения конфигурации в /etc сотрутся, и будет запущен стартовый скрипт setup, обеспечивающий начальную установку впервые включенной системы.

Если необходимо сменить неизвестный или утерянный пароль root, следует, с подключенным к serial port кабелем и консолью, включить контроллер, и, при загрузке, на предложенную подсказку, нажать Ctrl-C и выбрать (3) Change password.

Обратите внимание, что сбросить пароль root возможно только с консольным подключением в контроллер.

Как проверить и восстановить целостность WAFL?

Возможно вы уже знакомы с так называемым special boot menu, которое появляется, если при загрузке с сериальной консоли нажать Ctrl-C. Любопытно, что кроме 6 предлагаемых вариантов, в этом меню есть и скрытые варианты. Например, если туда, вместо предлагаемых номеров, ввести WAFL_check [aggrname], где [aggrname] это имя соответствующего аггрегейта, то начнется подробная проверка консистентнсти WAFL на нем. Это может помочь если, по какой-то причине, состояние дисков и WAFL на них настолько нарушено, что система хранения не загружается, или не в состоянии разрулить проблему обычными средствами.

По сути это аналог fsck в single mode для привычных unix-type filesystem.

Пример:

Special boot options menu will be available.
NetApp Release 7.0.4P1: Mon Feb 27 14:36:15 PST 2006
Copyright (c) 1992-2006 Network Appliance, Inc.
Starting boot on Sat Mar 24 15:36:18 GMT 2007
(1) Normal boot.
(2) Boot without /etc/rc.
(3) Change password.
(4) Initialize all disks.
(4a) Same as option 4, but create a flexible root volume.
(5) Maintenance mode boot.
Selection (1-5)? WAFL_check aggr01
Sat Mar 24 15:38:15 GMT [wafl.vol.inconsistent:ALERT]: Aggregate aggr01 is inconsistent. Please contact NetApp Customer Support.
Sat Mar 24 15:38:15 GMT [raid.vol.replay.nvram:info]: Performing raid replay on volume(s)
Sat Mar 24 15:38:15 GMT [raid.cksum.replay.summary:info]: Replayed 0 checksum blocks.
Sat Mar 24 15:38:15 GMT [raid.stripe.replay.summary:info]: Replayed 0 stripes.
Checking aggr01…
WAFL_check NetApp Release 7.0.4P1
Starting at Sat Mar 24 15:38:17 GMT 2007
Phase 1: Verify fsinfo blocks.
Phase 2: Verify metadata indirect blocks.
Phase 3: Scan inode file.
Phase 3a: Scan inode file special files.
Phase 3a time in seconds: 9
Phase 3b: Scan inode file normal files.
(inodes 5%)
(inodes 10%)

(inodes 92%)
(inodes 97%)
(inodes 99%)

Следует также отметить, что не зря эта команда запрятана так далеко и неочевидно. WAFL зарекомендовала себя чрезвычайно стабильной и надежной файловой системой, и нужда в таком своеобразном fsck возникает, на самом деле, очень редко.

Интересные клиенты NetApp - WETA Digital.

Время от времени удается найти каких-нибудь интересных и показательных клиентов NetApp помимо тех, кто есть в директории Success Stories.
Очередная находка - новозеландская компания WETA Digital, одна из крупнейших в мире студий цифрового 3D рендеринга, моделлинга и анимации, cозданная для фильма Lord of the Rings, и делавшая King Kong, District 9, Avatar, и некоторые другие заметные и значительные фильмы “цифровой эпохи”.

Я обратил внимание на мелькнувшие стойки F800 еще когда несколько лет назад смотрел документальные фильмы серии “Making of Lord of the Rings”.
Данные подробнее нашлись в интернете:

“Каждый кадр фильма занимает 12,5MB, 24 кадра в каждой секунде фильма. Для трехчасового фильма это соответствует 3 240 000 MB объема хранилища. WETA ипользовала два сканера Imagica … и сосканировала 1.5 миллиона кадров (около 18 TB) как исходные кадры картинки до того, как наложить на них спецэффекты. Файлеры NetApp хранили предварительные данные для работы художников WETA Digital. 300 художников использовали системы хранения для добавления цифровых изображений к “живой съемке”, накладывая пейзажи, персонажей и другие эффекты, например движение.

Каждый “шот” (сцена) занимал от двух до восьми недель работы,и все они оставались “в онлайне”, пока над ними шла работа. WETA Digital использовала от 1400 до 1600 процессоров своей фермы рендеринга и обработки (Intel Xeon 2.2 GHz) работавшие день и ночь все дни в неделю. Это заняло около 40000 рабочих часов в день или 4 миллиона рабочих часов на только один фильм из трех, “Two Towers”, интенсивно нагрузив системы NetApp гигантским объемом работы. Scott Houston (Weta CTO) отметил, что им требовалась не только гигантская емкость хранения, но и большая вычислительная мощность.
Первичным хранилищем были файлеры NetApp - три F840s и пять F880s, с одним R100 (система Nearstore с дисками SATA, когда такие системы еще производились NetApp как отдельные устройства) использовавшимся как буферное хранилище первоначальных сканов. Общее решение также включало в себя систему SGI Origin 2000 с 3 TB хранения и ленточные библиотеки, емкостью около 240 TB; 120 TB занимали полные копии для избыточности. Только 20 TB данных были доступны художникам одномоментно. В настоящий момент (статья датирована 2003 годом) WETA Digital хранит 40 миллионов файлов, содержащих фильм-1 (Fellowship of the Ring) и фильм-2 (Two Towers)…”

Начав в 2001 году использование “фермы” всего в одном 19-дюймовом шкафе серверов с 32 процессорами рендеринга, к третьему фильму она нарастила ее в сто раз, до 3200 процессоров.
В период работы над King Kong WETA занимала 4 места в Top500 of Supercomputers, с системами:

Rank System Procs Rmax Rpeak Vendor
Rank - 109 IBM BladeCenter HS20 Cluster, Xeon EM64T 3.6 GHz - Gig-Ethernet - 1000 processors
Rank - 323 IBM BladeCenter HS20 Cluster, Xeon EM64T 3.6 GHz - Gig-Ethernet - 512 processors
Rank - 335 IBM BladeCenter Cluster Xeon 2.8 GHz, Gig-Ethernet - 1176 processors
Rank - 338 IBM< BladeCenter Cluster Xeon 2.8 GHz, Gig-Ethernet - 1080 processors

Над этим фильмом трудились 3768 процессоров.
Один только третий фильм LOTR Trilogy - Return of the King занял 60TB оперативного хранилища, 72TB на nearline-системах, и полпетабайта на архивных лентах (StorageTek L700e).

В ходе разработки архитектуры системы хранения компании встал вопрос выбора между Ethernet и Fibre Channel. Этот выбор, в свою очередь, определял и выбор соответствующего хранилища; файлового по Ethernet или блочного через SAN fabric.

CTO компании, Jon Labrie говорит:
“Мы рассматривали Fibre Channel, но пришли к выводу отказаться от него. Во-первых, цена была для нас невозможной, во-вторых, выбор FC не позволил бы нам проделать переход на новую систему плавно.” По этой причине WETA выбрала Gigabit Ethernet.

“Решение выбрать Gigabit Ethernet оказалось весьма важным,” говорит Labrie. “Если бы я выбрал что-то более “эзотерическое”, такое как Fibre Channel, мой выбор между поставшиками, при последующей необходимости расшириться, был бы гораздо более узким… И у меня не было бы возможности использовать преимущества конкуренции между вендорами, например, коммутаторов.”

К концу работы над Return of the King, фильмом, превышавшим по объему “цифровой работы” первые два фильма вместе взятых, WETA начала переход на 10G Ethernet.

Известно, что WETA пыталась перейти на Bluearc Titan 2000, в период работы над King Kong.

Однако, после экспериментов, к началу работы над Avatar она вернулась на NetApp.
На сегодня она располагает фермой рендеринга в 30 тысяч процессоров в blade-серверах, и системами серий FAS6000, каждая из них снабжена 5 платами PAM, суммарной емкостью 160GB DRAM в каждом контроллере. Используется доступ по сети 10G Ethernet.

Приложение: фотография части рендерфермы WETA.

25/0.626