Услуга хранилища данных сверхбольшого объема с высокой скоростью загрузки, выгрузки и поиска включает в себя:
Формализацию требований к хранилищу путем интервью заказчика и анализа существующей инфраструктуры.
В соответствии с приоритетами заказчика (стоимость, производительность, надежность, размеры, энергопотребление, простота эксплуатации и т.д.) разработку архитектуры хранилища:
подбор оптимальных методов обеспечения работоспособности хранилища в случае выхода из строя аппаратного обеспечения, в том числе разработка катастрофоустойчивых решений;
подбор оптимальных методов обеспечения сохранности данных (резервирования);
подбор, закупка и пуско-наладка аппаратного обеспечения;
подбор, развертывание и конфигурирование общего программного обеспечения (ОС, СУБД и т.д.).
Разработку, развертывание и конфигурирование специального программного обеспечения (подсистема приема данных, подсистема индексирования и поиска, подсистема экспорта данных, подсистема администрирования). При необходимости, в рамках этих работ разрабатываются специализированные индексаторы, слиятели/сортировщики, балансировщики нагрузки и прочие базовые сервисы.
Разработку внешних программных интерфейсов для взаимодействующих с хранилищем информационных систем.
Разработку подсистемы администрирования хранилища, включая автоматизированные инструменты мониторинга, диагностики, развертывания, масштабирования и т.д.
Разработку технологических регламентов поддержания хранилища в работоспособном состоянии.
Пример решения
Линейно масштабируемый комплекс приема, хранения и поиска слабоструктурированных данных объемом несколько десятков петабайт
1 TbRAM, 2100 Тб HDD и 10TBSSD для совмещенного хранения данных и индексов.
Windows 2008, VmWare5, Ubuntu 14.10, объектное хранилище Ceph, MySQL
СПО на python.
Характеристики узла:
N-кратное резервирование хранимых данных. До 65% оборудования может быть потеряно без потери данных или функционала. Работа на любом оборудовании, без привязки к поставщику.
Линейное масштабирование хранения и индексации, автоматическое развертывание на новом оборудовании.
Импорт свыше 10000 файлов в секунду общим объемом 2Гб. Экспорт файлов не менее 10Гб в секунду.
Полный поиск с составлением списка файлов по десяткамполей среди нескольких миллиардов файлов не превышает 8 минут. Выдача списка найденных файлов начинается через 0,1 сек. после начала поиска.