Услуга по разработке высоконагруженных информационно-поисковых систем, предназначенные для обработки и поиска слабоструктурированной информации включает в себя:
Формализацию требований к системе путем интервью заказчика и анализа накопленных у него массивов данных.
В соответствии с приоритетами заказчика (стоимость, производительность, надежность, простота эксплуатации и т.д.) разработку архитектуры системы:
подбор оптимальных методов хранения, обработки, индексирования, поиска и предоставления пользователям данных;
подбор методов обеспечения бесперебойной работы и резервирования данных;
подбор, закупка и пуско-наладка аппаратного обеспечения;
подбор, развертывание и конфигурирование общего программного обеспечения (ОС, СУБД, полнотекстовые индексаторы, средства лингвистического анализа и т.д.).
Согласование с заказчиком политики разграничения доступа к данным. При необходимости, проведение работ по сертификации решения на обработку конфиденциальной и секретной информации.
Разработку, развертывание и конфигурирование специального программного обеспечения (подсистема приема и конвертации данных, подсистема автоматической обработки, подсистема предоставление данных пользователям и клиентские интерфейсы, подсистема администрирования).
Разработку внешних программных интерфейсов для взаимодействия со смежными информационными системами.
При необходимости, разработку или закупку средств лингвистического анализа текстовых данных.
Конфигурирование средств администрирования системы, включая мониторинг, автоматическое развертывание, масштабирование и т.д.
Собственные технологии:
разбора структуры поступающих в систему данных (парсинг);
определения форматов электронных документов и выделения из них текстовой составляющей;
определения языка текстовой составляющей;
лемматизации (морфологического анализа) для ряда языков;
рубрицирования, в том числе с автоматическим обучением по корпусу текстов;
кластеризации;
полнотекстового индексирования, в том числе с использованием результатов семантического анализа
Пример решения
Кластер для обработки и маршрутизации больших потоков электронных документов с разграничением доступа на уровне документа
Технологии:
Узел кластера — 13 cерверов Intel.
6TbRAM, 100 Тб SASHDD для хранения данных и 24 Тб SSDHDD для хранения индексов.
ОС Linux + виртуализация на основе KVM.
объектное хранилище Ceph, РСУБД MySQL и полнотекстовый поиск Sphinx
Все программное обеспечение доступно на с++, включая пользовательский интерфейс.
Характеристики:
полностью обеспечивается резервирование всех узлов и данных;
кластер хранит более 30 Тб электронных документов, для доступа к которым обслуживает одновременно десятки реляционных баз данных и сотни полнотекстовых индексов;
скорость поиска по полнотекстовым и атрибутивным критериям по всему массиву электронных документов не превышает нескольких секунд;
загрузка и полноценная обработка не менее 300 Гб или 3 млн. файлов в сутки;