Рассчитать
Позвонить
Написать менеджеру

Высоконагруженные информационно-поисковые системы

Задать вопрос

Услуга по разработке высоконагруженных информационно-поисковых систем, предназначенные для обработки и поиска слабоструктурированной информации включает в себя:

  • Формализацию требований к системе путем интервью заказчика и анализа накопленных у него массивов данных.
  • В соответствии с приоритетами заказчика (стоимость, производительность, надежность, простота эксплуатации и т.д.) разработку архитектуры системы:

    • подбор оптимальных методов хранения, обработки, индексирования, поиска и предоставления пользователям данных;
    • подбор методов обеспечения бесперебойной работы и резервирования данных;
    • подбор, закупка и пуско-наладка аппаратного обеспечения;
    • подбор, развертывание и конфигурирование общего программного обеспечения (ОС, СУБД, полнотекстовые индексаторы, средства лингвистического анализа и т.д.).
  • Согласование с заказчиком политики разграничения доступа к данным. При необходимости, проведение работ по сертификации решения на обработку конфиденциальной и секретной информации.
  • Разработку, развертывание и конфигурирование специального программного обеспечения (подсистема приема и конвертации данных, подсистема автоматической обработки, подсистема предоставление данных пользователям и клиентские интерфейсы, подсистема администрирования).
  • Разработку внешних программных интерфейсов для взаимодействия со смежными информационными системами.
  • При необходимости, разработку или закупку средств лингвистического анализа текстовых данных.
  • Конфигурирование средств администрирования системы, включая мониторинг, автоматическое развертывание, масштабирование и т.д.

Собственные технологии:

  1. разбора структуры поступающих в систему данных (парсинг);
  2. определения форматов электронных документов и выделения из них текстовой составляющей;
  3. определения языка текстовой составляющей;
  4. лемматизации (морфологического анализа) для ряда языков;
  5. рубрицирования, в том числе с автоматическим обучением по корпусу текстов;
  6. кластеризации;
  7. полнотекстового индексирования, в том числе с использованием результатов семантического анализа

Пример решения

Кластер для обработки и маршрутизации больших потоков электронных документов с разграничением доступа на уровне документа

Технологии:

  • Узел кластера — 13 cерверов Intel.
  • 6TbRAM, 100 Тб SASHDD для хранения данных и 24 Тб SSDHDD для хранения индексов.
  • ОС Linux + виртуализация на основе KVM.
  • объектное хранилище Ceph, РСУБД MySQL и полнотекстовый поиск Sphinx
  • Все программное обеспечение доступно на с++, включая пользовательский интерфейс.

Характеристики:

  • полностью обеспечивается резервирование всех узлов и данных;
  • кластер хранит более 30 Тб электронных документов, для доступа к которым обслуживает одновременно десятки реляционных баз данных и сотни полнотекстовых индексов;
  • скорость поиска по полнотекстовым и атрибутивным критериям по всему массиву электронных документов не превышает нескольких секунд;
  • загрузка и полноценная обработка не менее 300 Гб или 3 млн. файлов в сутки;
  • реализован расширяемый конвейер обработчиков, включающий модули:

    • определения форматов и извлечения текстовой составляющей;
    • выявления дубликатов;
    • определения языка документов и лемматизации;
    • рубрицирования документов и выделения ключевых слов;
    • выделения информационных объектов из текстов документов.
Калькулятор стоимости проекта
Яндекс.Метрика