FTS – веб приложение поиска по оцифрованным книгам и диссертациям. Позволяет искать не только по библиографическим данным, но и по всему тексту документа. Приложение обрабатывает документы с большим объемом текста, в частности отсканированные и распознанные, а также старые, с низким качеством сканирования.
В проекте использовался mercurial, redmine, jmeter. Подробней - на странице как мы работаем.
Специфика входных данных (распознанные документы) усложнила как индексацию, так и формирование результатов. Нашей командой был разработан алгоритм предварительной очистки текстов, который удаляет символы, являющиеся "мусором". Поскольку очистка строилась на множестве правил, то для контроля каждого из них мы с представителями заказчика сформировали набор тестовых запросов. Это позволило нам удалять лишнее, но не трогать основной текст документа, даже если слово распознано с ошибкой.
В ходе реализации проекта было найдено несколько ошибок в используемых opensource решениях. Для части из них мы реализовали патчи, исправляющие ошибки в нашем окружении.