Является общецелевой системой поиска слов в документах различного формата с использованием элементов эвристического поиска. От большинства существующих реализаций поисковых систем, ее отличает следующие свойства:
В текущей реализации система «TpSearch» ориентирована на работу с сообщениями электронной почты. Однако система может использоваться в качестве поисковой машины для Веб-сайтов, порталов предприятий, архивов электронных документов.
1. Краткое описание
Система «TpSearch» может успешно функционировать для информационных массивов объемом до 1 миллиарда слов. В системе «TpSearch» используется модульная архитектура, которая позволяет легко и гибко адаптироваться для конкретных задач. Например, можно использовать различные модули для получения и разбора документов. Интегрированная архитектура большинства поисковых систем с крайне сложными прикладными интерфейсами не позволяет пользователю самостоятельно создавать и применять различные схемы для своих задач поиска. Система «TpSearch» не имеет подобных ограничений.
Система «TpSearch» использует следующие модули в своей работе:
• поиск и сбор документов (feed engine);
• разбор документов (parse engine);
• индексация и поиск слов (word index-search engine);
• пользовательский интерфейс (user interface engine);
Каждый из модулей может быть заменен, дополнен или доработан, если пользователю не хватает стандартных свойств системы поиска.
2. Режимы поиска
Режим простого поиска (simple search mode)
Поиск по отдельным словам. Поддерживает регулярные выражения. Разрешается использовать несколько слов для поиска, разделенными пробелом — совпадает с логическим поиском с использованием логической конкатенации (OR).
Режим сложного логического поиска (advanced search mode)
Поиск по отдельным словам. Поддерживает регулярные выражения. Используется булева логика в виде AND, OR и NOT.
Нечеткий поиск (fuzzy search) — по суффиксу, не более 3-х изменений, длина слова не менее 5 знаков
Медленнее обычного поиска в 10-20 раз.
Опции для поиска
regular expressions — регулярные выражения
simple search — отключен разбор логического выражения
standard forms — загрузка выражений для поиска из файла-сценария
fuzzy search — нечеткий поиск
3. Требования к оборудованию
Поисковая система «TpSearch» имеет следующие требования к составу
аппаратных средств:
Процессор: Pentium 4 с тактовой частотой 3 ГГц
Оперативная память: 1 Гигабайт
Жесткий диск: 60 Гигабайт
При увеличении объема данных рекомендуется использовать более мощное оборудование.
4. Требования к операционной системе
Поисковая система «TpSearch» поддерживает на сегодняшний день следующие операционные системы:
• ОС FreeBSD 5.4
• ОС FreeBSD 5.5
• ОС FreeBSD 6.2
• ОС FreeBSD 7.1 (i386/amd64)
• ОС FreeBSD 8.2 (i386/amd64)