Стопслова -- наиболее часто используемые слова, т.е слова, встречающиеся почти в каждом документе коллекции. Стопслова удаляются перед созданием индекса, что посзволяет сократить размер индекса без сколько-нибудь значимой потери в качестве поиска.
Загружает стоп-слова из указаного файла. Вы можете задать как абсолютный, так и относительный путь. Относительный путь задаётся от директории etc. Можно использовать несколько команд StopwordFile.
StopwordFile stopwords/en.sl
Вы должны использовать один и тот же надор команд StopwordFile в indexer.conf и search.htm (searchd.conf если используется searchd).
Вы можете создавать свои файлы стоп-слов. В качестве примера, вы можете использовать файл английских стоп-слов etc/stopwords/en.sl. В начале листа поместите следующие две команды:
Language: en Charset: us-ascii
Language
- стандартный (ISO 639) двух-буквенный код языка.
Charset
- любая кодировка, поддерживаемая DataparkSearch (см. Разд. 7.1>).
Затем следует список слов, по одному на строку. Каждое слово записывается в кодировке, указанной выше командой Charset:.
Вы можете использовать дополнительную команду Match: для задания шаблона, любое слово подпадающее под который будет считаться стоп-словом. Например:
Match: regex ^\$##
По этой команде любое слово, начинающееся с $## будет рассматриваться как стоп-слово.
Опции команды Match: аналогичны опциям команды Allow (см. Разд. 3.10.14>). Аргументы записываются в кодировке, указанной командой Charset:. Регулярные выражения в данный момент ограничены (например, не поддерживаются интервалы).
При помощи команды "FillDictionary yes" в indexer.conf вы можете включить сохранение всех индексируемых слов в таблице "dict" для способа хранения cache. Это может пригодиться для отслеживания, какие слова могут быть стопсловами для вашей инсталляции.
Если в indexer.conf и в search.htm указана команада "StopwordsLoose yes", только стопслова того же языка, что и индексируемый документ или языка поискового запроса считаются таковыми, т.е. стопслова для других языков обрабатываются как обычные слова для текущего индексируемого документа или исполняемого поискового запроса.
Пред. | Начало | След. |
Поддержка Content-Encoding | Уровень выше | Клоны документов |