Версии DataparkSearch 2003-2004


Последние версии.
17 Дек 2004: 4.27, 3,475,219 байт, 20.11.2012, 00:45 MSK
Исправлены проблемы компиляции с последней версией ChaSen.
Значения для лимита способа хранения cache по языку содержимого теперь вычисляется только по первым 2 байтам кода языка.
Значения для StoredFiles, URLDataFiles и WrdFiles теперь могут быть изменены. Просто укажите старые значения командами OldStoredFiles, OldURLDataFiles и OldWrdFiles и запустите "indexer -T" на PC, где расположена база дынных cached или stored. После конвертации, команды OldStoredFiles, OldURLDataFiles и OldWrdFiles необходимо удалить.
Добавлена поддержка тэгов MP3 ID3v2.0 и ID3v2.4. Улучшена поддержка тэгов MP3 ID3v2.3.
Единицы указания паузы между документами при индексировании (ключ -p для indexer) изменены с секунд на миллисекунды.
Для совестимости ASPSeek, тэги <!--noindex> и <!--/noindex--> могут использоваться для исключения части документа из индекса.
Добавлена поддержка кодировок UTF-16LE и UTF-16BE. Изменён формат карт языков. Вам необходимо заменить карты из дистрибутива или пересоздать свои карты при помощи новой версии dpguesser.
Время построения цитат теперь добавляется к выводимому времени поиска.
Исправлено периодическое случайное зависание на запросах, по которым ничего не найдено.
Исправлено возможное нарушение целостности памяти при построении цитат.
Indexer теперь посылает заголовок запроса Accept в соответствии с MIME-парсерами, указанными в конфигурации.
Исправлено возможное нарушение целостности памяти в mod_dpsearch.
Улучшено определение версии Apache.
Добавлена поддержка квази-ispell данных для японского языка. Вам необходимо скачать квази-ispell данные dpsearch-spell-ja.tgz с нашего сайта или с одного из наших зеркал.
Сделаны некоторые улучшения скорости работы.
Исправлены некоторые баги.
05 Ноя 2004: 4.26, 3,467,281 байт, 20.11.2012, 00:45 MSK
Канонические имена кодировок приведены к рекомендуемым IANA именам.
Добавлена команда HrefSection. Используйте её для извлечения ссылок из любой части тела документа.
Исправлена перекодировка SGML ссылок на символы в URL.
Добавлены списки стопслов для арабского, еврейского, исладского, японского, латвийского, румынского и тайского языков.
Добавлена команда MaxDocsPerServer. Служит для ограничения числа индексируемых страниц с одного Server за один запуск indexer.
Добавлены команды TagIf и CategoryIf, предназначеные для присвоения документа тэга или категории, если указаная секция подходит под заданый шаблон.
Добавлены команды IndexIf и NoIndexIf, предназнвченные для разрешения или запрещения индексирования документа, если указаная секция подходит под заданый шаблон.
Значение секции теперь можно извлекать из тела докумета используя шаблоны регулярных выражений.
Добавлена команда Bind для задания локального IP адреса.
Исправлены некоторые баги.
13 Окт 2004: 4.25, 3,446,204 байт, 20.11.2012, 00:45 MSK
Исправлена перекодировка из Unicode в EUC-JP, Big5, EUC-KR, GB2312, GBK, Gujarati, SJIS.
Из-за конфликта с ругими программами, утилиты mconv и mguesser переименованы в dpconv и dpguesser соответсвенно.
Добавлена поддержка кодировок cp866u и koi-7.
Добавлена возможность сортировки результатов поиска по сумме релевантности и рейтинга популярности. Используйте символы 'A' и 'a' в шаблоне сортировки для упорядочивания по убыванию и возрастанию соответственно.
Исправлена обработка SGML примитивов сиволов.
Добавлен ключ -l для run-splitter. Используйте его для очистки буферов cached.
Добавлена команда HoldCache. Используйте её для задания периода хранения файлов кэша поисковых запросов.
Исправлены некоторые баги.
14 Сен 2004: 4.24, 3,412,581 байт, 20.11.2012, 00:45 MSK
Добавлена команда PreloadLimit. Используйте её для предварительной загрузки наиболее часто использумых лимитов cache mode.
Для соединений PostgreSQL теперь можно указывать Unix сокет в качестве параметра команды DBAddr.
Для mod_dpsearch добавлен обработчик dpstoredoc с функциональностью storedoc.cgi.
Расширен список стоп-слов испанского языка.
Добавлена поддержка кодовых страниц IBM cp037, cp1026, cp500, cp875, cp1133 и Iranian ISIRI3342.
Индексы слов для способа хранения cache теперь сжимаются, если включена поддержка zlib. При апгрейде с предыдущей версии выполните следующее:
  1. Остановите всех демонов DataparkSearch.
  2. Сделайте резервную копию все ваших данных. Если процесс конвертации оборвётся, вам потребуется восстановить данные, чтобы выполнить весь процесс целиком с начала.
  3. Скомпилируйте и установите новую версию..
  4. На компьютере, где располагаются файлы cache mode, уберите параметры cached и stored из команды DBAddr в файле indexer.conf.
  5. На компьютере, где располагаются файлы cache mode, запустите "indexer -O" (не запуская stored и cached).
  6. Восстановите параметры команды DBAddr в файле indexer.conf.
Поддержка zlib теперь включается по умолчанию.
Пересмотрен быстрый расчёт релевантности.
Расширен список синонимов английского языка.
Исправлены некоторые баги.
14 Авг 2004: 4.23, 3,395,624 байт, 20.11.2012, 00:45 MSK
Добавлена команда TrackHops. Используйте её для включения пересчёта значения hops ("мышиных кликов") при переиндексировании.
Некоторые изменения для увеличения скорости поиска.
Добавлен лист синонимов итальянского языка.
Добавлен быстрый расчёт релевантности и он включается по умолчанию. Используйте ключ --enable-fullrel для confugure для включения полного (старого) метода расчёта релевантности.
Структура таблицы LINKS изменена: добавлено поле valid.
Добавлена команда SkipUnreferred. Используете её для пропуска переиндексирования документов, на которые нет ссылок.
Добавлен ключ -b для splitter и run-splitter. Используйте его для проверки/оптимизации базы cached перед обновлением.
Исправлены некоторые баги.
20 Июл 2004: 4.22, 3,223,923 байт, 20.11.2012, 00:45 MSK
Добавлена команда PeriodByHops. Используйте её для указания периода переиндексации на основе значения числа "кликов".
Добавлена отложенная регистрация поисковых запросов. Для этого необходима поддержка V message queue.
Вызов SSLv2_client_method() заменён на SSLv23_client_method() для лучшей совместимости.
splitter теперь может получать имя файла конфигурации в качестве параметра командной строки.
Исправлена обработка ключа -w у stored.
Добавлена поддержка кодировок Windows cp950 и Big5-hkscs.
Добавлена команда IndexDocSizeLimit. Используется для ограничения размера данных, записываемых в индекс для одного документа.
Добавлена команда PopRankNeoIterations. Служит для указания числа итерация для расчёта индекса популярности методом Neo.
Исправлены некоторые баги (#148, #149).
15 Июн 2004: 4.21, 3,145,821 байт, 20.11.2012, 00:45 MSK
Изменено положение директории с документацией в соответсвие с деревом FreeBSD.
Расширено множество SGML-ссылок на символы.
Добавлены команды CacheLogWords и CacheLogDels для задания размера общей памяти, используемой для буферов режима хранения cache.
Исправлено построение цитат найденых докуиментов.
Добавлен новый ключ -H для indexer, позволяющий полсать cached сигнал сбросить все буфера из памяти на диск.
Исправлено несколько утечек памяти.
Исправлены некоторые баги (#102, #106, #107, #108, #109, #110, #147).
19 Мая 2004: 4.20, 3,128,339 байт, 20.11.2012, 00:45 MSK
Добавлена поддержка Internationalized Domain Names. Используйте ключ --enable-idn для configure чтобы включить. Необходимо установить на вашу систему GNU libidn. Изменена структура таблицы url: добавлено поле charset_id.
Добавлен сегментер фраз корейского языка. Используйте команду LoadKoreanList чтобы включить.
Добавлены карты корейского языка в кодировке EUC-KR.
Изменено хэширование баз, после апргрейда необходимо запустить проверку баз chached и stored с параметром OptimizeRatio равным 0.
Проверка баз cached и stored разделена на стадии, используйте для indexer ключ -Z для оптимизации; -ZZ для оптимизации и проверки; -ZZZ для оптимизации, проверки и поиска urls без слов базы cached; -Y для оптимизации; -YY для оптимизации и проверки базы stored.
Добавлены карты польского языка в кодировках cp1250 и cp852.
Для mod_dpsearch добавлена поддержка веб сервера Apache2.
Ускорена проверка базы cached.
Для SQL-серверов без подзапросов исправлено возможное нарушение целостности памяти.
Исправлены ошибки компиляции на Solaris 9.
16 Апр 2004: 4.19, 3,072,521 байт, 20.11.2012, 00:45 MSK
Добавлен модуль mod_dpsearch для версервера Apache. Используйте для configure ключ --enable-apache-module чтобы включить сборку.
Исправлен бак в каноническом разложении Unicode.
Добавлена команда URLDumpCacheSize. Используйте её для задания числа url? выбираемых за раз при записи индексов для cache mode, предварительной загрузки данных и для расчёта Popularity Rank. Значение по умолчанию: 100000.
Теперь значения индекса популярности Neo PopRank вычисляются в процессе индексирования/переиндексирования.
Перед загрузкой стоп слова и синонимы приводятся к канонической нормальной Unicode форме C.
Исправлена ошибка в расчёте Neo PopRank.
Добавлена команда ResultContentType. Используйте для задания заголовка Content-Type страницы результатов поиска.
По умолчанию каждая нить indexer создаёт отдельное соединение с SQL-базой. Используйте для indexer ключ -U чтобы создавать одно разделяемое соедиенние с SQL-базой для всех нитей.
Исправлено возможное подвисание indexer при большом числе нитей, запущеных без использования cached и/или stored.
Исправлены некоторые баги (#10, #15, #16, #19, #20, #22, #23, #24, #25, #27).
15 Мар 2004: 4.18, 3,047,516 байт, 20.11.2012, 00:45 MSK
Исправлена выдача лишних документов при запросе с двумя и более стопсловами во фразе.
Исправлено определение кавычек как начала фраз для некоторых кодировок в качестве LocalCharset.
Добавлен новый метод расчёта Popularity Rank. Используйте команду PopRankMethod для выбора метода.
Добавлены Top100 и Top1000 листы стопслов для английского, французского, немецкого и голландского языков.
Добавлен большой лист русских синонимов. Добавлен лист французских синонимов.
Обновлён лист русских стопслов.
Исправлено отображение клонов документов.
Апостров теперь может быть частью слова, т.е. слова типа "men's" рассматриваются как одно целое слово.
Исправлена подсветка слов запроса для LocalCharset UTF-8.
Исправлено зацикливание проверки базы Cached.
Исправлены ошибки компиляции на системах с различным числом аргументов функции gethostbyname_r.
21 Фев 2004: 4.17, 2,919,903 байт, 20.11.2012, 00:45 MSK
Исправлено возможно зависание indexer на быстрых PC при нескольких коннектах к cached.
Исправлены нарушения границ выделенной памяти при индексировании используя схему ftp://.
Расширена поддержка Unicode. Классы символов Unicode Letter, Mark, Number and Symbol теперь рассматриваются как возможные символы слов. Все проиндексированные слова приводятся к нормальной форме Unicode C перед сохранением в базе и перед выполнением запроса на поиск. Добавлена поддержка поиска, нечувсвительного к акцентам символов. Используйте команду "AccentExtensions yes" чтобы включить поддержку.
Unicode данные обновлены до версии 4.0.1.
Добавлено поле url.since для отслеживания DeleteOlder у страниц, для которых не указан заголовок Last-Modified. Это поле хранит время, когда страницы были дабоавлены в базу.
Добавлена общий ключ configure включения поддержки больших файлов.
Url данные могут быть предварительно загружены searchd в память для ускорения поиска. Используйте команду "PreloadURLData yes" в вашем searchd.conf чтьобы включить поддержку. Используется около 20 байт памяти на каждый url.
Значение по умолчанию параметра URLSelectCacheSize увеличено до 1024.
Исправлены пустые результаты поиска при дублировании слов в запросе.
16 Янв 2004: 4.16, 2,875,805 байт, 20.11.2012, 00:45 MSK
Добавлены флаги компиляции для сборки используя LFS API на 32-bit Linux-системахs (для поддержки файлов больше 2GB).
Теперь по умолчанию для cache mode при выходе indexer не посылает cached команду обновить лимиты и информацию об url. Используйте флаг indexerа -W чтобы послать при необходимости эту команду. Или пошлите cached сигнал HUP чтобы выполнить тоже самое.
Теперь новые ссылки проверяются по robots.txt перед сохранением в базе.
Теперь резултаты поиска могут быть отсортированы по важности (т.е. по произведению релевантности и популярности).
Добавлена статистика по объёму документов в базе. Используйте флаг -SS для indexerа чтобы отобразить.
Добавлена команда MinDocSize. Для документов с меньшим размером будет проверять только их присутсвие.
Добавлен внутренний парсер для mime-типа image/gif. Индексируются тольуко comment и plain text extensions.
Более аккуратное построение цитат найденых документов по поисковым словам.
Исправлен баг приводивший к появления "потеряных" записей для cache mode при использовании "indexer -C" с ограничением по категориям или по url.
Добавлена возможность увеличивать или уменьшать уровень выдачи для cached, stored и searchd log используя сигналы SIGUSR1 and SIGUSR2.
Для splitter добавлен флаг -p для задания паузы после обработки каждого буфера.
Для splitter добавлен флаг -v для задания уровня выдачи сообщений.
Добавлена команда CollectLinks. Используйте "CollectLinks yes" чтобы включить сбор информации о ссылках между страницами для подсчёта PopularityRank. По умолчанию сбор этой информации выключен (NB: это было включено по умолчанию в предыдущих версиях).
Убрано варьирование языка для документов с ошибочными кода ответа сервера (400 и выше).
Исправлены баги cache mode доставшиеся от mnoGoSearch 3.2.16 CVS.
27 Ноя 2003: Datapark Search Engine 4.16 начат на основе текущей CVS версии mnoGoSearch.
Изменения в mnoGoSearch 3.2.16 CVS до отделения DataparkSearch
Добавлен частотный словарь традиционного китайского языка.
Изменён синтаксис команд LoadChineseList и LoadThaiList.
Добавлена проверка, аналогичная libparanoia. Используйте флаг --with-paranoia для configure чтобы включить.
Исправлено вычисление диапазона дат для лимитов cache mode.
Cache mode изменён. Используйте "indexer -O" для преобразования старой базы в новый формат при апгрейде.
Добавлены уловные операторы <!IFLIKE, <!ELIKE, <!ELSELIKE для поисковых шаблонов.
База stored может использоваться без соответсвующего демона. Используйте команду "DoStore yes" для включения.
Добавлена возможность указывать таблицу srvinfo в качестве параметра команды ServerTable.
Изменена база stored. При апгрейде необходимо удалить старые данные и всё переиндексировать.
Исправлена обработка robots.txt.
Добавлена поддержка MimerSQL через UnixODBC.
Исправлены некоторые баги (#442, #445, #448, #449, #453, #454, #458, #461, #479, #480, #481).


Geo Visitors Map who's online