--buildstops для словосочетаний

ruportd · January 29, 2022, 12:58am

Извлекаю “рейтинг” слов для проиндексированных данных с помощью следующей команды:

indexer my_index --buildstops rating.txt 1500 --buildfreqs --config /etc/sphinxsearch/myconfig.conf

Получаю список слов с их частотой в порядке убывания, например:
дом 999
квартира 764
комната 357
кладовка 234
и т.д.

Сразу вопрос: в этом списке если в одном документе (записи) “дом” встречается 10 раз, то в рейтинг прибавляется 10 или 1?

Далее:
Допустим я хочу среди всех документов, где встречается слово “дом” (в любом падеже) получить аналогичный рейтинг слов с частотностью:
многоквартирный 542
многоэтажный 235
кирпичный 142
и т.д.

Есть встроенный функционал для этого?
Или нужно SQL запросами такие данные получать? Подскажите как?

Далее такой же список среди всех документов, где встречается два слова: “дом” и “многоквартирный”. и т.д.

Sergey · January 29, 2022, 4:03am

10

Есть встроенный функционал для этого?

Нет

Или нужно SQL запросами такие данные получать? Подскажите как?

И через SQL никак.

ruportd · January 29, 2022, 10:07am

В каком направлении думать, чтобы решить эту задачу?

Sergey · January 29, 2022, 12:11pm

В направлении word2vec или типа того