Поиск дубликатов по БД с помощью мантикоры

Привет всем!
Допустим есть база всего с двумя колонками id и text
В тексте - ранообразные посты (которые обычно пишут люди в соцсетях). Там может быть что угодно - анекдоты, объявления, приколы, бояны, есть и оригинальные тексты, в общем всё что угодно, от двух слов - до целой простыни текста.
Задача в том, чтобы найти все id, тексты которых похожи. Причем желательно оставить небольшой процент на расхождения. Скажем если один текст похож на другой на 90% совпадения - вот нужно собрать все такие и узнать их id. и так прошерстить всю базу.
Не могу сообразить, как это сделать средствами мантикоры.
Одна проблема, что понятие релевантности несколько не соответствует моей задаче и вообще не измеряется в % …
Другая проблема в том, что при поиске текста, состоящего из большого числа слов, мантикора вообще говорит, что ничего не нашлось, даже если точно такой текст там в базе есть…
Сейчас это у меня наботает на match/against (а после еще similar_text для подтверждения соответствия), но это всё очень долго. Мантикора же выдаёт результаты по релевантности совсем не такие, как match/against и это уже настораживает…
Так можно ли как то всетаки решить этот вопрос?

Можно:

  1. Как в этом курсе Manticore More Like This
  2. методом ssdeep (внешний) или другими fuzzy hash’ами + levenshtein() (ф-я есть в мантикоре)
  3. Векторным поиском, но это не через мантикору пока что.

Спасибо, на первый взгляд, первый метод - вроде годная штука, если коэффициенты подобрать.
Еще бы решить проблему с тем, что searchd процесс память ест как не в себя.
Причем стоят ограничения.
И он ее не использует, просто все сбрасывается на кэш и в своп.
Допустим первые несколько раз он индексирует базу и все норм. но вот когда раз 60 -100 проиндексирует, то занимает уже около 2 гб РАМ на ВПС. А ведь начинал так хорошо…
И это происходит даже без поисков - просто при работе indexer

если у вас стоит release 6 то там утечка у демона в общении с side-car buddy - которая починена в мастере и фикс будет выпущен в 604-release

Пока вы можете попробовать пакет из dev repository или же отключить buddy

searchd.buddy = #

в конфиге демона

О, отлично - попробую так сделать. у меня именно тот релиз

Это в manticore.conf в разделе [searchd] ?
что то у меня на все вариации данной строки мантикора вообще не запускается…

да вам нужно добавить в конфиг демона в секцию
searchd опцию

searchd
{
 buddy_path = #
}