предполагается схожесть в процентахzabachok писал(а):Тогда наверное хэши надо сравнивать, а не сами тексты, не?Ro7 писал(а):А если нужно сравнить с 200k записями в базе?
можно конечно делать 100 хэшей из всего текста (100 подтекстов), но при наличии например сдвига на один символ, схожесть резко стремится к 0