Надеюсь Вы знакомы с интернет-проектом "Антиплагиат"? Я бы к ней добавил работу с иноязычными документами с переводом. И работу с базой сканированных бумажных копий. (это то что касается текстовых заимствований)
Для визуальной информации вполне успешно работает поиск картинок и поиск схожих картинок.
Трудно, что либо, предложить для глубоко поиска и анализа-сравнения. Ещё, пожалуй, можно попробовать анализировать поведение автора на основе предыдущих контентов - типично ли для него, похоже-не похоже, скорее не он, не характерно для его уровня специализации/квалификации