Ручное размножение статей.

Одним из составляющих продвижения сайта в интернете является размножение статей.  В данной статье я расскажу как правильно размножать статьи, зачем они нужны, и как проверить на уникальность.

Размножение статьи.

Для размножения статьи существуют множество различных программ и я использую rerait-pro. Для качественного размножения статьи иногда не достаточно обычной базы синонимов, которые есть в программе, да и читаемость становится хуже, а при размножении нескольких сотен статей, так это вообще никуда не идёт.

Например исходный текст:

Мы друг-друга не понимали.

Составленный программой проект:

{Все мы} {приятель}-друга {никак не|далеко не|отнюдь не} понимали.

Получаем на выходе:

Все мы приятель-друга отнюдь не понимали.

Естественно, что такой текст не пройдёт модерацию в хороших каталогах статей и жирных бэков из-за этого мы не получим, тем более поисковые системы легко распознают синомизированный текст, анализируя отдельные кусочки текста.  Поэтому и прибегают к ручному размножению статей.

Уникальность текста

Уникальность контента определяется по шинглам. Что такое шингл? Его описание примерно таково:

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

Очевидно, что если мы хотим, чтобы наша статья была уникальна и читаемы мы должны и шинглы обойти и читабельность оставить.

Теоритеческое количество уникальных копий.

Выше рассмотренный пример имеет теоритечески 3 фразы, отличающиеся 1 словом.  Для примера ручного размножения возьму проект прогона социальной закладки, сделанный мною для моего сайта:

{Портал|Медицинский сайт|Сайт|Ресурс|Интернет-сайт|Интернет-ресурс|Медицинский ресурс|Интернет-портал|Блог|Мед Блог|Веб-сайт|Портал медиков|Медицинский блог} {о|об} {презервативах|использовании презервативов|презиках|видах презервативов|средствах защиты|защитных средствах|защите от Спида|протекции от ВИЧ}. {Хроника|Летопись|Сама история|История} {презервативов|этого устройства|контрацептива барьерного типа|чехлатого друга|друга мужика|стильной шапочки на головку} {насчитывает|начинается |длится|уже насчитывает} {по крайней мере|около|по меньшей мере|почти} {400 лет|390 годков|четыре сотни лет|лет четыресто|лет под 400}.

Теоретически можно получить 399360 копий, которые отличались бы одним словом, но естественно, что такое количество так же не уместно. Для того, чтобы статья имела   N уникальных слов нужно полученное количество теоретически взятых статей поделить на N. Подсчет количества уникальных копий ведётся очень просто: умножаем количество синонимов в скобках друг на друга. В данном примере выглядит так:

13*2*8*4*6*4*4*5=399360

Для дополнительного обхода шинглов нужно синонимы придумывать так же состоящие из 2-3слов. Таким образом мы будем каждый раз нарушатьпорядок нарушения слов в тексте, тем самым обходить шинглы.  Синонимы лучше подбирать к каждому слову и не оставлять ни одного слова без скобок. Таким образом мы достигем наилучшего результата.  С таких проектов я бы советовал получать не более 1000 копий. Тогда уникальность остаётся на высшем уровне.