дубль контента на сайте

Когда «Дублируемый текст» уникален – Человек против искусственного интеллекта или как победить

Дублируемый текст на сайте

Какими бы впечатляющими ни были машинное обучение и искусственный интеллект, им часто не хватает чего-то естественного для человека: здравого смысла. Общеизвестно, что размещение одного и того же контента на нескольких страницах приводит к дублированию контента. Но что, если вы создадите страницы о похожих темах, с различиями, которые имеют значение? Алгоритмы помечают их как дубликаты, хотя люди […]

  • Электронная коммерция: похожие продукты с несколькими вариантами или критическими различиями
  • Путешествия: филиалы отелей, пакеты с похожим содержанием
  • Объявления: исчерпывающие списки для идентичных предметов
  • Бизнес: страницы для местных отделений, предлагающих одинаковые услуги в разных регионах

Как это произошло? Как вы можете определить проблемы? Что вы можете сделать по этому поводу?

Опасность дублированного контента

Дублированный контент мешает сделать ваш сайт видимым для пользователей поиска через:

  • Потеря рейтинга для уникальных страниц, которые непреднамеренно конкурируют за одни и те же ключевые слова
  • Невозможность ранжировать страницы в кластере, потому что Google выбрал одну страницу в качестве канонической
  • Потеря авторитета сайта

Как поисковая машина идентифицируют дублированный контент

Google использует алгоритмы, чтобы определить, являются ли две страницы или части страниц дублирующимся контентом, который Google определяет как контент, который « заметно похож » типа дублируемый текст или дубль страниц полностью..

Обнаружение сходства Google основано на их запатентованном алгоритме Simhash, который анализирует блоки контента на веб-странице. Затем он вычисляет уникальный идентификатор для каждого блока и составляет хэш или «отпечаток» для каждой страницы.

Поскольку количество веб-страниц колоссально, ключевым фактором является масштабируемость. В настоящее время Simhash является единственным выполнимым методом поиска дублирующегося контента в масштабе.

Симхаш “отпечатками пальцев” являются:

  • Они установлены в одной сканированной странице.
  • Легко сравнивать, благодаря их фиксированной длине.
  • Возможность найти “почти дубликаты” . Они приравнивают незначительные изменения на странице к незначительным изменениям в хэше, в отличие от многих других алгоритмов.

Последнее означает, что разница между любыми двумя отпечатками пальцев может быть измерена алгоритмически и выражена в процентах. Чтобы снизить стоимость оценки каждой пары страниц, Google использует такие методы, как:

  • Кластеризация: группируя наборы достаточно похожих страниц вместе, нужно сравнивать только отпечатки пальцев внутри кластера, поскольку все остальное уже классифицируется как различное.
  • Оценки: для исключительно больших кластеров среднее сходство применяется после вычисления определенного количества пар отпечатков пальцев.
Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 1

Наконец, Google использует взвешенный коэффициент сходства, который исключает определенные блоки идентичного контента (шаблон: заголовок, навигация, боковые панели, нижний колонтитул; отказ от ответственности …). Он учитывает тему страницы, используя n-граммовый анализ, чтобы определить, какие слова на странице встречаются наиболее часто, и – в контексте сайта – наиболее важны.

Анализировать дублируемый текст с помощью Simhash

Мы будем смотреть на карту кластеров контента, помеченных как похожие с помощью Simhash. Эта диаграмма от OnCrawl содержит анализ вашей стратегии дублированного контента на кластерах дублированного контента.

Анализ контента OnCrawl также включает в себя коэффициенты сходства, кластеры контента и анализ n-граммы. OnCrawl также работает над экспериментальной тепловой картой, показывающей сходство для каждого блока контента, который можно наложить на веб-страницу.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 2

Проверка кластеров каноническими

Использование канонических URL-адресов для обозначения главной страницы в группе похожих страниц является способом преднамеренной кластеризации страниц. В идеале кластеры, созданные канониками, и кластеры, созданные Симхашем, должны быть идентичны.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 3

Канонические кластеры, совпадающие с кластерами сходства (выделены зеленым). Выделено: 6 страниц, которые на 100% похожи. Ваша каноническая политика и анализ Google по Simhash относятся к ним одинаково.

Если это не так, то часто потому, что на вашем сайте не настроены канонические урлы:

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 4

Нет канонических урлов: кластеры по сотни страниц каждый со средней степенью сходства 99-100%. Google может навязывать канонические URL. Вы не можете контролировать, какие страницы будут ранжироваться, а какие нет.

Или потому, что существуют конфликты между вашей канонической стратегией и методами, которые Google использует для группировки подобного контента:

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 5

Проблемы с каноническими: большие кластеры с сходством более 80% и несколькими каноническими URL-адресами на кластер. Google будет либо навязывать свои собственные канонические URL-адреса, либо индексировать дубликаты страниц, которые вы хотели бы исключить из индекса.

Кластеры вашего сайта не похожи на те, что указаны выше. Вы уже следовали рекомендациям по дублированию контента. URL-адреса, содержащие одинаковое содержимое – например, версии для печати / для мобильных устройств или альтернативные URL-адреса, сгенерированные CMS – объявляют правильный канонический URL-адрес.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 6

Картирование кластеров подобия после канонизации.

Отфильтруйте дублированный контент, который правильно обрабатывается вашей канонической стратегией. Остальные неканонизированные URL-адреса – это страницы, которые вы хотите ранжировать.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 7

Предыдущее сопоставление после удаления проверенных (зеленых) кластеров и кластеров с сходством менее 80%. Большинство из оставшихся 46 кластеров имеют только 2 страницы.

URL-адреса, которые по-прежнему появляются в кластерах на основе Simhash и семантического анализа, являются URL-адресами, с которыми вы и Google не согласны.

Решение проблем с дублированным контентом для уникального контента

Нет удовлетворительного приема, чтобы исправить представление машины об уникальных страницах, которые кажутся дубликатами: мы не можем изменить, как Google идентифицирует дублированный контент. Тем не менее, по-прежнему существуют решения, позволяющие согласовать ваше восприятие уникального контента и Google… и при этом ранжировать ключевые слова, которые вам нужны.

Вот пять стратегий для адаптации к вашему сайту.

Разрешить крайние случаи

Начнем с рассмотрения крайних случаев: кластеры с очень низким или очень высоким коэффициентом сходства.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 8

  • Под 20% сходство: похоже, но не слишком похоже. Вы можете дать сигнал Google, чтобы он рассматривал их как разные страницы, связываясь между страницами в кластере, используя отдельный текст привязки для каждой страницы.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 9

  • Максимальное сходство: найдите основную проблему. Вам нужно будет либо обогатить контент, чтобы дифференцировать страницы, либо объединить страницы в одну.

Уменьшить количество граней

Если ваши дубликаты страниц связаны с фасетами, у вас может быть проблема с индексацией. Сохраняйте фасеты, которые уже ранжируются, и ограничьте количество фасетов, которые вы разрешаете Google индексировать.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 10

Кластер состоит из идентичных страниц на основе сортируемых граней. Источник: OnCrawl.

Сделайте страницы (больше) уникальными

Помните: незначительные различия в содержании создают незначительные различия в отпечатках пальцев Simhash. Вам необходимо внести существенные изменения в содержание на странице, а не вносить небольшие изменения.

Обогатить содержание страницы:

  • Добавить текстовое содержание на страницы.
    • Добавить различные описания изображений.
    • Включите полные отзывы клиентов (если отзывы относятся к нескольким страницам, объедините страницы!).
    • Добавьте дополнительную информацию.
    • Добавить связанную информацию.
  • Используйте разные изображения.
  • Протестируйте использование совсем другого якорного текста для ссылок на разные страницы.
  • Уменьшите общее количество исходного кода между похожими страницами.
  • Улучшить семантическую плотность на страницах.
    • Увеличьте словарный запас, связанный с предметом и уменьшите наполнитель.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 11

Создание рейтинговых справочных страниц

Если обогащение ваших страниц невозможно или нецелесообразно, рассмотрите возможность создания единой справочной страницы, которая занимает место вместо всех «дублирующих» страниц. Эта стратегия использует тот же принцип, что и контент-хабы, для продвижения главной страницы по нескольким ключевым словам. Это особенно полезно, когда у вас есть несколько версий продукта, которые нужно поддерживать как отдельные страницы.

Эта стратегия может использоваться для создания страниц, нацеленных на потребность или сезонную возможность. Это может улучшить страницы, предоставляя более сильную семантику и ранжирование.

Это может также принести пользу сайтам объявлений, сайтам предложений работы, и другим сайтам со многими, часто подобными списками. Справочные страницы должны группировать списки по одной характеристике; Местоположение (город) часто используется успешно.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 12Что делать:

  1. Создайте справочную страницу, которая объединит семантическое содержание всех «дублирующих» страниц товара. Он должен продвигать все ключевые слова, которые вы хотите использовать, и ссылаться на все «дубликаты» страниц.
  2. Установите канонический URL-адрес для каждой «дубликатной» страницы на страницу ссылки и канонический URL-адрес страницы ссылки как таковой.
  3. Ссылка между «дубликатами» страниц.
  4. Оптимизация навигации по сайту для продвижения справочной страницы.

Благодаря ссылкам с «дублирующих» страниц, каноническим декларациям и комбинированному контенту справочные страницы легко ранжировать.

Объедините свои страницы

Вы продолжаете пытаться обогатить страницы с тем же содержанием? Вы не можете объяснить, почему вы хотите оставить их всех? Возможно, пришло время объединить их.

Когда «Дублируемый текст»  уникален - Человек против искусственного интеллекта или  как победить 13Если вы решили объединить свои страницы в одну:

  • Сохраните URL, который работает лучше всего.
  • Перенаправьте (301) страницы, от которых вы избавляетесь, к той, которую вы храните.
  • Добавьте контент со страниц, от которых вы избавляетесь, на страницу, которую вы держите, и оптимизируйте ее, чтобы ранжировать по всем ключевым словам кластера.

Будущее дублированного контента

Способность Google понимать содержание страницы постоянно развивается. Благодаря все более точной способности идентифицировать шаблон и различать намерения на веб-страницах, уникальный контент, идентифицированный как дубликат, в конечном итоге должен уйти в прошлое.

До тех пор понимание того, почему ваш контент выглядит как дубликаты для Google, и адаптация его, чтобы убедить Google в обратном, являются ключами к успешному поисковому запросу на похожих страницах.