BERT Google что это?

BERT Google что это? Что нужно знать

BERT Google что это?

Самопровозглашенное Google «самое большое изменение за последние пять лет» произошло 25 октября. Но что такое BERT и что он действительно означает для SEO?

TL; DR – BERT – это не обновление алгоритма ранжирования, это способ обработки запросов на естественном языке для получения лучших результатов и соответствия намерениям пользователя. Призывы «оптимизировать» для BERT ошибочны. Что делает BERT – это связывает более релевантные поисковые запросы с вашей информацией, при условии, что вы пишете контент, который отвечает потребностям ваших пользователей.

Что такое БЕРТ?

BERT – это система обработки естественного языка (NLP) с  открытым исходным кодом,  разработанная для лучшего понимания значения и контекста  слов и фраз.

Это означает  Biderectional Encoder Representations from Transformers. По сути, это метод машинного обучения для понимания запросов на естественном языке.

Скажи что?

Мы выросли с поисковыми системами и склонны использовать их очень специфическим образом. Мы быстро привыкли сводить наши вопросы к одному, двум или трем ключевым словам и искусственно вводить их в поисковые системы, пока они не дадут желаемых результатов. Этот метод поиска полностью отличается от того, как мы будем задавать вопросы в реальной жизни.

Со временем методы поиска в Интернете стали более сложными и теперь включают в себя такие вещи, как голосовой поиск на мобильных и интеллектуальных устройствах, которые более точно отражают тонкости человеческой речи. Поисковые системы должны идти в ногу с этим и возвращать соответствующие результаты. Google полностью пересмотрел свой процессор Hummingbird и постоянно тестировал и включал элементы машинного обучения, чтобы помочь им обрабатывать эти запросы в масштабе.

BERT Google что это – это новая разработка в области машинного обучения, призванная помочь Google понять правильный контекст сложных запросов на естественном языке и вернуть пользователям более релевантные результаты.

Как это работает?

Программы машинного обучения должны «тренироваться», используя время и данные. Как правило, первоначальные результаты немного отрывочны, а затем значительно улучшаются с увеличением объема данных и тем дольше выполняется программа.

Например, вот Google DeepMind Q-Learning, обучающий себя играть в Atari Breakout . Сначала это какая “шняга”, но через четыре часа он выбирает тактику, чтобы получить лучший результат.

Однако может случиться так, что ограничения появляются, когда программа плохо справляется с определенными ситуациями. Это становится очевидным при попытке заставить машины понимать естественный язык. Человеческая речь и текст пронизаны неясностями и сложностями, с которыми у нас обычно нет проблем в понимании, но они представляют реальные трудности для машин.

Существуют различные методы, используемые программами машинного обучения для понимания языка, но все они имеют свои недостатки. Некоторые используют однонаправленный (слева направо) контекстный анализ, например. Проблема в том, что значение предложения может сильно измениться с последним словом, поэтому любой вид прогностического программного обеспечения не будет иметь представления о том, что это предложение, до тех пор, пока оно не будет завершено.

Например:

Я пошел в банк на [работу]

Я пошел в банк для [снятия средств]

Я пошел в банк на [ограбление]

Это все совершенно разные контексты. Однонаправленные модели будут иметь смысл контекста «банка» только после того, как они увидят всю фразу. BERT является двунаправленным , поэтому может отслеживать слова перед и после отслеживаемого ключевого слова, чтобы получить ценную информацию о контексте и значении того, как используется слово (в данном случае «банк» как работа, служба или преступная деятельность). ).

Далее идет обработка двусмысленности и ссылки. Слова на английском языке могут звучать одинаково или быть написаны одинаково, но имеют различное значение в зависимости от контекста, например:

Lead – плотный металлический элемент с атомным номером 82

Lead – поводок или поводок, на котором животное может быть привязано или приведено

Lead – проявлять инициативу в ситуации

Lead – кабель, несущий электричество или электрический сигнал

Lead – главное лицо в производстве

Lead – вступительный абзац новостной истории

И так далее.

Тогда есть проблема местоимений, и на какую сущность они ссылаются.

В Новой Англии слово «cow» в контексте рыбалки означает «большой полосатый окунь». Это популярная рыба, которую ловят миллионы рыбаков на атлантическом побережье.

Раньше, введя такой запрос в Гугл, вы бы увидели кучу коров. Потому что дословно это значит «как поймать корову на рыбалке». И все равно, что вы специально уточнили контекст для поисковика, добавив слово «рыбалка».

Сейчас вы можете сами проверить выдачу. Видимо, Гугл начал понимать контекст и теперь показывает нам кучу полосатых рыб.

Отслеживание того, какая сущность называется местом смены местоимений, даже если они не находятся в неуклюжей прозе, – это то, с чем машины борются и часто ошибаются.

Чтобы помочь им, используются вероятностные модели. Такие системы, как набор данных WordSim353, показывают модели обучения, в которых грейдеры-люди присваивают оценку сходства между различными словами. Тем не менее, даже это не будет охватывать все возможности, и, как и  любая другая контролируемая система машинного обучения,  зависит от людей, проходящих и помечающих данные. Это не было бы возможно в огромных масштабах, требуемых Google, что является одним из ограничений, с которыми столкнулась Google Pygmalion, команда лингвистов, работающих над запросами Google Assistant.

Что делает BERT, так это идентифицирует неоднозначные слова и правильное значение предложения на основе других слов, которые в нем. Так, например, если я говорю о «банковской работе», требующей лыжной маски, перчаток и дробовика, BERT, вероятно, поймет, что я не имею в виду карьеру в отделе обслуживания клиентов в моем местном отделении. Он кодирует предложение и дает взвешивание для каждого слова на основе контекстуальной вероятности.

Изменяя фокус целевого слова, он может идентифицировать отношения между сущностями в предложении, в случае, если они используются в качестве темы или имеют местоимение. Это кодируется и декодируется процессом математического преобразования (часть имени – ERT ), который помещает текст в математический вектор. Некоторое время это было частью машинного обучения и обработки ИИ, потому что компьютеры могут обрабатывать вычисления векторного кода намного, намного быстрее.

Google заявляет, что BERT полезен «особенно для более длинных  разговорных запросов или поисков, где такие предлоги,  как« for »и« to »имеют большое значение для значения». Это означает, что BERT будет в первую очередь влиять на ключевые слова с длинным хвостом, которые ищутся реже, но более специфичны по природе и на разговорные запросы.

Очень небольшие изменения в языке предложения могут быть подобраны. Пример, который  Google приводит в своем блоге о BERT, – это слово «to» во фразе «2019 brazil traveller to usa need a visa», указывается конкретный результат для туристических виз США в посольстве Бразилии.

гугл берт пример выдачи
гугл берт пример выдачи

У BERT есть и другие преимущества. Он использует случайную маскировку для предотвращения прохождения целевых терминов через процесс преобразования во время обучения. Это приведет к искажению весового показателя путем создания некой петли.

Случайное изменение маскируемого слова в течение периода обучения помогает определить «крайние» случаи: слова, которые могут быть неоднозначными или относиться к различным предметам в предложении. Это приводит к высокой точности прогнозирования термина «замаскированный», поэтому BERT может хорошо предсказать термин, просто основываясь на других словах, используемых в предложении.

Это также первый инструмент машинного обучения, который будет использоваться без надзора над чистым простым текстом (в данном случае Wikipedia), в отличие от ограниченной коллекции текстов, которая была тщательно помечена лингвистами.

И, наконец, конечно, он учится путем тонкой настройки всех этих замечательных странностей и идиом языка, которые возникают как исключения – немного похоже на это .

BERT Google  – Это что то новое?

На самом деле, нет. BERT был выпущен как открытый исходный код Google на Gitbhub в октябре 2018 года, чтобы люди могли реализовать его в своих собственных системах нейронных сетей. Сам Google признает, что система случайной маскировки слов для проверки читабельности восходит еще дальше – она называется процедурой Клоза и была предложена в качестве модели в 1953 году Уилсоном Тейлором. 

Использование двунаправленного контекста не является чем-то новым в практическом образовании.  Исследования показали, что наилучшим методом является определение слова в языковом контексте, при этом оптимальная длина составляет 15 слов на каждой стороне определенного термина.

Еще один шаг вперед, этот тип контекстного анализа был проведен на работах Шекспира, чтобы проверить понятие, если несколько авторов были ответственны. Спойлер № 1: он в основном написан одним автором, но в нем выделены области, предположительно «исправленные» другими авторами, где исходный текст был недоступен при составлении первого фолио. Последующие тесты были проведены для сравнения сходств с другими елизаветинскими и якобинскими драматургами. Спойлер №2: результаты крайне неубедительны.

Различные модели понимания естественного языка были созданы и проверены в течение некоторого времени. BERT вызвал бурную реакцию в этой области, поскольку результаты показали существенные улучшения в других моделях обработки.

Open Source BERT, который был предварительно обучен в Википедии, это только начало. Идея состоит в том, что пользователи могут взять модель и применить ее к своим собственным наборам данных, что позволяет ей изучать и специализироваться. В Google Scholar есть версия, Facebook и Microsoft использовали приложения BERT в своей собственной модели, и новый фильтр обработки поиска Google также будет иметь свои настройки и модификации, которые не будут частью основного кода.

Каковы последствия для SEO?

Как и ожидалось, как и в любом подтвержденном объявлении Google, ходили слухи о том, что BERT означает для поиска. В отличие от заблуждений, БЕРТ  не поставлена задача оценки или озвучивания веб – сайтов . Это означает, что он не является прямой частью алгоритма ранжирования и его  нельзя «оптимизировать» в традиционном смысле SEO, как, например, удаление плохих ссылок или тонких страниц в обновлении качества контента.  

BERT – это метод обработки запросов, благодаря которому Google сможет лучше понять, какие результаты следует использовать для неоднозначных или конкретных поисков. В результате будут затронуты примерно 10% результатов поиска, и, как и в случае любых изменений, будут победители и проигравшие.

Одно очевидное следствие: если вы еще не пишете контент, предназначенный для ваших клиентов, введение BERT не поможет. Честно говоря, в области поиска было достаточно событий, чтобы существующий контент, который превращает целевое [ключевое слово] в составной, бесполезный текст, должен был быть на слайде в течение достаточно долгого времени.

Большинство сайтов должны были и писали контент для удовлетворения потребностей клиентов во время их основных переходов. Если это так, то это может быть вознаграждено, если подключить еще несколько этих подробных страниц с соответствующим поисковым запросом. Учитывая, что Google видит 15% новых запросов каждый день, а BERT позволяет более тщательно изучать цели этих запросов, вряд ли это будет огромный объем трафика.

Одним из основных потенциальных изменений является расширенное отображение фрагментов. Понимая более детальную информацию о запросе, Google может отображать различные результаты в виде фрагментов или выбирать отображение расширенных фрагментов для большего или меньшего количества поисковых запросов. Как это повлияет на сайты, будет варьироваться.

Некоторые могут найти повышение рейтинга кликов или лучший поисковый трафик бренда, если они будут показаны, другие могут обнаружить, что богатый фрагмент – это «кража кликов» от Google, и что переход по кликам идет вниз  –  что может случиться, особенно с контентом в стиле FAQ. Вам нужно будет отслеживать результаты, проверять презентацию SERP и оценивать, помогает ли видимость расширенного фрагмента или мешает, хотя выбор передачи расширенного фрагмента на другой сайт может также не помочь вашей причине.

Какие результаты Google выбирает для фрагментов, также может измениться. Обширные фрагменты обычно содержат результаты со страниц с высокой органической видимостью, но изменится ли это и покажет более глубокие страницы? Возможно. Google заявил, что уже использует BERT в избранных отрывках из двух десятков стран, используя дополнительные данные из английского языка для обучения версий на других языках, где контента меньше, поэтому также возможно, что, как и в RankBrain, изменения уже произошли, и нет один действительно заметил.

Единственный способ «оптимизировать» BERT – убедиться, что контент хорошо написан и читается естественным образом для читателя. Если ваш трафик падает в результате, определите, где произошли потери, и подумайте, имеет ли значение потерянный трафик. Поскольку BERT в первую очередь направлен  на улучшение понимания Google ключевого слова, вполне возможно, что потерянный трафик уже имел низкую ценность, и на ваши  цели конверсии не влияют аналогичным образом.

Если проблемы остаются, объективно оцените страницы, потерявшие трафик, и подумайте, как их можно улучшить с точки зрения пользователя. Задайте себе следующие вопросы:

  • Предоставляет ли контент  четкую и недвусмысленную информацию, или его трудно читать и сбивать с толку?
  • Есть ли пробелы в информации или дополнительные вопросы, которые требуют ответов?
  • Легко ли читателю узнать, куда идти дальше и как найти дополнительную информацию, если она ему нужна?

Понимание намерений пользователя

Все поиски имеют основную потребность, которая заставила пользователя обратиться к поисковой системе. Это известно как «намерение» – определение этого помогает определить, как контент может быть оптимизирован для удовлетворения потребностей.

Потребности пользователя обычно попадают в одну из четырех широких категорий, которые можно использовать в качестве отправной точки:

  • Информационный («Я хочу знать») – ищу советы, ответы на вопросы или как что-то понять
  • Транзакционный/коммерческий («Я хочу купить») – явное желание приобрести товар или услугу
  • Навигационная («Я хочу пойти») – поиск мест или другой информации, которая указывает на желание посетить
  • Инструкция («Я хочу сделать») – необходимость выполнить задачу, которая может включать в себя поиск соответствующих инструментов

Для создания контента, направленного против поисковых целей, подумайте о потребностях пользователей и лучших способах их удовлетворения с помощью контента и функциональности. Убедитесь, что контент написан с учетом потребностей пользователей – уменьшите ваше  внимание на включение ключевых слов для SEO.

Что говорит Google?

Неудивительно, что Google просто повторяет свой предыдущий совет о написании контента для людей, а не пытается оптимизировать или использовать что-либо с алгоритмической точки зрения.  Публичный представитель Google по поиску  Дэнни Салливан,  неоднократно заявлял об этом.

BERT Google что это? Что нужно знать 1

Поскольку BERT предназначен для понимания контекста поиска на естественном языке, имеет смысл, во-первых, понять, что эти запросы могут быть получены от вашей аудитории, и, во-вторых, создать контент, отвечающий этим запросам.

Google использует больше процессов машинного обучения в результатах поиска, и по мере их изучения и развития мы обязательно увидим новые разработки и эксперименты, интегрированные в процесс поиска.