Searchengines.ru

Как улучшить контент с помощью Natural Language Processing

31 Jan 2020, 09:47 by Анна Бондарь

Автор: Рут Берр Риди (Ruth Burr Reedy), вице-президент по стратегии в маркетинговом агентстве UpBild. Компания специализируется на техническом SEO и веб-аналитике.

В статье мы поговорим о том, как Google использует технологии обработки естественного языка (Natural Language Processing, NLP) для понимания контента, и как эти знания можно применять, чтобы оптимизировать тексты и для поисковых систем, и для людей.

Связи между сущностями, словами и тем, как пользователи ищут

https://www.searchengines.ru/wp-content/uploads/2020/01/screen-shot-2019-11-21-at-5-79131.jpg

Чтобы понять, о чём идёт речь в контенте, Google тратит много времени, энергии и денег на такие вещи, как Neural Matching и Natural Language Processing.

Это происходит наряду с эволюцией поиска в сторону большей диалогичности. Но нередко люди ищут что-то, не зная, что именно им нужно, а Google хочет, чтобы они это получили. Поэтому компания тратит много ресурсов на понимание связей между сущностями и между словами, а также того, как люди используют слова для поиска.

Например, пользователь видит эффект «мыльной оперы» в телевизоре, но не знает, что это такое. При этом он хотел бы узнать, что происходит с его устройством.

В данном случае пользователь может выполнить поиск по запросу типа [почему в телевизоре странное изображение].

Благодаря Neural Matching Google понимает, что одним из возможных ответов на этот запрос может быть «эффект “мыльной оперы”». В итоге поисковик может предоставить соответствующий результат и удовлетворить потребность пользователя.

Понимание значимости

https://www.searchengines.ru/wp-content/uploads/2020/01/screen-shot-2019-11-21-at-5-82739.jpg

Главная задача обработки естественного языка (Natural Language Processing, или NLP) – научиться понимать язык, вычленяя из него важные сведения.

Значимость, контент и сущности

Определение значимости или выделенности (salience) – это выяснение того, насколько анализируемый фрагмент связан с конкретной сущностью. На данном этапе своего развития Google действительно хорош в извлечении сущностей из фрагментов контента. Сущности – это в основном существительные – имена собственные и нарицательные: люди, места и вещи.

При определении значимости Google старается выяснить, как эти сущности связаны друг с другом, о чём идёт речь на данной странице и насколько она соответствует заданной теме.

Natural Language Processing (NLP) APIs

В настоящее время в свободном доступе есть несколько API, которые можно использовать для понимания обработки естественного языка. Например:

Решение от IBM: https://www.ibm.com/watson/services/natural-language-understanding/

Решение от Google: https://cloud.google.com/natural-language/

Прим.ред. — при использовании этих API важно понимать, что не все их функции поддерживают русский язык. Оба инструмента ориентированы прежде всего на англоязычные материалы.

Применяют ли компании эти API в собственных проектах, неизвестно. Но воспользоваться ими могут все желающие.

Для этого нужно скопировать фрагмент контента и посмотреть, какие сущности Google способен из него извлечь, а также, насколько значимой поисковик считает каждую из этих сущностей по отношению к данному фрагменту контента в целом. То есть, до какой степени этот контент отвечает заявленной теме.

Google присвоит контенту коэффициент значимости на уровне от 0 до 1, и чем ближе итоговый показатель к 1, тем более значимым является контент относительно данной темы.

Так, например, 0,9 – это очень хороший результат, тогда как 0,01 показывает, что какое-то отношение к теме этот контент имеет, но не выраженное.

По нашему мнению, SEO-специалистам важно понимать, что значимость или выделенность – это будущее связанных ключевых слов. Так, например, оптимизируя контент для запроса [печенье с шоколадными чипсами], мы также будем обращать внимание на такие варианты, как рецепт шоколадного печенья, шоколадные чипсы и т.п. Варианты ключевых слов, TF-IDF – всё это более старые методологии для понимания того, о чём идёт речь в контенте.

Вместо этого нам нужно понимать, что это за сущности, и как Google видит взаимосвязи между ними. Как он определяет, что контент, который является значимым по отношению к одной сущности, также должен содержать другие сущности.

Привлечение эксперта – наилучший способ создания релевантного контента

Например, в случае рецепта печенья с шоколадными чипсами нам нужно убедиться, что в тексте содержатся такие слова, как «масло», «мука» и «сахар».

Это легко сделать, если в вашем распоряжении имеется рецепт такого печенья и вы знаете, что в нём должно быть. И это тот новый тренд, который мы начинаем видеть в SEO: наилучший способ создания контента, который будет релевантным (значимым) по отношению к конкретной теме – это привлечь эксперта в данном вопросе.

Человек с глубоким знанием темы, естественно, будет включать в контент сопутствующие термины, потому что он знает, что важно, а что нет.

SEO-специалистам пора начать инвестировать в контент и в экспертов, чтобы они могли создавать глубокий, релевантный и значимый контент, который нужен всем.

Как использовать эти API для SEO

Одно из возможных направлений – это оптимизация тех страниц, которые ранжируются по теме, но только на 2-й странице выдаче.

В такой ситуации Google обычно понимает, что страница релевантна определённой теме, но не уверен, что это хороший контент и ресурс. Другими словами, сигнал есть, но он слабый.

В таком случае можно взять такой контент, пропустить его через разработанный Google API или другой инструмент для обработки естественного языка и посмотреть, какие сущности будут извлечены, и какие связи будут определены между ними.

Иногда вы будете видеть, что в тексте нужно устранить неоднозначность. Возвращаясь к шоколадному печенью: в английском языке слово «cookies» может означать и «печенье», и «идентификационные файлы». То есть, слова могут иметь несколько значений.

Если вы видите, что инструмент обработки естественного языка не может корректно идентифицировать ваши сущности, то нужно подумать над тем, как устранить неоднозначность.

Во многих случаях API выдаёт результат, который показывает, что документ был отнесён к определённой теме, но его релевантность была определена как вероятно низкая. В этой ситуации как раз и нужно работать над контентом, чтобы Google было проще извлекать сущности и соотносить их друг с другом.

Это подводит нас ко второму важному пункту: теперь мы можем создавать контент и для людей, и для машин одновременно. Те времена, когда нужно было добавлять ключевые слова для Google, пряча их от пользователей, уже давным-давно прошли.

Теперь вы можете создавать контент для Google, который также будет более удобным для восприятия с точки зрения пользователей, потому что в настоящее время принципы читабельности для машин и для людей становятся всё более схожими.

Советы по созданию более читабельного контента для людей и машин

При подготовке этой статьи мы попросили нескольких специалистов, которые занимаются созданием контента, поделиться советами о том, как писать более качественные, понятные, лёгкие для чтения и понимания тексты.

Затем мы отобрали те советы, которые также работают с точки зрения систем NLP.

Как мы уже упоминали выше, обработка естественного языка – это процесс, с помощью которого Google пытается понять, как сущности связаны друг с другом в рамках заданного фрагмента текста.

Короткие и простые предложения

Пишите просто. Избегайте витиеватых оборотов речи.

Одна идея на предложение

Если у вас много сложноподчинённых предложений и местоимений, то пользователям будет трудно воспринимать текст.

Это также затрудняет машинам парсинг вашего контента.

Соединяйте вопросы с ответами

Если вы приводите вопрос, то старайтесь сразу же предоставить ответ, а не предварять его текстом в 500 слов.

В целом все эти три совета по улучшению удобочитаемости сводятся к уменьшению семантической дистанции между сущностями.

Если вы хотите, чтобы системы обработки естественного языка понимали, что две сущности в вашем контенте тесно связаны, переместите их поближе друг к другу в предложении.

Уберите лишнее и сократите число семантических скачков, которые поисковые роботы могут совершать между сущностями для понимания связей между ними. В результате вы получите более читабельный и удобный для восприятия контент, который также будет проще парсить и понимать роботам.

Сначала конкретика, потом нюансы

Возьмём для примера вопрос: «При какой температуре лучше всего выпекать печенье?». В реальности она может быть разной – в зависимости от целей. Однако такой ответ не будет хорошим ни для кого.

Представьте, что пользователь задаёт этот вопрос Google в голосовом режиме и получает такой ответ. Он ничем ему не поможет, хотя это правда — температура может быть разной.

Поэтому для улучшения читабельности сначала лучше привести- конкретные цифры (например, диапазон температур – «180-200 °C»), а затем объяснить нюансы.

Такой ответ выглядит намного лучше: он содержит конкретные цифры и в нём сокращена дистанция между вопросом и ответом.

Не растекайтесь мыслями по древу

Быстро переходите к главному. Выделите главную сущность, главную тему своего контента, а затем углубляйтесь в детали. Хорошо структурированный контент легче воспринимается всеми сторонами.

Избегайте профессионального жаргона

Жаргон трудно понимать. Также избегайте повторов и редко используемых слов. Чем реже используется слово, тем менее вероятно, что Google поймёт его семантические связи с другими сущностями.

Будьте краткими и конкретными. Уберите весь жаргон. Всё это помогает, опять же, сократить семантическую дистанцию между сущностями и облегчает их парсинг.

Организуйте информацию таким образом, чтобы она соответствовала пути пользователя

Подумайте, какая информация может быть нужна пользователю на каждом этапе его пути.

Выделите подтемы

Для этого используйте подзаголовки. Это базовый совет, но многие по-прежнему его не придерживаются. Если вы не делаете этого для своих пользователей, то сделайте для машин.

Используйте форматированные списки

Улучшению восприятия текста также способствуют маркированные или нумерованные списки. Выделение списка также облегчает парсинг контента для роботов.

Если вам кажется, что многие из этих советов перекликаются с теми рекомендациями, которые даются в отношении избранных сниппетов (featured snippets), то вы правы. Попадание сайта в featured snippets – это хороший индикатор того, что вы создаёте контент, который робот может находить, парсить, понимать и извлекать.

Поэтому, если вы работаете над попаданием сайта в избранные сниппеты, то вы уже делаете многие из описанных выше вещей.

Грамматика и орфография также важны

Эти вещи важны для пользователей. Не для всех, но важны. Они также имеют значение для поисковых систем.

Такие вещи, как грамматика, орфография и пунктуация – это очень простые сигналы для машин. Google касается этого аспекта в Руководстве для асессоров. В частности, поисковик отмечает, что хорошо написанный, хорошо структурированный, грамматически правильный текст без орфографических ошибок может указывать на авторитетность контента. Это не значит, что такой контент сразу займёт высокие позиции в результатах поиска. Но недоработки в этой области могут навредить сайту.

Используйте NLP-инструменты для улучшения контента

Эти инструменты помогают понять, насколько читабельным, понятным и релевантным является контент. Используя эти решения, можно создавать более качественные материалы для пользователей.