ловарь, созданный Word2Vec, можно запрашивать напрямую для обнаружения связей между словами или подавать в нейронную сеть глубокого обучения. Одна из проблем алгоритмов Word2Vec, таких как CBOW и Skip-gram, заключается в том, что они придают каждому слову одинаковый вес. Проблема, возникающая при работе с документами, заключается в том, что слова не в равной степени отражают смысл предложения.
Некоторые слова важнее других. Таким образом, для решения этой ситуации часто применяются различные стратегии База мобильных номеров телефонов Испании взвешивания, такие как TF-IDF . Это также помогает решить проблему хабовости, упомянутую в следующем разделе. Searchmetrics ContentExperience использует комбинацию TF-IDF и Word2Vec, о которой вы можете п
рочитать здесь, в нашем сравнении с MarketMuse .
В то время как встроенные слова, такие как Word2Vec, фиксируют морфологическую, семантическую и синтаксическую информацию, тематическое моделирование направлено на обнаружение скрытых семантических структур или тем в корпусе.
По словам Будкара и Рудзица (PDF), сочетание скрытого распределения Дирихле (LDA) с Word2Vec может создавать дискриминационные признаки для «решения проблемы, вызванной отсутствием контекстной информации, встроенной в эти модели». Более простое \чтение LDA2vec можно найти в этом руководстве DataCamp .
Существует несколько проблем с встраиванием слов в целом, включая Word2Vec. Мы коснемся некоторых из них, для более подробного анализа обратитесь к ‘ Обзор методов оценки встраивания слов ‘ (pdf) Амира Бакарова. Корпус и его размер, а также само обучение будут существенно влиять на качество вывода.
Как вы оцениваете результат?
Как объясняет Бакаров в своей статье, инженер NLP обычно оценивает производительность вложений иначе, чем вычислительный лингвист или контент-маркетолог, если на то пошло. Вот некоторые дополнительные вопросы, упомянутые в статье.
- Семантика — это неопределенное понятие. «Хорошее» встраивание слова отражает наше представление о семантике. Однако мы можем не знать, является ли наше понимание правильным. Кроме того, слова имеют разные типы отношений, такие как семантическая связанность и семантическое сходство. Какой тип отношений должно отражать встраивание слова?
- Отсутствие надлежащих ДеШон Уайз Портер – Беседа у камина: как ваша контент-стратегия может быть настолько же хороша, насколько хороши люди, стоящие за ней обучающих данных . При обучении векторных представлений слов исследователи часто повышают их качество, подгоняя их под данные. Это то, что мы называем подгонкой кривой. Вместо того, чтобы подгонять результат под данные, исследователи должны попытаться уловить взаимосвязи между словами.
Кроме того, в частности, с Word2Vec связаны две существенные проблемы.
- Он не очень хорошо Справочник предприятий Буркина-Фасо справляется с двусмысленностями. В результате вектор слова с несколькими значениями отражает среднее, что далеко от идеала.
- Word2Vec не может обрабатывать слова, не входящие в словарный запас (OOV), и морфологически похожие слова. Когда модель сталкивается с новым понятием, она прибегает к использованию случайного вектора, который не является точным представлением.
Краткое содержание
Использование Word2Vec или любого другого встраивания слов не гарантирует успеха. Качественный вывод зависит от правильного обучения с использованием соответствующего и достаточно большого корпуса.
Хотя оценка качества вывода может быть обременительной, вот простое решение для контент-маркетологов. В следующий раз, когда вы будете оценивать оптимизатор контента, попробуйте использовать очень конкретную тему. Тематические модели низкого качества терпят неудачу, когда дело доходит до тестирования таким образом. Они подходят для общих терминов, но ломаются, когда запрос становится слишком конкретным.
Поэтому, если вы используете тему «как выращивать авокадо», убедитесь, что предложения как-то связаны с выращиванием растения, а не с авокадо в целом.
В создании этой статьи помогла технология генерации естественного языка MarketMuse NLG.