Слово определяется компанией, которую оно содержит. Это предпосылка Word2Vec, метода преобразования слов в числа и представления их в многомерном пространстве. Слова, часто встречающиеся близко друг к другу в коллекции документов (корпусе), также будут появляться близко друг к другу в этом пространстве. Говорят, что они связаны контекстуально.
Word2Vec — это метод машинного База мобильных номеров телефонов Италии обучения, требующий корпуса и надлежащего обучения. Качество обоих влияет на его способность точно моделировать тему. Любые недостатки становятся очевидными при изучении выходных данных для очень специфических и сложных тем, поскольку их сложнее всего точно моделировать. Word2Vec можно использовать сам по себе, хотя его часто комбинируют с другими методами моделирования для устранения его ограничений.
Остальная часть статьи содержит дополнительную информацию о Word2Vec, о том, как он работает, как используется в тематическом моделировании и о некоторых проблемах, с которыми он сталкивается.
Что такое Word2Vec?
В сентябре 2013 года исследователи Google Томас Миколов, Кай Чен, Грег Коррадо и Джеффри Дин опубликовали статью « Эффективная оценка представлений слов в векторном пространстве » (pdf). Теперь мы называем ее Word2Vec. Целью статьи было «представить методы, которые можно использовать для обучения высококачественных векторов слов из огромных наборов данных с миллиардами слов и миллионами слов в словаре».
До этого момента любые методы обработки естественного языка рассматривали слова как отдельные единицы. Они н Выводы CSC Live 2022 е принимали во внимание сходство между словами. Хотя для такого подхода были веские причины, у него были свои ограничения. Были ситуации, в которых масштабирование этих базовых методов не могло обеспечить существенного улучшения. Отсюда и необходимость разработки передовых технологий.
В статье показано, что простые модели с их более низкими вычислительными требованиями могут обучать высококачественные векторы слов. Как заключает статья, «возможно вычислить очень точные многомерные векторы слов из гораздо большего набора данных». Они говорят о коллекциях документов (корпусах) с одним триллионом слов, что обеспечивает практически
неограниченный размер словаря.
Word2Vec — это способ преобразования слов в числа, в данном случае векторы, так что сходства могут быть обнаружены математически. Идея заключается в том, что векторы похожих слов группируются в векторном пространстве.
Подумайте о широтных и Справочник предприятий Буркина-Фасо долготных координатах на карте. Используя этот двумерный вектор, вы можете быстро определить, находятся ли два местоположения относительно близко друг к другу. Для того, чтобы слова были надлежащим образом представлены в векторном пространстве, двух измерений недостаточно. Поэтому векторы должны включать много измерений.
Как работает Word2Vec?
Word2Vec берет на вход большой текстовый корпус и векторизует его с помощью неглубокой нейронной сети. На выходе получается список слов (словарь), каждое из которых имеет соответствующий вектор. Слова со схожим значением пространственно встречаются в непосредственной близости. Математически это измеряется косинусным сходством , где полное сходство выражается как угол в 0 градусов, а отсутствие сходства выражается как угол в 90 градусов.
Слова могут быть закодированы как векторы с использованием различных типов моделей. В своей статье Миколов и др. рассмотрели две существующие модели: модель языка нейронной сети прямого распространения (NNLM) и модель языка нейронной сети рекуррентного распространения (RNNLM). Кроме того, они предлагают две новые логарифмически линейные модели: непрерывный мешок слов (CBOW) и непрерывный Skip-gram.
В ходе сравнения CBOW и Skip-gram показали лучшие результаты, поэтому давайте рассмотрим эти две модели.
CBOW похож на NNLM и полагается на контекст для определения целевого слова. Он определяет целевое слово на основе слов, которые идут до и после него. Миколов обнаружил, что наилучшая производительность была получена с четырьмя будущими и четырьмя историческими словами. Это называется «мешок слов», потому что порядок слов в истории не влияет на вывод. «Непрерывный» в термине CBOW относится к использованию «непрерывного распределенного представления контекста».
Skip-gram — это обратная сторона CBOW. При наличии слова он предсказывает окружающие слова в определенном диапазоне. Больший диапазон обеспечивает лучшее качество векторов слов, но увеличивает вычислительную сложность. Меньший вес придается удаленным
терминам, поскольку они обычно менее связаны с текущим словом.
При сравнении CBOW и Skip-gram было обнаружено, что последний предлагает более качественные результаты на больших наборах данных. Хотя CBOW быстрее, Skip-gram лучше обрабатывает редко используемые слова.
Во время обучения каждому слову назначается вектор. Компоненты этого вектора корректируются таким образом, чтобы похожие слова (на основе их контекста) были ближе друг к другу. Подумайте об этом как о перетягивании каната, когда слова толкаются и тянутся в этом многомерном векторе каждый раз, когда в пространство добавляется еще один термин.
Математические операции, в дополнение к косинусному сходству, могут быть выполнены над векторами слов. Например, вектор(“King”) – вектор(“Man”) + вектор(“Woman”) дает вектор, наиболее близкий к вектору, представляющему слово Queen.