Преподаватель информатики и физики в онлайн-школе... · 15 июл 2022
Лингвист + программист
“Я увлекаюсь лингвистикой. Мне нравится изучать структуру языков, историю их развития. Но в то же время я интересуюсь программированием. Мне нравится писать код, создавать алгоритмы. Как объединить интерес к искусственным и естественным языкам? Или придется выбрать что-то одно?”
Хорошая новость - выбирать что-то одно не обязательно. Если вы интересуетесь и лингвистикой и программированием, то для вас есть отличная, перспективная, очень востребованная область науки - обработка естественного языка (natural language processing, NLP).
Обработка естественного языка занимается изучением методов анализа и синтеза естественного языка. Для задачи анализа важно понимание смысла речи, а для задачи синтеза - генерация грамотного текста.
С примерами использования NLP мы встречаемся постоянно:
чат-боты и голосовые помощники;
системы проверки орфографии и пунктуации;
генерация субтитров и синхронный машинный перевод;
анализ писем на предмет спама;
категоризация текстов (например, автоматическое размещение статей на сайтах в определенных категориях или размещение вопросов в Яндекс Q по темам) и анализ их тональности (определение эмоциональной окраски речи, например, при анализе комментариев в социальных сетях);
и многое другое. Почему машинам трудно понимать человеческий язык? В русском языке большое количество многозначных слов, например.
отразить: отразить нападение, отразить изображение, отразить преимущества. К многозначным словам можно также отнести слова-шифтеры. К ним, например, относятся местоимения. Сравните:
“Мартышки ели бананы. Они были голодными.”
“Мартышки ели бананы. Они были спелыми.” Предложения имеют сходные синтаксические структуры, однако в первом “они” - это мартышки, а во втором “они” - это бананы. Человек по контексту легко понимает, о чем идет речь, и кто “они” в каждом случае. Однако машине с этой задачей справиться сложнее. Еще один трудный момент, с которым сталкивается искусственный интеллект при обработке естественного языка - эллипсис - пропуск в тексте или речи элемента предложения, который восстанавливается посредством контекста.
“Настя надела желтое платье, а Катя - розовое.”
И снова смысл текста зависит от контекста, который машина не всегда может распознать.
Однако современные системы распознавания и генерации речи все лучше и лучше справляются со своими задачами. Алиса от Яндекса уже отлично поддерживает диалог, а бот Порфирьевич умеет дописывать предложения.