Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя
Преподаватель информатики и физики в онлайн-школе...  · 15 июл 2022

Лингвист + программист

“Я увлекаюсь лингвистикой. Мне нравится изучать структуру языков, историю их развития. Но в то же время я интересуюсь программированием. Мне нравится писать код, создавать алгоритмы. Как объединить интерес к искусственным и естественным языкам? Или придется выбрать что-то одно?”
Хорошая новость - выбирать что-то одно не обязательно. Если вы интересуетесь и лингвистикой и программированием, то для вас есть отличная, перспективная, очень востребованная область науки - обработка естественного языка (natural language processing, NLP).
Обработка естественного языка занимается изучением методов анализа и синтеза естественного языка. Для задачи анализа важно понимание смысла речи, а для задачи синтеза - генерация грамотного текста.
С примерами использования NLP мы встречаемся постоянно:
  • чат-боты и голосовые помощники;
  • системы проверки орфографии и пунктуации;
  • генерация субтитров и синхронный машинный перевод;
  • анализ писем на предмет спама;
  • категоризация текстов (например, автоматическое размещение статей на сайтах в определенных категориях или размещение вопросов в Яндекс Q по темам) и анализ их тональности (определение эмоциональной окраски речи, например, при анализе комментариев в социальных сетях);
  • и многое другое.
    Почему машинам трудно понимать человеческий язык? 
    В русском языке большое количество многозначных слов, например.
  • хвост: хвост кота, хвост самолета, хвост - прическа;
  • кисть: кисть руки, художественная кисть, кисть рябины;
  • тяжелый: тяжелый день, тяжелый мешок, тяжелый характер;
  • глухой: глухой стук, глухой переулок, глухой лес, глухой человек;
  • отразить: отразить нападение, отразить изображение, отразить преимущества.
    К многозначным словам можно также отнести слова-шифтеры. К ним, например, относятся местоимения. Сравните:
  • “Мартышки ели бананы. Они были голодными.”
  • “Мартышки ели бананы. Они были спелыми.”
    Предложения имеют сходные синтаксические структуры, однако в первом “они” - это мартышки, а во втором “они” - это бананы. Человек по контексту легко понимает, о чем идет речь, и кто “они” в каждом случае. Однако машине с этой задачей справиться сложнее.
    Еще один трудный момент, с которым сталкивается искусственный интеллект при обработке естественного языка - эллипсис - пропуск в тексте или речи элемента предложения, который восстанавливается посредством контекста.
“Настя надела желтое платье, а Катя - розовое.”
И снова смысл текста зависит от контекста, который машина не всегда может распознать.
Однако современные системы распознавания и генерации речи все лучше и лучше справляются со своими задачами. Алиса от Яндекса уже отлично поддерживает диалог, а бот Порфирьевич умеет дописывать предложения.
Программирование+3