February 25, 17:00

OpenAI — некоммерческая компания, исследующая ИИ в интересах общества. OpenAI всегда публикует исходный код своих разработок. Но недавно специалисты компании создали языковую модель, которая так хорошо генерировала фрагменты текста, что его было невозможно отличить от написанного живым человеком. Исходный код разработки не стали публиковать — ведь это лучший подарок для генераторов спама и фейковых новостей.

По этому поводу на MIT Technology Review вышел хороший текст о подходах к машинной обработке языка (NLP). На VC есть его перевод, ниже — главные тезисы.

Первый подход — distributional semantics. Компьютер анализирует паттерны в языке: анализирует, как часто и как близко разные слова употребляются вместе. Затем на основе этих паттернов программа генерирует фразы, предложения и абзацы текста. Именно такой подход использовали в разработке языковой модели OpenAI. Подобным образом работают и предиктивные клавиатуры, к примеру SwiftKey, о которой я писал ранее. Но при таком подходе программа не понимает, о чем пишет; грубо говоря, слова она подбирает по асоциациям.

Второй подход — frame semantics. С помощью наборов правил и массивов размеченных данных алгоритм обучают "понимать" структуру предложения — выделять субъекты, глаголы и второстепенные члены. Такие алгоритмы хорошо обрабатывают простые правильные предложения, поэтому именно они используются в чатботах.

Третий подход — model-theoretical semantics. При таком подходе язык — это интерфейс для доступа к базе знаний. Если задать такой модели вопрос "Какой наибольший по населению город Европы?", она превратит его в запросы к базе: "Какие города есть в мире", "Какие из них находятся в Европе", "Каково их население" и "Население какого города наибольшее". Такие алгоритмы могут обрабатывать сложные лингвистические конструкции, но нуждаются в сложных базах знаний.

Четвертый подход — grounded semantics. Язык отображает реальный жизненный опыт. Чтобы научить компьютер двигать объекты, ему дают команду "сдвинь куб влево" и затем показывают движение куба влево. Со временем программа усваивает показанные ей понятия и может оперировать ими. Похожим образом учатся люди — вы не задаете ребенку набор правил, по которым он отличит кошку от других объектов, вы просто указываете на кошку и говорите, как это называется. Это трудоемкий подход — не все понятия так легко описать и показать.

Для тех, кого заинтересовала тема вычислительной лингвистики, есть полуторачасовой доклад профессора из Стенфорда: Natural Language Understanding: Foundations and State-of-the-Art.

The technology behind OpenAI’s fiction-writing, fake-news-spewing AI, explained

The language model can write like a human, but it doesn’t have a clue what it’s saying.