March 08, 13:43

​​О важности обучающей выборки

В 2016 году китайские дата саентисты захотели создать нейросеть, определяющую преступные наклонности человека по его фотографии. Они загрузили в нейросеть две тысячи фотографий преступников и обычных людей и вроде как научили её с 90% точностью определять преступников "на глаз". Алгоритм выделил особенности преступных лиц: меньшее расстояние между уголками глаз, меньший угол между носом и уголками губ, больший изгиб верхней губы.

Когда к фотографиям присмотрелись внимательнее, оказалось что не преступники на них слегка улыбаются, а преступники — наоборот, серьезны и даже нахмурены. Отсюда — и изгиб верхней губы (во время улыбки она распрямляется), и остальные "преступные" черты. Нейросеть научилась улавливать не склонность к преступности, а улыбку. Ну или расслабленность лица, как предлагают это трактовать авторы исследования. Изображения преступников для обучения были взяты из официальных государственных баз, а фото обычных людей — с коммерческих сайтов, нередко из промо-материалов, где люди выглядят хорошо и позитивно.

Это пример из курса по изучению буллшита в эпоху данных. Другой пример - разбор ещё одного спорного исследования, в котором нейросеть научили определять ориентацию человека по фото.

Курс бесплатен, разработан двумя профессорами из Вашингтона и призван уменьшить количество цифрового буллшита — графиков, статистики и прочих точных данных, которая выглядят убедительно, но вводят в заблуждение. Читайте на досуге, прокачивайте критическое мышление: callingbullshit.org/index.html