Правда и ложь больших данных: 6 важных фактов из книги «Усі брешуть» Сета Стивенса‑Давидовица

787
Shutterstock
Чем могут быть полезны большие данные и какие ловушки ждут на пути их использования

Сет Стивенс-Давидовиц – один из адептов больших данных (big data), специалист компании Google по Data Science. А еще он журналист The New York Times, умеющий рассказывать простым языком о сложном. Его книга «Усі брешуть: але інтернет знає твої думки» (18+) вышла в 2017 году, но уже успела стать бестселлером (украинский перевод в 2018 году выпустило издательство «Кі Фанд Медіа»). Книгу можно будет приобрести Международном фестивале «Книжный Арсенал».

Автор, с одной стороны, невероятно увлечен открывающимися возможностями, которые предоставляют интернет и большие данные. С другой – пишет, что на этом пути еще много ловушек и вообще мы только начинаем понимать, с чем имеем дело. Поэтому изложенные им в книге факты о big data кажутся противоречивыми. Но ведь есть такая наука – диалектика.


K.Fund Media выбрал из книги самые важные факты о возможностях и перспективах использования больших данных.

1

Большие данные правдивее соцопросов

Стивенс-Давидовиц анализировал прежде всего поисковые запросы в Google, но не только. Он, например, изучал запросы на порносайтах – чтобы «лучше понять человеческую сексуальность». Главный вывод: в опросах люди склонны привирать, подавать себя в более выгодном свете – ведь подразумевается, что ответы будет читать некий живой человек, пусть даже незнакомец. А взаимодействие с поисковиком – это диалог с бездушной машиной. Да и клиенты ищут именно то, что их интересует.

2

Цифровая правда может оказаться неприятной

Уровень расизма в американском обществе, измеренный с помощью поисковых запросов, оказался гораздо выше, чем принято было считать. И вообще «цифровая сыворотка правды показывает, что мир хуже, чем мы о нем думали».

Сет Стивенс-Давидовиц
Сет Стивенс-Давидовиц. ideacity.ca

Кроме того, построенные на основе больших данных модели ориентируются на «средние показатели». Поэтому, например, банк откажет в кредите «женщине, которая должна помочь своей сестре, оказавшейся в больнице».

Откажет лишь на том основании, что «в среднем люди, взывающие о помощи на медицинские расходы, часто врут». Впрочем, модели ведь можно улучшать.

3

Цифровые эксперименты – дешевый, быстрый и удобный инструмент познания реальности

Пример из книги: несколько инженеров Google узнавали, какой дизайн поисковика лучше. Они случайным образом разделили пользователей на две группы и показали им разные варианты сайта: «для исследования вам не нужны пользователи – можно измерять перемещения мыши и клики». Такие опыты позволяют вычислять не только корреляцию, но и причинно-следственные связи.

6 фактов из книги «Путеводитель по лжи» Дэниела Левитина

4

Не все данные одинаково полезны

Огромным количеством цифровой информации о пользователях располагают соцсети. Но, напоминает Стивенс-Давидовиц, «Facebook – это средство для того, чтобы похвастаться друзьям о том, как в моей жизни все хорошо». Цифровая правда, уверяет автор, это поисковые запросы, просмотры, клики, выделение текста. А цифровая ложь – посты в соцсетях, лайки в них же и профили на сайтах знакомств.

Посты и лайки в соцсетях – цифровая ложь
Посты и лайки в соцсетях – цифровая ложь. Libero Tecnologia

И еще о том же: «то, что можно измерить – зачастую не совсем то, что нас интересует». Классический пример – тесты для школьников и студентов.

Их вводили ради повышения объективности оценивания, однако в итоге учеников принялись натаскивать на решение тестов. С их помощью «мы не можем измерить критическое мышление, любопытство или развитие личности. Попытка увеличить один легко измеряемый показатель – результаты теста или количество шагов в день – не всегда помогает достичь того, чего мы пытаемся добиться».

5

Большие данные не всемогущи

Например, автор так и не смог с их помощью обыграть финансовые рынки и обогатиться. Возможно, дело в том, что финкомпании раньше других начали эксперименты с большими данными – они давно и активно используют самые разные компьютерные модели и даже искажают с их помощью поведение рынка.

6

Людей никто не отменял

Решение не всегда принимается благодаря увеличению объема обрабатываемой информации.

«Чтобы большие данные работали лучше, нужна особая приправа: решение человека и небольшие исследования, которые мы могли бы назвать малыми данными».

В книге есть история Джеффа Седера, который с помощью статистики наловчился предсказывать, какая лошадь станет чемпионом в будущем. Он долго собирал разные цифровые показатели – от диаметра ноздрей коня до суточного объема выделяемого тем навоза. И нашел-таки несколько ключевых факторов успеха, в частности, объем левого желудочка сердца.

Кто придет первым – подскажут большие данные и опыт знатока
Кто придет первым – подскажут большие данные и опыт знатока. Shutterstock

Но цифры цифрами, а у Седера есть еще и «секретное оружие» – традиционный эксперт-лошадник, женщина по имени Пэтти Мюррей. Она осматривает животных, беседует с их владельцами и «вынюхивает проблемы коней – проблемы, которые Седер со всеми своими самыми инновационными и важными данными не отлавливает». А потом они принимают совместное решение.

Поделиться: