
Сет Стивенс-Давидовиц – один из адептов больших данных (big data), специалист компании Google по Data Science. А еще он журналист The New York Times, умеющий рассказывать простым языком о сложном. Его книга «Усі брешуть: але інтернет знає твої думки» (18+) вышла в 2017 году, но уже успела стать бестселлером (украинский перевод в 2018 году выпустило издательство «Кі Фанд Медіа»). Книгу можно будет приобрести Международном фестивале «Книжный Арсенал».
Автор, с одной стороны, невероятно увлечен открывающимися возможностями, которые предоставляют интернет и большие данные. С другой – пишет, что на этом пути еще много ловушек и вообще мы только начинаем понимать, с чем имеем дело. Поэтому изложенные им в книге факты о big data кажутся противоречивыми. Но ведь есть такая наука – диалектика.
K.Fund Media выбрал из книги самые важные факты о возможностях и перспективах использования больших данных.
1
Большие данные правдивее соцопросов
Стивенс-Давидовиц анализировал прежде всего поисковые запросы в Google, но не только. Он, например, изучал запросы на порносайтах – чтобы «лучше понять человеческую сексуальность». Главный вывод: в опросах люди склонны привирать, подавать себя в более выгодном свете – ведь подразумевается, что ответы будет читать некий живой человек, пусть даже незнакомец. А взаимодействие с поисковиком – это диалог с бездушной машиной. Да и клиенты ищут именно то, что их интересует.
2
Цифровая правда может оказаться неприятной
Уровень расизма в американском обществе, измеренный с помощью поисковых запросов, оказался гораздо выше, чем принято было считать. И вообще «цифровая сыворотка правды показывает, что мир хуже, чем мы о нем думали».
Кроме того, построенные на основе больших данных модели ориентируются на «средние показатели». Поэтому, например, банк откажет в кредите «женщине, которая должна помочь своей сестре, оказавшейся в больнице».
Откажет лишь на том основании, что «в среднем люди, взывающие о помощи на медицинские расходы, часто врут». Впрочем, модели ведь можно улучшать.
3
Цифровые эксперименты – дешевый, быстрый и удобный инструмент познания реальности
Пример из книги: несколько инженеров Google узнавали, какой дизайн поисковика лучше. Они случайным образом разделили пользователей на две группы и показали им разные варианты сайта: «для исследования вам не нужны пользователи – можно измерять перемещения мыши и клики». Такие опыты позволяют вычислять не только корреляцию, но и причинно-следственные связи.
4
Не все данные одинаково полезны
Огромным количеством цифровой информации о пользователях располагают соцсети. Но, напоминает Стивенс-Давидовиц, «Facebook – это средство для того, чтобы похвастаться друзьям о том, как в моей жизни все хорошо». Цифровая правда, уверяет автор, это поисковые запросы, просмотры, клики, выделение текста. А цифровая ложь – посты в соцсетях, лайки в них же и профили на сайтах знакомств.
И еще о том же: «то, что можно измерить – зачастую не совсем то, что нас интересует». Классический пример – тесты для школьников и студентов.
Их вводили ради повышения объективности оценивания, однако в итоге учеников принялись натаскивать на решение тестов. С их помощью «мы не можем измерить критическое мышление, любопытство или развитие личности. Попытка увеличить один легко измеряемый показатель – результаты теста или количество шагов в день – не всегда помогает достичь того, чего мы пытаемся добиться».
5
Большие данные не всемогущи
Например, автор так и не смог с их помощью обыграть финансовые рынки и обогатиться. Возможно, дело в том, что финкомпании раньше других начали эксперименты с большими данными – они давно и активно используют самые разные компьютерные модели и даже искажают с их помощью поведение рынка.
6
Людей никто не отменял
Решение не всегда принимается благодаря увеличению объема обрабатываемой информации.
«Чтобы большие данные работали лучше, нужна особая приправа: решение человека и небольшие исследования, которые мы могли бы назвать малыми данными».
В книге есть история Джеффа Седера, который с помощью статистики наловчился предсказывать, какая лошадь станет чемпионом в будущем. Он долго собирал разные цифровые показатели – от диаметра ноздрей коня до суточного объема выделяемого тем навоза. И нашел-таки несколько ключевых факторов успеха, в частности, объем левого желудочка сердца.
Но цифры цифрами, а у Седера есть еще и «секретное оружие» – традиционный эксперт-лошадник, женщина по имени Пэтти Мюррей. Она осматривает животных, беседует с их владельцами и «вынюхивает проблемы коней – проблемы, которые Седер со всеми своими самыми инновационными и важными данными не отлавливает». А потом они принимают совместное решение.