
Сет Стівенс-Давідовіц – один з адептів великих даних (big data), фахівець компанії Google за Data Science. А ще він журналіст The New York Times, що вміє розповідати простою мовою про складне. Його книга «Усі брешуть: але інтернет знає твої думки» (18+) вийшла в 2017 році, але вже встигла стати бестселером (український переклад в 2018 році випустило видавництво «Кі Фанд Медіа»). Книжку можно буде придбати на Міжнародному фестивалі «Книжковий Арсенал».
Автор, з одного боку, неймовірно захоплений широкими можливостями, які надають інтернет і великі дані. З іншого – пише, що на цьому шляху ще багато пасток і взагалі ми лише починаємо розуміти, з чим маємо справу. Тому викладені ним у книзі факти про big data здаються суперечливими. Але ж є така наука – діалектика.
K.Fund Media вибрав з книги найважливіші факти про можливості та перспективи використання великих даних.
1
Великі дані правдивіше за соцопитування
Стівенс-Давідовіц аналізував перш за все пошукові запити в Google, але не тільки. Він, наприклад, вивчав запити на порносайтах – щоб «краще зрозуміти людську сексуальність». Головний висновок: в опитуваннях люди схильні прибріхувати, подавати себе з вигіднішого боку – адже передбачається, що відповіді читатиме якась жива людина, нехай навіть незнайомець. А взаємодія з пошуковиком – це діалог із бездушною машиною. Та й клієнти шукають саме те, що їх цікавить.
2
Цифрова правда може виявитися неприємною
Рівень расизму в американському суспільстві, виміряний за допомогою пошукових запитів, виявився набагато вищим, ніж вважали. І взагалі «цифрова сироватка правди показує, що світ гірший, ніж ми про нього думали».
Крім того, побудовані на основі великих даних моделі орієнтуються на «середні показники». Тому, наприклад, банк відмовить у кредиті «жінці, яка має допомогти своїй сестрі, що опинилася в лікарні».
Відмовить лише на тій підставі, що «в середньому люди, котрі просять про допомогу на медичні витрати, часто брешуть». Утім, моделі можна покращувати.
3
Цифрові експерименти – дешевий, швидкий і зручний інструмент пізнання реальності
Приклад із книги: кілька інженерів Google дізнавалися, який дизайн пошуковика кращий. Вони випадковим чином розділили користувачів на дві групи і показали їм різні варіанти сайта: «для дослідження вам не потрібні користувачі – можна вимірювати переміщення миші та кліки». Такі досліди дають змогу обчислювати не лише кореляцію, а й причинно-наслідкові зв’язки.
4
Не всі дані однаково корисні
Величезною кількістю цифрової інформації про користувачів володіють соцмережі. Однак, нагадує Стівенс-Давідовіц, «Facebook – це засіб для того, щоб похвалитися друзям про те, як у моєму житті все добре». Цифрова правда, запевняє автор, це пошукові запити, перегляди, кліки, виділення тексту. А цифрова брехня – пости в соцмережах, лайки в них і профілі на сайтах знайомств.
І ще про те саме: «те, що можна виміряти – часто не зовсім те, що нас цікавить». Класичний приклад – тести для школярів і студентів.
Їх запроваджували заради підвищення об’єктивності оцінювання, однак зрештою учнів почали натаскувати на розв’язання тестів. З їх допомогою «ми не можемо виміряти критичне мислення, цікавість або розвиток особистості. Спроба збільшити один легко вимірюваний показник – результати тесту або кількість кроків на день – не завжди допомагає досягти того, чого ми прагнемо досягти».
5
Великі дані не всемогутні
Наприклад, автор так і не зміг за їх допомогою обіграти фінансові ринки і збагатитися. Можливо, справа в тому, що фінансові компанії раніше за інших почали експерименти з великими даними – вони давно і активно використовують найрізноманітніші комп’ютерні моделі і навіть спотворюють за їх допомогою поведінку ринку.
6
Людей ніхто не відміняв
Рішення не завжди приймається завдяки збільшенню обсягу оброблюваної інформації.
«Щоб великі дані працювали краще, потрібна особлива приправа: рішення людини і невеликі дослідження, які ми могли б назвати малими даними».
У книзі є історія Джеффа Седера, який за допомогою статистики призвичаївся передбачати, який кінь стане чемпіоном у майбутньому. Він довго збирав різні цифрові показники – від діаметра ніздрів коня до добового обсягу навозу, що він виділяє. І знайшов-таки кілька ключових факторів успіху, зокрема, об’єм лівого шлуночка серця.
Але цифри цифрами, а у Седера є ще й «секретна зброя» – традиційний експерт з коней, жінка на ім’я Петті Мюррей. Вона оглядає тварин, розмовляє з їхніми власниками і «винюхує проблеми коней – проблеми, які Седер з усіма своїми інноваційними і важливими даними не відловлює». А потім вони приймають спільне рішення.