Правда і брехня великих даних: 6 важливих фактів із книги «Усі брешуть» Сета Стівенса‑Давідовіца

10103
Shutterstock
Чим корисні великі масиви цифрової інформації і які пастки чекають на шляху їх використання

Сет Стівенс-Давідовіц – один з адептів великих даних (big data), фахівець компанії Google за Data Science. А ще він журналіст The New York Times, що вміє розповідати простою мовою про складне. Його книга «Усі брешуть: але інтернет знає твої думки» (18+) вийшла в 2017 році, але вже встигла стати бестселером (український переклад в 2018 році випустило видавництво «Кі Фанд Медіа»). Книжку можно буде придбати на Міжнародному фестивалі «Книжковий Арсенал».

Автор, з одного боку, неймовірно захоплений широкими можливостями, які надають інтернет і великі дані. З іншого – пише, що на цьому шляху ще багато пасток і взагалі ми лише починаємо розуміти, з чим маємо справу. Тому викладені ним у книзі факти про big data здаються суперечливими. Але ж є така наука – діалектика.


K.Fund Media вибрав з книги найважливіші факти про можливості та перспективи використання великих даних.

1

Великі дані правдивіше за соцопитування

Стівенс-Давідовіц аналізував перш за все пошукові запити в Google, але не тільки. Він, наприклад, вивчав запити на порносайтах – щоб «краще зрозуміти людську сексуальність». Головний висновок: в опитуваннях люди схильні прибріхувати, подавати себе з вигіднішого боку – адже передбачається, що відповіді читатиме якась жива людина, нехай навіть незнайомець. А взаємодія з пошуковиком – це діалог із бездушною машиною. Та й клієнти шукають саме те, що їх цікавить.

2

Цифрова правда може виявитися неприємною

Рівень расизму в американському суспільстві, виміряний за допомогою пошукових запитів, виявився набагато вищим, ніж вважали. І взагалі «цифрова сироватка правди показує, що світ гірший, ніж ми про нього думали».

Сет Стівенс-Давідовіц
Сет Стівенс-Давідовіц. ideacity.ca

Крім того, побудовані на основі великих даних моделі орієнтуються на «середні показники». Тому, наприклад, банк відмовить у кредиті «жінці, яка має допомогти своїй сестрі, що опинилася в лікарні».

Відмовить лише на тій підставі, що «в середньому люди, котрі просять про допомогу на медичні витрати, часто брешуть». Утім, моделі можна покращувати.

3

Цифрові експерименти – дешевий, швидкий і зручний інструмент пізнання реальності

Приклад із книги: кілька інженерів Google дізнавалися, який дизайн пошуковика кращий. Вони випадковим чином розділили користувачів на дві групи і показали їм різні варіанти сайта: «для дослідження вам не потрібні користувачі – можна вимірювати переміщення миші та кліки». Такі досліди дають змогу обчислювати не лише кореляцію, а й причинно-наслідкові зв’язки.

6 фактів із книги «Путеводитель по лжи» Деніела Левітіна

4

Не всі дані однаково корисні

Величезною кількістю цифрової інформації про користувачів володіють соцмережі. Однак, нагадує Стівенс-Давідовіц, «Facebook – це засіб для того, щоб похвалитися друзям про те, як у моєму житті все добре». Цифрова правда, запевняє автор, це пошукові запити, перегляди, кліки, виділення тексту. А цифрова брехня – пости в соцмережах, лайки в них і профілі на сайтах знайомств.

Пости і лайки в соцмережах – цифрова брехня
Пости і лайки в соцмережах – цифрова брехня. Libero Tecnologia

І ще про те саме: «те, що можна виміряти – часто не зовсім те, що нас цікавить». Класичний приклад – тести для школярів і студентів.

Їх запроваджували заради підвищення об’єктивності оцінювання, однак зрештою учнів почали натаскувати на розв’язання тестів. З їх допомогою «ми не можемо виміряти критичне мислення, цікавість або розвиток особистості. Спроба збільшити один легко вимірюваний показник – результати тесту або кількість кроків на день – не завжди допомагає досягти того, чого ми прагнемо досягти».

5

Великі дані не всемогутні

Наприклад, автор так і не зміг за їх допомогою обіграти фінансові ринки і збагатитися. Можливо, справа в тому, що фінансові компанії раніше за інших почали експерименти з великими даними – вони давно і активно використовують найрізноманітніші комп’ютерні моделі і навіть спотворюють за їх допомогою поведінку ринку.

6

Людей ніхто не відміняв

Рішення не завжди приймається завдяки збільшенню обсягу оброблюваної інформації.

«Щоб великі дані працювали краще, потрібна особлива приправа: рішення людини і невеликі дослідження, які ми могли б назвати малими даними».

У книзі є історія Джеффа Седера, який за допомогою статистики призвичаївся передбачати, який кінь стане чемпіоном у майбутньому. Він довго збирав різні цифрові показники – від діаметра ніздрів коня до добового обсягу навозу, що він виділяє. І знайшов-таки кілька ключових факторів успіху, зокрема, об’єм лівого шлуночка серця.

Хто прийде першим – підкажуть великі дані й досвід знавця
Хто прийде першим – підкажуть великі дані й досвід знавця. Shutterstock

Але цифри цифрами, а у Седера є ще й «секретна зброя» – традиційний експерт з коней, жінка на ім’я Петті Мюррей. Вона оглядає тварин, розмовляє з їхніми власниками і «винюхує проблеми коней – проблеми, які Седер з усіма своїми інноваційними і важливими даними не відловлює». А потім вони приймають спільне рішення.

Поділитися: