Однако у этой тенденции есть и обратная сторона. Деятельность компании Target, Inc. является примером куда более спорного подхода к использованию огромных массивов чрезвычайно подробных данных о клиентах в коммерческих целях. Эта компания наняла специалиста по анализу и обработке данных, который обнаружил сложный набор корреляций, позволяющих с очень большой долей вероятности предсказывать наличие беременности на раннем сроке у покупательниц на основе анализа продаж по двадцати пяти различным видам косметической и медицинской продукции. Проводимый компанией анализ был настолько точным, что даже позволял с высокой степенью точности определять срок беременности у конкретной женщины. Получив эти данные, сотрудники Target начинали забрасывать женщин предложениями о покупке товаров для беременных, да еще и на столь раннем сроке, что во многих случаях ближайшее окружение женщины даже не знало о ее положении. В начале 2012 г. в The New York Times была опубликована статья, в которой рассказывалось об одном любопытном случае: ничего не подозревавший отец девочки-подростка пожаловался руководству магазина на неподобающие рекламные материалы, присылаемые на почтовый адрес семьи, а потом узнал, что сотрудники Target фактически были лучше осведомлены о жизни его дочери, чем он сам. Некоторые критики опасаются, что эта не самая приятная история — лишь начало и что большие данные все чаще и чаще будут использоваться для получения информации, которая может нарушать неприкосновенность частной жизни или даже угрожать свободе.
Выводы, получаемые при анализе больших данных, как правило, основываются исключительно на корреляциях и ничего не говорят о причинах изучаемого феномена. Алгоритм может выяснить, что если A соответствует действительности, то и B, скорее всего, тоже верно. Но он не способен установить причинно-следственную связь между A и B и уж тем более не может установить, обусловлены ли A и B каким-либо иным внешним фактором. Во многих случаях, однако, и в особенности в мире бизнеса, где абсолютным критерием успеха является прибыльность и эффективность, а не глубина понимания, даже простая корреляция сама по себе может представлять очень большую ценность. Большие данные могут стать для менеджмента источником подробнейших сведений по самому широкому кругу вопросов: все — от параметров работы каждого отдельного станка до общих результатов работы международной корпорации — может быть потенциально подвергнуто анализу с такой степенью подробности, которая прежде была просто невозможна.
Непрерывно увеличивающийся в объеме массив данных все чаще рассматривается в качества своего рода ресурса, который, если за него взяться как следует, может стать источником ценной информации, причем не только сейчас, но и в будущем. Глядя на компании в добывающих отраслях (например, нефтегазовой), год за годом с успехом пользующихся плодами технического прогресса, легко представить, как, вооружившись возросшей вычислительной мощью компьютеров, а также усовершенствованным ПО и новыми методами анализа, корпорации во всех секторах экономики препарируют данные, извлекая из них знания, которые сразу превращаются в дополнительную прибыль. Более того, как раз вера инвесторов в то, что все так и будет, судя по всему, и является главным фактором, обуславливающим такую громадную рыночную стоимость компаний, работающих с большими объемами данных, т. е. таких, как Facebook.
Машинное обучение — метод, при котором компьютер перебирает данные и, по сути, пишет собственную программу на основе обнаруженных статистических закономерностей, — является одним из наиболее эффективных средств извлечения самой ценной информации. Как правило, процесс машинного обучения разбивается на два этапа: сначала алгоритм обучается на имеющихся данных, а затем применяется к новой информации для решения похожих задач. Самый очевидный пример использования машинного обучения на практике — фильтры спама в электронной почте. На этапе обучения алгоритм обрабатывает миллионы сообщений, заранее помеченных как спам или не спам. При этом никто не садится и не программирует систему напрямую так, чтобы она могла распознавать все мыслимые способы написания слова «виагра». Вместо этого программа учится самостоятельно распознавать нужную информацию. Результатом обучения является приложение, которое способно автоматически идентифицировать основной массив нежелательной почты и при этом постоянно совершенствоваться и адаптироваться по мере появления новых образцов спама. Алгоритмы машинного обучения, работающие на основе тех же самых принципов, используются и при подборе рекомендуемых книг на Amazon, фильмов — на Netflix и потенциальных партнеров — на Match.
Одним из самых впечатляющих примеров эффективности машинного обучения стал созданный Google онлайн-переводчик. Используемые в нем алгоритмы основаны на подходе, который можно назвать подходом Rosetta Stone и который предполагает анализ и сравнение миллионов страниц текста, который уже был переведен на различные языки. Разработчики Google начали с официальных документов Организации Объединенных Наций, а затем расширили круг исходных текстов, включив в него содержимое Всемирной паутины. Чтобы найти достаточное количество примеров для ненасытных алгоритмов самообучения, они использовали поисковую систему Google. Если судить по одному только количеству документов, использовавшихся в процессе обучения системы, то становится очевидно, что ничего подобного прежде не было. Специалист в области компьютерных вычислений Франц Ок, который руководил проектом, отметил, что его команда выстроила «очень-очень большие языковые модели, намного более масштабные, чем все, что было прежде за всю историю человечества».