19 августа 6 минут чтения #Технологии

Что такое big data: просто о сложном

Иллюстрация материала

Слышали фразу «Большой брат следит за тобой»? Это как раз про big data, или большие данные. Что это, чем полезно человечеству и как вообще работают большие данные — читаем и впечатляемся.

Слежка не случайно выбрана первой ассоциацией к большим данным. Дело в том, как эти данные собираются. А происходит это без нашего согласия, незаметно и, скорее всего, мы никак не сможем с этим бороться. Похоже на теорию заговора, правда? Не переживайте: вы не скроетесь от big data, но если поймете, как это работает, будет проще принять происходящее. Вот несколько примеров с участием больших данных в обычной жизни:

  • книжный магазин, в котором вы только что зарегистрировались или авторизовались через соцсеть, присылает рекомендации. Удивительно, но большая часть книг вас заинтересовала;
  • подходят к концу запасы стирального порошка, который вы покупаете в супермаркете у дома, и очень кстати в рассылке приходит скидочный купон на покупку месячного запаса этого порошка. В купоне соседки этого предложения нет, да и вообще нет порошка, так как она пользуется услугами химчистки;
  • появились дополнительные поезда в нужном направлении. А ведь несколько дней назад билетов не было, и новых поездов в расписании не предвиделось. Чудесные совпадения? Божественное провидение? Нет, big data.

Как работают большие данные

Кажется, еще не поздно дать определение этим удивительным явлениям. Итак, big data — это большие массивы несортированных данных, а также набор инструментов для их обработки. Под большими данными понимают информацию о процессах, явлениях и действиях. Эта информация накапливается, анализируется и позволяет делать вполне реалистичные выводы. И чем больше «учится» система, тем более правдоподобные у нее прогнозы.

Термин «большие данные» появился благодаря редактору журнала Nature Клиффорду Линчу в 2008 году.

Принципы работы big data легко понять на примере социального рейтинга, который работает в Китае. Все действия граждан тщательно собираются: когда просыпаются и засыпают, как добираются на работу, какие покупки делают офлайн и в интернете, есть ли у них постоянные партнеры, на что тратят деньги. Любая мелочь — еще один штрих к цифровому портрету человека. Когда соберется минимальный объем данных, начнется самое интересное — они начнут влиять на дальнейшую жизнь этого гражданина: дадут ли кредит или визу, пригласят ли на важное мероприятие, насколько легко будет снять жилье или арендовать велосипед в парке. На эти решения повлияют big data — собранные и тщательно обработанные данные.

Большие данные — это голосовые записи, изображения, видео и аудио, геолокация, машинные (автоматически генерируемые) данные, поисковые запросы и многое другое.

Получается, что идея из сериала «Черное зеркало» стала реальной в отдельно взятой стране. Возможно, что дальше этот проект распространится на другие государства.

Кто и как собирает большие данные

У обычного человека такой возможности нет — нужны огромные ресурсы. Зато эти ресурсы есть у бизнеса и правительственных организаций. Ошибкой будет думать, что большие данные вас не касаются. Если пользуетесь интернетом и мобильной связью, делаете покупки в торговых сетях и предъявляете их карты лояльности, даже просто путешествуете, большие данные о вас собираются на каждом шагу.

Big data появляются каждую милисекунду. Представьте, сколько запросов в поисковиках генерируют его пользователи. А еще же есть соцсети!

Big data называют неструктурированными данными. Это значит, что их нельзя взять и занести в обычную базу данных, где все хранится упорядоченно. Представьте квартиру, в которой только что праздновали день рождения маленького именинника. Остатки еды, посуды, фантиков, украшения на стенах, подарки, рисунки — примерно так выглядят big data. Полный хаос без намека на структуру. Проанализировать эту информацию привычными инструментами или невозможно, или слишком дорого. Обычные компьютеры отметаем, оставляем вычислительные ресурсы дата-центров. Именно здесь будут обработаны огромные массивы данных и найдены закономерности, которые помогут сделать правильные выводы.

Собирать, хранить и анализировать big data могут крупные компании и правительственные организации.

Как обрабатываются большие данные

Допустим, мы собрали много разнородной информации и придумали, где ее хранить. Что дальше? Существуют технологии, которые позволяют находить среди вороха данных нужную информацию. Сделать это нужно быстро, а результат должен быть максимально точным. Чем лучше это получается, тем успешнее бизнес, который эти данные собирает. По-прежнему нужны мощные вычислительные ресурсы и программные алгоритмы, которые строятся на принципах машинного обучения. Люди не работают с big data напрямую — это долго и дорого. Программа может зацепиться за один фрагмент (текст, движение, картинка, аудио и т. п. — абсолютно любые типы данных), затем за второй, третий и так далее. Она установит между ними взаимосвязь и спрогнозирует, какими будут следующие фрагменты.

Примеры big data в бизнесе

Как мы в обычной жизни сталкиваемся с большими данными, мы уже рассмотрели выше. Понятно, что за этим стоят крупные компании. А теперь ловите несколько кейсов, из которых понятно — big data полезны и нужны бизнесу намного больше, чем нам!

Банки используют big data, чтобы оптимизировать затраты и уменьшить риски. Они борются с мошенничеством, оценивают платежеспособность клиентов, управляют персоналом, прогнозируют загруженность касс, отделений и терминалов.

Производственные предприятия используют big data для оптимизации расхода материалов, формирования очереди на закупку сырья, прогнозирования скачков спроса и цены.

Маркетинговые компании прогнозируют успешность рекламных объявлений для конкретных пользователей и предлагают ту рекламу, которая их точно заинтересует и поможет решиться на покупку товара или заказ услуги.

Транспортные компании получают точные погодные прогнозы и оценивают риски простоев и задержек в пути, отслеживают состояние транспортных средств и принимаются за ремонт раньше, чем те выходят из строя. Логистические сервисы оптимизируют маршруты.

СМИ выбирают лучшее время для публикации новостей — тех, которые получат максимум внимания и отклика у читателей.

Образовательные учреждения благодаря сбору больших данных находят интересный и полезный обучающий контент. А учащиеся получают информацию в том виде — текстовом, видео, аудио, — в котором лучше ее усваивают. Так растет интерес к образованию и уровень вовлеченности в обучение.

Полиция предотвращает правонарушения в потенциально опасных районах (за счет увеличения числа патрульных) и на мероприятиях, где могут произойти столкновения. Снижается уровень преступности.

Инвесторы с помощью больших данных находят интересных и перспективных партнеров — компании и стартапы, которые принесут прибыль.

Где угодно big data используются для оптимизации затрат на энергоресурсы, логистику, привлечение новых клиентов, обслуживание и ремонт оборудования, сокращение убытков.

Big data  — это плохо или хорошо?

Точного ответа нет. Большие данные — всего лишь инструмент, и принесет он пользу или вред, зависит от того, в чьи руки он попадет. Вот несколько примеров, когда big data можно оценить по-разному.

Хорошо : поиск преступников на основе данных, полученных с камер видеонаблюдения. Система распознает лица и вычисляет людей, которые ранее участвовали в драках, кражах или более серьезных преступлениях. А еще это глобальная автоматизация в принятии решений — в этом заинтересованы крупные компании. Им проще находить подход к клиентам, рассчитывать потребность в сырье, прогнозировать объемы производства и многое другое.

Плохо: навязчивый сервис в любой сфере, отсутствие базовой анонимности. Допустим, раньше вы вели не очень правильный образ жизни, интересовались запрещенными веществами, совершали проступки. Большие данные сохранили эту информацию и сделали соответствующие выводы. Теперь вам не дают долгожданный кредит в банке, вы не можете стать, к примеру, донором. Это демотивирует и мешает человеку развиваться.

Нейтрально: реклама товаров. Часто она кажется навязчивой, но! Лучше получать те предложения, которые действительно интересны, чем те, которыми вы никогда не воспользуетесь. Согласитесь, правильнее показывать рекламу гоночного автомобиля бизнесмену из списка Forbes, а не школьной учительнице. Еще один условно нейтральный пример — тот же социальный рейтинг. С одной стороны, такой подход вызывает ужас и возмущение. Но если посмотреть под другим углом, все не так страшно. Общество становится более прозрачным, в нем начинает действовать несовершенная, но хоть какая-то система справедливости.

Как будет развиваться big data в будущем?

Очевидно, нам придется смириться, что мир живет по своим законам, на которые один отдельный человек не может повлиять. А так как big data находятся на пике развития, стоит ожидать, что они еще больше будут влиять на нашу жизнь и принятие решений. Избежать этого не удастся, а вот смириться, адаптироваться и начать получать выгоду — вполне.

Самое глубокое проникновение больших данных ожидается в тех сферах, где можно установить закономерности во внешних явлениях и поступках людей. Это продажи, медицина, наука, телеком, военное дело, транспорт, финансы. Чуть менее активно big data используются в обучении и государственном секторе.

Появляется больше представителей малого и среднего бизнеса, которым тоже интересны результаты работы с большими данными, соответственно, развивается сфера услуг, связанная со сбором информации и внедрением инструментов для работы с технологией. А еще растет потребность в специалистах, которые работают с big data. Возможно, такие люди очень скоро появятся и в вашем окружении!