Биг дейта это


Что такое Big Data (большие данные) в маркетинге: проблемы, алгоритмы, методы анализа

Большие данные (Big Data) — довольно распространенное понятие в IT и интернет-маркетинге. По сути, определение термина лежит на поверхности: «большие данные» означает управление и анализ очень больших объемов данных. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине больших объемов.

Содержание

Big Data — что это такое? Проблема Big Data История больших данных Big Data в маркетинге Вместо заключения

Big Data — что это такое?

Цифровые технологии присутствуют во всех областях жизни человека. Объем записываемых в мировые хранилища данных ежесекундно растет, а это означает, что такими же темпами должны изменяться условия хранения информации и появляться новые возможности для наращивания ее объема.

Эксперты в области IT высказывают мнение, что расширение Big Data и ускорение темпа роста стало объективной реальностью. Ежесекундно гигантские объемы контента генерируют такие источники, как социальные сети, информационные сайты, файлообменники — и это лишь сотая часть поставщиков.

Согласно исследованию IDC Digital Universe, в ближайшие пять лет объем данных на планете вырастет до 40 зеттабайтов, то есть к 2020 году на каждого живущего на Земле человека будет приходиться по 5200 Гб.

Рост Big Data к 2020 году, прогноз IDC Digital Universe от 2012 года Источник:www.emc.com.

Известно, что основной поток информации генерируют не люди. Источником служат роботы, находящиеся в постоянном взаимодействии друг с другом. Это приборы для мониторинга, сенсоры, системы наблюдения, операционные системы персональных устройств, смартфоны, интеллектуальные системы, датчики и прочее. Все они задают бешеный темп роста объема данных, что приводит к появлению потребности наращивать количество рабочих серверов (и реальных, и виртуальных) — как следствие, расширять и внедрять новые data-центры.

По сути, большие данные — довольно условное и относительное понятие. Самое распространенное его определение — это набор информации, по объему превосходящей жесткий диск одного персонального устройства и не поддающейся обработке классическими инструментами, применяемыми для меньших объемов.

Наглядная иллюстрация роста объемов с 1986 до 2007 годов. Источник: www.martinhilbert.net.

Технология Big Data — что это? Обобщенно говоря, технологию обработки больших данных можно свести к трем основным направлениям, решающим три типа задач:

  • Хранение и перевод поступаемой информации в гигабайты, терабайты и зеттабайты для их хранения, обработки и практического применения.
  • Структурирование разрозненного контента: текстов, фотографий, видео, аудио и всех иных видов данных.
  • Анализ Big Data и внедрение различных способов обработки неструктурированной информации, создание различных аналитических отчетов.

В сущности, применение Big Data подразумевает все направления работы с огромным объемом самой разрозненной информации, постоянно обновляемой и разбросанной по разным источникам. Цель предельна проста — максимальная эффективность работы, внедрение новых продуктов и рост конкурентоспособности.

  • 17 статистических данных, которые должен знать каждый маркетолог

Назад к содержанию

Проблема Big Data

Проблемы системы Big Data можно свести к трем основным группам: объем, скорость обработки, неструктурированность. Это три V — Volume, Velocity и Variety.

Хранение больших объемов информации требует специальных условий, и это вопрос пространства и возможностей. Скорость связана не только с возможным замедлением и «торможением», вызываемом старыми методами обработок, это еще и вопрос интерактивности: чем быстрее процесс, тем больше отдача, тем продуктивнее результат.

Проблема неоднородности и неструктурированности возникает по причине разрозненности источников, форматов и качества. Чтобы объединить данные и эффективно их обрабатывать, требуется не только работа по приведению их в пригодный для работы вид, но и определенные аналитические инструменты (системы).

Но это еще не все. Существует проблема предела «величины» данных. Ее трудно установить, а значит трудно предугадать, какие технологии и сколько финансовых вливаний потребуется для дальнейших разработок. Однако для конкретных объемов данных (терабайт, к примеру) уже применяются действующие инструменты обработки, которые к тому же и активно развиваются.

Существует проблема, связанная с отсутствием четких принципов работы с таким объемом данных. Неоднородность потоков только усугубляет ситуацию. Каким образом подходить к их применимости, чтобы вынести из них что-то ценное? Здесь требуется разработка такого направления, как новые методы анализа Big Data, чтобы этот поток стал полезным источником информации. Возможно, согласно утверждениям представителей университетов США (Нью-Йоркского, Вашингтонского и Калифорнийского), сегодня пришло время ввести и развивать новую дисциплину — науку о Big Data.

Собственно, это и является главной причиной отсрочки внедрения в компании проектов Big Data (если не брать во внимание еще один фактор — довольно высокую стоимость).

Подбор данных для обработки и алгоритм анализа может стать не меньшей проблемой, так как отсутствует понимание, какие данные следует собирать и хранить, а какие можно игнорировать. Становится очевидной еще одна «болевая точка» отрасли — нехватка профессиональных специалистов, которым можно было бы доверить глубинный анализ, создание отчетов для решения бизнес-задач и как следствие извлечение прибыли (возврат инвестиций) из Big Data.

Еще одна проблема Big Data носит этический характер. А именно: чем сбор данных (особенно без ведома пользователя) отличается от нарушения границ частной жизни? Так, информация, сохраняемая в поисковых системах Google и Яндекс, позволяет им постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные программы.

Поисковики записывают каждый клик пользователя в Интернете, им известен его IP-адрес, геолокация, интересы, онлайн-покупки, личные данные, почтовые сообщения и прочее, что, к примеру, позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в Интернете. При этом согласия на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Здесь можно затронуть дргую проблему — обеспечение безопасности хранения и использования данных. Например, сведения о возможных покупателях и их история переходов на сайтах интернет-магазинов однозначно применимы для решения многих бизнес-задач. Но безопасна ли аналитическая платформа, которой потребители в автоматическом режиме (просто потому, что зашли на сайт) передают свои данные, — это вызывает множество споров. Современную вирусную активность и хакерские атаки не сдерживают даже супер-защищенные серверы правительственных спецслужб.

Назад к содержанию

История больших данных

Сами по себе алгоритмы Big Data возникли при внедрении первых высокопроизводительных серверов (мэйнфреймов), обладающих достаточными ресурсами для оперативной обработки информации и пригодных для компьютерных вычислений и для дальнейшего анализа..

Сам термин Big Data впервые был озвучен в 2008 году на страницах спецвыпуска журнала Nature в статье главного редактора Клиффорда Линча. Этот номер издания был посвящен взрывному росту глобальных объемов данных и их роли в науке.

Специалисты утверждают, что большими данными допустимо называть любые потоки информации объемом более 100 Гб в сутки.

Однако в последние 2-3 года ученые отмечают, что термин Big Data стал лишком популяризирован, его употребляют практически везде, где упоминаются потоки данных, и как следствие он стал восприниматься слишком обобщенно и размыто. Виной тому не совсем сведущие журналисты и малоопытные предприниматели, которые попусту злоупотребляют данным понятием. По мнению западных экспертов, термин давно дискредитировал себя и пришло время от него отказаться.

Сегодня мировое сообщество вновь заговорило о больших данных. Причины — в неизменном росте объемов информации и отсутствии какой-либо структуры в ней. Предпринимателей и ученых волнуют вопросы качественной интерпретации данных, разработки инструментов для работы с ними и развитие технологий хранения. Этому способствует внедрение и активное использованию облачных моделей хранения и вычислений.

Назад к содержанию

Big Data в маркетинге

Информация – это главный аспект успешного прогнозирования роста и составления маркетинговой стратегии в умелых руках маркетолога. Анализ больших данных давно и успешно применяется для определения: целевой аудитории, интересов, спроса, активности потребителей. Таким образом, Big Data является точнейшим инструментом маркетолога для предсказания будущего компании.

К примеру, анализ больших данных позволяет выводить рекламу (на основе известной модели RTB-аукциона — Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

  • лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете;
  • оценивать уровень удовлетворенности клиентов;
  • понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям;
  • находить и внедрять новые способы, увеличивающие доверие клиентов;
  • создавать проекты, пользующиеся спросом.

Например, сервис Google.trends очень точно укажет маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Достаточно сопоставить эти сведения со статистическими данными собственного сайта и можно составить качественный план по распределению рекламного бюджета с указанием месяца и региона.

  • Эволюция маркетинговых данных

Вместо заключения

Сегодня, в пик высоких технологий и огромных потоков информации, у компаний появилось гораздо больше возможностей для достижения превосходных показателей в ведении бизнеса благодаря использованию Big Data.

Высоких вам конверсий!

Назад к содержанию

Image source: Ron Mader 

lpgenerator.ru

Что такое Big data: собрали всё самое важное о больших данных

Только ленивый не говорит о Big data, но что это такое и как это работает — понимает вряд ли. Начнём с самого простого — терминология. Говоря по-русски, Big data — это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные — это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Big data — простыми словами

В современном мире Big data — социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще — кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Фактически, Big data — это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  1. Data Mining;
  2. Краудсорсинг;
  3. Смешение и интеграция данных;
  4. Машинное обучение;
  5. Искусственные нейронные сети;
  6. Распознавание образов;
  7. Прогнозная аналитика;
  8. Имитационное моделирование;
  9. Пространственный анализ;
  10. Статистический анализ;
  11. Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных — базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  1. NoSQL;
  2. MapReduce;
  3. Hadoop;
  4. R;
  5. Аппаратные решения.

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V»:

  1. Volume — величина физического объёма.
  2. Velocity — скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety — возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни — от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента — забота о своих собственных деньгах.

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта (подробнее).

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день. 

Рынок Big data в России

В 2017 году мировой доход на рынке Big date должен достигнуть $150,8 млрд, что на 12,4% больше, чем в прошлом году. В мировом масштабе российский рынок услуг и технологий big data ещё очень мал. В 2014 году американская компания IDC оценивала его в $340 млн. В России технологию используют в банковской сфере, энергетике, логистике, государственном секторе, телекоме и промышленности.

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заёмщиках.

Обычно большие данные поступают из трёх источников:

  1. Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  2. Корпоративные архивы документов;
  3. Показания датчиков, приборов и других устройств.  

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

«Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

«Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

Big data в бизнесе

Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали. 

Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

Чтобы оптимизировать бизнес-процессы,«Сургутнефтегаз» воспользовался платформой данных и приложений «in-memory» под названием SAP HANA, которая помогает в ведение бизнеса в реальном времени. Платфторма автоматизирует учёт продукции, расчёт цен, обеспечивает сотрудников информацией и экономит аппаратные ресурсы. Как большие данные перевернули бизнес других предприятий — вы можете прочитать здесь.

Big data в маркетинге

Благодаря Big data маркетологи получили отличный инструмент, который не только помогает в работе, но и прогнозирует результаты. Например, с помощью анализа данных можно вывести рекламу только заинтересованной в продукте аудитории, основываясь на модели RTB-аукциона.

Big data позволяет маркетологам узнать своих потребителей и привлекать новую целевую аудиторию, оценить удовлетворённость клиентов, применять новые способы увеличения лояльности клиентов и реализовывать проекты, которые будут пользоваться спросом.

Сервис Google.Trends вам в помощь, если нужен прогноз сезонной активности спроса. Всё, что надо — сопоставить сведения с данными сайта и составить план распределения рекламного бюджета.

Биг дата изменит мир?

От технологий нам не спрятаться, не скрыться. Big data уже меняет мир, потихоньку просачиваясь в наши города, дома, квартиры и гаджеты. Как быстро технология захватит планету — сказать сложно. Одно понятно точно — держись моды или умри в отстое, как говорил Боб Келсо в сериале «Клиника». 

Источник: Rusebase

intalent.pro

Big Data и блокчейн — прорыв в области анализа данных

Постоянное ускорение роста объема данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – это лишь несколько видов источников, способных генерировать гигантские массивы данных.

В настоящее время термин Big Data (Большие данные) стал довольно распространенным. Далеко не все еще осознают то, насколько быстро и глубоко технологии обработки больших массивов данных меняют самые различные аспекты жизни общества. Перемены происходят в различных сферах, порождая новые проблемы и вызовы, в том числе и в сфере информационной безопасности, где на первом плане должны находиться такие важнейшие ее аспекты, как конфиденциальность, целостность, доступность и т. д.

К сожалению, многие современные компании прибегают к технологии Big Data, не создавая для этого надлежащей инфраструктуры, которая смогла бы обеспечить надежное хранение огромных массивов данных, которые они собирают и хранят. С другой стороны, в настоящее время стремительно развивается технология блокчейн, которая призвана решить эту и многие другие проблемы.

Что такое Big Data?

По сути, определение термина лежит на поверхности: «большие данные» означают управление очень большими объемами данных, а также их анализ. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине ее больших объемов.

Сам термин Big Data (большие данные) появился относительно недавно. Согласно данным сервиса Google Trends, активный рост популярности термина приходится на конец 2011 года:

В 2010 году уже стали появляться первые продукты и решения, непосредственно связанные с обработкой больших данных. К 2011 году большинство крупнейших IT-компаний, включая IBM, Oracle, Microsoft и Hewlett-Packard, активно используют термин Big Data в своих деловых стратегиях. Постепенно аналитики рынка информационных технологий начинают активные исследования данной концепции.

В настоящее время этот термин приобрел значительную популярность и активно используется в самых различных сферах. Однако нельзя с уверенностью сказать, что Big Data – это какое-то принципиально новое явление – напротив, большие источники данных существуют уже много лет. В маркетинге ими можно назвать базы данных по покупкам клиентов, кредитным историям, образу жизни и т. д. На протяжении многих лет аналитики использовали эти данные, чтобы помогать компаниям прогнозировать будущие потребности клиентов, оценивать риски, формировать потребительские предпочтения и т. д.

В настоящее время ситуация изменилась в двух аспектах:

— появились более сложные инструменты и методы для анализа и сопоставления различных наборов данных; — инструменты анализа дополнились множеством новых источников данных, что обусловлено повсеместным переходом на цифровые технологии, а также новыми методами сбора и измерения данных.

Исследователи прогнозируют, что технологии Big Data активнее всего будут использоваться в производстве, здравоохранении, торговле, госуправлении и в других самых различных сферах и отраслях.

Big Data – это не какой-либо определенный массив данных, а совокупность методов их обработки. Определяющей характеристикой для больших данных является не только их объем, но также и другие категории, характеризующие трудоемкие процессы обработки и анализа данных.

В качестве исходных данных для обработки могут выступать, например:

— логи поведения интернет-пользователей; — Интернет вещей; — социальные медиа; — метеорологические данные; — оцифрованные книги крупнейших библиотек; — GPS-сигналы из транспортных средств; — информация о транзакциях клиентов банков; — данные о местонахождении абонентов мобильных сетей;

— информация о покупках в крупных ритейл-сетях и т.д.

Со временем объемы данных и количество их источников непрерывно растет, а на этом фоне появляются новые и совершенствуются уже имеющиеся методы обработки информации.

Основные принципы Big Data:

— Горизонтальная масштабируемость – массивы данных могут быть огромными и это значит, что система обработки больших данных должна динамично расширяться при увеличении их объемов. — Отказоустойчивость – даже при сбое некоторых элементов оборудования, вся система должна оставаться работоспособной.

— Локальность данных. В больших распределенных системах данные обычно распределяются по значительному числу машин. Однако по мере возможности и в целях экономии ресурсов данные часто обрабатываются на том же сервере, что и хранятся.

Для стабильной работы всех трех принципов и, соответственно, высокой эффективности хранения и обработки больших данных необходимы новые прорывные технологии, такие как, например, блокчейн.

Для чего нужны большие данные?

Сфера применения Big Data постоянно расширяется:

— Большие данные можно использовать в медицине. Так, устанавливать диагноз пациенту можно не только опираясь на данные анализа истории болезни, но также принимая во внимание опыт других врачей, сведения об экологической ситуации района проживания больного и многие другие факторы. — Технологии Big Data могут использоваться для организации движения беспилотного транспорта. — Обрабатывая большие массивы данных можно распознавать лица на фото- и видеоматериалах. — Технологии Big Data могут быть использованы ритейлерами – торговые компании могут активно использовать массивы данных из социальных сетей для эффективной настройки своих рекламных кампаний, которые могут быть максимально ориентированы под тот или иной потребительский сегмент. — Данная технология активно используется при организации предвыборных кампаний, в том числе для анализа политических предпочтений в обществе.

— Использование технологий Big Data актуально для решений класса гарантирования доходов (RA), которые включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно выявить вероятные потери, либо искажения информации, способные привести к снижению финансовых результатов.

— Телекоммуникационные провайдеры могут агрегировать большие данные, в том числе о геолокации; в свою очередь эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков.

— Большие данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей.

Таким образом наиболее очевидное практическое применение технологии Big Data лежит в сфере маркетинга. Благодаря развитию интернета и распространению всевозможных коммуникационных устройств поведенческие данные (такие как число звонков, покупательские привычки и покупки) становятся доступными в режиме реального времени.

Технологии больших данных могут также эффективно использоваться в финансах, для социологических исследований и во многих других сферах. Эксперты утверждают, что все эти возможности использования больших данных являются лишь видимой частью айсберга, поскольку в гораздо больших объемах эти технологии используются в разведке и контрразведке, в военном деле, а также во всем том, что принято называть информационными войнами.

В общих чертах последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов, а также последующего формулирования рекомендаций к действию.

Рассмотрим вкратце возможности использования технологий Big Data в маркетинге. Как известно, для маркетолога информация – главный инструмент для прогнозирования и составления стратегии. Анализ больших данных давно и успешно применяется для определения целевой аудитории, интересов, спроса и активности потребителей. Анализ больших данных, в частности, позволяет выводить рекламу (на основе модели RTB-аукциона — Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

— лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете; — оценивать степень удовлетворенности клиентов; — понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям; — находить и внедрять новые способы, увеличивающие доверие клиентов;

— создавать проекты, пользующиеся спросом и т. д.

Например, сервис Google.trends может указать маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Если сопоставить эти сведения со статистическими данными, собираемыми соответствующим плагином на собственном сайте, то можно составить план по распределению рекламного бюджета с указанием месяца, региона и других параметров.

По мнению многих исследователей, именно в сегментации и использовании Big Data заключается успех предвыборной кампании Трампа. Команда будущего президента США смогла правильно разделить аудиторию, понять ее желания и показывать именно тот месседж, который избиратели хотят видеть и слышать. Так, по мнению Ирины Белышевой из компании Data-Centric Alliance, победа Трампа во многом стала возможной благодаря нестандартному подходу к интернет-маркетингу, в основу которого легли Big Data, психолого-поведенческий анализ и персонализированная реклама.

Политтехнологи и маркетологи Трампа использовали специально разработанную математическую модель, которая позволила глубоко проанализировать данные всех избирателей США систематизировать их, сделав сверхточный таргетинг не только по географическим признаками, но также и по намерениям, интересам избирателей, их психотипу, поведенческим характеристикам и т. д. После этого маркетологи организовали персонализированную коммуникацию с каждой из групп граждан на основе их потребностей, настроений, политических взглядов, психологических особенностей и даже цвета кожи, используя практически для каждого отдельного избирателя свой месседж.

Что касается Хиллари Клинтон, то она в своей кампании использовала «проверенные временем» методы, основанные на социологических данных и стандартном маркетинге, разделив электорат лишь на формально гомогенные группы (мужчины, женщины, афроамериканцы, латиноамериканцы, бедные, богатые и т. д.).

В результате выиграл тот, кто по достоинству оценил потенциал новых технологий и методов анализа. Примечательно, что расходы на предвыборную кампанию Хиллари Клинтон были в два раза больше, чем у ее оппонента:

Данные: Pew Research

Основные проблемы использования Big Data

Помимо высокой стоимости, одним из главных факторов, тормозящих внедрение Big Data в различные сферы, является проблема выбора обрабатываемых данных: то есть определения того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Еще одна проблема Big Data носит этический характер. Другими словами возникает закономерный вопрос: можно ли подобный сбор данных (особенно без ведома пользователя) считать нарушением границ частной жизни?

Не секрет, что информация, сохраняемая в поисковых системах Google и Яндекс, позволяет IT-гигантам постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные приложения. Для этого поисковики собирают пользовательские данные об активности пользователей в интернете, IP-адреса, данные о геолокации, интересах и онлайн-покупках, личные данные, почтовые сообщения и т. д. Все это позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в интернете. При этом обычно согласия пользователей на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Из этого вытекает следующая важная проблема, касающаяся обеспечения безопасности хранения и использования данных. Например, безопасна ли та или иная аналитическая платформа, которой потребители в автоматическом режиме передают свои данные? Кроме того, многие представители бизнеса отмечают дефицит высококвалифицированных аналитиков и маркетологов, способных эффективно оперировать большими объемами данных и решать с их помощью конкретные бизнес-задачи.

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа, ритейл, телеком, банковский сектор и сервисные компании.

Перспективы взаимодействия технологий блокчейн и Big Data

Интеграция технологии распределенного реестра с Big Data несет в себе синергетический эффект и открывает бизнесу широкий спектр новых возможностей, в том числе позволяя:

— получать доступ к детализированной информации о потребительских предпочтениях, на основе которых можно выстраивать подробные аналитические профили для конкретных поставщиков, товаров и компонентов продукта; — интегрировать подробные данные о транзакциях и статистике потребления определенных групп товаров различными категориями пользователей; — получать подробные аналитические данные о цепях поставок и потребления, контролировать потери продукции при транспортировке (например, потери веса вследствие усыхания и испарения некоторых видов товаров);

— противодействовать фальсификациям продукции, повысить эффективность борьбы с отмыванием денег и мошенничеством и т. д.

Доступ к подробным данным об использовании и потреблении товаров в значительной мере раскроет потенциал технологии Big Data для оптимизации ключевых бизнес-процессов, снизит регуляторные риски, раскроет новые возможности монетизации и создания продукции, которая будет максимально соответствовать актуальным потребительским предпочтениям.

Как известно, к технологии блокчейн уже проявляют значительный интерес представители крупнейших финансовых институтов, включая Citibank, Nasdaq, Visa и т. д. По мнению Оливера Буссманна, IT-менеджера швейцарского финансового холдинга UBS, технология блокчейн способна «сократить время обработки транзакций от нескольких дней до нескольких минут».

Потенциал анализа финансовой информации из блокчейна при помощи технологии Big Data огромен. Технология распределенного реестра обеспечивает целостность информации, а также надежное и прозрачное хранение всей истории транзакций. Big Data, в свою очередь, предоставляет новые инструменты для эффективного анализа, прогнозирования, экономического моделирования и, соответственно, открывает новые возможности для принятия более взвешенных управленческих решений.

Тандем блокчейна и Big Data можно успешно использовать в здравоохранении. Как известно, несовершенные и неполные данные о здоровье пациента в разы увеличивают риск постановки неверного диагноза и неправильно назначенного лечения. Критически важные данные о здоровье клиентов медучреждений должны быть максимально защищенными, обладать свойствами неизменности, быть проверяемыми и не должны быть подвержены каким-либо манипуляциям.

Информация в блокчейне соответствует всем перечисленным требованиям и может служить в роли качественных и надежных исходных данных для глубокого анализа при помощи новых технологий Big Data. Помимо этого, при помощи блокчейна медицинские учреждения смогли бы обмениваться достоверными данными со страховыми компаниями, органами правосудия, работодателями, научными учреждениями и другими организациями, нуждающимися в медицинской информации.

Big Data и информационная безопасность

В широком понимании, информационная безопасность представляет собой защищенность информации и поддерживающей инфраструктуры от случайных или преднамеренных негативных воздействий естественного или искусственного характера.

В области информационной безопасности Big Data сталкивается со следующими вызовами:

— проблемы защиты данных и обеспечения их целостности; — риск постороннего вмешательства и утечки конфиденциальной информации; — ненадлежащее хранение конфиденциальной информации; — риск потери информации, например, вследствие чьих-либо злонамеренных действий;

— риск нецелевого использования персональных данных третьими лицами и т. д.

Одна из главных проблем больших данных, которую призван решить блокчейн, лежит в сфере информационной безопасности. Обеспечивая соблюдение всех основных ее принципов, технология распределенного реестра может гарантировать целостность и достоверность данных, а благодаря отсутствию единой точки отказа, блокчейн делает стабильной работу информационных систем. Технология распределенного реестра может помочь решить проблему доверия к данным, а также предоставить возможность универсального обмена ими.

Информация – ценный актив, а это значит, что на первом плане должен стоять вопрос обеспечения основных аспектов информационной безопасности. Для того, чтобы выстоять в конкурентной борьбе, компании должны идти в ногу со временем, а это значит, что им нельзя игнорировать те потенциальные возможности и преимущества, которые заключают в себе технология блокчейн и инструменты Big Data.

Александр Кондратюк

Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

forklog.com

Мир big data в 8 терминах

Мировой объем оцифрованной информации растет по экспоненте. По данным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2015 года глобальное количество данных превысило 6,5 зеттабайта. К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации.

Сможем ли мы совладать с ней? По расчетам IBS, в 2013 году только 1,5% накопленных массивов данных имело информационную ценность. К счастью, мир спасут технологии обработки больших данных. Они позволят людям объять необъятное и получить из этого пользу. Каким образом — читайте дальше.

Big data (большие данные) — огромные объемы неоднородной и быстро поступающей цифровой информации, которые невозможно обработать традиционными инструментами.

В русскоязычной среде под большими данными подразумевают также технологии их обработки. В мировой практике большими данными называют только объект анализа.

Данных много, а пользы нет? Только проверенные компании, которые специализируются на Big DataТермин big data родился в 2008 году. Редактор журнала Nature Клиффорд Линч употребил это выражение в спецвыпуске, посвященном взрывному росту мировых объемов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории big data относится большинство потоков данных свыше 100 Гб в день.

Анализ больших данных позволяет увидеть скрытые закономерности, незаметные ограниченному человеческому восприятию. Это дает беспрецедентные возможности оптимизации всех сфер нашей жизни: государственного управления, медицины, телекоммуникаций, финансов, транспорта, производства и так далее.

В последние годы big data фактически перестали быть термином. Журналисты и предприниматели сильно злоупотребляли им, и значение размылось. Российские специалисты до сих пор спорят о том, входят ли в понятие big data инструменты работы с ними. Западные эксперты считают этот термин окончательно дискредитированным и предлагают от него отказаться.

Data lake (озеро данных) — хранилище больших данных в необработанном виде.

«Озера» хранят данные из разных источников и разных форматов. Это обходится значительно дешевле традиционных хранилищ, в которые помещаются только структурированные данные. Data lake позволяют анализировать большие данные в исходном виде. К тому же пользоваться «озерами» могут сразу несколько сотрудников.

Data science (наука о данных) — дисциплина, изучающая проблемы анализа, обработки и представления информации в цифровой форме.

Датой возникновения термина считают 1974 год, когда датский информатик Петер Наур издал книгу «A Basic Principle of Data Science».

С начала 2010-х годов наука о данных перестала быть чисто академической дисциплиной. Под влиянием популяризации больших данных data science оказалась перспективным бизнесом. Тогда же профессия data scientist стала одной из самых востребованных и высокооплачиваемых в мире.

В понятие data science входят все методы обработки оцифрованной информации и проектирования баз данных. Некоторые специалисты считают термин data science наиболее адекватной заменой big data в смысле сферы деятельности и рыночной ниши.

Data mining (добыча информации) — интеллектуальный анализ данных с целью выявления закономерностей.

Израильский математик Григорий Пятецкий-Шапиро ввел этот термин в 1989 году.

Датамайнингом называют как технологии, так и процесс обнаружения в сырых данных ранее неизвестных и практически полезных знаний. Методы data mining находятся на стыке баз данных, статистики и искусственного интеллекта.

Machine learning (машинное обучение) — теория и практика разработки самообучающихся программ, большая область искусственного интеллекта.

Machine learning — большая область искусственного интеллекта. Программисты учат свои алгоритмы выявлять общие закономерности по частным случаям. В результате компьютер принимает решения исходя из собственного опыта, а не команд человека. Многие методы такого обучения относятся к датамайнингу.

Первое определение машинному обучению дал в 1959 году американский информатик Артур Самуэль. Он написал игру в шашки с элементами искусственного интеллекта — одну из первых самообучающихся программ в мире.

Deep learning (глубокое обучение) — вид машинного обучения, создающий более сложные и более самостоятельные обучающиеся программы.

При обычном машинном обучении компьютер извлекает знания через управляемый опыт: программист дает алгоритму примеры и вручную исправляет ошибки. А при deep learning система сама проектирует свои функции, делает многоуровневые вычисления и выводы об окружающем мире.

Глубокое обучение применяют к нейронным сетям. Сферы применения этой технологии — обработка изображений, распознавание речи, нейромашинный перевод, вычислительная фармацевтика и другие прорывные технологии, внедряемые IT-гигантами вроде Google, Facebook и Baidu. Глубокое обучение стало одной из самых востребованных областей информационных технологий.

Доподлинно неизвестно, кто впервые применил термин к нейронным сетям. Deep learning стало популярным в 2007 году, когда канадский ученый Джеффри Хинтон создал алгоритмы глубокого обучения многослойных нейронных сетей.

В общем, выходит как-то так:

Искусственная нейронная сеть — система соединенных простых процессоров (искусственных нейронов), имитирующая нервную систему человека.

Благодаря такой структуре нейронные сети не программируются, а обучаются. Как и настоящие нейроны, процессоры просто принимают сигналы и передают их своим собратьям. Но вся сеть способна выполнять сложные задачи, с которыми не справляются традиционные алгоритмы.

Понятие искусственных нейронных сетей ввели американские ученые Уоррен Маккалок и Уолтер Питтс в 1943 году. Сегодня нейросети используют для распознавания образов, классификации, прогнозирования, нейросетевого сжатия данных и других практических задач.

Business intelligence (бизнес-аналитика) — поиск оптимальных бизнес-решений с помощью обработки большого объема неструктурированных данных.

Эффективный business intelligence анализирует внешние и внутренние данные — как рыночную информацию, так и отчетность компании-клиента. Это дает полную картину бизнеса и позволяет принимать как операционные, так и стратегические решения (выбрать как цену продукта, так и приоритеты развития компании).

Термин появился в 1958 году в статье исследователя из IBM Ханса Питера Луна. В 1996 году аналитическое агентство Gartner, которое специализируется на изучении IT-рынка, включило в состав business intelligence методику датамайнинга.

Если у вас другое восприятие этих терминов, ругайтесь в комментариях :)

Материалы по теме:

Яндекс разработал нейросети, которые помогут врачам ставить диагнозы

Ученые смогут прочитать мысли птицы с помощью алгоритма нейронной сети

Американская разведка назвала российскую нейронную сеть по распознаванию лиц лучшей в мире

Пользователь Reddit выпустил нейросеть для замены лиц актеров в порно

Как устроены искусственные нейронные сети: видео

Фото на обложке предоставлено сайтом Shutterstock.

rb.ru

Три заблуждения о big data

По определению Gartner, big data — информационные ресурсы, которые имеют большой объем (volume), растут высокими темпами (velocity), поступают из различных источников в разных форматах (variety) и требуют экономически эффективных инновационных способов обработки информации для расширения понимания, упрощения принятия решений и автоматизации технологических процессов.

Термин неразрывно связан с «data mining» — под которым подразумеваются технологии анализа этих данных, в том числе с помощью машинных алгоритмов.

«Big data — это массивы данных с неочевидными связями (скрытыми ассоциациями), а также механизмы упорядочивания, взаимодействия и работы с ними. „Data mining“, примерно можно перевести как поиск полезной информации в базах данных. Цель big data — вывести из многообразия данных понятные человеческому сознанию и эффективные в долгосрочной перспективе результаты» — объясняет Иван Андриевский, первый вице-президент Российского союза инженеров.

«Big data — это маркетинговый „bullshit“, отсюда и столько разных правильных и не очень правильных определений. Здесь важно понимать что Big Data — это „манок“, популярный термин, за которым скрываются бизнес-интересы. Более профессиональные термины, с которыми работают исследователи, — это „data mining“, „data management“» — говорит Иван Бегтин, директор АНО «Информационная культура». Разберемся подробнее, что же подразумевается под термином «big data», и какие представления о нем эксперты считают ошибочными.

Размер имеет решающее значение

Иван Андриевский, первый вице-президент Российского союза инженеров: 

«Мифы вокруг big data в основном складываются вокруг дословного перевода термина — „большие данные“. Размер данных при работе с big data не имеет значения, имеет значение только степень несопоставимости исходной информации. В тот момент, когда данные не могут быть классифицированы в „обычной“ таблице и проанализированы — они становятся big data».

Есть определенный объем данных с которого данные становятся «big»

Дмитрий Волошин, соучредитель и технический директор Preply:

«Самые популярные мифы и заблуждения связаны напрямую с самим термином: раз big data — значит, конечно же, речь идет о больших объемах информации.Насколько больших? В интернете нельзя найти однозначный ответ на этот вопрос — только множество глупостей. Начиная от объемов 100 ГБ и далее насколько простирается фантазия. 

На самом деле термин big data в первую очередь связан не с объемами, а со способами обработки и анализа данных для выявления скрытых в них зависимостей. Другое дело, что обычно эти инструменты и технологии применяются действительно на больших объемах, отсюда и происхождение названия». 

Большие данные — простой способ решить все проблемы

Ирина Яхина, руководитель подразделения технологических решений Hitachi Data Systems:

«Мода на big data появилась несколько лет назад: термин понравился экспертам и журналистам, а представители бизнеса увидели в этом своего рода новую игрушку — шанс быстро внедрить сложное решение, быстро снизить операционные расходы, особо не вникая в специфику этой инновации. Однако шума вокруг Больших данных оказалось больше, чем путей их реального применения. 

Извлечение из big data практической пользы для бизнеса оказалось сложнее, чем предполагалось ранее. Для того, чтобы big data вызвали прилив спроса со стороны бизнеса, необходимо, пожалуй, только одно: появление на рынке грамотных аналитиков, умеющих извлекать из данных практическую пользу. Такой специалист должен разбираться в специфике работы компании и, вместе с тем, уметь работать с big data, понимать, какую информацию и по каким критериям нужно извлечь, чтобы оптимизировать работу предприятия и открыть новые возможности его развития».

Владимир Левин, основатель сервиса удаленного администрирования Slamon:

«Ситуация с big data очень напоминает ситуацию, как описывали слона три слепца. И все они были по-своему правы. Можно сказать только одно, что big data не является чем-то абсолютно новым или „таблеткой“ от всех проблем. Сами по себе подходы и технологии, которые причисляют к big data, не решают ровным счетом ничего. Всему этому нужны головы: одни должны уметь все это собрать и сделать удобным инструментом, другие должны научиться этим пользоваться. При этом, если вы покупаете железку или софт от именитого производителя с буквами big data — это ничего не значит.

Далее предстоит долгий путь от понимания целей и задач (а зачем мы это купили и что мы хотим получить в результате) через подключение источников информации, формирование аналитических отчетов, обучение людей к сформулированной цели и запланированным результатам. Скорее всего, с первого раза вы не попадете в цель. Поэтому нужно быть готовым двигаться к этой цели небольшими шагами и последовательными итерациями».

Валерий Кашин, CEO и Co-founder Auditorius:

«Надо понимать, что big data сами по себе не несут никакой пользы, пока мы не умеем с ними работать и находить инсайты. Когда говорят о ценности big data, то на самом деле речь идет о ценности data science, так как сами по себе данные — это массив сырой, необработанной и практически бесполезной информации.

По сути, большие данные как отдельная опция несут, скорее, расходы: плата за сбор, хранение и т.д. Только найдя закономерности с помощью использования различных алгоритмов, мы можем получить пользу, приобрести выгоды и сделать наши данные по-настоящему полезными для бизнеса». 

Артем Засурский, генеральный директор компании «Стрим»:

«Вначале всем показалось, что безграничный объем данных укажет путь к бизнес успеху. Наконец-то, технологии хранения и обработки больших массивов данных стали доступны. Как сговорившись, все консультанты и вендоры начали предлагать решения в ключе: „Как big data поможет вашему бизнесу“. На рынке труда среди аналитиков и математиков стало модно называться „дата учеными“ — это позволяло в два раза повысить требования к окладу при прочих равных.

В действительности же легкомысленное представление о том, что стоит собрать и загрузить данные в единое пространство, как станет ясно, как же их использовать для достижения целей, оказалось мифом и мало кто сейчас уже в это верит. Не случайно Gartner в августе 2015 года исключил Big Data из числа прорывных технологий и удалил ее с графика Hype Cycle. Существует масса примеров, как анализ больших данных приводит к неправильным бизнес решениям — потому что умение интерпретировать пока сильно отстает от умения собирать и хранить.

Другая проблема — это огромные массивы бесполезных данных. Big data без аналитического прочтения становится большим собранием книг, которые в этой виртуальной библиотеке никто не открывает. Как научиться „читать“ большие данные и делать из них выводы, а не просто красивые презентации, предстоит осваивать, и не факт, что у всех это получится. Big data — лишь набор инструментов, которые надо уметь использовать для строительства успешного бизнеса. При этом такой подход становится необходимым и недостаточным условием для выживания бизнеса в современной конкурентной среде.

Чрезмерное увлечение big data и надежда, что ее использование решит все проблемы, нередко больше вредят, чем помогают бизнесу».

Больше, выше, умнее: профессия «Веб-разработчик».

geekbrains.ru

Big Data: большие возможности или большой обман

Мы в 1cloud часто рассказываем о технологиях, например, недавно мы писали о машинном обучении и all-flash-массивах хранения данных. Сегодня мы решили поговорить о Big Data. Чаще всего основным определением больших данных считают известные «3V» (Volume, Velocity и Variety), которые ввел аналитик Gartner Дуг Лейни (Doug Laney) в 2001 году. При этом иногда самым важным считают именно объем данных, что отчасти обусловлено самим названием. Поэтому многие задумываются только о том, данные какого размера можно считать большими. В этой статье мы решили выяснить, что на самом деле важно в больших данных помимо размера, как они появились, почему их критикуют и в каких сферах они успешно применяются.

/ Flickr / Joe Hall / CC-BY

Если говорить про размер Big Data, то, например, Дэвид Кантер (David Kanter), президент Real World Technologies, считает, что большими данные можно назвать, если они не помещаются в памяти сервера и весят больше 3 терабайт. Однако официальное определение Gartner намного объемнее и включает не только характеристики объема, скорости и разнообразия форматов. Большие данные определяются и как информационные ресурсы, которые требуют экономически эффективных и инновационных методов обработки для более глубокого понимания, принятия продуманных решений и автоматизации технологических процессов.

Поэтому аналитик Gartner Светлана Сикьюлар (Svetlana Sicular) призывает принимать во внимание все определение в целом, а не зацикливаться только на части с тремя “V”. Кстати, со временем число этих “V” выросло, и сегодня к характеристикам больших данных также относят Veracity, Validity, Volatility и Variability (достоверность, срок действия, волатильность и изменчивость).

Но история больших данных начинается гораздо раньше. По версии одного из авторов Forbes, отправной точкой можно считать 1944 год, когда американский библиотекарь Фремонт Райдер (Fremont Rider) опубликовал свою работу The Scholar and the Future of the Research Library. Там он отметил, что фонды университетских библиотек в Америке увеличиваются в размерах в два раза каждые 16 лет и к 2040 библиотека Йельского университета будет содержать около 200 миллионов книг, для хранения которых понадобится почти 10 километров полок.

Согласно другому мнению, осознание проблемы слишком большого количества данных пришло раньше, еще в 1880 году в той же Америке, когда обработка информации и представление данных переписи населения в таблице заняло 8 лет. При этом по прогнозам обработка данных переписи 1890 года заняла бы еще больше времени, и результаты не были бы готовы даже до проведения новой переписи. Тогда проблему решила табулирующая машина, изобретенная Германом Холлеритом (Herman Hollerith) в 1881 году.

Сам термин Big Data был впервые (по данным электронной библиотеки Association for Computing Machinery) введен в 1997 году Майклом Коксом (Michael Cox) и Дэвидом Эллсвортом (David Ellsworth) на 8-й конференции IEEE по визуализации. Они назвали проблемой больших данных нехватку емкости основной памяти, локального и удаленного диска для выполнения виртуализации. А в 1998 году руководитель исследовательских работ в SGI Джон Мэши (John R. Mashey) на конференции USENIX использовал термин Big Data в его современном виде.

И хотя проблема хранения большого объема данных осознавалась давно и усилилась после появления интернета, переломным моментом стал 2003 год, за который было создано информации больше чем за все предыдущее время. Примерно в это же время выходит публикация Google File System о вычислительной концепции MapReduce, которая легла в основу Hadoop. Над этим инструментом в течении нескольких лет работал Дуг Каттинг (Doug Cutting) в рамках проекта Nutch, а в 2006 году Каттинг присоединился к Yahoo и Hadoop стал отдельным полноценным решением.

Можно сказать, что большие данные сделали возможным создание поисковых систем в том виде, в котором они существуют сейчас. Подробнее об этом можно почитать в статье Роберта Кринджли (Robert X. Cringely) или ее переводе на Хабре. Тогда большие данные действительно перевернули индустрию, позволив быстро выполнять поиск нужных страниц. Еще одна важная точка в истории Big Data — 2008 год, когда в журнале Nature большим данным дали современное определение как набору специальных методов и инструментов для обработки огромных объемов информации и представления её в виде, понятном пользователю.

В современном восприятии и понимании больших данных существует большая проблема — в связи с ростом популярности технологии она представляется панацеей и решением, которое должна внедрять любая уважающая себя компания. Кроме того, для многих людей большие данные являются синонимом Hadoop, а это наводит некоторые компании на мысль, что если обрабатывать данные с помощью этого инструмента, то они сразу становятся большими.

На самом деле выбор инструмента зависит не столько от размера данных (хотя и это может быть важно), сколько от конкретной задачи. При этом правильная постановка задачи может показать, что совсем необязательно прибегать к помощи больших данных и что простой анализ может оказаться намного эффективнее по временным и денежным затратам. Поэтому многие эксперты «ругают» феномен Big Data за то внимание, которое он к себе привлекает, вынуждая многие компании идти на поводу трендов и применять технологии, которые нужны далеко не всем.

Еще одно ожидание связано с тем, что большие данные — ключ к абсолютно всем знаниям. Но дело в том, что для извлечения информации нужно уметь составлять правильные запросы. Эксперт в области больших данных Бернард Мар (Bernard Marr) считает, что большинство проектов по использованию Big Data оканчиваются неудачей именно из-за того, что компании не могут сформулировать точную цель. Сам сбор данных сегодня ничего не значит, их хранение стало дешевле, чем уничтожение.

Некоторые даже считают, что Big Data на самом деле можно назвать большой ошибкой или большим обманом. Шквал критики обрушился на большие данные после нашумевшего провала Google Flu Trends, когда проект пропустил эпидемию 2013 года и исказил информацию о ней на 140%. Тогда ученые из Северо-Восточного, Гарвардского и Хьюстонского университетов раскритиковали инструмент, выявив, что за последние два года работы анализ чаще показывал неправильные результаты. Одна из причин — изменение самого поискового инструмента Google, что привело к сбору разрозненных данных.

Часто в результате анализа больших данных выявляются связи между событиями, которые на самом деле не могли никак повлиять друг на друга. Число ложных корреляций увеличивается с количеством анализируемых данных, и слишком много данных бывает так же плохо, как и слишком мало. Это не значит, что большие данные не работают, просто помимо компьютерного анализа необходимо привлекать к работе ученых и специалистов в определенной узкой области знаний, которые смогут разобраться, какие именно данные и результаты анализа представляют практическую ценность и могут использоваться для предсказания чего-либо.

Определенные проблемы существуют почти в любой сфере: неполные данные или их недостаток, отсутствие единого стандарта записи, неточность имеющейся информации. Но несмотря на это уже сейчас есть много успешных проектов, которые действительно работают. О некоторых кейсах использования Big Data мы уже рассказывали в этой статье.

На сегодняшний день существует несколько крупных проектов, цель которых — сделать ситуацию на дорогах безопаснее. Например, Tennessee Highway Patrol совместно с IBM разработало решение прогнозирования аварийных ситуаций, которое использует данные о предыдущих авариях, арестах водителей, находящихся в алкогольном или наркотическом опьянении, и данных о событиях. А в штате Кентукки внедрили аналитическую систему, основанную на Hadoop, которая использует данные с датчиков дорожного движения, записи в социальных сетях и навигационного приложения Google Waze, что помогает местной администрации оптимизировать затраты на уборку снега и более рационально использовать средства против наледи.

Эксперты Deloitte Centre уверены, что уже к 2020 году большие данные полностью изменят сферу медицины: пациенты будут знать о своем здоровье практически все благодаря умным устройствам, собирающим различную информацию, и будут участвовать в выборе лучшего возможного лечения, а исследования, проводимые фармацевтическими компаниями, выйдут на совсем другой уровень. С помощью больших данных и машинного обучения можно создать обучающуюся систему здравоохранения, которая на основе данных электронных медицинских карт и результатов лечения сможет прогнозировать реакцию конкретного пациента на лучевую терапию.

Существует и успешный опыт применения больших данных в сфере HR. Например, компания Xerox смогла снизить текучесть кадров на 20%, благодаря Big Data. Анализ данных показал, что люди без опыта, с высокой активностью в социальных сетях и с большим творческим потенциалом остаются на одном месте работы значительно дольше. Такие кейсы дают повод экспертам считать, что большие данные могут применяться для создания бренда работодателя, отбора кандидатов, составления вопросов для собеседования, выявления талантливых способностей у работников и выбора сотрудников для продвижения.

Большие данные используются и в России, например, Яндекс запустил сервис для предсказания погоды, для которого используются данные с метеостанций, радаров и спутников. При этом в планах было даже использование показателей встроенных в смартфоны барометров для повышения точности прогнозов. Кроме того, большими данными занимаются многие банки и большая тройка операторов мобильной связи. Изначально они использовали решения только для внутренних целей, но теперь, например, Мегафон сотрудничает с правительством Москвы и РЖД. Подробнее о кейсе Вымпелком (Билайн) можно почитать на Хабре.

Многие компании осознавали потенциал обработки данных. Но настоящий переход к большим данным связан с тем, как вся эта информация может быть использована во благо для бизнеса. Рубен Сигала (Ruben Sigala), глава аналитического отдела Caesars Entertainment, в своем интервью McKinsey говорит о том, что основная сложность в работе с большими данными — подобрать правильный инструмент.

Несмотря на то, что осознание проблемы пришло давно, и инструменты существуют и совершенствуются на протяжении многих лет, поиск идеального решения сегодня продолжается и может быть связан также с поиском кадров, от которых в гораздо большей степени могут зависеть результаты анализа больших данных. P.S. О чем еще мы пишем в блоге IaaS-провайдера 1cloud:

habr.com


Смотрите также