Технология big data


Big Data - что такое системы больших данных? Развитие технологий Big Data

Под термином «большие данные» буквально понимают огромный объем хранящейся на каком-либо носителе информации. Причем данный объем настолько велик, что обрабатывать его с помощью привычных программных или аппаратных средств нецелесообразно, а в некоторых случаях и вовсе невозможно.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации, быстродействие ее обработки и разнообразие сведений, хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value, что обозначает ценность информации. То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Big Data на российском рынке наружной рекламы

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь  проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

К основным  методам анализа и обработки данных можно отнести следующие:

  1. Методы класса или глубинный анализ (Data Mining).

Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.

Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.

Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.

Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.

  1. Машинное обучение (искусственный интеллект).

Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.

В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

  • Искусственный интеллект и Deep Learning.

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.

  • Самообслуживание и снижение цен.

В 2017 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.

Все маркетинговые стратегии так или иначе основаны на манипулировании информацией и анализе уже имеющихся данных. Именно поэтому использование больших данных может предугадать и дать возможность скорректировать дальнейшее развитие компании.

Методы машинного обучения для бизнеса

К примеру, RTB-аукцион, созданный на основе больших данных, позволяет использовать рекламу более эффективно – определенный товар будет показываться только той группе пользователей, которая заинтересована в его приобретении.

Чем выгодно применение технологий больших данных в маркетинге и бизнесе?

  1. С их помощью можно гораздо быстрее создавать новые проекты, которые с большой вероятностью станут востребованными среди покупателей.
  2. Они помогают соотнести требования клиента с существующим или проектируемым сервисом и таким образом подкорректировать их.
  3. Методы больших данных позволяют оценить степень текущей удовлетворенности всех пользователей и каждого в отдельности.
  4. Повышение лояльности клиентов обеспечивается за счет методов обработки больших данных.
  5. Привлечение целевой аудитории в интернете становится более простым благодаря возможности контролировать огромные массивы данных.

Например, один из самых популярных сервисов для прогнозирования вероятной популярности того или иного продукта – Google.trends. Он широко используется маркетологами и аналитиками, позволяя им получить статистику использования данного продукта в прошлом и прогноз на будущий сезон. Это позволяет руководителям компаний более эффективно провести распределение рекламного бюджета, определить, в какую область лучше всего вложить деньги.

Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.

Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.

К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.

Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.

Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.

Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.

К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации. Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы.

По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.

Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.

Результаты внедрения технологий больших данных:

  • рост качества клиентского сервиса;
  • оптимизация интеграции в цепи поставок;
  • оптимизация планирования организации;
  • ускорение взаимодействия с клиентами;
  • повышение эффективности обработки запросов клиентов;
  • снижение затрат на сервис;
  • оптимизация обработки клиентских заявок.

Подойдет для первоначального изучения технологий обработки больших данных – легко и понятно вводит в курс дела. Дает понять, как обилие информации повлияло на повседневную жизнь и все ее сферы: науку, бизнес, медицину и т. д. Содержит многочисленные иллюстрации, поэтому воспринимается без особых усилий.

«Introduction to Data Mining», Панг-Нинг Тан, Майкл Стейнбах и Випин Кумар

Также полезная для новичков книга по Big Data, объясняющая работу с большими данными по принципу «от простого к сложному». Освещает многие немаловажные на начальном этапе моменты: подготовку к обработке, визуализацию, OLAP, а также некоторые методы анализа и классификации данных.

«Python Machine Learning», Себастьян Рашка

Практическое руководство по использованию больших данных и работе с ними с применением языка программирования Python. Подходит как студентам инженерных специальностей, так и специалистам, которые хотят углубить свои знания.

«Hadoop for Dummies», Дирк Дерус, Пол С. Зикопулос, Роман Б. Мельник

Hadoop – это проект, созданный специально для работы с распределенными программами, организующими выполнение действий на тысячах узлов одновременно. Знакомство с ним поможет более детально разобраться в практическом применении больших данных.

promdevelop.ru

Аналитический обзор рынка Big Data

«Big Data» — тема, которая активно обсуждается технологическими компаниями. Некоторые из них успели разочароваться в больших данных, другие — напротив, максимально используют их для бизнеса… Свежий аналитический обзор отечественного и мирового рынка «Big Data», подготовленный Московской Биржей совместно с аналитиками «IPOboard», показывает, какие тренды наиболее актуальны сейчас на рынке. Надеемся, информация будет интересной и полезной. Большие Данные, на сегодняшний момент, являются одним из ключевых драйверов развития информационных технологий. Это направление, относительно новое для российского бизнеса, получило широкое распространение в западных странах. Связано это с тем, что в эпоху информационных технологий, особенно после бума социальных сетей, по каждому пользователю интернета стало накапливаться значительное количество информации, что в конечном счете дало развитие направлению Big Data. Термин «Большие Данные» вызывает множество споров, многие полагают, что он означает лишь объем накопленной информации, но не стоит забывать и о технической стороне, данное направление включает в себя технологии хранения, вычисления, а также сервисные услуги. Следует отметить, что к данной сфере относится обработка именно большого объема информации, который затруднительно обрабатывать традиционными способами*. Ниже представлена сравнительная таблица традиционной и базы Больших Данных.

Сфера Больших Данных характеризуется следующими признаками:

Volume – объем, накопленная база данных представляет собой большой объем информации, который трудоемко обрабатывать и хранить традиционными способами, для них требуются новый подход и усовершенствованные инструменты.

Velocity – скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года), так и на скорость обработки данных, в последнее время стали более востребованы технологии обработки данных в реальном времени. Variety – многообразие, т.е. возможность одновременной обработки структурированной и неструктурированной разноформатной информации. Главное отличие структурированной информации – это то, что она может быть классифицирована. Примером такой информации может служить информация о клиентских транзакциях. Неструктурированная информация включает в себя видео, аудио файлы, свободный текст, информацию, поступающую из социальных сетей. На сегодняшний день 80% информации входит в группу неструктурированной. Данная информация нуждается в комплексном анализе, чтобы сделать ее полезной для дальнейшей обработки.

Veracity – достоверность данных, все большее значение пользователи стали придавать значимость достоверности имеющихся данных. Так, у интернет-компаний есть проблема по разделению действий, проводимых роботом и человеком на сайте компании, что приводит в конечном счете к затруднению анализа данных.

Value – ценность накопленной информации. Большие Данные должны быть полезны компании и приносить определенную ценность для нее. К примеру, помогать в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов. При соблюдении указанных выше 5 условий, накопленные объемы данных можно относить к числу больших.

Сферы применения Больших Данных

Сфера использования технологий Больших Данных обширна. Так, с помощью Больших Данных можно узнать о предпочтениях клиентов, об эффективности маркетинговых кампаний или провести анализ рисков. Ниже представлены результаты опроса IBM Institute, о направлениях использования Big Data в компаниях.

Как видно из диаграммы, большинство компаний используют Большие Данные в сфере клиентского сервиса, второе по популярности направление – операционная эффективность, в сфере управления рисками Большие Данные менее распространены на текущий момент. Следует также отметить, что Big Data являются одной из самых быстрорастущих сфер информационных технологий, согласно статистике, общий объем получаемых и хранимых данных удваивается каждые 1,2 года. За период с 2012 по 2014 год количество данных, ежемесячно передаваемых мобильными сетями, выросло на 81%. По оценкам Cisco, в 2014 году объем мобильного трафика составил 2,5 эксабайта (единица измерения количества информации, равная 10^18 стандартным байтам) в месяц, а уже в 2019 году он будет равен 24,3 эксабайтам. Таким образом, Большие Данные – это уже устоявшаяся сфера технологий, даже несмотря на относительно молодой ее возраст, получившая распространение во многих сферах бизнеса и играющая немаловажную роль в развитии компаний. Технологии, используемые для сбора и обработки Больших Данных, можно разделить на 3 группы:
  • Программное обеспечение;
  • Оборудование;
  • Сервисные услуги.
К наиболее распространенным подходам обработки данных (ПО) относятся:

SQL – язык структурированных запросов, позволяющий работать с базами данных. С помощью SQL можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных.

NoSQL – термин расшифровывается как Not Only SQL (не только SQL). Включает в себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при постоянно меняющейся структуре данных. Например, для сбора и хранения информации в социальных сетях. MapReduce – модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты* и более). В программном интерфейсе не данные передаются на обработку программе, а программа – данным. Таким образом запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами Map и Reduce. Map выбирает предварительные данные, Reduce агрегирует их. Hadoop – используется для реализации поисковых и контекстных механизмов высоконагруженных сайтов – Facebook, eBay, Amazon и др. Отличительной особенностью является то, что система защищена от выхода из строя любого из узлов кластера, так как каждый блок имеет, как минимум, одну копию данных на другом узле. SAP HANA – высокопроизводительная NewSQL платформа для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним отличительным признаком является то, что SAP HANA упрощает системный ландшафт, уменьшая затраты на поддержку аналитических систем. К технологическому оборудованию относят:
  • серверы;
  • инфраструктурное оборудование.
Серверы включают в себя хранилища данных. К инфраструктурному оборудованию относят средства ускорения платформ, источники бесперебойного питания, комплекты серверных консолей и др.

Сервисные услуги.

Сервисные услуги включают в себя услуги по построению архитектуры системы базы данных, обустройству и оптимизации инфраструктуры и обеспечению безопасности хранения данных. Программное обеспечение, оборудование, а также сервисные услуги вместе образуют комплексные платформы для хранения и анализа данных. Такие компании, как Microsoft, HP, EMC предлагают услуги по разработке, развертыванию решений Больших Данных и управления ими. Большие Данные получили широкое распространение во многих отраслях бизнеса. Их используют в здравоохранении, телекоммуникациях, торговле, логистике, в финансовых компаниях, а также в государственном управлении. Ниже представлено несколько примеров применения Больших Данных в некоторых из отраслей.

Розничная торговля

В базах данных розничных магазинов может быть накоплено множество информации о клиентах, системе управления запасами, поставками товарной продукции. Данная информация может быть полезна во всех сферах деятельности магазинов. Так, с помощью накопленной информации можно управлять поставками товара, его хранением и продажей. На основании накопленной информации можно прогнозировать спрос и поставки товара. Также система обработки и анализа данных может решить и другие проблемы ритейлера, например, оптимизировать затраты или подготовить отчетность.

Финансовые услуги

Большие Данные дают возможность проанализировать кредитоспособность заемщика, также они полезны для кредитного скоринга* и андеррайтинга**. Внедрение технологий Больших Данных позволит сократить время рассмотрения кредитных заявок. С помощью Больших Данных можно проанализировать операции конкретного клиента и предложить подходящие именно ему банковские услуги.

Телеком

В телекоммуникационной отрасли широкое распространение Большие Данных получили у сотовых операторов. Операторы сотовой связи наравне с финансовыми организациями имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации. Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента. Помимо использования Big Data в маркетинговых целях, технологии применяются для предотвращения мошеннических финансовых операций.

Горнодобывающая и нефтяная промышленности

Большие Данные используются как при добыче полезных ископаемых, так и при их переработке и сбыте. Предприятия могут на основании поступившей информации делать выводы об эффективности разработки месторождения, отслеживать график капитального ремонта и состояния оборудования, прогнозировать спрос на продукцию и цены. По данным опроса Tech Pro Research, наибольшее распространение Большие Данные получили в телекоммуникационной отрасли, а также в инжиниринге, ИТ, в финансовых и государственных предприятиях. По результатам данного опроса, менее популярны Большие Данные в образовании и здравоохранении. Результаты опроса представлены ниже:

На сегодняшний день Big Data активно внедряются в зарубежных компаниях. Такие компании, как Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca Cola, Starbucks и Netflix уже используют ресурсы Больших Данных. Сферы применения обработанной информации разнообразны и варьируются в зависимости от отрасли и задач, которые необходимо выполнить. Далее будут представлены примеры применения технологий Больших Данных на практике.

HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью Big Data компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США.

Антифрод* VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно.

Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и на 60% увеличил сумму денежных средств, защищенных от транзакций такого характера.

Procter & Gamble с помощью Больших Данных проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы Business Spheres, где можно просматривать информацию в реальном времени.

Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в прогнозировании деятельности компании.

Ритейлер офисных принадлежностей OfficeMax с помощью технологий Больших Данных анализируют поведение клиентов. Анализ Big Data позволил увеличить B2B выручку на 13%, уменьшить затраты на 400 000 долларов США в год.

По мнению Caterpillar, ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Больших Данных. Big Data позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах.

На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание.

Luxottica group является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Больших Данных компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате Big Data Luxottica group выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%.

С помощью Yandex Data Factory разработчики игры World of Tanks анализируют поведение игроков. Технологии Больших Данных позволили проанализировать поведение 100 тысяч игроков World of Tanks с использованием более 100 параметров (информация о покупках, играх, опыт и др.). В результате анализа был получен прогноз оттока пользователей. Данная информация позволяет уменьшить уход пользователей и работать с участниками игры адресно. Разработанная модель оказалась на 20-30% эффективнее стандартных инструментов анализа игровой индустрии.

Министерство труда Германии использует Большие Данные в работе, связанной с анализом поступающих заявок на выдачу пособий по безработице. Так, проанализировав информацию, стало понятно, что 20% пособий выплачивалось незаслуженно. С помощью Big Data министерство труда сократило расходы на 10 млрд евро.

Детская больница Торонто внедрила проект Project Artemis. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Система ежесекундно отслеживает 1260 показателей состояния каждого ребенка. Project Artemis позволяет прогнозировать нестабильное состояние ребенка и начать профилактику заболеваний у детей.

В 2014 г. Большие Данные, по мнению Data Collective, стали одними из приоритетных направлений инвестирования в сфере венчурной индустрии. Согласно данным информационного портала Компьютерра, связано это с тем, что разработки из данного направления начали приносить значительные результаты для их пользователей. За прошедший год количество компаний с реализованными проектами в сфере управления большими данными увеличилось на 125%, объем рынка вырос на 45% по сравнению с 2013 годом.

Большую часть выручки рынка Big Data, по мнению Wikibon, в 2014 году составили сервисные услуги, их доля была равно 40% в общем объеме выручки (см. диаграмму ниже):

Если рассматривать Big Data за 2014 год по подтипам, то рынок будет выглядеть следующим образом:

Согласно данным Wikibon, приложения и аналитика составляет 36% выручки Big Data в 2014 году принесли приложения и аналитика Больших Данных, 17% — вычислительное оборудование и 15% — технологии хранения данных. Меньше всего выручки было сгенерировано NoSQL технологиями, инфраструктурным оборудованием и обеспечением сетью компаний (корпоративные сети). Наибольшей популярностью пользуются такие технологии Big Data, как in-memory платформы компаний SAP, HANA, Oracle и др. Результаты опроса T-Systems показали, что их выбрали 30% опрошенных компаний. Вторыми по популярности стали NoSQL платформы (18% пользователей), также компании использовали аналитические платформы компаний Splunk и Dell, их выбрало 15% компаний. Наименее полезными для решения проблем Больших Данных, по результатам опроса оказались продукты Hadoop/MapReduce.

По данным опроса Accenture, в более чем 50% компаниях, использующих технологии Больших Данных, затраты на Big Data составляют от 21% до 30%. Согласно следующими анализу Accenture, 76% компаний, считают, что данные расходы увеличатся в 2015 году, а 24% компаний не изменят своего бюджета на технологии Больших Данных. Это говорит о том, что в данных компаниях Big Data стали уже устоявшимся направлением ИТ, ставшим неотъемлемой частью развития компании.

Результаты опроса Economist Intelligence Unit survey подтверждают положительный эффект от внедрения Big Data. 46% компаний заявляют, что с помощью технологий Больших Данных они улучшили клиентский сервис более, чем на 10%, 33% компаний оптимизировали запасы и улучшили продуктивность основных активов, 32% компаний улучшили процессы планирования.

На сегодняшний день технологии Больших Данных чаще всего внедряются в компаниях США, но уже сейчас и другие страны мира начали проявлять интерес. В 2014 году, по данным IDC, на страны Европы, Ближнего Востока, Азии (за исключением Японии) и Африки пришлось 45% рынка ПО, услуг и оборудования в сфере Big Data. Также, согласно опросу CIO, компании из стран Азиатско-Тихоокеанского региона быстрыми темпами осваивают новые решения в области анализа Больших Данных, безопасного хранения и облачных технологий. Латинская Америка находится на втором месте по количеству инвестиций в развитие технологий Больших Данных, опережая страны Европы и США. Далее будет представлено описание и прогнозы развития рынка Больших Данных нескольких стран.

Китай

Объем информации Китая составляет 909 эксабайт, что равно 10% общего объема информации в мире, к 2020 году объем информации достигнет 8060 эксабайт, увеличится и доля информации в общемировой статистике, через 5 лет она будет равна 18%. Потенциальный рост Big Data Китая имеет одну из самых быстрорастущих динамик.

Бразилия

Бразилия по итогам 2014 года накопила информации на 212 эксабайт, что составляет 3% от общемирового объема. К 2020 году объем информации вырастет до 1600 эксабайт, что составит 4% информации всего мира.

Индия

По данным EMC, объем накопленных данных Индии по итогам 2014 года составляет 326 эксабайт, что составляет 5% от общего объема информации. К 2020 году объем информации вырастет до 2800 эксабайт, что составит 6% информации всего мира.

Япония

Объем накопленных данных Японии по итогам 2014 года составляет 495 эксабайт, что составляет 8% от общего объема информации. К 2020 году объем информации вырастет до 2200 эксабайт, но уменьшится доля рынка Японии и составит 5% об общего объема информации всего мира. Таким образом, объем рынка Японии уменьшится на более, чем 30%.

Германия

По данным EMC, объем накопленных данных в Германии по итогам 2014 года составляет 230 эксабайт, что составляет 4% от общего объема информации в мире. К 2020 году объем информации вырастет до 1100 эксабайт и составит 2%. На рынке Германии большую долю выручки, по прогнозам Experton Group, будет генерировать сегмент сервисных услуг, доля которых в 2015 году составит 54%, а в 2019 году увеличится до 59%, доли программного обеспечения и оборудования, наоборот, уменьшатся.

В целом, объем рынка вырастет с 1, 345 млрд евро в 2015 году до 3,198 млрд евро в 2019 году, средний темп роста составит 24%. Таким образом, на основании аналитики CIO и EMC, можно сделать вывод о том, что развивающиеся страны мира в ближайшие годы станут рынками активного развития технологий Больших Данных. По мнению IDG Enterprise, в 2015 расходы компаний на сферу Больших Данных составят в среднем 7,4 млн долл. США на компанию, крупные компании намерены потратить примерно 13,8 млн долл. США, малые и средние – 1,6 млн долл. США. Больше всего будет инвестировано в такие области, как анализ и визуализация данных и их сбор. Согласно текущим тенденциям и спросу на рынке, инвестиции в 2015 году будут использованы на улучшение качества данных, совершенствование планирования и прогнозирования, а также на увеличение скорости обработки данных. Компаниями финансового сектора, по данным Bain Company’s Insights Analysis, будут произведены значительные инвестиции, так в 2015 году планируется потратить 6,4 млрд долл. США на технологии Big Data, средний темп роста инвестиций составит 22% до 2020 года. Интернет-компании планируют потратить 2,8 млрд долл. США, средний темп роста увеличения затрат на Большие Данные составит 26%. При проведении опроса Economist Intelligence Unit survey, были выявлены приоритетные направления развития Big Data в 2014 году и в ближайшие 3 года, распределение ответов выглядит следующим образом:

По прогнозам IDC тенденции развития рынка выглядят следующим образом:
  • В следующие 5 лет затраты на облачные решения в сфере технологий Больших Данных будут расти в 3 раза быстрее, чем затраты на локальные решения. Станут востребованными гибридные платформы для хранения данных.
  • Рост приложений с использованием сложной и прогнозной аналитики, включая машинное обучение, ускорится в 2015 году, рынок таких приложений будет расти на 65% быстрее, чем приложения, не использующие прогнозную аналитику.
  • Медиа аналитика утроится в 2015 году и станет ключевым драйвером роста рынка технологий Больших Данных.
  • Ускорится тенденция внедрения решений для анализа постоянного потока информации, которая применима для интернета вещей.
  • К 2018 году 50% пользователей будут взаимодействовать с сервисами, основанными на когнитивном вычислении.
Эксперты IDC, выделили 3 драйвера рынка Больших Данных 2015 года:
  • Массовые поглощения клиентской базы компаний, предлагающих мобильные приложения и другие дата-платформы;
  • Развитие облачной инфраструктуры;
  • Изменения в законах о конфиденциальности данных.
  • Кроме этого также стоит выделить:
  • Повышенный интерес на обработку медиа-материалов, относящимися ранее к неструктурированной информации;
  • Рост популярности обучающих курсов в сфере Big Data;
  • Инвестиции в визуализацию данных и активное storytelling аналитиками данных;
  • Постоянные инвестиции в Big Data веб-гигантами, такими как Google, Amazon, Facebook и др.
  • Среди ограничителей рынка Big Data выделяют:
  • Все еще высокая стоимость внедрения технологий Big Data;
  • Необходимость обеспечение защиты данных и их конфиденциальности;
  • Нехватка квалифицированных кадров;
  • Недоверие компаний к данным технологиям;
  • Недостаточный объем накопленной информации;
  • Поддержка базы данных требует постоянного финансирования, что создает дополнительный барьер на внедрение Big Data;
  • Сложность интеграции с существующими системами;
  • Ограниченное число поставщиков данных.
Согласно опросу Accenture, вопросы безопасности данных являются сейчас главным барьером на пути внедрения технологий Больших Данных, более 51% респондентов подтвердили, что беспокоятся за обеспечение защиты данных и их конфиденциальности. 47% компаний сообщили, о невозможности внедрения Big Data в связи с ограниченным бюджетом, 41% компаний в качестве проблемы указали нехватку квалифицированных кадров.

Wikibon прогнозирует, что объем рынка Big Data вырастет в 2015 году до 38,4 млрд долл. США и увеличится по сравнению с предыдущим годом на 36%. В ближайшие годы будет наблюдаться спад темпов роста до 10% в 2017 году. С учетом данных прогнозов, объем рынка в 2020 году будет равен 68,7 млрд долл. США.

Распределение общемирового рынка Больших Данных по бизнес-категориям будет выглядеть следующим образом:

Как видно из диаграммы, большую часть рынка будет занимать технологии из сферы улучшения клиентского сервиса. Точечный маркетинг будет на втором месте по приоритетности у компаний вплоть до 2019 года, в 2020 году, по прогнозу Heavy Reading, он уступит место решениям по улучшению операционной эффективности. Самый высокий темп роста также будет у сегмента «улучшение клиентского сервиса», прирост — 49% ежегодно. Прогноз рынка по подтипам Big Data будет выглядеть следующим образом:

Преобладающую долю рынка, как видно из диаграммы, занимают профессиональные услуги, самый высокий темп рост будет у приложений с аналитикой, их доля вырастет с нынешних 12% до 18% в 2020 году и объем данного сегмента будет равен 12,3 млрд долл. США, доля вычислительного оборудования, наоборот, упадет с 20% до 14% и составит порядка 9,3 млрд долл. США в 2020 году, рынок облачных технологий будет постепенно увеличиваться и в 2020 году достигнет 6,3 млрд долл. США, доля рынка решений для хранения данных, наоборот, уменьшится с 15% в 2014 году до 13% в 2020 году и в денежном выражении будет равна 8,9 млрд долл. США. Согласно прогнозу Bain & Company’s Insights Analysis, распределение рынка Big Data по отраслям в 2020 году будет выглядеть следующим образом:
  • Финансовая отрасль будет осуществлять затраты на Big Data в размере 6,4 млрд долл. США со средним темпом роста 22% в год;
  • Интернет-компании потратят 2,8 млрд долл. США и средний темп роста затрат составит 26% за следующие 5 лет;
  • Затраты госсектора будут соразмерны затратам интернет-компаний, но темп роста будет ниже – 22%;
  • Сектор телекоммуникаций будет расти со средним темпом роста 40% и достигнет 1,2 млрд долл. США в 2020 году;
Энергетические компании будут инвестировать в данные технологии сравнительно небольшую сумму — 800 млн долл. США, но темп роста будет одним из самых высоких – 54% ежегодно. Таким образом, большую долю рынка Big Data в 2020 году займут компании финансовой отрасли, а самым быстрорастущим сектором будет энергетика. Следуя прогнозам аналитиков, общий объем рынка в ближайшие годы будет увеличиваться. Рост рынка будет обеспечен за счет внедрения технологий Больших Данных в развивающихся странах мира, как видно из представленного ниже графика.

Прогнозируемый объем рынка будет зависеть от того, как развивающиеся страны воспримут технологии Больших Данных, будет ли они также популярны как в развитых странах. В 2014 году развивающиеся страны мира занимали 40% от объема накопленной информации. По прогнозу EMC, нынешняя структура рынка, с преобладанием развитых стран, изменится уже в 2017 году. Согласно аналитике EMC, в 2020 году доля развивающихся стран будет более 60%. По мнению Cisco и EMC, развивающиеся страны мира будут достаточно активно работать с Big Data, во многом это будет связано с доступностью технологий и накоплением достаточного объема информации до уровня Big Data. На карте мира, представленной на следующей странице, будет показан прогноз увеличения объема и темп роста Больших Данных по регионам.

Согласно результатам исследования CNews Analytics и Oracle, уровень зрелости российского рынка Big Data за последний год повысился. Респонденты, представляющие 108 крупных предприятий из разных отраслей, продемонстрировали более высокую степень осведомленности об этих технологиях, а также сложившееся понимание потенциала подобных решений для своего бизнеса.  По состоянию на 2014 год, по данным IDC, в России накоплено 155 эксабайт информации, что составляет всего лишь 1,8% мировых данных. Объем информации к 2020 году достигнет 980 эксабайт и займет 2,2%. Таким образом, средний темп роста объема информации составит 36% в год. Компания IDC оценивает рынок России в 340 млн долл. США, из них 100 млн долл. США – решения SAP, примерно 240 млн долл. США – аналогичные решения Oracle, IBM, SAS, Microsoft и др. Темп роста российского рынка Больших Данных составляет не менее, чем 50% в год. Прогнозируется сохранение позитивной динамики в этом секторе российского рынка ИТ, даже в условиях общей стагнации экономики. Это связано с тем, что бизнес по-прежнему предъявляет спрос на решения, позволяющие повысить эффективность работы, а также оптимизацию расходов, улучшение точности прогнозирования и минимизировать возможные риски компании. Основными провайдерами услуг в сфере Больших Данных на российском рынке являются:
  • Sap
  • Oracle
  • IBM
  • EMC
  • Microsoft
  • IBS
  • Cloudera
  • Hortonworks
  • Teradata.
По данным CNews, в России лишь 10% компаний начали использовать технологии Больших Данных, когда в мире доля таких компаний составляет порядка 30%. Готовность к проектам Big Data растет во многих отраслях экономики России — свидетельствует отчет СNews Analytics и Oracle. Более трети опрошенных компаний (37%) приступили к работе с технологиями Big Data, среди которых 20% уже используют такие решения, а 17% начинают экспериментировать с ними. Вторая треть респондентов в настоящий момент рассматривают такую возможность.

В России большей популярностью технологии Больших Данных пользуются в банковской сфере и телекоме, но они также востребованы в сфере добывающей промышленности, энергетике, ритейле, в логистических компаниях и госсекторе. Далее будут рассмотрены примеры применения Больших Данных в российских реалиях.

Телеком

Телеком-операторы имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации. Одной из сфер применения технологии Больших Данных является управление лояльностью абонентов. Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента. Помимо использования информации в маркетинговых целях, в телекоме технологии применяются для предотвращения мошеннических финансовых операций. Одним из ярких примеров данной отрасли является Вымпелком. Компания применяет Большие Данные для повышения качества обслуживания на уровне каждого абонента, составления отчетности, анализа данных для развития сети, борьбы со спамом и персонализации услуг.

Банки

Значительную долю пользователей Big Data занимают специалисты из финансовой отрасли. Одним из успешных опытов был проведен в Уральском банке реконструкции и развития, где информационную базу стали использовать для анализа клиентов, банк начал предлагать специализированные кредитные предложения, вклады и другие услуги. За год использования данных технологий розничный кредитный портфель компании вырос на 55%. В Альфа-Банке анализируют информацию из социальных сетей, обрабатывают заявки на получение кредита, анализируют поведение пользователей сайта компании. Сбербанк также приступил к обработке массива данных с целью сегментации клиентов, предотвращения мошеннических действий, перекрестных продаж и управления рисками. В дальнейшем планируется усовершенствовать сервис и анализировать действия клиентов в режиме реального времени. Всероссийский банк развития регионов анализирует поведение владельцев пластиковых карт. Это позволяет выявить нетипичные для конкретного клиента операции, тем самым повышается вероятность выявления воровства денежных средств с пластиковых карточек.

Розничная торговля

В России технологии Больших Данных были внедрены компаниями как онлайн, так и офлайн торговли. На сегодняшний день, по данным CNews Analytics, Big Data используют 20% ритейлеров. 75% специалистов розничной торговли считают Большие Данные необходимыми для развития конкурентоспособной стратегии продвижения компании. По статистике Hadoop после внедрения технологии Больших Данных прибыль в торговых организациях вырастает на 7-10%. Специалисты М.Видео говорят об улучшении логистического планирования после внедрения SAP HANA, также, в результате ее внедрения, подготовка годовой отчетности сократилась с 10 дней до 3, скорость ежедневной загрузки данных сократилась с 3 часов до 30 минут. Wikimart используют данные технологии для формирования рекомендаций посетителям сайта. Одним из первых офлайн-магазинов внедривших анализ Больших Данных в России, была «Лента». С помощью Big Data ритейл стал изучать информацию о покупателях из кассовых чеков. Ритейлер собирает информацию для составления поведенческих моделей, что дает возможность более обоснованно принимать решения на уровне операционной и коммерческой деятельности.

Нефтегазовая отрасль

В данной отрасли сфера применения Больших Данных достаточно широка. Технологии Больших Данных могут быть применены при добычи полезных ископаемых из недр. С их помощью можно анализировать сам процесс добычи и наиболее эффективные способы его извлечения, отслеживать процесс бурения, анализ качества сырья, а также обработку и сбыт конечной продукции. В России данными технологиями стали уже пользоваться Транснефть и Роснефть.

Государственные органы

В таких странах, как Германия, Австралия, Испания, Япония, Бразилия и Пакистан технологии Больших Данных используются для решения вопросов национального масштаба. Данные технологии помогают органам государственной власти более эффективно предоставлять услуги населению, оказывать адресную социальную поддержку. В России данные технологии стали осваивать такие государственные органы, как Пенсионный Фонд, Федеральная Налоговая Служба и Фонда обязательного медицинского страхования. Потенциал реализации проектов с использованием Big Data большой, данные технологии могли бы помочь в улучшении качества сервисов, и, как следствие, уровня жизни населения.

Логистика и транспорт

Big Data также могут быть использованы транспортными компаниями. С помощью технологий Больших Данных можно отслеживать парк автомобилей, учитывать расходы на топливо, проводить мониторинг заявок клиентов. РЖД внедрили технологии Big Data совместно с компанией SAP. Данные технологии помогли сократить срок подготовки отчетности в 43,5 раза (с 14,5 часов до 20 минут), повысить точность распределения затрат в 40 раз. Также Big Data были внедрены в процессы планирования и тарифного регулирования. Всего компаний используется более 300 систем на базе решений SAP, задействовано 4 дата-центра, а количество пользователей составило 220 000. Далее будет приведен список технологий используемых крупными российскими компаниями, с указанием функционала, который используется на данных предприятиях.

Драйверами развития технологий Больших Данных на российском рынке являются:
  • Повышенный интерес со стороны пользователей к возможностям Больших Данных, как к способу увеличения конкурентоспособности компании;
  • Развитие методов обработки медиа-файлов на общемировом уровне;
  • Перенос серверов, обрабатывающих персональную информацию на территорию России, согласно принятому закону о хранении и обработке персональных данных;
  • Осуществление отраслевого плана по импортозамещению программного обеспечения. Данный план включает в себя государственную поддержку отечественных производителей ПО, а также предоставление преференций отечественной ИТ-продукции при осуществлении закупок за государственный счет.
  • В новой экономической ситуации, когда курс доллара вырос практически в 2 раза, будет наблюдаться тренд по все большему использованию услуг российских провайдеров облачных услуг, нежели зарубежных.
  • Создание технопарков, способствующих развитию рынка информационных технологий, в том числе рынка Больших Данных;
  • Государственная программа по внедрению грид-систем, основой которым служат технологии Больших Данных.
Основными барьерами для развития Big Data на российском рынке являются:
  • Обеспечение безопасности и конфиденциальности данных;
  • Нехватка квалифицированных кадров;
  • Недостаточность накопленных информационных ресурсов до уровня Big Data в большинстве российских компаний;
  • Сложности внедрения новых технологий в устоявшиеся информационные системы компаний;
  • Высокая стоимость технологий Больших Данных, что приводит к ограниченному кругу предприятий, имеющих возможность внедрить данные технологии;
  • Политическая и экономическая неопределенность, приведшая к оттоку капитала и заморозке инвестиционных проектов на территории России;
  • Рост цен на импортную продукцию и всплеск инфляции, по мнению IDC, тормозят развитие всего рынка ИТ.
По состоянию на сегодняшний день, российский рынок Больших Данных не настолько популярен как в развитых странах. Большинство российских компаний проявляют интерес к нему, но воспользоваться их возможностями не решаются. Примеры крупных компаний, которые уже извлекли выгоду от использования технологий Больших Данных, расширяют осознание возможностей данных технологий. У аналитиков также достаточно оптимистичные прогнозы относительно российского рынка. IDC считает, что доля российского рынка за следующие 5 лет увеличится, в отличии от рынка Германии и Японии. К 2020 году объем Big Data России вырастет с нынешних 1,8% до 2,2% от общемирового объема данных. Количество информации вырастет, по данным EMC, с нынешних 155 эксабайт до 980 эксабайт в 2020 году. В настоящий момент в России продолжается накопление объема информации до уровня Больших Данных. Согласно опросу CNews Analytics, 44% опрошенных компаний работают с данными не более 100 терабайт* и лишь 13% работают с объемами выше 500 терабайт.

Тем не менее российский рынок, следуя мировым тенденциям, будет увеличиваться. По состоянию на 2014 год объем рынка компания IDC оценивает в 340 млн долл. США. Темп роста рынка за предыдущие годы составлял 50% в год, если он останется на прежнем уровне, то уже в 2018 году объем рынка достигнет 1,7 млрд долл. США. Доля российского рынка в мировом составит около 3%, увеличившись с нынешних 1,2%.

К наиболее восприимчивым отраслям к использованию Big Data в России относятся:
  • Ритейл и банки, для них прежде всего важен анализ клиентской базы, оценка эффекта маркетинговых кампаний;
  • Телеком – сегментация клиентской базы и монетизация трафика;
  • Госсектор – ведение отчетности, анализ заявок от населения и др.;
  • Нефтяные компании – мониторинг работ и планирование добычи и сбыта;
  • Энергетические компании – создание интеллектуальных электроэнергетических систем, оперативный мониторинг и прогнозирование.
В развитых странах Big Data получила широкое распространение в сферах здравоохранения, страховании, металлургии, интернет-компаниях и на производственных предприятиях, скорее всего в ближайшем будущем российские компании из данных сфер также оценят эффект внедрения Big Data и будут приспосабливать данные технологии в своих отраслях. В России также, как и в мире, в ближайшем будущем будет наблюдаться тренд на визуализацию данных, анализ медиа файлов и развитию интернета вещей. Несмотря на общую стагнацию экономики, в ближайшие годы аналитики прогнозируют дальнейший рост рынка Больших Данных, в первую очередь это связано с тем, что использование технологий Больших Данных дает конкурентное преимущество ее пользователям в части повышения операционной эффективности бизнеса, привлечения дополнительного потока клиентов, минимизации рисков и внедрения технологий прогнозирования данных. Таким образом, можно заключить, что сегмент Big Data в России находится на стадии формирования, но спрос на данные технологии с каждым годом увеличивается. По итогам 2014 года рынок Больших Данных характеризуется следующими параметрами:
  • объем рынка составил 28,5 млрд долл. США, увеличившись на 45% по сравнению с предыдущим годом;
  • большую часть выручки рынка Big Data составили сервисные услуги, их доля была равно 40% в общем объеме выручки;
  • 36% выручки принесли приложения и аналитика Больших Данных, 17% — вычислительное оборудование и 15% — технологии хранения данных;
  • наибольшей популярностью для решения проблем Больших Данных пользуются in-memory платформы таких компаний, как SAP, HANA и Oracle.
  • на 125% увеличилось количество компаний с реализованными проектами в сфере управления Большими Данными;
Прогноз рынка на следующие годы выглядит следующим образом:
  • в 2015 году объем рынка достигнет 38,4 млрд долл. США, в 2020 году – 68,7 млрд долл. США;
  • средний темп роста будет равен 16% ежегодно;
  • средние затраты компании на технологии Больших Данных составят 13,8 млн долл. США для крупных компаний и 1,6 млн долл. США для малого и среднего бизнеса;
  • технологии будут иметь наибольшую распространенность в сферах клиентского сервиса и точечного маркетинга;
  • в 2017 году изменится общемировая структура рынка в сторону преобладания компаний-пользователей из развивающихся стран.
Российский рынок Больших Данных находится на стадии формирования, результаты 2014 года выглядят следующим образом:
  • объем рынка достиг 340 млн долл. США;
  • средний темп роста рынка в предыдущие годы составил 50% ежегодно;
  • общий объем накопленной информации составил 155 эксабайт;
  • 10% российских компаний начали использовать технологии Больших Данных;
  • большей популярностью технологии Больших Данных пользовались в банковской сфере, телекоме, интернет-компаниях и ритейле.
Прогноз российского рынка на ближайшие годы выглядит следующим образом:
  • объем рынка России в 2015 году достигнет 500 млн долл. США, а в 2018 году – 1,7 млрд долл. США;
  • доля российского рынка в мировом составит около 3% в 2018 году;
  • количество накопленных данных в 2020 году составит 980 эксабайт;
  • объем данных вырастет до 2,2% от общемирового объема данных в 2020 году;
  • наибольшую популярность приобретут технологии визуализации данных, анализа медиа файлов и интернета вещей.
По результатам анализа можно сделать вывод о том, что рынок Big Data все еще находится на ранних стадиях развития, и в ближайшем будущем мы будем наблюдать его рост и расширение возможностей данных технологий.

Спасибо, что уделили время прочтению этой объемной работы, подписывайтесь на наш блог — обещаем много новых интересных публикаций!

habr.com

Big Data: сущность, применение, кейсы

Аналитика

Любое действие пользователя в интернете — давно не тайна за семью печатями. Вы можете отслеживать буквально всё — от онлайн-покупок до лайков — благодаря концепции Big Data. Результат — вы узнаёте больше о целевой аудитории и делаете персонализированные предложения. Точнее, всё делает за вас машина: и проанализирует, и даже оптимальное решение примет. Скажете, это фантастика? Конечно, механизм пока не так распространен, особенно в России, и не полностью отлажен, но первые шаги на пути к этому точно сделаны.  Если речь идет о больших данных, важно не то, сколько вы их собрали, а то, как вы их используете. Вообще Big Data — это универсальная методика. В этой статье мы рассмотрим её применение в маркетинге и продажах. Крупные транспортные компании, интернет-магазины, телеком-провайдеры, SaaS-сервисы, банки — одним словом, компании с большой клиентской базой собирают огромный объем информации. Это не только персональные данные (имя, email, телефон, пол, возраст, география), а также IP-адрес, время посещения сайта, количество визитов, запросы на сайте, история покупок и т.д. У каждой фирмы — своя специфика и свои уникальные данные, которые доступны только ей. Например, сервис такси «знает» каждый шаг и секунду, которую пользователь провел в поездке. Банковский онлайн-сервис — за что, когда и какой суммой расплачивался. Интернет-магазин — какие товары смотрел, положил в корзину или добавил в избранное и т.д. То есть это не только те данные, которые накапливает каждый бизнес в CRM-системе. Это всё, что компании может быть известно о клиентах, и это может измеряться терабайтами информации в отдельных случаях. Обычные базы не могут обрабатывать такие объемы. Хотя бы потому, что данные регулярно меняются и прибывают — вертикально (+ новый клиент) и горизонтально (+ дополнительная информация о клиенте). Кроме того, они разноплановые и неструктурированные, так как представлены в абсолютно разных источниках, например:
  • Блоги и соцсети;
  • Аудио- и видеофайлы;
  • Корпоративные базы данных;
  • Датчики, измерительные устройства и сенсорные сети.
Это и есть Big Data. Нечто более абстрактное, чем физические документы, поэтому и управлять ими человеку не под силу. На помощь приходят машинные алгоритмы. Откуда берутся большие данные? Во-первых, это ваш сайт и все точки захвата контактных данных. Во-вторых, счетчики и системы аналитики (Яндекс.Метрика, Google Analytics).  В-третьих, соцсети, форумы, блоги, мобильные приложения. Как обрабатываются большие данные? Вот основные решения рынка Big Data: - Системы управления базами данных (Sap, Oracle, Microsoft, IBM и другие), которые хранят и обрабатывают информацию, анализируют динамику показателей и предоставляют результаты в статистических отчетах; - Алгоритмы, которые анализируют Big Data и извлекают из них полезные данные (интересы, намерения, предпочтения потребителей). Они выстраивают прогнозные аналитические модели для подготовки маркетинговых кампаний и выявляют наиболее релевантные методы рекламы (например, Yandex Data Factory, CleverDATA); - Готовые сервисы, которые позволяют персонализировать рекламные кампании. К ним относятся:
  • Сервисы управления закупками RTB-рекламы, которые предсказывают действия целевых пользователей и таргетируют рекламу в онлайн-каналах (например, Segmento, RTB-Media);
  • Сервисы товарных рекомендаций, которые показывают на сайте товары, максимально интересные для конкретного пользователя (RetailRocket, 1С-Битрикс BigData);
  • Сервисы персонализации контента, которые показывают пользователям наиболее подходящие версии страниц ресурса (Personyze, Monoloop, Crosss);
  • Сервисы персонализации рассылок, которые отправляют таргетированные письма (например, Vero, Personyze);
Эти системы активно сотрудничают между собой, совершенствуются и обновляют функционал.  Практическая суть такого подхода — в минимизации вовлеченности человека в процесс принятия решения. На этом основана концепция Data Science (дословно — «наука о данных»). Согласно этой концепции, большими данными управляет статистическая модель. Она находит скрытые взаимосвязи в данных и максимально точно (благодаря объективности и широкой выборке данных) предсказывает поведение конкретного пользователя — купит ли он продукт, подпишется ли на рассылку, заинтересуется ли статьей. При этом происходит непрерывный процесс самообучения. То есть машина сама учится (принцип Machine Learning) в реальном времени и создает алгоритмы для оптимизации бизнес-процессов. Она самостоятельно определяет и подсказывает:
  • Что, где и когда предложить пользователю для максимальной вероятности конверсии;
  • Как увеличить кросс-продажи и дополнительные продажи;
  • Какие товары самые популярные и почему;
  • Как улучшить продукт / сервис под потребности ЦА.
В ритейле машины могут принимать следующие решения:
  • Где открыть следующий магазин;
  • Какие маркетинговые акции проводить;
  • Как прогнозировать продажи в будущем периоде;
  • Как выделить «ядро» аудитории;
  • Насколько повысить / снизить цены в следующем месяце;
  • Как оптимизировать маркетинговый бюджет;
  • Как определить клиентов, которые уйдут в будущем месяце.
В маркетинге это позволяет сегментировать целевую аудиторию, разрабатывать креативы и персональные предложения для каждого сегмента. К сожалению, на данный момент этот процесс автоматизирован лишь частично. Компания Target решила нестандартную задачу — таргетироваться на беременных женщин до того, как они будут вводить тематические запросы, поделятся новостью в соцсетях или другими способами расскажут об этом в интернете. Как это удалось? Помогли знания о покупательских привычках. А именно Target обнаружил в ходе исследования, что будущие мамы покупают много лосьона без запаха, хлопчатобумажных салфеток и махровых мочалок. Это знание дает шанс, что ваше объявление первое попадется такой женщине на глаза — а это большое преимущество перед другими рекламодателями. Возможно, это она купит детские товары у вас и в будущем станет лояльной клиенткой именно вашей компании. Российский сервис электронных книг Bookmate мало знал о реальных интересах своих пользователей. Они заходили в приложение, но предлагаемые книги их не интересовали. Ситуация улучшилась благодаря использованию информации из соцсетей. Просмотры рекомендаций выросли в 2,17 раза, а конверсия в платящих пользователей — в 1,4 раза. Авиакомпания British Airways вывела персонализацию на абсолютно новый уровень. В рамках программы Know Me она распознает лица клиентов с помощью сервиса Google Images. Персонал узнает пассажиров в терминалах аэропортов или на борту самолета и лично приветствует их по имени. Помимо этого, персональные данные пассажиров о предыдущих рейсах позволяют авиакомпании принести личные извинения тем, чем рейс в прошлом был задержан или чей багаж потерялся. Эта и другая информация о базе (например, предпочтения в еде) есть в доступе у бортпроводников British Airways на специальных рабочих планшетах. Цель — оптимизировать маркетинговые коммуникации для 3 интернет-магазинов косметики и средств ухода с ассортиментом более 500 товаров. Что для этого сделали специалисты «Нетологии»? Начали со сбора всех доступных данных о потребительском поведении клиентской базы — около 100 тысяч потребителей — из популярных ecommerce-систем Magento и Shopify.
  • Информация о покупках, корзинах, среднем чеке, времени заказов и т.д.;
  • Обратная связь подписчиков email-рассылки: данные об открытии писем и переходов по ссылкам из сервисов типа Mailchimp и Dotmailer, а также о последующей активности на сайте (просмотр карточек товаров, категорий, покупки после рассылки);
  • Активность повторных посещений постоянных клиентов по данным о просмотрах товаров до совершения покупки.
Из этих данных получили следующие показатели:
  • Оптимальный размер скидки;
  • Время жизни клиента и его общую ценность (LTV);
  • Вероятность повторных покупок.
Таким образом получился полноценный образ каждого клиента с уникальным набором предпочтений, привычек и особенностей. Клиент А. Покупает каждый месяц один и тот же шампунь для волос. Нет причин делать дополнительные акции на этот товар для этого клиента. Лучше предложить ему через месяц купить дополнительно кондиционер или маску того же бренда. Клиент B. Один раз купил туалетную воду и духи и после ничего не покупал. Однако просматривает рассылки от интернет-магазина и интересуется декоративной косметикой. Есть вероятность, что клиент В совершает покупки в другом месте. Предложение набора теней со скидкой может послужить решающим стимулом совершения покупки. На основе этой информации система сформировала сегменты для запуска кампаний через email и Facebook — за неделю получилось от 40 до 100 автоматизированных кампаний для каждого бренда. В ходе сбора данных исследователи выявили ряд триггеров. Например, некоторая группа пользователей просматривают почту по утрам, а вечером возвращаются домой и покупают увиденный товар. Есть смысл продублировать им товарное предложение вечером через дополнительный канал. Результат: удалось утроить повторные продажи, повысить open rate писем в среднем на 70%, а конверсия из получивших письмо — на 83%. У Яндекс.Такси есть уникальные данные обо всех поездках. На основе них можно маркетинговые коммуникации сделать более эмоциональными. Основная идея — по-дружески «общаться» с клиентами и ненавязчиво напоминать о себе. Реализовать её помогла персональная статистика в виде историй и характеров. Маркетологи Яндекс.Такси выяснили самые популярные места в городе и маршруты. Для этого подсчитали количество заказов к самым значимым местам: паркам, театрам, музеям, памятникам. Эти данные не такие персональные и никого не обижают, но показывают, чем живет город. Такие наблюдения позволили реализовать идею личного общения с аудиторией посредством медиафасадов. Дизайн оформили в виде дружеских сообщений в чате. Для каждого города — свои фразы. Компания как будто перекидывается с человеком фразой, которую поймет только он. Ему приятно, так как это внимание и участие, а Яндекс.Такси рассчитывает на повышение узнаваемости бренда в городе. При составлении текста использовали следующие приемы:
  • Городской сленг — местные слова, которые понимают все жители. Искали их в городских пабликах и форумах, а также уточняли у региональных менеджеров и краеведов. Например, в Казани загс называют «Чаша», набережную в Екатеринбурге — «Драма»;
  • Игра слов. Вот примеры:
3 090 человек, которые доехали до Мадрида на такси. А вы знаете толк в путешествиях! («Мадрид» — гостиница в Екатеринбурге). 958 человек, которые умчались к Юпитеру. Вы просто космос! («Юпитер» — название компании). Это был тестовый эксперимент, сейчас Яндекс разрабатывает более комплексную кампанию с привлечением разных онлайн- и офлайн-источников. По итогам 2017 года Яндекс.Такси хотели рассказать клиентам, сколько времени они провели вместе и поблагодарить за это — сколько поездок, минут ожидания и утренних заказов. Чтобы сделать это интересно, придумали вероятный сюжет для одной из миллиона поездок и сняли ролик на эту тему с цифрами из статистики. 764 миллиона минут ожидания — влюбленная пара прощается у такси. 56 миллионов утренних поездок за год — мама с дочкой едут на утренник. 122 тысячи поездок с животными. По результатам первой попытки выяснили, что ролики выглядят так, будто бренд хвастается большими числами. Чтобы точнее донести посыл «посмотрите, сколько времени в этом году мы провели вместе», статистику поменяли, чтобы сместить фокус на персонажей истории. Например, про минуты ожидания добавили время, сколько водитель по сюжету ролика ждет влюбленных: Сами по себе цифры ни о чём не говорят. Сложно понять, большая эта цифра или маленькая, и что ею хотели показать. Яндекс использовал данные не как самоцель, а как способ рассказать историю. Компания также придумала характеры для своих клиентов — «такситипы» — в зависимости от количества поездок, их длительности и минут ожидания. Механизм определения учитывал три этих характеристики, складывал из них образ клиента и относил к одной из категорий: Данные оценивались по тому городу, где человек сделал свыше 70% поездок. Алгоритм находил медиану по городу и относительно неё оценивал метрики — «много» или «мало» поездок, минут поездки и ожидания. Узнать свой «такситип» мог каждый пользователь, который совершил больше 4 поездок за год, в приложении по кнопке: Черная пума: ездил много, поездки короткие, редко выходил вовремя Дальновидный странник: ездил много, долго и выходил к автомобилю вовремя Черепашка-ниндзя: ездил мало, поездки короткие, редко выходил вовремя Прыткий спринтер: ездил много, поездки короткие, выходил вовремя Турбоциклон: ездил мало, поездки короткие, выходил к автомобилю вовремя Дзен-стайер: поездок мало, больше длинных, редко вовремя Здесь же можно посмотреть подробную статистику: 20% из тех, кто просматривал, заскринивали результаты и делились ими в соцсетях — это в два раза больше, чем предвещали прогнозы! Для водителей также показывали их личную статистику в приложении Таксометр. Здесь обошлись без метафор и историй, так как сами по себе данные показывают достижение. Картинку с ними можно сохранить и расшарить в соцсетях, что сделали 21% водителей. Эксперименты с большими данными продолжаются. Яндекс — одна из компаний-пионеров, которые не только обучают концепции Data Science, но и активно используют её в разработке собственных продуктов. Возьмем блоговую платформу Яндекс.Дзен. Она доступна в разных странах. Не нужно сортировать материал по темам и другим параметрам и настраивать показ на определенные категории пользователей. Каждый будет читать статьи, которые ему интересны и получать новую подборку похожих. Система просто предлагает то, что ему вероятнее всего понравится. Дело в том, что машинный интеллект направлен не на усреднение. Он не стремится создать ограниченное количество сегментов, так как его возможности позволяют предлагать персонализированный контент каждому из нескольких миллиардов пользователей. Или Яндекс.Радар — рейтинг популярных в России интернет-проектов. Его алгоритм формирует списки самых посещаемых в Рунете ресурсов по категориям (финансы, культура, медицина, образование и т.д.) Одно из отличий от привычных рейтингов вроде Liveinternet, топ Mail.ru и прочих – автоматический сбор данных. Зарубежным аналогом можно назвать alexa.com – это рейтинг наиболее посещаемых сайтов во всем мире и в разных странах по отдельности (выборки по странам платные и стоят денег). Автоматический сбор данных (через свои сервисы, такие как «Яндекс.Браузер» и др.) и статистические модели позволяют включать в список сайты, которые в других рейтингах не принимают участия. Даже в текущем виде это дает возможность в различных нишах выявлять лидеров и с помощью других сервисов моделировать их стратегии продвижения и источники трафика. Амбициозная цель Яндекса — создать и обучить такой инструмент, который бы с помощью внутренних алгоритмов сам находил целевую аудиторию по минимальному набору заданных человеком параметров и подбирал креативы для рекламных кампаний. Допустим, вы отбираете 5-10 пользователей — а машина находит тысячи похожих и настраивает на них таргетинг. Преимущество машинного интеллекта в том, что он учитывает факторы, которые даже опытный специалист может упустить из виду, не догадаться о них. И в заключение — рекомендации от директора по маркетингу Яндекса Андрея Себранта:
  • Научитесь отличать, какие решения лучше принимает человек, а какие —  машина, и не путайте два этих класса. Если с однотипными задачами (выбрать дизайн кнопки) алгоритмы справляются лучше, более творческие (сконструировать сайт с нуля) сможет только человек.
  • Обучайте не только людей, но и алгоритмы;
  • Учитывайте, что хотя алгоритмы великолепно отвечают на вопросы, но сами задавать вопросы не умеют. Хотя возможно, это тоже вопрос времени.
Кстати, вопрос о «противостоянии» человека и машинного интеллекта поднимается всё чаще. По этому поводу посмотрите баттл Андрей Себрант vs Антон Буланов (директор ИНВИТРО — крупнейшей частной медицинской компании).  Про сегментацию, маркетологов с топорами, прожигание бюджетов и появится ли в скором будущем кнопка «Приведите мне клиентов». Смотрится на одном дыхании. Метки: Аналитика, Технологии (2 голоса, в среднем: из 5)

Не уходи без подарка!

Возьми курс по настройке рекламной кампании в Яндекс.Директ

на него придет бесплатный вебинар и логин с паролем от инструмента Yagla

yagla.ru

Big Data: выдержка из 2000 страниц

В свое время я услышал термин “Big Data” от Германа Грефа (глава Сбербанка). Мол, они сейчас у себя активно работают над внедрением, потому что это поможет им сократить время работы с каждым клиентом.

Второй раз я столкнулся с этим понятием в интернет-магазине клиента, над которым мы работали и увеличивали ассортимент с пары тысяч до пары десятков тысяч товарных позиций.

Третий раз, когда увидел, что в Yandex требуется аналитик big data. Тогда я решил поглубже разобраться в этой теме и заодно написать статью, которая расскажет что это за термин такой, который будоражит умы ТОП-менеджеров и интернет-пространство.

VVV или VVVVV

Обычно любую свою статью я начинаю с пояснения что же это за термин такой. Эта статья не станет исключением.

Однако, это вызвано прежде всего не желанием показать какой я умный, а тем, что тема по-настоящему сложная и требует тщательного пояснения.

К примеру, Вы можете почитать что такое big data в Википедии, ничего не понять, а потом вернуться в эту статью, чтобы все таки разобраться в определении и применимости для бизнеса. Итак, начнём с описания, а потом к примерам для бизнеса.

Big data это большие данные. Удивительно, да? Реально, с английского это переводится как “большие данные”. Но это определение, можно сказать, для чайников.

Важно. Технология big data это подход/метод обработки большего числа данных для получения новой информации, которые тяжело обработать обычными способами.

Данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).

Сам термин появился относительно недавно. В 2008 году в научном журнале этот подход предсказывался как нечто необходимое для работы с большим объемом информации, которая увеличивается в геометрической прогрессии.

К примеру, ежегодно информация в интернете, которую нужно хранить, ну и само собой обрабатывать, увеличивается на 40%. Еще раз. +40% каждый год появляется в интернете новой информации.

Если распечатанные документы понятны и способы обработки их тоже понятны (перенести в электронный вид, сшить в одну папку, пронумеровать), то что делать с информацией, которая представлена в совершенно других “носителях” и других объёмах:

  • интернет-документы;
  • блоги и социальные сети;
  • аудио/видео источники;
  • измерительные устройства;

Есть характеристики, которые позволяют отнести информацию и данные именно к big data.

То есть не все данные могут быть пригодны для аналитики. В этих характеристиках как раз и заложено ключевое понятие биг дата. Все они умещаются в три V.

  1. Объем (от англ. volume). Данные измеряются в величине физического объема “документа”, подлежащего анализу;
  2. Скорость (от англ. velocity). Данные не стоят в своем развитии, а постоянно прирастают, именно поэтому и требуется их быстрая обработка для получения результатов;
  3. Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированным или структурированными частично.

Однако, периодически к VVV добавляют и четвертую V (veracity — достоверность/правдоподобность данных) и даже пятую V ( в некоторых вариантах это – viability — жизнеспособность, в других же это – value — ценность).

Где-то я видел даже 7V, которые характеризуют данные, относящиеся к биг дата. Но на мой взгляд это из серии Маркетинг микса 4P (где периодически добавляются P, хотя для понимания достаточно начальных 4-х).

Кому же это надо?

Встает логичный вопрос, как можно использовать информацию (если что, биг дата это сотни и тысячи терабайт)? Даже не так.

Вот есть информация. Так для чего придумали тогда биг дата? Какое применение у big data в маркетинге и в бизнесе?

  1. Обычные базы данных не могут хранить и обрабатывать (я сейчас говорю даже не про аналитику, а просто хранение и обработку) огромного количества информации.

    Биг дата же решает эту главную задачу. Успешно хранит и управляет информацией с большим объемом;

  2. Структурирует сведения, приходящие из различных источников (видео, изображений, аудио и текстовых документов), в один единый, понятный и удобоваримый вид;
  3. Формирование аналитики и создание точных прогнозов на основании структурированной и обработанной информации.

Это сложно. Если говорить просто, то любой маркетолог, который понимает, что если изучить большой объем информации (о Вас, Вашей компании, Ваших конкурентах, Вашей отрасли), то можно получить очень приличные результаты:

  • Полное понимание Вашей компании и Вашего бизнеса со стороны цифр;
  • Изучить своих конкурентов. А это, в свою очередь, даст возможность вырваться вперед за счет преобладания над ними;
  • Узнать новую информацию о своих клиентах.

И именно потому что технология big data дает следующие результаты, все с ней и носятся.

Пытаются прикрутить это дело в свою компанию, чтобы получить увеличение продаж и уменьшение издержек. А если конкретно, то:

  1. Увеличение кросс продаж и дополнительных продаж за счет лучшего знания предпочтений клиентов;
  2. Поиск популярных товаров и причин почему их покупают (и наоборот);
  3. Усовершенствование продукта или услуги;
  4. Улучшение уровня обслуживания;
  5. Повышение лояльности и клиентоориентированности;
  6. Предупреждение мошенничества (больше актуально для банковской сферы);
  7. Снижение лишних расходов.

Самый распространенный пример, который приводится во всех источниках – это, конечно ж, компания Apple, которая собирает данные о своих пользователях (телефон, часы, компьютер).

Именно из-за наличия эко-системы корпорация столько знает о своих пользователях и в дальнейшем использует это для получения прибыли.

Эти и другие примеры использования Вы можете прочитать в любой другой статье кроме этой.

Идём в будущее

Я же Вам расскажу о другом проекте. Вернее о человеке, который строит будущее, используя big data решения.

Это Илон Маск и его компания Tesla. Его главная мечта – сделать автомобили автономными, то есть Вы садитесь за руль, включаете автопилот от Москвы до Владивостока и… засыпаете, потому что Вам совершенно не нужно управлять автомобилем, ведь он все сделает сам.

Казалось бы, фантастика? Но нет! Просто Илон поступил гораздо мудрее, чем Google, которые управляют автомобилями с помощью десятков спутников. И пошел другим путем:

  1. В каждый продаваемый автомобиль ставится компьютер, который собирают всю информацию.

    Всю – это значит вообще всю. О водителе, стиле его вождения, дорогах вокруг, движении других автомобилей. Объем таких данных доходит до 20-30 ГБ в час;

  2. Далее эта информация по спутниковой связи передается в центральный компьютер, который занимается обработкой этих данных;
  3. На основе данных big data, которые обрабатывает данный компьютер, строится модель беспилотного автомобиля.

К слову, если у Google дела идут довольно скверно и их автомобили все время попадают в аварии, то у Маска, за счет того что идет работа с big data, дела обстоят гораздо лучше, ведь тестовые модели показывают очень неплохие результаты.

Но… Это все из экономики. Что мы все о прибыли, да о прибыли? Многое, что может решить биг дата, совершенно не связано с заработком и деньгами.

Статистика Google, как раз таки основанная на big data, показывает интересную вещь.

Перед тем как медики объявляют о начале эпидемии заболевания в каком-то регионе, в этом регионе существенно возрастает количество поисковых запросов о лечении данного заболевания.

Таким образом, правильное изучение данных и их анализ может сформировать прогнозы и предсказать начало эпидемии (и, соответственно, ее предотвращение) гораздо быстрее, чем заключение официальных органов и их действия.

Применение в России

Однако, Россия как всегда немного “притормаживает”. Так само определение big data в России появилось не более, чем 5 лет назад (я сейчас именно про обычные компании).

И это не смотря на то, что это один из самых быстрорастущих рынков в мире (наркотики и оружие нервно курят в сторонке), ведь ежегодно рынок программного обеспечения для сбора и анализа big data прирастает на 32%.

Чтобы охарактеризовать рынок big data в России, мне вспоминается одна старая шутка. Биг дата это как секс до 18 лет.

Все об этом говорят, вокруг этого много шумихи и мало реальных действий, и всем стыдно признаться, что сами-то они этим не занимаются. И правда, вокруг этого много шумихи, но мало реальных действий.

Хотя известная исследовательская компания Gartner уже в 2015 году объявила, что биг дата это уже не возрастающий тренд (как кстати и искусственный интеллект ), а вполне самостоятельные инструменты для анализа и развития передовых технологий.

Наиболее активные ниши, где применяется big data в России, это банки/страхование (недаром я начал статью с главы Сбербанка), телекоммуникационная сфера, ритейл, недвижимость и… государственный сектор.

Для примера расскажу более подробно о паре секторов экономики, которые используют алгоритмы big data.

Банки

Начнём с банков и той информации, которую они собирают о нас и наших действиях. Для примера я взял ТОП-5 российских банков, которые активно инвестируют в big data:

  1. Сбербанк;
  2. Газпромбанк;
  3. ВТБ 24;
  4. Альфа Банк;
  5. Тинькофф банк.

Особенно приятно видеть в числе российских лидеров Альфа Банк. Как минимум, приятно осознавать, что банк, официальным партнером которого ты являешься, понимает необходимость внедрения новых маркетинговых инструментов в свою компанию.

Но примеры использования и удачного внедрения big data я хочу показать на банке, который мне нравится за нестандартный взгляд и поступки его основателя.

Я говорю про Тинькофф банк. Их главной задачей стояла разработка системы для анализа больших данных в режиме реального времени из-за разросшейся клиентской базы.

Результаты: время внутренних процессов сократилось минимум в 10 раз, а для некоторых – более, чем в 100 раз.

Ну и небольшое отвлечение. Знаете почему я заговорил про нестандартные выходки и поступки Олега Тинькова?

Просто на мой взгляд именно они помогли ему превратиться из бизнесмена средней руки, коих тысячи в России, в одного из самых известных и узнаваемых предпринимателей. В подтверждение посмотрите это необычное и интересное видео:

Недвижимость

В недвижимости все гораздо сложнее. И это именно тот пример, который я хочу Вам привести для понимания биг даты в пределах обычного бизнеса. Исходные данные:

  1. Большой объем текстовой документации;
  2. Открытые источники (частные спутники, передающие данные об изменениях земли);
  3. Огромный объем неконтролируемой информации в Интернет;
  4. Постоянные изменения в источниках и данных.

И на основе этого нужно подготовить и оценить стоимость земельного участка, например, под уральской деревней. У профессионала на это уйдет неделя.

У Российского общества оценщиков & РОСЭКО, собственно которые и внедрили себе анализ big data с помощью программного обеспечения, уйдет на это не более 30 минут неторопливой работы. Сравните, неделя и 30 минут. Колоссальная разница.

Ну и на закуску

Конечно же огромные объемы информации не могут храниться и обрабатываться на простых жестких дисках.

А программное обеспечение, которое структурирует и анализирует данные – это вообще интеллектуальная собственность и каждый раз авторская разработка. Однако, есть инструменты, на основе которых создается вся эта прелесть:

  • Hadoop & MapReduce;
  • NoSQL базы данных;
  • Инструменты класса Data Discovery.

Если честно, я не смогу Вам внятно объяснить чем они отличаются друг от друга, так как знакомству и работе с этими вещами учат в физико-математических институтах.

Зачем тогда я об этом заговорил, если не смогу объяснить? Помните во всех кино грабители заходят в любой банк и видят огромное число всяких железяк, подключенных к проводам?

То же самое и в биг дате. К примеру, вот модель, которая является на данный момент одним из самых лидеров на рынке.

Инструмент Биг дата

Стоимость в максимальной комплектации доходит до 27 миллионов рублей за стойку. Это, конечно, люксовая версия. Я это к тому, чтобы Вы заранее примерили создание big data в своем бизнесе.

Коротко о главном

Вы можете спросить зачем же вам, малому и среднему бизнесу работа с биг дата?

На это я отвечу Вам цитатой одного человека: “В ближайшее время клиентами будут востребованы компании, которые лучше понимают их поведение, привычки и максимально соответствуют им”.

Но давайте взглянем правде в глаза. Чтобы внедрить биг дата в малом бизнесе, это надо обладать не только большими бюджетами на разработку и внедрение софта, но и на содержание специалистов, хотя бы таких как аналитик big data и сисадмин.

И это я сейчас молчу о том, что у Вас должны быть такие данные для обработки.

Окей. Для малого бизнеса тема почти не применима. Но это не значит, что Вам нужно забыть все что прочитали выше.

Просто изучайте не свои данные, а результаты аналитики данных известных как зарубежных, так и российских компаний.

К примеру, розничная сеть Target с помощью аналитики по big data выяснила, что беременные женщины перед вторым триместром беременности (с 1-й по 12-ю неделю беременности) активно скупают НЕароматизированные средства.

Благодаря этим данным они отправляют им купоны со скидками на неароматизированные средства с ограниченным сроком действия.

А если Вы ну прям совсем небольшое кафе, к примеру? Да очень просто. Используйте приложение лояльности.

И через некоторое время и благодаря накопленной информации, Вы сможете не только предлагать клиентам релевантные их потребностям блюда, но и увидеть самые непродающиеся и самые маржинальные блюда буквально парой щелчков мышки.

Отсюда вывод. Внедрять биг дата малому бизнесу вряд ли стоит, а вот использовать результаты и наработки других компаний – обязательно.

По теме: Предиктивная аналитика: что это + примеры

in-scale.ru

Big Data: с чего начать — Офтоп на vc.ru

Каждый обмен с социальными медиа, каждый цифровой процесс, каждое подключённое устройство генерирует большие данные, которые будут использоваться различными компаниями.

Сегодня компании используют Big Data для углубленного взаимодействия с клиентами, оптимизации операций, предотвращения угроз и мошенничества. За последние два года такие компании, как IBM, Google, Amazon, Uber, создали сотни рабочих мест для программистов и Data science.

Область больших данных слишком размылась на просторах интернета, и это может быть очень сложной задачей для тех, кто начинает изучать большие данные и связанные с ними технологии. Технологии данных многочисленны это может быть огромным препятствием для начинающих. Давайте попробуем разложить все по полочкам.

1. Как начать

В сфере Big Data существует много направлений. Но в широком смысле можно разделить на две категории:

  1. Big Data engineering.
  2. Big Data Analytics (Scientist).

Эти поля взаимозависимы, но отличаются друг от друга.

Big Data engineering занимается разработкой каркаса, сбора и хранения данных, а также делают соответствующие данные доступными для различных потребительских и внутренних приложений.

У вас хорошие навыки программирования и вы понимаете, как компьютеры взаимодействуют через интернет, но у вас нет интереса к математике и статистике. В этом случае вам больше подойдёт Big data engineering.

В то время как Big Data Analytics — среда использования больших объемов данных из готовых систем, разработанных Big data engineering. Анализ больших данных включает в себя анализ тенденций, закономерностей и разработку различных систем классификации и прогнозирования. После магических действий и танцев с бубном Data Analytics (Scientist) интерпретирует результаты.

Если вы хорошо разбираетесь в программировании, за чашкой кофе решаете сложные задачи по высшей математике, понимаете, что такое теория вероятностей, математический анализ, комбинаторики, тогда вам подойдёт Big Data Analytics.

Таким образом, Big data Analytics включает в себя расширенные вычисления по данным. В то время как Big data engineering включает проектирование и развертывание систем, над которыми должны выполняться вычисления.

Как стать специалистом по большим данным

С направлением определились, теперь давайте разберём, что должен знать Data science, чтобы его рассматривали в качестве будущего кандидата.

Терминология данных

Проект с большими данными имеет два основных понятия — требования к данным и требования их обработке.

Требования к данным

Структурированные данные: хранятся в таблицах или в файлах. Если данные хранятся в предопределённой модели данных (то есть в схемах), это называется структурированными данными.

Неструктурированные: если данные хранятся в файлах и не имеют предопределённой модели, это называется неструктурированными данными.

Источники данных: внутренние (CRM, ERP или любые источники, которые находятся внутри системы) и внешние (соцсети, интернет).

Размер: с размером мы оцениваем количество данных. Типы: S, M, L, XL, XXL, передача потоков.

Пропускная способность: определяет, с какой скоростью данные могут быть приняты в систему. Типы: H, M, L.

Пропускная способность источника: определяет, с какой скоростью данные могут быть обновлены и преобразованы в систему. Типы: H, M, L.

Требования к обработке данных

Время запроса: время, за которое система выполняет запрос. Типы: Long, Medium, Short.

Время обработки: время обработки данных. Типы: длинный, средний, короткий.

Точность: точность обработки данных. Типы: точные или приблизительные, Exact или Approximate.

Учимся проектировать решения

Задача — разработать Data lake для эффективного анализа продаж банка.

Данные берём из разных источников.

  • ERP (персональная информация о клиенте, данные о кредитной истории, данные о потенциальных клиентах);
  • CRM (данные от колл-центра, данные о продажах,) данные о продуктах, транзакции проведенные через банковскую систему, CRM системы.

  • социальные сети (BDSMM);
  • интернет;
  • веб-аналитика.

Важно понимать, что первым делом нужно рассчитывать, что система должна быть интегрирована со всеми вышеперечисленными источниками и бесперебойно принимать данные.

Определяем конечные цели:

  1. Создаем Data lake для объединения данных из нескольких источников.
  2. Автоматическое обновление данных через определённые промежутки времени.
  3. Доступность данных для анализа (круглосуточно, возможно ежедневно).
  4. Архитектура для лёгкого доступа к панели инструментов аналитики.

Теперь, когда мы знаем, каковы наши конечные цели, попробуем сформулировать наши требования более формальными терминами.

Требования к данным

Структура: большая часть данных структурирована и имеет определённую модель. Но источники данных, такие как веб-журналы, взаимодействия с клиентами или данные колл-центра, изображения из каталога продаж, данные рекламы продукта —доступность и требования к изображениям и мультимедийной рекламной информации могут зависеть от компании.

Тип данных: структурированные и неструктурированные данные.

Пропускная способность: высокая.

Полнота данных: неполная.

Требования к обработке

Время запроса: от среднего до длинного.

Время обработки: от среднего до короткого.

Поскольку несколько источников данных интегрируются, важно отметить, что разные данные поступают в систему с разной скоростью. Например, данные из веб-аналитики будут доступны в непрерывном потоке с высокой степенью детализации.

Основываясь на приведённом выше анализе наших требований к системе, мы можем порекомендовать следующую настройку данных.

Путь обучения работе с большими данными

Теперь рассмотрим, по какой цепочке вам нужно пройти.

Область Big Data разбита на разные технологии. Очень важно, чтобы вы изучали релевантные и совместимые технологии с вашим направлениям работы с данными. Это немного отличается от таких направлений, как машинное обучение, где вы начинаете что-то и пытаетесь завершить всё в этой области.

Пошаговая инстркуция по изучению Big Data. PDF-версию можно скачать здесь

Одна из основных концепций, которые должен знать любой чувак, который видит себя в этой области, развертывание сервера на Linux, написание скриптов в командной строке Bash Scripting. Это необходимое условие для работы с Big Data.

В основном большая часть технологий данных написана на Java или Scala. Не переживайте, если вы не хотите кодить на этих языках, вы можете выбрать Python или R, потому что большая часть технологий обработки больших данных теперь поддерживает Python и R.

Вы можете начать свой путь с изучения любого из вышеуказанных языков. Я рекомендую выбрать Python или Java.

Как мы видели на примере выше, данные могут распределяться на большое количество серверов. Поэтому для быстрого нахождения пакетов и выгрузки массивов потребуется написанию SQL-запросов. Без базового знания SQL вряд ли получится устроиться даже на позицию junior.

Также не помешает поработать с облаком. Попробуйте использовать небольшие наборы данных на AWS, Softlayer или любом другом облачном провайдере. Большинство из них имеют свободный уровень, чтобы учащиеся могли практиковаться. Вы можете пропустить этот шаг сейчас, если хотите, но не забрасывайте в тёмный угол работу с облаком, прежде чем идти на какое-либо собеседование.

Затем вам нужно узнать о распределённой файловой системе. Наиболее популярной DFS является файловая система Hadoop. На этом этапе вы также можете изучить некоторые базы данных NoSQL.

Путь до сих пор является обязательным основанием, которое должен знать каждый специалист.

Теперь решайте, хотите ли вы работать с потоками данных. Это выбор между двумя из четырех V, которые используются для определения больших данных — Volume, Velocity, Variety и Veracity.

Предположим, вы решили работать с потоками данных для разработки систем анализа в реальном времени. Тогда вы должны пойти по ветке Apache Kafka с помощью Mapreduce. Обратите внимание, что в пути Mapreduce вам не нужно изучать Pig и Hive. Достаточно изучить только один из них.

Это не единственный способ получить знания. Вы можете создать свой собственный путь по ходу дела самостоятельно.

Ресурсы для обучения

Bash Scripting

Пошаговое Руководство Bash Scripting (rus).

Python
Java
Cloud
HDFS
Apache Zookeeper

Документация Apache Zookeeper (eng).

Apache Kafka
SQL
Hive
PIG
Apache Storm
Apache Kinesis
Apache Spark
Apache Spark Streaming

Документация Apache Spark Streaming (eng).

Лекции «Школы анализа данных» от «Яндекса»

ШАД — курсы по анализу данных от сотрудников «Яндекса». Поступить в школу не так просто, потребуются знания в высшей математике. К счастью, есть записи прошлых занятий.

Big Data University

Big Data University — бесплатный онлайн-курс, созданный совместно с IBM для самых маленьких. Можно начать с изучения языка Python до обработки данных. В том числе: основы больших данных, основы Hadoop, программирование Scala и много полезной информации.

Часть статьи была переведена с analyticsvidhya.com.

Автор материала — Сергей Ахметов,консультант по Big Data.

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать

vc.ru

big data

Больши́е да́нные (англ. big data, [ˈbɪɡ ˈdeɪtə]) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence[1][2][3].

В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий[4].

В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных)[5][6]; в дальнейшем возникли различные вариации и интерпретации этого признака[⇨].

С точки зрения информационных технологий в совокупность подходов и инструментов изначально включались средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, системами управления базами данных категории NoSQL, алгоритмами MapReduce и реализующими их программными каркасами и библиотеками проекта Hadoop[7]. В дальнейшем к серии технологий больших данных стали относить разнообразные информационно-технологические решения, в той или иной степени обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных.

Мировой технологический потенциал для хранения, передачи и вычисления информационных данных (динамика роста и изменение цифровой доли информации в мире)[8]:* 2002 год явился переломным в изменении соотношения мирового объёма аналоговых и цифровых данных в пользу последних, объём которых увеличивался в геометрической прогрессии (лавинообразно).* В 2007 году объём цифровых данных превысил объём аналоговых почти в 15 раз, составив 280 эксабайт цифровых данных к 19 аналоговых.

Широкое введение термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 года специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда»[9][10].

Несмотря на то, что термин вводился в академической среде и прежде всего разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM[11], Oracle[12], Microsoft[13], Hewlett-Packard[14], EMC[15], а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования[5][16][17][18].

В 2011 году Gartner отметил большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг)[19]. В это же время прогнозировалось, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов[20].

С 2013 года большие данные как академический предмет изучаются в появившихся вузовских программах по науке о данных[21] и вычислительным наукам и инженерии[22].

В 2015 году Gartner исключил большие данные из цикла зрелости новых технологий и прекратил выпускать выходивший в 2011—2014 годы отдельный цикл зрелости технологий больших данных, мотивировав это переходом от этапа шумихи к практическому применению. Технологии, фигурировавшие в выделенном цикле зрелости, по большей части перешли в специальные циклы по продвинутой аналитике и науке о данных, по BI и анализу данных, корпоративному управлению информацией, резидентным вычислениям, информационной инфраструктуре[23].

VVV[ | ]

Набор признаков VVV (volume, velocity, variety) изначально выработан Meta Group в 2001 году вне контекста представлений о больших данных как об определённой серии информационно-технологических методов и инструментов, в нём, в связи с ростом популярности концепции центрального хранилища данных для организаций, отмечалась равнозначимость проблематик управления данными по всем трём аспектам[24]. В дальнейшем появились интерпретации с «четырьмя V» (добавлялась veracity — достоверность, использовалась в рекламных материалах IBM[25]), «пятью V» (в этом варианте прибавляли viability — жизнеспособность, и value — ценность[26]), и даже «семью V» (кроме всего, добавляли также variability — переменчивость, и visualization[27]). IDC интерпретирует «четвёртое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объёмов в соответствующих условиях, что отражено также и в определении больших данных от IDC[28]. Во всех случаях в этих признаках подчёркивается, что определяющей характеристикой для больших данных является не только их физический объём, но другие категории, существенные для представления о сложности задачи обработки и анализа данных.

Источники[ | ]

Классическими источниками больших данных признаются интернет вещей и социальные медиа, считается также, что большие данные могут происходить из внутренней информации предприятий и организаций (генерируемой в информационных средах, но ранее не сохранявшейся и не анализировавшейся), из сфер медицины и биоинформатики, из астрономических наблюдений[29].

В качестве примеров источников возникновения больших данных приводятся[30][31] непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования Земли, потоки данных о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Ожидается, что развитие и начало широкого использования этих источников инициирует проникновение технологий больших данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

Методы анализа[ | ]

Методы и техники анализа, применимые к большим данным, выделенные в отчёте McKinsey[32]:

  • методы класса Data Mining: обучение ассоциативным правилам (англ. association rule learning), классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ;
  • краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
  • смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ);
  • машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим ансамблем в статистической механике);
  • искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы;
  • распознавание образов;
  • прогнозная аналитика;
  • имитационное моделирование;
  • пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
  • статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
  • визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

Технологии[ | ]

Наиболее часто указывают в качестве базового принципа обработки больших данных горизонтальную масштабируемость, обеспечивающую обработку данных, распределённых на сотни и тысячи вычислительных узлов, без деградации производительности; в частности, этот принцип включён в определение больших данных от NIST[33]. При этом McKinsey, кроме рассматриваемых большинством аналитиков технологий NoSQL, MapReduce, Hadoop, R, включает в контекст применимости для обработки больших данных также технологии Business Intelligence и реляционные системы управления базами данных с поддержкой языка SQL[34].

NoSQL[ | ]

Основная статья: NoSQL

Основная статья: MapReduce

Основная статья: Hadoop

Основная статья: R (язык программирования)

Существует ряд аппаратно-программных комплексов, предоставляющих предконфигурированные решения для обработки больших данных: Aster MapReduce appliance (корпорации Teradata), Oracle Big Data appliance, Greenplum appliance (корпорации EMC, на основе решений поглощённой компании Greenplum). Эти комплексы поставляются как готовые к установке в центры обработки данных телекоммуникационные шкафы, содержащие кластер серверов и управляющее программное обеспечение для массово-параллельной обработки.

Аппаратные решения для резидентных вычислений, прежде всего, для баз данных в оперативной памяти и аналитики в оперативной памяти, в частности, предлагаемой аппаратно-программными комплексами Hana (предконфигурированное аппаратно-программное решение компании SAP) и Exalytics (комплекс компании Oracle на основе реляционной системы Timesten (англ.) и многомерной Essbase), также иногда относят к решениям из области больших данных[35][36], несмотря на то, что такая обработка изначально не является массово-параллельной, а объёмы оперативной памяти одного узла ограничиваются несколькими терабайтами.

Кроме того иногда к решениям для больших данных относят и аппаратно-программные комплексы на основе традиционных реляционных систем управления базами данных — Netezza, Teradata, Exadata, как способные эффективно обрабатывать терабайты и эксабайты структурированной информации, решая задачи быстрой поисковой и аналитической обработки огромных объёмов структурированных данных. Отмечается, что первыми массово-параллельными аппаратно-программными решениями для обработки сверхбольших объёмов данных были машины компаний Britton Lee (англ.), впервые выпущенные в 1983 году, и Teradata (начали выпускаться в 1984 году, притом в 1990 году Teradata поглотила Britton Lee)[37].

Аппаратные решения DAS — систем хранения данных, напрямую присоединённых к узлам — в условиях независимости узлов обработки в SN-архитектуре также иногда относят к технологиям больших данных. Именно с появлением концепции больших данных связывают всплеск интереса к DAS-решениям в начале 2010-х годов, после вытеснения их в 2000-е годы сетевыми решениями классов NAS и SAN[38].

Примечания[ | ]

  1. ↑ Праймесбергер, 2011, “Big data refers to the volume, variety and velocity of structured and unstructured data pouring through networks into processors and storage devices, along with the conversion of such data into business advice for enterprises.”.
  2. ↑ PwC, 2010, Термин «большие данные» характеризует совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа традиционными методами., с. 42.
  3. ↑ McKinsey, 2011, “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze, p. 1.
  4. ↑ Майер-Шенбергер, 2014.
  5. ↑ 1 2 Gartner, 2011.
  6. ↑ Канаракус, Крис. Машина Больших Данных. Сети, № 04, 2011. Открытые системы (1 ноября 2011). — «…большие данные как «три V»: volume («объем» — петабайты хранимых данных), velocity («скорость» — получение данных, преобразование, загрузка, анализ и опрос в реальном времени) и variety («разнообразие» — обработка структурированных и полуструктурированных данных различных типов)». Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  7. ↑ PwC, 2010, К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым ом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными, с. 42.
  8. ↑ The World’s Technological Capacity to Store, Communicate, and Compute Information. MartinHilbert.net. Дата обращения 13 апреля 2016.
  9. ↑ Черняк, 2011, Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?» […] осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Нефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество.
  10. ↑ Пример употребления метафоры Big Oil (англ.), ср. также повесть «Большая руда», фильм «Большая нефть»
  11. ↑ Дубова, Наталья. Большая конференция о Больших Данных. Открытые системы (3 ноября 2011). — «На форуме IBM Information on Demand, собравшем более 10 тыс. участников, центральной темой стала аналитика Больших Данных». Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  12. ↑ Henschen, Doug. Oracle Releases NoSQL Database, Advances Big Data Plans (англ.). InformationWeek (24 October 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  13. ↑ Finley, Klint. Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup (англ.). ReadWriteWeb (17 July 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  14. ↑ Шах, Агам. HP меняет персональные компьютеры на Большие Данные. Открытые системы (19 августа 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  15. ↑ EMC Tries To Unify Big Data Analytics (англ.). InformationWeek (21 September 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  16. ↑ Woo, Benjamin et al. IDC's Worldwide Big Data Taxonomy (англ.). International Data Corporation (1 October 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  17. ↑ Evelson, Boris and Hopkins, Brian. How Forrester Clients Are Using Big Data (англ.). Forrester Research (20 September 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  18. ↑ McKinsey, 2011.
  19. ↑ Thibodeau, Patrick. Gartner's Top 10 IT challenges include exiting baby boomers, Big Data (англ.). Computerworld (18 October 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  20. ↑ Черняк, 2011, По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями.
  21. ↑ MSc in Data Science (англ.). School of Computing. Dundee University (1 January 2013). — «A data scientist is a person who excels at manipulating and analysing data, particularly large data sets that don’t fit easily into tabular structures (so-called “Big Data”)». Дата обращения 18 января 2013. Архивировано 22 января 2013 года.
  22. ↑ Master of Science degree. Harvard's first degree program in Computational Science and Engineering is an intensive year of coursework leading to the Master of Science (англ.). Institute for Applied Computational Science. Harvard University (1 January 2013). — «“…Many of the defining questions of this era in science and technology will be centered on ‘big data’ and machine learning. This master’s program will prepare students to answer those questions…”». Дата обращения 18 января 2013. Архивировано 22 января 2013 года.
  23. ↑ Simon Sharwood. Forget Big Data hype, says Gartner as it cans its hype cycle (англ.). The Register (21 August 2015). Дата обращения 19 февраля 2017.
  24. ↑ Doug Laney. 3D Data Management: Controlling Data Volume, Velocity, and Variety (англ.). Meta Group (6 February 2001). Дата обращения 19 февраля 2017.
  25. ↑ The Four V´s of Big Data (англ.). IBM (2011). Дата обращения 19 февраля 2017.
  26. ↑ Neil Biehn. The Missing V’s in Big Data: Viability and Value (англ.). Wired (1 May 2013). Дата обращения 19 февраля 2017.
  27. ↑ Eileen McNulty. Understanding Big Data: The Seven V’s (англ.). Dataconomy (22 May 2014). Дата обращения 19 февраля 2017.
  28. ↑ Чэнь и др., 2014, p. 4.
  29. ↑ Чэнь и др., 2014, p. 19—23.
  30. ↑ McKinsey, 2011, pp. 7—8.
  31. ↑ Черняк, 2011.
  32. ↑ McKinsey, 2011, pp. 27—31.
  33. ↑ Чэнь и др., 2014, “Big data shall mean the data of which the data volume, acquisition speed, or data representation limits the capacity of using traditional relational methods to conduct effective analysis or the data which may be effectively processed with important horizontal zoom technologies”, p. 4.
  34. ↑ McKinsey, 2011, pp. 31—33.
  35. ↑ Черняк, 2011, Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти.
  36. ↑ Darrow, Barb. Oracle launches Exalytics, an appliance for big data (англ.). GigaOM (2 October 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.
  37. ↑ Черняк, 2011, …первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных.
  38. ↑ Леонид Черняк. Большие данные возрождают DAS. «Computerworld Россия» , № 14, 2011. Открытые системы (5 мая 2011). Дата обращения 12 ноября 2011. Архивировано 3 сентября 2012 года.

Литература[ | ]

  • Min Chen, Shiwen Mao, Yin Zhang, Victor C.M. Leung. Big Data. Related Technologies, Challenges, and Future Prospects. — Spinger, 2014. — 100 p. — ISBN 978-3-319-06244-0. — DOI:10.1007/978-3-319-06245-7.
  • Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим = Big Data. A Revolution That Will Transform How We Live, Work, and Think / пер. с англ. Инны Гайдюк. — М.: Манн, Иванов, Фербер, 2014. — 240 с. — ISBN 987-5-91657-936-9.
  • Preimesberger, Chris Hadoop, Yahoo, 'Big Data' Brighten BI Future (англ.). EWeek (15 August 2011). Дата обращения 12 ноября 2011. Архивировано 17 мая 2012 года.
  • Леонид Черняк. Большие Данные — новая теория и практика (рус.) // Открытые системы. СУБД. — 2011. — № 10. — ISSN 1028-7493.
  • Алан Моррисон и др. Большие Данные: как извлечь из них информацию. Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3. PricewaterhouseCoopers (17 декабря 2010). Дата обращения 12 ноября 2011. Архивировано 11 марта 2012 года.
  • Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data (англ.). Gartner (27 June 2011). Дата обращения 12 ноября 2011. Архивировано 17 мая 2012 года.
  • James Manyika et al. Big data: The next frontier for innovation, competition, and productivity (англ.) (PDF). McKinsey Global Institute, June, 2011. McKinsey (9 August 2011). Дата обращения 12 ноября 2011. Архивировано 11 декабря 2012 года.

Ссылки[ | ]

ru-wiki.ru


Смотрите также