Бигдата что это


BigData: анализ больших данных сегодня



В данной статье рассматривается, что такое BigData, текущее положения дел, перспективы развития.

Ключевые слова: big data, BigData, ИТ, информация, обработка, анализ, данные, систематизация, развитие

В текущее время объемы информации растут по экспоненте. Для того чтобы быстрее реагировать на изменения рынка, получить конкурентные преимущества, повысить эффективность производства нужно получить, обработать и проанализировать огромное количество данных.

Для работы с такими объемами информации инженеры были вынуждены модернизировать инструменты для работы над анализом всех данных. Так в 2000-х годах сформировалось понятие BigData, которое было интересно лишь узкому кругу специалистов. Сейчас это слово на слуху у любого, кто интересуется сферой информационных технологий. И это определение, а точнее направление развития ИТ, становится крайне популярным и стратегически важным в последнее время.

Технологии BigData позволяют обработать большой объем неструктурированных данных, систематизировать их, проанализировать и выявить закономерности там, где человеческий мозг никогда бы их не заметил. Это открывает совершенно новые возможности по использованию данных.

Само понятие BigData означает не просто большие пласты данных. Это огромные хранимые и обрабатываемые массивы из сотен гигабайт, и даже петабайт данных. Данных, которые можно обработать и извлечь из них некоторое количество полезной информации. Говоря коротко, можно определить BigData как совокупность технологий обработки информации для получения информации.

Важно заметить, объемы обрабатываемых через BigData данных постоянно растут, также, как и растет скорость ее обработки. Развитие этого направления вполне соответствует современному миру, стремительному и инновационному.

С развитием BigData развивались и технологии, и наоборот. На текущий момент, BigData удел не только гигантов IT мира. Это направление, благодаря таким решениям как Hadoop от Apache Software Foundation, набору облачных сервисов от IBM, Amazon, Google становится доступным практически любым компаниям, работающим в сфере ИТ. А такие решения как Clickhouse, Cassandra, InfluxDB позволяют войти в сферу работы с BigData даже отдельным персонам.

Использование BigData на сегодняшний день становится обязательным условием для развития крупных ИТ компаний. Без анализа поведения своих пользователей, без возможности прогнозирования, руководствуясь только опытом и интуицией, уже крайне сложно оставаться конкурентоспособным. Настроенная и работающая система BigData способна в секунды предоставить ценнейшую информацию, полученную из анализа миллиардов действий клиентов компании.

В текущем бизнесе уже зародилось понятие Data Driven Managment, которое подразумевает управление компанией исходя строго из анализа данных. И такие способы управления показывают блестящие результаты. Facebook, Google, Мейл.ру, Яндекс уже давно используют аналитику для принятия решений. На сегодняшний момент в BigData заинтересован и традиционный бизнес, представители которого нуждаются в новых инструментах повышения эффективности.

Основные принципы работы с BigData.

  1. Горизонтальная масштабируемость: так как данных может быть много, то и система, в которой они хранятся должна быть расширяемой. Если объем данных вырос в 2 раза, то и количество кластеров увеличивается в 2 раза.
  2. Отказоустойчивость: горизонтальная масштабируемость подразумевает тот факт, что машин в кластере большое количество. И естественно эти машины будут по тем или иным причинам выходить из строя. К примеру, Hadoop-кластер Yahoo насчитывает более 42000 машин. Методы работы с BigData должны учитывать этот фактор и продолжать работать без видимых потерь.
  3. Локальность данных: в больших системах данные распределены на большом количестве машин. Если данные находятся на одной машине, а обрабатываются на другой, то расходы на передачу этих данных могут и вовсе превысить расходы на обработку. Поэтому важным вопросом в проектировании BigData стоит принцип локальности данных, обработке информации там же, где она хранится.

Сферы применения BigData

Сфера использования технологий BigData обширна. Так, с помощью BigData можно узнать о предпочтениях клиентов, об эффективности маркетинговых кампаний или провести анализ рисков. Ниже представлены результаты опроса IBM Institute, о направлениях использования BigData в компаниях.

Как видно из диаграммы, большинство компаний используют BigData в сфере клиентского сервиса, второе по популярности направление — операционная эффективность, в сфере управления рисками BigData менее распространены на текущий момент.

Следует также отметить, что BigData являются одной из самых быстрорастущих сфер информационных технологий, согласно статистике, общий объем получаемых и хранимых данных удваивается каждые 1-2 года.

За период с 2012 по 2014 год количество данных, ежемесячно передаваемых мобильными сетями, выросло на 81 %. По оценкам Cisco, в 2014 году объем мобильного трафика составил 2,5 эксабайта (единица измерения количества информации, равная 10^18 стандартным байтам) в месяц, а уже в 2019 году он будет равен 24,3 эксабайтам.

Таким образом, BigData — это уже устоявшаяся сфера технологий, даже несмотря на относительно молодой ее возраст, получившая распространение во многих сферах бизнеса и играющая немаловажную роль в развитии компаний.

Технологии BigData

Технологии, используемые для сбора и обработки BigData, можно разделить на 3 группы:

– Программное обеспечение;

– Оборудование;

– Сервисные услуги.

К наиболее распространенным подходам обработки данных (ПО) относятся:

SQL — язык структурированных запросов, позволяющий работать с базами данных. С помощью SQL можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных.

NoSQL — термин расшифровывается как Not Only SQL (не только SQL). Включает в себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при постоянно меняющейся структуре данных. Например, для сбора и хранения информации в социальных сетях.

MapReduce — модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты* и более). В программном интерфейсе не данные передаются на обработку программе, а программа — данным. Таким образом запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами Map и Reduce. Map выбирает предварительные данные, Reduce агрегирует их.

Hadoop — используется для реализации поисковых и контекстных механизмов высоконагруженных сайтов — Facebook, eBay, Amazon и др. Отличительной особенностью является то, что система защищена от выхода из строя любого из узлов кластера, так как каждый блок имеет, как минимум, одну копию данных на другом узле.

SAP HANA — высокопроизводительная NewSQL платформа для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним отличительным признаком является то, что SAP HANA упрощает системный ландшафт, уменьшая затраты на поддержку аналитических систем.

Проблемы BigData

Проблемы системы BigData можно свести к трем основным группам: объем, скорость обработки, неструктурированность. Это три V — Volume, Velocity и Variety.

Хранение больших объемов информации требует специальных условий, и это вопрос пространства и возможностей. Скорость связана не только с возможным замедлением и «торможением», вызываемом старыми методами обработок, это еще и вопрос интерактивности: чем быстрее процесс, тем больше отдача, тем продуктивнее результат.

Проблема неоднородности и неструктурированности возникает по причине разрозненности источников, форматов и качества. Чтобы объединить данные и эффективно их обрабатывать, требуется не только работа по приведению их в пригодный для работы вид, но и определенные аналитические инструменты (системы).

Но это еще не все. Существует проблема предела «величины» данных. Ее трудно установить, а значит трудно предугадать, какие технологии и сколько финансовых вливаний потребуется для дальнейших разработок. Ресурсы не бесконечны, хранение всех возможных данных в какой-то момент становится нецелесообразным. И встает необходимость отказа от части данных.

Собственно, это и является главной причиной отсрочки внедрения в компании проектов BigData (если не брать во внимание еще один фактор — довольно высокую стоимость).

Подбор данных для обработки и алгоритм анализа может стать не меньшей проблемой, так как отсутствует понимание, какие данные следует собирать и хранить, а какие можно игнорировать. Становится очевидной еще одна «болевая точка» отрасли — нехватка профессиональных специалистов, которым можно было бы доверить глубинный анализ, создание отчетов для решения бизнес-задач и как следствие извлечение прибыли (возврат инвестиций) из BigData.

Еще одна проблема BigData носит этический характер. А именно: чем сбор данных (особенно без ведома пользователя) отличается от нарушения границ частной жизни? Так, информация, сохраняемая в поисковых системах Google и Яндекс, позволяет им постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные программы.

Поисковики записывают каждый клик пользователя в Интернете, им известен его IP-адрес, геолокация, интересы, онлайн-покупки, личные данные, почтовые сообщения и прочее, что, к примеру, позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в Интернете. При этом согласия на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в BigData собирается все, что затем будет храниться на серверах данных сайтов.

Здесь можно затронуть другую проблему — обеспечение безопасности хранения и использования данных. Например, сведения о возможных покупателях и их история переходов на сайтах интернет-магазинов однозначно применимы для решения многих бизнес-задач. Но безопасна ли аналитическая платформа, которой потребители в автоматическом режиме (просто потому, что зашли на сайт) передают свои данные, — это вызывает множество споров. Современную вирусную активность и хакерские атаки не сдерживают даже супер-защищенные серверы правительственных спецслужб.

Заключение.

BigData открывает перед нами новые горизонты в планировании производства, образовании, здравоохранении и других отраслях. Если их развитие будет продолжаться, то технологии BigData могут поднять информацию, как фактор производства, на совершенно новый качественный уровень. Информация станет не только равноценна труду и капиталу, но и возможно станет наиважнейшим ресурсом современной экономики.

Литература:

1. Что такое Big Data (BigData) в маркетинге: проблемы, алгоритмы, методы анализа // Landing Page Generator — платформа создания и оптимизации посадочных страниц. URL: http://lpgenerator.ru/blog/2015/11/17/chto-takoe-big-data-bolshie-dannye-v-marketinge-problemy-algoritmy-metody-analiza/ (дата обращения: 8.08.2017).

2. Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce // Хабрахабр. URL: https://habrahabr.ru/company/dca/blog/267361/ (дата обращения: 8.08.2017).

3. Аналитический обзор рынка Big Data // Хабрахабр. URL: https://habrahabr.ru/company/moex/blog/256747/ (дата обращения: 8.08.2017).

Основные термины (генерируются автоматически): данные, SQL, HANA, SAP, IBM, объем информации, баз данных, информация, использование данных, текущий момент.

moluch.ru

Большие Данные - это... Что такое Большие Данные?

Большие Данные (англ. Big Data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения человеко-читаемых результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениями класса Business Intelligence[1][2][3]. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop[4].

В качестве определяющих характеристик для Больших Данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструтурированных данных)[5][6].

Введение термина «Большие Данные» относят к Клиффорду Линчу, редактору журнала Nature, подготовившему к 3 сентября 2008 года специальный номера журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда»[7][8].

Несмотря на то, что термин вводился в академической среде, и прежде всего, разбиралась проблема роста и многообрзия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки Больших Данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о Больших Данных, в том числе IBM[9], Oracle[10], Microsoft[11], Hewlett-Packard[12], EMC[13], а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования[5][14][15][16].

В 2011 году Gartner отмечает Большие Данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг)[17]. Прогнозируется, что внедрение технологий Больших Данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов[18].

Источники

В качестве примеров источников возникновения Больших Данных приводятся[19][20] непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования земли, потоки данные о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Развитие и начало широкого использования этих источников отмечается как триггер для проникновения технологий Больших Данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

Методы анализа

Методы и техники анализа, применимые к Большим Данным, выделеные в отчёте McKinsey[21]:

  • Методы класса Data Mining: обучение ассоциативным правилам (англ. association rule learning), классификация (методы категоризации новых данных на основе принципов категоризации, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ;
  • Краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
  • Смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ;
  • Машинное обучение, включая обучение с учителем и без учителя, а также Ensemble learning (англ.) — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим анcамблем в статистической механике);
  • Искусственные нейронные сети, cетевой анализ, оптимизация, в том числе генетические алгоритмы;
  • Распознавание образов;
  • Прогнозная аналитика;
  • Имитационное моделирование;
  • англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
  • Статистический анализ, в качестве примеров методов приводятся A/B-тестирование (англ.) и анализ временных рядов;
  • Визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

Технологии

Наиболее часто указывают в качестве базового принципа обработки Больших Данных в SN-архитектуру (англ. Shared Nothing Architecture), обеспечивающую массивно-параллельную обработку, масштабируемую без деградации на сотни и тысячи узлов обработки[источник?]. При этом, McKinsey, кроме рассматриваемых большинством аналитиков технологий NoSQL, MapReduce, Hadoop, R, включает в контекст применимости для обработки больших данных также технологии Business Intelligence и реляционные системы управления базами данных с поддержкой языка SQL[22].

NoSQL

Основная статья: NoSQL

MapReduce

Основная статья: MapReduce

Hadoop

Основная статья: Hadoop

R

Основная статья: R (язык программирования)

Аппаратные решения

Также существует ряд аппаратно программных комплексов, предоставляющих предконфигурированные решения для обработки больших данных — Aster MapReduce appliance (корпорации Teradata), Oracle Big Data appliance, Greenplum appliance (корпорации EMC, на основе решений поглощённой компании Greenplum). Эти комплексы поставляются как готовые к установке в центры обработки данных телекоммуникационные шкафы, содержащие кластер серверов и управляющее программное обеспечение для массово-параллельной обработки.

Аппаратные решения для аналитической обработки в оперативной памяти, в частности, предлагаемой аппаратно-программными комплексами SAP HANA (решение на программной базе Sybase IQ (англ.) — реляционной системы управления базами данных с колоночной организацией) и Oracle Exalytics (на основе реляционной системы Timesten (англ.) и многомерной Essbase), также иногда относят к решениям из области проблематики Больших Данных[23][24], несмотря на то, что такая обработка изначально не является массово-параллельной, а объёмы оперативной памяти одного узла ограничиваются несколькими терабайтами.

Кроме того, иногда к решениям для Больших Данных относят и аппаратно-программные комплексы на основе традиционных реляционных систем управления базами данных — Netezza, Teradata, Exadata, как способные эффективно обрабатывать терабайты и экзабайты структурированной информации, решая задачи быстрой поисковой и аналитической обработки огромных объёмов структурированных данных. Отмечается, что первыми массово-параллельными аппаратно-программными решениями для обработки сверхбольших объёмов данных были машины компаний Britton Lee (англ.), впервые выпущенные в 1983 году, и Teradata (начали выпускаться в 1984 году, притом в 1990 году Teradata поглотила Britton Lee)[25].

Аппаратные решения DAS — систем хранения данных, напрямую присоединённых к узлам — в условиях независимости узлов обработки в SN-архитектуре также иногда относят к технологиям Больших Данных. Именно с появлением концепции Больших Данных связывают всплеск интереса к DAS-решениям в начале 2010-х годов, после вытеснения их в 2000-е годы сетевыми решениями классов NAS и SAN[26].

Примечания

  1. ↑ Праймесбергер, 2011, “Big data refers to the volume, variety and velocity of structured and unstructured data pouring through networks into processors and storage devices, along with the conversion of such data into business advice for enterprises.”
  2. ↑ PwC, 2010, Термин «большие данные» характеризует совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа традиционными методами.
  3. ↑ McKinsey, 2011, “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze
  4. ↑ PwC, 2010, К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными
  5. ↑ 1 2 Gartner, 2011
  6. ↑ Канаракус, Крис Машина Больших Данных  (рус.). Сети, № 04, 2011. Открытые системы (1 ноября 2011). — «…большие данные как «три V»: volume («объем» — петабайты хранимых данных), velocity («скорость» — получение данных, преобразование, загрузка, анализ и опрос в реальном времени) и variety («разнообразие» — обработка структурированных и полуструктурированных данных различных типов)»  Проверено 12 ноября 2011.
  7. ↑ Черняк, 2011, Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?» […] осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Нефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество
  8. ↑ Пример употребления метафоры Big Oil  (англ.), ср. также повесть «Большая руда», фильм «Большая нефть»
  9. ↑ Дубова, Наталья Большая конференция о Больших Данных  (рус.). Открытые системы (3 ноября 2011). — «На форуме IBM Information on Demand, собравшем более 10 тыс. участников, центральной темой стала аналитика Больших Данных»  Проверено 12 ноября 2011.
  10. ↑ Henschen, Doug Oracle Releases NoSQL Database, Advances Big Data Plans  (англ.). InformationWeek (24 October 2011). Проверено 12 ноября 2011.
  11. ↑ Finley, Klint Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup  (англ.). ReadWriteWeb (17 July 2011). Проверено 12 ноября 2011.
  12. ↑ Шах, Агам HP меняет персональные компьютеры на Большие Данные. Открытые системы (19 августа 2011). Проверено 12 ноября 2011.
  13. ↑ EMC Tries To Unify Big Data Analytics  (англ.). InformationWeek (21 September 2011). Проверено 12 ноября 2011.
  14. ↑ Woo, Benjamin et al. IDC's Worldwide Big Data Taxonomy  (англ.). International Data Corporation (1 October 2011). Проверено 12 ноября 2011.
  15. ↑ Evelson, Boris and Hopkins, Brian How Forrester Clients Are Using Big Data  (англ.). Forrester Research (20 September 2011). Проверено 12 ноября 2011.
  16. ↑ McKinsey, 2011
  17. ↑ Thibodeau, Patrick Gartner's Top 10 IT challenges include exiting baby boomers, Big Data  (англ.). Computerworld (18 October 2011). Проверено 12 ноября 2011.
  18. ↑ Черняк, 2011, По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями
  19. ↑ McKinsey, 2011, pp. 7—8
  20. ↑ Черняк, 2011
  21. ↑ McKinsey, 2011, pp. 27—31
  22. ↑ McKinsey, 2011, pp. 31—33
  23. ↑ Черняк, 2011, Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти
  24. ↑ Darrow, Barb Oracle launches Exalytics, an appliance for big data  (англ.). GigaOM (2 October 2011). Проверено 12 ноября 2011.
  25. ↑ Черняк, 2011, …первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных
  26. ↑ Черняк, Леонид Большие данные возрождают DAS  (рус.). «Computerworld Россия» , № 14, 2011. Открытые системы (5 мая 2011). Проверено 12 ноября 2011.

  • Preimesberger, Chris Hadoop, Yahoo, 'Big Data' Brighten BI Future  (англ.). EWeek (15 August 2011). Проверено 12 ноября 2011.
  • Черняк, Леонид Большие Данные — новая теория и практика  (рус.) // Открытые системы. СУБД. — М.: Открытые системы, 2011. — № 10. — ISSN 1028-7493.
  • Моррисон, Алан и др. Большие Данные: как извлечь из них информацию  (рус.). Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3. PricewaterhouseCoopers (17 декабря 2010). Проверено 12 ноября 2011.
  • Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data  (англ.). Gartner (27 June 2011). Проверено 12 ноября 2011.
  • Manyika, James et al. Big data: The next frontier for innovation, competition, and productivity  (англ.) (PDF). McKinsey Global Institute, June, 2011. McKinsey (9 August 2011). Проверено 12 ноября 2011.

dic.academic.ru

Как устроен рынок big data в России | Rusbase

К кому идти за железом, алгоритмами, консультацией и готовыми решениями

Как устроен рынок big data в России Анна Соколова

В 2015 году мировой рынок продуктов и услуг для работы с big data составит $33,3 млрд. Такая цифра приводится в мартовском исследовании американского агентства Wikibon. По их прогнозу, к 2020 году объем индустрии больших данных вырастет до $61 млрд, в 2026 году — до $85 млрд. Каждый год этот рынок прибавляет примерно на 17%.

Данных много, а пользы нет? Только проверенные компании, которые специализируются на Big DataВ мировом масштабе российский рынок услуг и технологий big data исчезающе мал. В 2014 году американская компания IDC оценивала его в $340 млн. Зато растет он значительно быстрее глобального — как минимум на 40% в год. По некоторым данным, по итогам 2015 года он увеличится до $500 млн (возможно, эту цифру придется корректировать из-за девальвации рубля). Известно, что большие данные существовали задолго до появления самого термина. Поисковики и соцсети изначально строили свои сервисы на технологиях обработки big data. Сегодня к большим данным обратился и традиционный бизнес. Прежде всего, в датамайнинге заинтересованы представители зрелых и высококонкурентных рынков — им очень нужны новые инструменты повышения эффективности. Из 108 компаний, опрошенных в феврале агентством СNews Analytics, 40 уже приступили к работе с большими данными. Главными покупателями таких решений остаются банки (24 из 43 респондентов) и телеком-операторы (8 из 12 собеседников СNews). Также технологии обработки больших данных активно используются в онлайн-рекламе и ритейле. Судя по открытым источникам, решения по анализу больших данных внедрены в Сбербанке, Газпромбанке, ВТБ24, «Альфа-Банке», ФК «Открытие», «Райффайзенбанке», «Ситибанке», «Нордеа-Банке», банке «Уралсиб», «ОТП Банке», компании «Тройка Диалог», «Всероссийском банке развития регионов» и «Уральском банке реконструкции и развития», а также у главных телеком-операторов. Из крупных ритейлеров этими технологиями пользуются X5 Retail Group, «Глория Джинс», «Юлмарт», сеть гипермаркетов «Лента», «М.Видео», Wikimart, Ozon, «Азбука вкуса», из нефтяных компаний — «Транснефть», «Роснефть» и «Сургутнефтегаз».

По теме: Мир big data в 8 терминах

А вот в госсекторе, где технологии big data могут дать взрывной прирост эффективности, они используются относительно слабо. По словам экспертов, среди госструктур обработку big data внедрили Федеральная налоговая служба, аналитический центр правительства России, Пенсионный фонд, правительство Москвы, Фонд обязательного медицинского страхования, Федеральная служба безопасности, Следственный комитет и Служба внешней разведки. С применением анализа больших данных в отечественной медицине все печально — о реальных внедрениях речь пока не идет, несмотря на высочайший потенциал.

В преддверии нашей конференции о больших данных ICBDA 2015 рассказываем о том, как устроена индустрия big data в России. Наш обзор призван дать общее представление о рынке, а не исчерпывающий список игроков (как обычно, дополняйте в комментариях).

Для удобства читателя мы разделили участников рынка big data на несколько категорий (на деле границы между ними не так уж и четки): ● поставщики инфраструктуры, которые решают задачи хранения и предобработки данных (Sap, Oracle, IBM, EMC, Microsoft и др.);

● датамайнеры — разработчики алгоритмов, которые помогают клиентам извлекать ценность из больших данных (Yandex Data Factory, «Алгомост», Glowbyte Consulting, CleverData и др.);

● системные интеграторы, которые разворачивают системы анализа больших данных на стороне клиента («Форс», «Крок» и др.); ● потребители, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов (телеком, банки, ритейл и др.); ● разработчики готовых сервисов на базе больших данных (в основном цифровой маркетинг), которые открывают возможности big data для широкого круга пользователей, в том числе для малого и среднего бизнеса.

Что касается рынка данных, он в России только зарождается. Внутри экосистемы RTB поставщиками данных выступают владельцы программатик-платформ управления данными (DMP) и бирж данных (data exchange). Телеком-операторы в пилотном режиме делятся с банками потребительской информацией о потенциальных заемщиках.

Обычно большие данные поступают из трех источников: - интернет (соцсети, форумы, блоги, СМИ и другие сайты);- корпоративные архивы документов;- показания датчиков, приборов и других устройств.

Конечно, экспертные классификации игроков рынка технологий для больших данных куда сложнее и выглядят примерно так:

Источник - Capgemini

Основные поставщики инфраструктуры

Они продают специализированные системы управления базами данных, программно-аппаратные комплексы и сопутствующий аналитический софт — напрямую или через официальных дистрибьюторов. Разбираться в этих продуктах нужно компаниям с собственной экспертизой в сфере анализа больших данных. Поэтому многие предпочитают доверяться системным интеграторам и IT-консультантам, которые подбирают железо и софт под задачи клиента.

SAP

На рынок бизнес-аналитики немецкая SAP вышла в 2007 году, купив фирму Business Objects. Сегодня в ее портфель решений для работы с big data входят аналитические системы управления базами данных SAP Hana и SAP IQ, СУБД в оперативной памяти SAP Hana, SAP Event Stream Processing на базе Hadoop, инструмент визуализации Lumira и софт для прогнозной аналитики от KXEN (SAP купила ее в 2013 году). По части оборудования вендор сотрудничает с Dell, Cisco, Fujitsu, Hitachi, HP и IBM. В России продуктами SAP для работы с большими данными пользуются, например, Федеральная налоговая служба, Пенсионный фонд, банковская группа «Открытие» и энергетический холдинг «Сибирская генерирующая компания». В октябре 2014 года SAP запустила 9-месячный акселератор для стартапов в сфере big data, четыре из них дошли до уровня прототипов.

Oracle

Американская корпорация продает широкий спектр технологий для больших данных — специализированные устройства, системы управления базами данных, различные аналитические приложения. В 2014 году Oracle купила облачную платформу управления большими данными BlueKai, получив ее массивы неструктурированной информации (самые большие на американском рынке). В линейке вендора — аналитические СУБД Oracle Database, Oracle MySQL и Oracle Essbase, СУБД в оперативной памяти Oracle TimesTen, Oracle Event Processing на базе Hadoop, программно-аппаратные решения Oracle Big Data Appliance, Exadata и Exalytics. В России продуктами Oracle пользуются, например, Федеральная налоговая служба и «Альфа-Банк».

IBM

По расчетам Wikibon, в прошлом году американская компания стала лидером по заработку на big data ($1,4 млрд). IBM продает оборудование для работы с большими данными IBM PureData и Watson, СУБД DB2, систему для Hadoop BigInsights, систему интеграции данных InfoSphere, инструменты бизнес-аналитики Cognos, SPSS и другие продукты. Крупнейшие потребители решений IBM для больших данных в России — Пенсионный фонд и компания «Вымпелком».

Microsoft

Компания предлагает технологии big data для любого масштаба бизнеса. Небольшим компаниям адресован инструмент Power BI, который входит в Office 365 и встроен в приложение Excel. Сервис включает публичный и корпоративный каталоги данных, новые инструменты поиска информации, интерактивную визуализацию и широкие возможности для совместной работы.

Ряд решений для работы с большими данными доступен пользователям облачной платформы Microsoft Azure. Так, обрабатывать информацию в режиме реального времени помогает Azure Stream Analytics, извлекать сведения из различных источников и управлять потоками данных — Azure Data Factory, а составлять бизнес-прогнозы — инструмент машинного обучения Azure Machine Learning.

Другая платформа Microsoft — SQL Server — позволяет управлять любыми объемами информации в облаке или в собственной инфраструктуре. В SQL Server 2014 реализована технология in-memory OLTP, которая в среднем в 100 раз повышает производительность обработки транзакций за счет выборочного переноса высоконагруженных таблиц в оперативную память.

Teradata Американская компания специализируется на программно-аппаратных комплексах для обработки и анализа данных. В линейку продуктов для big data входят устройство Teradata Data Warehouse Appliance, платформа Teradata Aster Discovery и аналитическое ПО. Также компания оказывает услуги по анализу больших данных. В России решения Teradata внедрены у Федеральной налоговой службы, банка «ВТБ24», «Сбербанка» и «Ситибанка».

Pivotal (EMC)

В 2013 году корпорация EMC открыла подразделение Pivotal. Оно занимается обработкой больших данных и поставляет решения PaaS (платформа как услуга) и IТaaS (ИТ как услуга). Для big data компания предлагает базу данных Greenplum, SQL-механизм обработки HAWQ для Hadoop и in-memory СУБД GemFire. В марте корпорация представила озеро данных Federation Business Data Lake. В России решения EMC используют «Тинькофф-банк» и компания «Тройка Диалог» (ныне Sberbank CIB).

SAS

SAS считается одним из пионеров business intelligence. Компания продает решения для бизнес-аналитики, управления данными и их анализа. Заказчикам SAS предлагает консалтинг, внедрение, обучение и техническую поддержку. Продукты компании для работы с большими данными используют «Сбербанк», «Тинькофф-банк», «ЮниКредит Банк», ВТБ24, РЖД и Теле2.

Продукты SAS для big data решают различные типы задач. В линейку входят технологии управления распределенными вычислениями SAS Grid Computing, продукты на базе in-database вычислений и продукты на базе технологии in-memory. К последней группе относятся платформа для интерактивного исследования и визуализации данных SAS Visual Analytics, интерактивная среда для анализа данных SAS In-Memory Statistics, инструмент для создания аналитических моделей SAS Visual Statistics, средство для ускоренного аналитического моделирования SAS Factory Miner, SAS Event Stream Processing Engine для анализа потока событий в режиме реального времени, механизм анализа текста SAS High-Performance Text Mining и другие инструменты.

HP Vertica Для больших данных компания поставляет облачную платформу HP Haven, базу данных HP Vertica Community Edition для бюджетного создания продуктов на основе обработки больших данных, HP Vertica Enterprise Edition — для более масштабных проектов, софт HP Autonomy — для анализа разноформатной информации (видео, аудио, соцсетей). Технологии НР для big data используются для анализа текстов объявлений Avito, таргетирования рекламы в онлайн-кинотеатре Ivi.ru, анализа поведения клиентов и расчетов в реальном времени в банке «Открытие», автоматизации отчетности в сети «Глория Джинс», ускорения тестирования продуктов в «Связь-банке». Первым российским покупателем аналитической системы HP Vertica стала Yota Networks. Кстати, решения HP Vertica для хранения и анализа больших данных использует Facebook.

Cloudera

Компания из Калифорнии продает наиболее популярный дистрибутив свободно распространяемого фреймворка Hadoop. Полная версия продукта Cloudera Distribution Hadoop включает программные инструменты Cloudera Impala, Cloudera Search, Apache HBase, Accumulo, Spark и Kafka. Аппаратных решений у компании нет. В прошлом году корпорация Intel инвестировала в Cloudera $740 млн. В России решениями Cloudera пользуются «Сбербанк» и «Тинькофф-банк».

Google

На рынок бизнес-аналитики корпорация вышла в 2012 году, запустив облачный сервис анализа больших данных в режиме реального времени Google BigQuery. Через год его интегрировали в платную версию счетчика Google Analytics Premium. Обновленная версия BigQuery способна анализировать до 100 тысяч строк данных в секунду. Недавно Google представила новую специализированную базу данных Cloud Bigtable, которая подходит для big data лучше предшественницы Cloud Dataflow. В России решения Google для больших данных можно купить у официальных реселлеров — российского представительства украинской компании OWOX и отечественных агентств iConText, Adventum, «Кокос», AdLabs и i-Media. Судя по открытым источникам, сервисом BigQuery пользуются «М.Видео», «Юлмарт», «Связной», Ozon.Travel, «Эльдорадо», Onlinetours, Anywayanyday и «Вымпелком».

Amazon Web Services

Компания создана в 2006 году как облачный сервис хранения данных. В последние годы AWS расширяет линейку решений для больших данных. Это NoSQL-база данных Amazon DynamoDB, реляционная СУБД Amazon RDS, сервис анализа потоковых данных в режиме реального времени Amazon Kinesis, петабайтное хранилище данных Amazon Redshift, архив Amazon Glacier. Также AWS предоставляет Hadoop через облачный сервис Amazon Elastic MapReduce.

В рамках специальной программы поддержки AWS дает молодым предпринимателям бесплатный доступ к своим облачным ресурсам. Так что услугами компании пользуются многие российские и зарубежные стартапы. В прошлом году к программе AWS Activate присоединился фонд «Сколково», обеспечив своим резидентам доступ к продуктам Amazon. Из более крупных отечественных пользователей AWS известен отраслевой портал «Банки.ру».

Датамайнеры

Датамайнеры извлекают знания из накопленных клиентами больших данных. По некоторым оценкам, мировой рынок анализа данных ежегодно растет на 40% в год и к 2016 году превысит $50 млрд. Некоторые сервисы обработки данных работают по модели big data as a service (BDaaS), позволяя загрузить данные в облако и получить результат. Они избавляют предпринимателя от необходимости нанимать дорогие кадры и налаживать собственную инфраструктуру. А если клиенту нужен функционал шире стандартного — можно заказать апгрейд.

Малому и среднему бизнесу датамайнинговые сервисы доступней, чем дорогое оборудование. «Вне зависимости от специализации компании-заказчика, готовый сервис анализа данных позволяет быстро получить конкурентные преимущества и адаптироваться к изменяющимся условиям рынка», — писал в своей колонке big data архитектор компании AT Consulting Алексей Беднов.

Yandex Data Factory

На анализе больших массивов данных построено большинство продуктов «Яндекса» — поиск, машинный перевод, фильтрация спама, рекламный таргетинг, рекомендации, распознавание образов и речи, предсказание пробок. Использовать свои технологии для внешних заказчиков IT-компания начала с 2012 года. С тех пор отечественный IT-гигант делал проекты для нефтяных компаний («Роснефти» и норвежской Statoil), прогнозировал отток абонентов для неназванного телеком-оператора, просчитывал экономичные маршруты для самолетов, снижал процент отказов европейских банкоматов. В декабре IT-компания объявила о создании международного подразделения Yandex Data Factory. Оно специализируется на обработке больших данных для крупного бизнеса. Основными клиентами Yandex Data Factory стали телеком, банки, ритейл и промышленные предприятия. Для Росавтодора YDF разработал систему прогнозирования пробок и ДТП, для разработчика онлайн-игр Wargaming предсказал отток игроков, а с британской биофармацевтической компанией AstraZeneca сотрудничает в области здравоохранения. В июле YDF стал консультантом Сбербанка по big data, а в августе договорился с Магнитогорским металлургическим комбинатом о создании проекта по оптимизации плавки стали. Для анализа больших данных «Яндекс» применяет решения собственной разработки.

«Алгомост»

Алгоритмы датамайнинга для решения бизнес-задач компания разрабатывает с 2012 года. Ее аналитические решения адресованы ритейлу, банкам, транспорту, телекому, здравоохранению, страхованию и государству. «Алгомост» консультирует, создает алгоритмы и поддерживает их дальнейшее развитие. Клиент только ставит задачу — например, увеличить прибыль, сократить издержки, оптимизировать бизнес-процессы, опередить конкурентов, привлечь новых клиентов и партнеров и т.д. Алгоритмы пишут как разработчики «Алгомоста», так и независимые датамайнеры, которых компания привлекает в ходе открытых конкурсов (охват более тысячи специалистов по всему миру). В 2013 году «Алгомост» стала резидентом ИТ-кластера «Сколково».

IBS

Большими данными отечественный IT-холдинг занялся в 2004 году, когда начал разрабатывать аналитическую платформу для сервиса мониторинга медиаполя «Медиалогия». Клиентам из финансового сектора IBS делала алгоритмы для расширенного скоринга, обогащения клиентского профиля, противодействия мошенничеству, а также анализировала транзакции. Для госструктур компания решала задачи текстовой аналитики и помогала выстраивать инфраструктурy big data. В кооперации с YandexDataFactory холдинг работал над системой прогнозирования ситуации на дорогах для «Росавтодора».

В портфеле IBS есть решения по обработке больших данных для телеком-операторов, банков, ритейла и госсектора. Широкий круг клиентов она консультирует в области data governance — стратегии управления корпоративными данными как источником эффективности. Компания сотрудничает с ключевыми поставщиками решений для big data: SAP, Oracle, IBM, SAS, Teradata и т.д.

«Прогноз»

Разработчик BI-систем из Перми лидирует на российском рынке заказного ПО и продает свои продукты более чем в 70 странах. Флагманская разработка компании Prognoz Platform содержит спектр инструментов от классического BI до продвинутой аналитики и возможностей data discovery. В октябре прошлого года компания выпустила обновленную версию платформы, расширив ее возможности работы с большими данными. Она интегрирована с программно-аппаратными комплексами Oracle Exadata, IBM Netezza и EMC Greenplum, поддерживает распределенное хранение и обработку big data в Hadoop Hive, язык HiveQL и работу в «облаке».

У «Прогноза» есть специализированные аналитические решения для госсектора, корпораций, финансовой сферы и других отраслей. Prognoz Platform используют российские госорганы, банки, научные организации и крупные компании — всего больше 200 внедрений внутри страны.

AT Consulting

Российская ИТ-компания реализует проекты в сфере big data c 2012 года. Среди клиентов компании, применивших эти технологии, – банки, телекоммуникационные операторы, госструктуры. AT Consulting искала возможности улучшения транспортной системы Москвы, создавала антиспам-роботов, анализировала отток абонентов и пр. Один из крупнейших клиентов компании в данной сфере — «ВымпелКом», для которого был разработан промышленный кластер big data. Например, через него в онлайн-режиме формируются таргетированные предложения для абонентов на основе данных об их местоположении, статистики потребления услуг, а также различных сетевых данных.

Data-Centric Alliance

Компания предоставляет сервисы, основанные на технологиях big data, а также решает задачи клиентов в индивидуальном порядке. Готовые решения Data-Centric Alliance лежат в плоскости цифрового маркетинга. Это programmatic-платформа Exebid DCA, платформа управления большими данными Facetz.DCA, платформа для продажи рекламного инвентаря Spicy, сервис рекомендаций для сайта Booster, разработка для вычисления портрета клиента Prizma, инструмент для привлечения интернет-аудитории SmartTDS. Отдельные проекты компания делает для некоторых телеком-операторов, банков и ритейла. Из публичных кейсов: в июле Data-Centric Alliance вместе с провайдером Wi-Fi доступа в московском метро «Максима Телеком» запустила рекламную платформу для малого и среднего бизнеса. В начале августа компания с помощью big data составила портрет аудитории 30 ведущих интернет-СМИ.

CleverData

Дочка отечественной ГК «Ланит» (создана в 2014 году) внедряет свои и партнерские решения для обработки больших данных. CleverData анализирует клиентскую базу заказчика, конструирует платформы управления внутренними данными компании, оптимизирует процессы RTB-рекламы и строит системы управления операционной эффективностью на базе Splunk. Целевой маркетинг обеспечивают платформа управления данными 1DMP и площадка для монетизации и обогащения данных Data Marketing Cloud. Консалтинговая компания сотрудничает с IBM, Oracle, Teradata, Splunk, Aerospike и Сloudera. В октябре прошлого года CleverData объявила о создании универсальной биржи данных, которая позволит поставщикам и потребителям big data договориться об условиях обмена.

EasyData

Лаборатория больших данных строит высоконагруженные хранилища данных и системы бизнес-аналитики. EasyData известна тем, что привезла в Россию решения HP Vertica. В 2013 году они внедрили эту систему управления базами данных в банке «Открытие», а до этого — в компании Yota Networks.

Glowbyte Consulting

В 2008 году IT-консалтинг стал основной деятельностью компании. Наряду с другими услугами, она выстраивает клиентам процессы обработки и хранения больших данных. Glowbyte Consulting внедряла технологии big data в «Тинькофф-банке», банке «Уралсиб», «ОТП Банке», «Лето Банке», финансовой группе БКС и у телеком-оператора «Дом.ru». Интегратор выступает партнером ведущих вендоров — SAP, Oracle, EBM и других.

Double Data

Стартап предлагает big data решения для финансовых организаций. Путем анализа больших данных из интернета они помогают банкам привлекать новых клиентов, связываться с неконтактными должниками, верифицировать личность потенциального заемщика, оценивать кредитоспособность и выявлять мошенничество. В 2014 году компания стала резидентом ИТ-кластера «Сколково». В марте этого года Double Data привлекла 200 млн рублей инвестиций от LETA Capital и SimileVenturePartners для выхода на новые отраслевые и географические рынки. В частности, компания видит потенциал в решении задач телекома, страховщиков, туроператоров и e-commerce. На своем сайте они заявляют о готовности создавать новые продукты под задачи заказчика.

DataMining Labs

Питерская компания занимается коммерческой разработкой, научными исследованиями и бесплатным обучением специалистов по data science. DataMining Labs помогает повысить эффективность в маркетинге, финансах, HR и производстве с помощью обработки накопленных клиентом данных. Например, компания анализировала трафик финансовых транзакций, искала аномалии в log-файлах веб-сервисов, предсказывала возврат пользователей.

MLClass

Проект занимается подготовкой кадров для отечественной индустрии big data, формирует сообщество специалистов по data science, помогает работодателям искать data scientists и выполняет крупные заказы по датамайнингу для госсектора. Например, сейчас MLClass применяет методы машинного обучения (иерархической кластеризации и text mining'а) для оценки эффективности отечественных институтов развития предпринимательства по заказу аналитического центра при правительстве РФ.

BaseGroup Labs

С 1999 года компания из Рязани сконцентрировалась на разработке ПО для анализа данных. В итоге многолетние наработки BaseGroup Labs вылились во флагманский продукт — BI-платформу Deductor. На ней базируются готовые решения компании по скорингу, поддержанию качества клиентских данных, планирования закупок. BaseGroup Labs внедряет системы анализа больших данных, оказывает техподдержку, обучает специалистов и выступает вендором платформы Deductor. Например, компания выстраивала методику выявления аномалий для фонда «Общественное мнение», систему принятия решений по выдаче кредитов для МТС Банка, прогнозную модель распространения эпидемий для противочумного НИИ «Микроб».

Global Innovation Labs

Компания открыла лабораторию анализа данных в 2011 году. Global Innovation Labs применяет свои алгоритмы к данным крупных ритейлеров. Сервис анализирует чеки, трафикообразующие категории, эффективность маркетинговых кампаний, поведение покупателей в магазине, их лояльность и другие метрики. Выявленные закономерности помогают оптимизировать маркетинг, ассортимент и ценовую политику. Своих клиентов Global Innovation Labs не называет.

«Айкумен ИБС»

Анализом больших данных компания занимается с 2010 года. В основе продуктового портфеля «Айкумен ИБС» — аналитическая платформа IQPlatform. Она работает как со структурированной информацией, так и с сырыми данными из разнородных источников. IQPlatform решает задачи обогащения сведений о клиентах и партнерах для поддержки продаж и оптимизации маркетинга, технологической и конкурентной разведки, повышения качества клиентского сервиса, улучшения работы служб безопасности и персонала, управления рисками. «Айкумен ИБС» делала проекты для Сбербанка, Внешэкономбанка, Роскосмоса, «Ростелекома», «Вертолетов России» и «ФСК ЕЭС». Партнеры компании — Oracle и IBM.

IT-консультанты

Системные интеграторы разворачивают систему анализа больших данных на стороне клиента. Они выступают посредниками между технологиями и бизнесом. Это вариант для тех, кому не подходят готовые решения и облачные вычисления. «Преимущество интегратора в том, что он может комбинировать продукты разных вендоров, дополняющие друг друга», — говорил директор IBS по технологиям Сергей Кузнецов в интервью изданию Computeworld.

«Форс»

Направлением big data компания занялась в 2013 году. Они разрабатывают и развертывают аналитические системы для телекома, ритейла, банковского сектора, здравоохранения, госорганов и муниципальных служб. Кроме того, «Форс» предлагает готовый софт для анализа аудитории с помощью данных из соцсетей (ForSMedia) и формирования досье контрагента. Компания является официальным дистрибутором и платиновым партнером корпорации Oracle.

«Крок»

Интегратор плотно сотрудничает с EMC, HP, Oracle и Microsoft, Intel — с их решениями работает центр компетенций «Крок». Проекты в сфере больших данных компания начала реализовывать с 2013 года. Специалисты «Крок» строили модель по уменьшению оттока абонентов для крупного телеком-оператора, прогнозировали пассажиропотоки для «Центральной пригородной пассажирской компании», а сейчас реализуют проект в некой крупной страховой компании. В 2014 году объем направления big data достиг 1% в выручке «Крок».

Готовые сервисы на основе big data

На технологиях анализа больших данных построены привычные нам антиспам, антифрод, programmatic-реклама и товарные рекомендации. Для использования готовых сервисов не нужны ни дополнительные сервера, ни консультанты, ни data scientists. Данные эти системы берут из открытых источников — соцсетей, сайтов, форумов и СМИ. Это открывает клиентам широкие возможности для цифрового маркетинга без затрат на инфраструктуру. Большие данные занимают центральное место в экосистеме RTB-рекламы. Платформы управления данными (DMP) собирают информацию о пользователях в виде сегментов аудитории, биржи данных (data exchange) — в виде обезличенных профилей. Эти данные обеспечивают максимально точное таргетирование RTB-рекламы, минимизируя затраты рекламодателя и раздражение потенциального покупателя. Такие услуги предлагают отечественные компании Auditorius, Data-Centric Alliance, RTB Media, RuTarget/Segmento, Between Digital, Hubrus DSP, Adfox, AdRiver, GetIntent, Kavanga и другие. Большими данными из открытых источников оперируют также многочисленные сервисы товарных рекомендаций (Retail Rocket, Crosss, REES46, «1С-Битрикс Big Data»), персонализации контента (Flocktory, Usalytics) и целевого маркетинга (Opiner, SmartBox eCRM, Witget). На этом основании все они тоже являются частью российского рынка больших данных.

О некоторых стартапах, работающих с big data в России, мы подробно рассказали здесь: Кто делает big data в России?

Старейшие отечественные IT-холдинги анализируют большие данные собственными силами. Так они совершенствуют собственные сервисы, таргетируют рекламу и персонализируют контент.

Mail.Ru Group

Задолго до появления термина big data холдинг вовсю использовал технологии обработки больших данных. Первым таким проектом была система веб-аналитики «Рейтинг Mail.Ru». Сейчас анализ больших данных задействован практически во всех продуктах компании — «Таргет.Mail.Ru», «Почта Mail.Ru», «Одноклассники», «Мой Мир», «Поиск Mail.Ru» и других. С помощью обработки big data Mail.Ru фильтрует спам, таргетирует рекламу, оптимизирует поиск, ускоряет работу техподдержки, анализирует поведение пользователей, предлагает им контакты и подписки. Для офлайновой обработки данных компания использует платформу Hadoop, для онлайна — собственную разработку NoSQL СУБД Tarantool.

«Рамблер»

Изначально медиахолдинг работал с большими данными в части поиска. В последние пару лет компания активизировала направление датамайнинга. Технологии big data «Рамблер» применяет для таргетинга рекламы, персонализации контента, блокировки спама и ботов, обработке естественного языка. Технологическая сторона этой работы — платформы для обработки больших данных Hadoop/Spark/Mahout и Python Scipy/Scikit-learn. В дальнейшем компания собирается оттачивать рекламные технологии и персонализацию контента.

Также «Рамблер» ставит на развитие сервисов контентной аналитики для PR. В июле он купил 51% компании RCO, которая выпускает приложения для интеллектуальной обработки текстов на разных языках. Продуктами RCO пользуются «Газпром», Минюст, Центробанк, ФСБ, «Роснано», «МегаФон», «Сбербанк» и другие организации.

Крупные внедрения

А теперь самое время посмотреть на успешные примеры внедрения технологий обработки данных. Особенно показательны телеком-операторы: освоив датамайнинг, они не только повысили качество своих услуг, но и превратили собранные данные в ликвидный актив, востребованный банкирами и чиновниками.

«Мегафон»

Оператор начал осваивать технологии обработки big data два года назад. Основная цель компании — оптимизация затрат и улучшение обслуживания абонентов. В прошлом году «Мегафон» договорился с правительством Москвы предоставлять информацию о структуре столичного населения. В 2013 году «Мегафон» занялся геоаналитикой — изначально для прогнозирования нагрузок на собственную сеть. Сегодня это направление выросло в отдельный сервис анализа пассажироперевозок для транспортных компаний. Приложение показывает объем пассажиропотока, популярные маршруты и раскладку по видам транспорта. В июле оператор начал переговоры с РЖД, предложив ей свое решение для прогнозирования популярных маршрутов. Совместный проект запустится не ранее 2016 года. Ну а пока направление big data приносит «Мегафону» около 1% выручки. Для работы с массивами больших данных телеком-оператор использует решения на базе платформы Hadoop. Приоритетом в этой работе компания считает конфиденциальность информации о клиентах, поэтому не привлекает к анализу сторонние разработки.

«Билайн»

Телекоммуникационный холдинг «Вымпелком» использует анализ больших данных для мониторинга качества обслуживания клиентов, подбора сервисов и тарифов, борьбы с мошенничеством и спамом, оптимизации работы колл-центра за счет прогнозирования причины обращения и других задач. Разработкой и внедрением решений в сфере big data занимается специальное подразделение. Массивы данных анализируют с помощью Hadoop, IBM SPSS, Apache Spark и Vowpal Wabbit. В мае прошлого года «Вымпелком» представила пилотный проект «Умное оповещение». Технология позволяет предупреждать людей, находящихся в зоне чрезвычайной ситуации, а также тех, кто туда может попасть. В конце мая 2015 года оператор запустил пилотный проект по оценке кредитоспособности своих абонентов. К эксперименту подключились около 20 банков. Они получают от «Вымпелкома» обезличенные скоринговые баллы, рассчитанные по платежам за мобильную связь, оплате услуг со счета мобильного оператора и даже данным геолокации. В части больших данных компания сотрудничала с Генпланом Москвы, Дептрансом Санкт-Петербурга, а на днях выиграла тендер Департамента информационных технологий Москвы на SMS-информирование москвичей (сумма контракта 78 млн рублей).

МТС

Решения для анализа больших данных корпорация внедряет с 2011 года. Информация о профиле потребления интернет-трафика, типах используемых устройств, круге общения и покупках абонента позволяет МТС делать абонентам персональные предложения. Статистику передвижений абонентов компания давно использует для прогнозирования нагрузки на сети. Эти же данные сотовый оператор предоставляет правительству Москвы в рамках совместного проекта по развитию городской инфраструктуры. Как ожидается, мобильная геоаналитика поможет властям определиться с размещением новых магистралей и станций метро. С банками МТС провела пилотный проект по скорингу абонентов. Продукт будет готов до конца года, после завершения технического решения по оценке рисков заемщика. Также с помощью big data компания намерена прогнозировать поведение абонентов, бороться с мошенничеством, разрабатывать предложения на основе таргетинга, улучшать качество покрытия сети, повышать эффективность управления собственной розничной сетью и развивать радиосеть на основе абонентских данных. Для хранения и обработки данных оператор использует Apache Hadoop, Apache Spark, Cloudera Impala, БД Teradata и решения SAS.

«Сбербанк»

В стратегии банка на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчета бонусов для сотрудников и других задач. По данным CNews, Сбербанк применяет Teradata, Cloudera Hadoop, Impala, Zettaset, стек продуктов Apache (Hadoop, HBase, Hive, Mahout, Oozie, Zookeeper, Flume, Solr, Spark и пр.), специализированные базы данных (Neo4j, MongoDB и т.д.) и собственные решения в области data mining, predictive/prescriptive-аналитики, обработки естественного языка. В организации работает лаборатория по big data. Банк намерен подключить к анализу больше типов своих внутренних данных и задействовать внешние источники (например, данные из соцсетей). В марте Сбербанк купил рекламную платформу Segmento, чтобы использовать ее данные для персонализации предложений своих клиентам и привлечения новых. В июле банк привлек «Яндекс» в качестве консультанта по анализу больших данных.

ВТБ24

Банк пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчетности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

«Альфа-банк»

За большие данные банк взялся в 2013 году. Он использует эти технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big Data Appliance и фреймворком Hadoop.

Возможности дополнительной монетизации своих массивов данных «Альфа-банк» видит в рекомендательных системах, анализе линейки продуктов и предиктивном анализе поведения клиентов.

«Тинькофф-банк»

С помощью EMC Greenplum, SAS Visual Analytics и Hadoop банк управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

«Газпромбанк»

Банк применяет big data для скоринга, противодействия мошенникам, оперативного получения отчетности, персонализации предложений, доскоринговой проверки репутации потенциальных заемщиков, предоставления информации регуляторам и других задач.

Если вы вспомнили другие продукты для работы с большими данными или какие-нибудь интересные кейсы — рассказывайте в комментариях.

Фото на обложке предоставлено сайтом Shutterstock.

B2B магазин Rusbase собрал только проверенных поставщиков услуг. В разделе Big Data вы найдете специалистов, которые на основе ваших данных помогут понять:
  • помогут разработать систему персональных предложений;
  • научат использовать технологии машинного обучения;
  • расскажут, как увеличивать конверсию в покупку и средний чек.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

rb.ru

Почему Big Data постоянно путают с маркетингом и ИТ — Маркетинг на vc.ru

Термин Big Data стал очень модным — его используют в миллионах ситуаций и в сотнях разных интерпретаций, зачастую не имеющих отношения к тому, чем он является. Часто в головах людей происходит подмена понятий, и Big Data путают с маркетинговым продуктом. Более того, в некоторых компаниях Big Data является частью маркетингового подразделения. Результат анализа больших данных действительно может быть источником для маркетинговой активности, но не более того. Посмотрим, как это работает.

Если мы определили список тех, кто покупал в нашем магазине товары на сумму более трех тысяч рублей два месяца назад, а затем послали этим пользователям какое-то предложение, то это типичный маркетинг. Мы выводим понятную закономерность из структурных данных, и используем ее для увеличения продаж.

Однако если мы соединим данные CRM с потоковой информацией, например, из Instagram, и проанализируем их, то найдем закономерность: человеку, который снизил свою активность в среду вечером и на чьей последней фотографии изображены котята, следует сделать определенное предложение. Это уже будет Big Data. Мы нашли триггер, передали его маркетологам, а они его использовали в своих целях.

Из этого следует, что технология обычно работает с неструктурированными данными, а если данные и структурированы, то система всё равно продолжает искать в них скрытые закономерности, чего не делает маркетинг.

Big Data — это не ИТ

Вторая крайность этой истории: Big Data часто путают с ИТ. Это связано с тем, что в российских компаниях, как правило, именно ИТ-специалисты являются драйверами всех технологий, в том числе и больших данных. Поэтому, если всё происходит именно в этом отделе, для компании в целом создается впечатление, что это какая-то деятельность ИТ.

На самом деле, здесь есть коренное различие: Big Data — это деятельность, направленная на получение определенного продукта, что совсем не относится к ИТ, хотя без них технология и не может существовать.

Big Data — не всегда сбор и анализ информации

Есть ещё одно заблуждение относительно Big Data. Все понимают, что эта технология связана с большими объемами данных, но какого рода данные имеются в виду, не всегда ясно. Собирать и использовать информацию может каждый, сейчас это возможно не только в фильмах про Джеймса Бонда, но и в любой, даже совсем маленькой компании. Вопрос только в том, что именно собирать и как это использовать с пользой для себя.

Но следует понять, что технологией Big Data не будет являться сбор и анализ совершенно любой информации. Например, если вы соберете в социальных сетях данные о конкретном человеке, это не будет Big Data.

Что такое Big Data на самом деле

Big Data состоит из трех элементов:

  • данные;
  • аналитика;
  • технологии.

Big Data — не что-то одно из этих составляющих, а связка всех трех элементов. Часто люди подменяют понятия: кто-то считает, что Big Data — это только данные, кто-то — что технологии. Но по факту, сколько бы данных вы ни собрали, вы ничего с ними не сделаете без нужных технологий и аналитики. Если есть хорошая аналитика, но нет данных, — тем более плохо.

Если говорить о данных, то это не только тексты, но и все фотографии, размещаемые в Instagram, и вообще всё, что можно проанализировать и использовать для разных целей и задач. Другими словами, под Data понимаются огромные объемы внутренних и внешних данных различных структур.

Также нужна аналитика, потому что задача Big Data — построить какие-то закономерности. То есть аналитика — это выявление скрытых зависимостей и поиск новых вопросов и ответов на основе анализа всего объема разнородных данных. Причем Big Data ставит вопросы, которые напрямую из этих данных не выводим.

Если говорить об изображениях, то факт размещения вами своего фото в голубой футболке ни о чем не говорит. Но если использовать фотографию для Big Data-моделирования, то может выясниться, что именно сейчас вам следует предложить кредит, потому что в вашей социальной группе такое поведение говорит об определенном феномене в действиях. Поэтому «голые» данные без аналитики, без выявления скрытых и неочевидных зависимостей Big Data не являются.

Итак, у нас есть большие данные. Их массив огромен. Также у нас есть аналитик. Но как сделать так, чтобы из этих сырых данных у нас родилось конкретное решение? Для этого нам нужны технологии, которые позволяют их не просто складировать (а раньше и это было невозможно), но и анализировать.

Проще говоря, если у вас есть много данных, вам потребуются технологии, к примеру, Hadoop, которые дают возможность сохранить всю информацию в первозданном виде для последующего анализа. Такого рода технологии возникли в интернет-гигантах, поскольку именно они первыми столкнулись с проблемой хранения большого массива данных и его анализа для последующей монетизации.

Кроме инструментов для оптимизированного и дешевого хранения данных, нужны аналитические инструменты, а также надстройки к используемой платформе. К примеру, вокруг Hadoop уже образовалась целая экосистема из связанных проектов и технологий. Вот некоторые из них:

  • Pig — декларативный язык анализа данных.
  • Hive — анализ данных с использованием языка, близкого к SQL.
  • Oozie — поток работ в Hadoop.
  • Hbase — база данных (нереляционная), аналог Google Big Table.
  • Mahout — машинное обучение.
  • Sqoop — перенос данных из РСЦБД в Hadoop и наоборот.
  • Flume — перенос логов в HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS и так далее.

Все эти инструменты доступны каждому бесплатно, но есть и набор платных надстроек.

Кроме того, нужны специалисты: это разработчик и аналитик (так называемый Data Scientist). Также необходим менеджер, способный понять, как эту аналитику применить для решения конкретной задачи, потому что сама по себе она совершенно бессмысленна, если ее не встраивать в бизнес-процессы.

Все три сотрудника должны работать в команде. Менеджер, который дает специалисту по Data Science задание найти определенную закономерность, должен понимать, что далеко не всегда найдется именно то, что ему нужно. В таком случае руководитель должен внимательно слушать, что же нашел Data Scientist, поскольку зачастую его находки оказываются более интересными и полезными для бизнеса. Ваша задача — применить это к бизнесу и сделать из этого продукт.

Несмотря на то, что сейчас есть множество разного рода машин и технологий, окончательное решение всегда остается за человеком. Для этого информацию нужно как-то визуализировать. Инструментов для этого довольно много.

Самый показательный пример — это геоаналитические отчеты. Компания «Билайн» много работает с правительствами разных городов и областей. Очень часто эти организации заказывают отчеты типа «Транспортная загруженность в определенном месте».

Понятно, что подобный отчет должен попасть к правительственным структурам в простой и понятной им форме. Если же мы предоставим им огромную и совершенно непонятную таблицу (то есть информацию в том виде, в каком ее получаем мы), они вряд ли купят такой отчет — он будет совершенно бесполезен, они не вынесут из него тех знаний, которые хотели получить.

Поэтому, какими бы хорошими ни были специалисты по Data Science и какие бы закономерности они ни находили, вы не сможете работать с этими данными без качественных инструментов визуализации.

Источники данных

Массив получаемых данных очень велик, поэтому его можно разделить на некоторые группы.

Внутренние данные компании

Хотя к этой группе относится 80% собираемых данных, этот источник не всегда используют. Часто это данные, которые, казалось бы, вообще никому не нужны, например, логи. Но если посмотреть на них под другим углом, иногда можно найти в них неожиданные закономерности.

Условно бесплатные источники

Сюда относятся данные социальных сетей, интернета и всего, куда можно бесплатно проникнуть. Почему условно бесплатно? С одной стороны, эти данные доступны каждому, но если вы являетесь крупной компанией, то получать их в размерах абонентской базы в десятки тысяч, сотни или миллионы клиентов — уже непростая задача. Поэтому на рынке существуют платные сервисы по предоставлению этих данных.

Платные источники

Сюда относятся компании, которые продают данные за деньги. Это могут быть телекомы, DMP, интернет-компании, бюро кредитных историй и агрегаторы. В России телекомы не продают данные. Во-первых, это экономически невыгодно, а во-вторых, запрещено законом. Поэтому они продают результаты их обработки, например, геоаналитические отчеты.

Открытые данные

Государство идет навстречу бизнесу и дает возможность пользоваться данными, которые они собирают. В большей степени это развито на Западе, но Россия в этом плане тоже идет в ногу со временем. Например, существует Портал открытых данных Правительства Москвы, где публикуется информация по различным объектам городской инфраструктуры.

Для жителей и гостей Москвы данные представлены в табличном и картографическом виде, а для разработчиков — в специальных машиночитаемых форматах. Пока проект работает в ограниченном режиме, но развивается, а значит, тоже является источником данных, который вы можете использовать для своих бизнес-задач.

Исследования

Как уже отмечалось, задача Big Data — найти закономерность. Часто исследования, проводимые по всему миру, могут стать точкой опоры для нахождения той или иной закономерности — вы можете получить конкретный результат и попытаться применить похожую логику в своих целях.

Big Data — это область, в которой работают не все законы математики. Например, «1»+«1» — это не «2», а значительно больше, потому что при смешении источников данных можно значительно усилить эффект.

Примеры продуктов

Многие знакомы с сервисом по подбору музыки Spotify. Он прекрасен тем, что не спрашивает у пользователей, какое у них сегодня настроение, а сам вычисляет это на основе доступных ему источников. Он всегда знает, что вам нужно сейчас — джаз или тяжелый рок. Это то ключевое отличие, которое обеспечивает ему поклонников и отличает от других сервисов.

Подобные продукты принято называть sense-продуктами — такими, которые чувствуют своего клиента.

Технологию Big Data применяют и в автомобилестроении. Например, это делает Tesla — в их последней модели есть автопилот. Компания стремится создать машину, которая сама будет везти пассажира туда, куда ему нужно. Без Big Data это невозможно, потому что если мы будем использовать только те данные, которые получаем напрямую, как это делает человек, то автомобиль не сможет усовершенствоваться.

Когда мы ведем автомобиль сами, то с помощью наших нейронов принимаем решения, исходя из множества факторов, которых мы даже не замечаем. Например, мы можем не осознать, почему решили не газовать сразу на зеленый свет, а потом окажется, что решение было верным — мимо вас пронеслась машина на бешеной скорости, и вы избежали аварии.

Также можно привести пример использования Big Data в спорте. В 2002 году генеральный менеджер бейсбольной команды Oakland Athletics Билли Бин решил разрушить парадигму того, как нужно искать себе спортсменов — он выбрал и обучил игроков «по цифрам».

Обычно менеджеры смотрят на успехи игроков, но в данном случае всё было иначе — чтобы получить результат, менеджер изучал, какие комбинации спортсменов ему нужны, обращая внимания на индивидуальные характеристики. Причем спортсменов он выбрал таких, которые сами по себе не представляли большого потенциала, зато команда в целом получилась настолько успешной, что выиграла двадцать матчей подряд.

Режиссер Беннетт Миллер в последствии снял фильм, посвященный этой истории, — «Человек, который изменил всё» в главной роли с Брэдом Питтом.

Технология Big Data полезна и в финансовом секторе. Ни один человек на свете не сможет самостоятельно и точно определить, стоит ли давать кому-то кредит. Для того, чтобы принять решение, производится скоринг, то есть строится вероятностная модель, по которой можно понять, вернет этот человек деньги или нет. Дальше скоринг применяется на всех этапах: можно, например, просчитать, что в определенный момент человек перестанет платить.

Большие данные позволяют не только заработать деньги, но и сэкономить их. В частности, эта технология помогла Министерству труда Германии сократить расходы на пособия по безработице на 10 млрд евро, так как после анализа информации стало понятно, что 20% пособий выплачивалось незаслуженно.

Также технологии применяются в медицине (особенно это характерно для Израиля). С помощью Big Data можно поставить значительно более точный анализ, чем это сделает врач с тридцатилетним стажем.

Любой доктор, когда ставит диагноз, опирается лишь на свой собственный опыт. Когда это делает машина, она исходит из опыта тысяч таких врачей и всех существующих историй болезни. Она учитывает то, из какого материала сделан дом пациента, в каком районе живет пострадавший, какая там задымленность и так далее. То есть она учитывает массу факторов, которые врачи не берут в расчет.

Примером использования Big Data в здравоохранении можно назвать проект Project Artemis, который внедрила Детская больница Торонто. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Машина позволяет анализировать 1260 показателей здоровья каждого ребенка ежесекундно. Этот проект направлен на прогноз нестабильного состояния ребенка и профилактику заболеваний у детей.

Большие данные начинают использовать и в России: например, подразделение больших данных есть у «Яндекса». Компания совместно с «АстраЗенекой» и Российским обществом клинической онкологии RUSSCO запустили платформу RAY, предназначенную для генетиков и молекулярных биологов. Проект позволяет улучшить методы диагностики рака и выявления предрасположенности к онкологическим заболеваниям. Платформа начнет работу в декабре 2016 года.

Другой проект Yandex Data Factory — «Снайпер», разработанный совместно с Магнитогорским металлургическим комбинатом и направленный на оптимизацию процессов плавки стали с помощью алгоритмов машинного обучения. Планируется, что конечный программный продукт будет выдавать оптимальное количество ферросплавов и добавочных материалов при производстве стали.

Big Data используется или может использоваться абсолютно во всех областях — вплоть до того, что данные мобильных операторов покупают даже службы водоснабжения. В частности, это характерно для Рима, где очень слабая система канализации, поэтому они с помощью Big Data прогнозируют активность в определенных частях города, что помогает им предотвращать прорывы труб и другие проблемы.

В общем, есть огромное число продуктов, которые строятся на Big Data. Они могут менять какую-то сферу тотально, как в здравоохранении, а могут лишь модифицировать ее, как в работе интернет-магазинов. В любом случае, Big Data открывает большие возможности. Нужно всего лишь научиться с ней работать.

vc.ru

Big Data для чайников и гуманитариев | Полезное чтение

Мы регулярно натыкаемся на модные слова и определения, смысл которых нам интуитивно вроде бы понятен, но четкой картины того, что это все-таки за штука и как она работает, у нас нет.

Одним из таких понятий является Big Data, в русском языке иногда можно встретить буквальный перевод — «большие данные», но чаще люди говорят и пишут как есть: Big Data. Все наверняка слышали или, по крайней мере, встречали это словосочетание в интернете, и оно вроде бы несложное, но что конкретно имеется в виду, далеким от тонкостей диджитал-мира офисным гуманитариям понятно не всегда.

Отличной попыткой восполнить этот пробел в мозгах самого широкого круга пользователей является статья одного из наших любимых авторов Бернарда Марра, которая так и называется «Что такое Big Data? Суперпростое объяснение для каждого». Без заумного жаргона с единственной целью объяснить ключевые идеи этого феномена для каждого вне зависимости от образования и сферы деятельности.

На самом деле последние несколько лет мы уже живем в мире, насквозь пронизанном Big Data, но продолжаем путаться в понимании того, что же это все-таки такое. Отчасти это происходит и потому, что сама по себе концепция Big Data постоянно трансформируется и переосмысляется, потому что мир высоких технологий и обработки больших массивов информации очень быстро меняется, включая в себя все новые и новые опции. А объем этой информации постоянно растет.

Итак, что значит Big Data — 2017?

Все началось со взрывным ростом количества данных, которые мы создаем с начала цифровой эры. Это стало возможным в основном благодаря росту числа и мощности компьютеров, расширению интернета и развитию технологий, способных захватывать информацию из реального, физического мира, в котором все мы живем, и конвертировать ее в цифровые данные.

В 2017-м мы производим данные, когда заходим в интернет, когда пользуемся нашими укомплектованными GPS-смартфонами, когда общаемся с друзьями в соцсетях, скачиваем мобильные приложения или музыку, когда совершаем покупки.

Можно сказать, что мы оставляем за собой множество цифровых следов, что бы мы ни делали, если наши действия включают в себя какие-либо цифровые транзакции. То есть уже почти всегда и везде.

Помимо этого, с огромной скоростью растет количество данных, сгенерированных самими машинами. Данные создаются и передаются, когда наши умные девайсы коммуницируют друг с другом. Производственные предприятия по всему миру оснащаются оборудованием, которое денно и нощно собирает и передает данные.

В ближайшем будущем наши улицы будут заполнены самоуправляемыми автомобилями, самостоятельно прокладывающими маршруты на основе четырехмерных карт, данные которых генерируются в режиме реального времени.

Что может Big Data?

Бесконечно растущий поток сенсорной информации, фотографий, текстовых сообщений, аудио- и видеоданных лежит в основе Big Data, которые мы можем использовать так, как невозможно было даже представить себе несколько лет назад.

Прямо сейчас основанные на Big Data проекты помогают:

— Лечить болезни и предотвращать рак. Основанная на использовании Big Data медицина анализирует огромное количество медицинских записей и снимков, что делает возможным очень раннюю диагностику и способствует созданию новых методов лечения.

— Бороться с голодом. Сельское хозяйство переживает настоящую революцию Big Data, которая позволяет использовать ресурсы так, чтобы максимально увеличить урожайность при минимальном вмешательстве в экосистему и оптимизировать использование машин и оборудования.

— Открывать далекие планеты. НАСА, к примеру, анализирует огромное количество данных и выстраивает с их помощью модели будущих миссий в далекие миры.

— Предсказывать чрезвычайные ситуации различной природы и минимизировать возможный ущерб. Данные многочисленных сенсоров могут предсказать, где и когда произойдет следующее землетрясение или возможное поведение людей в чрезвычайной ситуации, что повышает шансы на выживание.

— Предотвращать преступления за счет использования технологий, которые позволяют более эффективно распределять ресурсы и направлять их туда, где они наиболее необходимы.

И самое близкое большинству из нас: Big Data делает жизнь обычного человека проще и удобнее — это и онлайн-шопинг, и планирование поездок, и навигация в условиях мегаполиса.

Выбрать лучшее время для покупки авиабилетов и решить, какой фильм или сериал посмотреть, стало гораздо легче именно благодаря работе Big Data.

Как это работает?

Big Data работает на принципе: чем больше вы знаете о чем-либо, тем точнее вы можете предсказать, что случится в будущем. Сравнение отдельных данных и отношений между ними (речь идет об огромном количестве данных и невероятно большом количестве возможных связей между ними) позволяет обнаружить ранее скрытые закономерности. Это дает возможность заглянуть внутрь проблемы и в конечном итоге понимание того, как мы можем управлять тем или иным процессом.

Чаще всего процесс обработки больших объемов информации включает в себя построение моделей, базирующихся на собранных данных, и запуск симуляций, в процессе которого постоянно меняются ключевые настройки, при этом каждый раз система мониторит, как «смена настроек» влияет на возможный результат.

Этот процесс полностью автоматизирован, ведь речь идет об анализе миллионов симуляций, перебора всех возможных вариантов вплоть до того момента, пока паттерн (нужная схема) не будет найден или пока не случится «просветление», что поможет решить задачу, ради которой все и затевалось.

В отличие от привычного нам мира предметов и вычислений, данные принимаются в неструктурированной форме, то есть их сложно засунуть в привычные нам, людям, таблицы с ячейками и столбиками. Огромное количество данных передается как изображения или видео: от спутниковых снимков до селфи, которые вы постите в инстаграм или фейсбук, — так же, как записи в email и мессенджер или телефонные звонки.

Чтобы придать всему этому бесконечному и разношерстному потоку данных практический смысл, Big Data часто использует самые передовые технологии анализа, которые включают в себя искусственный интеллект и машинное обучение (это когда программа в компьютере обучает другие программы).

Компьютеры сами обучаются определять, что представляет та или иная информация — например, распознавать изображения, язык, — и они могут делать это намного быстрее, чем люди.

Большой брат?

Пропорционально беспрецедентным возможностям, которые дает нам сегодня Big Data, растет количество опасений и вопросов, связанных с ее использованием.

НЕПРИКОСНОВЕННОСТЬ ЛИЧНЫХ ДАННЫХ. Big Data собирает огромное количество информации о нашей частной жизни. Очень много информации, которую мы предпочли бы сохранить в тайне.

Таким образом, возникает вопрос о поиске баланса между тем, каким количеством персональных данных мы готовы поделиться, и тем, насколько более комфортной может стать наша повседневная жизнь, благодаря тому, что Big Data знает о нас все и делает нам предложения на основании этих знаний. Кому или чему мы можем доверить доступ ко всем этим данным? Стоит ли вообще его кому-то доверять?

БЕЗОПАСНОСТЬ. Даже если мы решили, что в передаче всех наших персональных данных машине ради какой-то конкретной, выгодной нам цели нет ничего страшного, можем ли мы быть уверены, что наши данные хранятся в безопасном месте? Кто и как может нам это гарантировать?

ДИСКРИМИНАЦИЯ. Когда все известно, допустимо ли подвергать людей дискриминации на основании того, что о них известно благодаря Big Data? Банки используют кредитную историю, а страховые компании определяют стоимость автостраховки, исходя из того, что они знаю о вас. Как далеко это может зайти?

Можно предположить, что ради минимизации рисков компании, государственные органы и даже частные лица будут использовать то, что они могут узнать о нас, и по каким-то соображениям ограничивать нам доступ к ресурсам и информации.

При всех преимуществах мы должны признать, что все эти опасения также являются неотъемлемой частью Big Data. До последнего времени над ответами ломали голову ученые, но сейчас пришло время, когда волна докатилась до бизнеса, который хочет использовать преимущества Big Data в своих целях. А это может быть чревато в том числе и катастрофическими последствиями.

Фото: Shutterstock.com, giphy.com

megaplan.ru

8 сфер и 19 самых интересных применений технологий Big Data

Вы же знаете эту известную шутку? Big Data — это как секс до 18:

  • все об этом думают;
  • все об этом говорят;
  • все думают, что их друзья это делают;
  • почти никто этого не делает;
  • тот, кто это делает, делает это плохо;
  • все думают, что в следующий раз лучше получится;
  • никто не принимает мер безопасности;
  • любому стыдно признаться в том, что он чего-то не знает;
  • если у кого-то что-то получается, от этого всегда много шума.

Но давайте начистоту, с любой шумихой рядом всегда будет идти обычное любопытство: что за сыр-бор и есть ли там что-то действительно важное? Если коротко — да, есть. Подробности — ниже. Мы отобрали для вас самые удивительные и интересные применения технологий Big Data. Это небольшое исследование рынка на понятных примерах сталкивает с простым фактом: будущее не наступает, не нужно «подождать еще n лет и волшебство станет реальностью». Нет, оно уже пришло, но все еще незаметно глазу и поэтому припекание сингулярности еще не обжигает известную точку рынка труда так сильно. Поехали.

Большие IT компании — то место, где зародилась наука о данных, поэтому их внутренняя кухня в этой области интереснее всего. Кампания Google, родина парадигмы Map Reduce, создала внутри себя целое подразделение, единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются для оптимизации затрат энергии в центрах обработки данных.

Корпорация Apple также не отстает от поискового гиганта и внедряет машинное обучение во все свои продукты. Ее преимущество — наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой. При этом, политика конфиденциальности очень строгая: корпорация всегда хвасталась тем, что не использует данных клиентов в рекламных целях. Соответственно, информация пользователей шифруется так, что юристы Apple или даже ФБР с ордером не смогут ее прочесть. По ссылке вы найдете большой обзор разработок Apple в сфере ИИ.

Современный автомобиль — накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что объединяет электромобили Tesla Model S, будет генерировать до 25 Гб данных за час.

Транспортная телематика используется автопроизводителями на протяжении многих лет, но сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. А это значит, что теперь технологии могут оповестить водителя о плохих дорожных условиях путем автоматической активации антиблокировочной тормозной и пробуксовочной системы.

Другие концерны, включая BMW, используют технологии Большиx Данных в сочетании со сведениями, собранными с тестируемых прототипов, встроенной в автомобили системой «памяти ошибок» и клиентскими жалобами, чтобы на ранней стадии производства определить слабые места модели. Теперь вместо ручной оценки данных, которая занимает месяцы, применяется современный алгоритм. Ошибки и затраты на их устранение уменьшаются, что позволяет ускорить рабочие процессы анализа информации в BMW.

Согласно экспертным оценкам, к 2019 году оборот рынка подключенных в единую сеть автомобили, достигнет $130 млрд. Это неудивительно, если учитывать темпы интеграции автопроизводителями технологий, которые являются неотъемлемой частью транспортного средства.

Использование Больших Данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) подключает новые автомобили к Toyota Big Data Center. Этот инструмент, использующийся для Больших Данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.

Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует технологии анализа данных для быстрой расшифровки ДНК пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — случай в Лурдском медицинском центре Богоматери в Нью-Джерси. В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

Понимание пользовательских запросов и таргетинг — одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Большие Данные помогают анализировать клиентские привычки, чтобы в дальнейшем лучше понимать запросы потребителей. Компании стремятся расширить традиционный набор данных информацией из социальных сетей и историей поиска браузера с целью формирования максимально полной клиентской картины. Иногда крупные организации в качестве глобальной цели выбирают создание собственной предсказательной модели.

Например, сети магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — беременна женщина или нет. За каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел. Специалистами сети установлено, что женщины в положении активно приобретают неароматизированные средства перед вторым триместром беременности, а в течение первых 20 недель налегают на кальциевые, цинковые и магниевые добавки. На основании полученных данных Target отправляет купоны на детские товары клиентам. Сами же скидки на товары для детей «разбавляются» купонами на другие продукты, чтобы предложения купить кроватку или пеленки не выглядели слишком навязчивыми.

Даже правительственные ведомства нашли способ, как использовать технологии Big Data для оптимизации избирательных кампаний. Некоторые считают, что победа Б. Обамы на президентских выборах США в 2012 году обусловлена превосходной работой его команды аналитиков, которые обрабатывали огромные массивы данных в правильном ключе.

За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать Большие Данные. Общеизвестным фактом является то, что Агентство национальной безопасности применяет технологии Больших Данных, чтобы предотвратить террористические акты. Другие ведомства задействуют прогрессивную методологию, чтобы предотвращать более мелкие преступления.

Департамент полиции Лос-Анджелеса применяет собственную аналитическую систему. Она занимается тем, что обычно называют проактивной охраной правопорядка. Используя отчеты о преступлениях за определенный период времени, алгоритм определяет районы, где вероятность совершения правонарушений является наибольшей. Система отмечает такие участки на карте города небольшими красными квадратами и эти данные тут же передаются в патрульные машины.

Копы Чикаго используют технологии Больших Данных немного другим образом. У блюстителей правопорядка из Города ветров также есть специальный алгоритм, но он направлен на очерчивание «круга риска», состоящего из людей, которые могут оказаться жертвой или участником вооруженного нападения. По информации газеты The New York Times, данный алгоритм присваивает человеку оценку уязвимости на основании его криминального прошлого (аресты и участие в перестрелках, принадлежность к преступным группировкам). Разработчик системы уверяет, что в то время как система изучает криминальное прошлое личности, она не учитывает второстепенных факторов вроде расы, пола, этнической принадлежности и месторасположения человека.

Генеральный директор Veniam Жоао Баррос демонстрирует карту отслеживания Wi-Fi-роутеров в автобусах города Порту

Анализ данных также применяется для улучшения ряда аспектов жизнедеятельности городов и стран. Например, зная точно, как и когда использовать технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. Сегодня ряд городов взял курс на использование анализа данных с целью объединения транспортной инфраструктуры с другими видами коммунальных услуг в единое целое. Это концепция «умного» города, в котором автобусы ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

На основе технологий Больших Данных в городе Лонг-Бич работают «умные» счетчики воды, которые используются для пресечения незаконного полива. Ранее они применялись с целью сокращения потребления воды частными домовладениями (максимальный результат — сокращение на 80%). Экономия пресной воды — вопрос актуальный всегда. Особенно, когда государство переживает самую сильную засуху, которая когда-либо была зафиксирована.

К перечню тех, кто использует Big Data, присоединились представители Департамента транспорта города Лос-Анджелеса. На основании данных, полученных от датчиков дорожных камер, власти производят контроль работы светофоров, что в свою очередь позволяет регулировать траффик. Под управлением компьютеризованной системы находится порядка 4 500 тысяч светофоров по всему городу. Согласно официальным данным, новый алгоритм помог уменьшить заторы на 16%.

В маркетинге инструменты Big Data позволяют выявить, продвижение каких идей на том или ином этапе цикла продаж является наиболее эффективным. С помощью анализа данных определяется, как инвестиции способны улучшить систему управления взаимоотношениями с клиентами, какую стратегию следует выбрать для повышения коэффициента конверсии и как оптимизировать жизненный цикл клиента. В бизнесе, связанном с облачными технологиями, алгоритмы Больших Данных применяют для выяснения того, как минимизировать цену привлечения клиента и увеличить его жизненный цикл.

Дифференциация стратегий ценообразования в зависимости от внутрисистемного уровня клиента — это, пожалуй, главное, для чего Big Data используется в сфере маркетинга. Компания McKinsey выяснила, что около 75% доходов среднестатистической фирмы составляют базовые продукты, на 30% из которых устанавливаются некорректные цены. Увеличение цены на 1% приводит к росту операционной прибыли на 8,7%.

Исследовательской группе Forrester удалось определить, что анализ данных позволяет маркетологам сосредоточиться на том, как сделать отношения с клиентами более успешными. Исследуя направление развития клиентов, специалисты могут оценить уровень их лояльности, а также продлить жизненный цикл в контексте конкретной компании.

Оптимизация стратегий продаж и этапы выхода на новые рынки с использованием геоаналитики находят отображение в биофармацевтической промышленности. Согласно McKinsey, компании, занимающиеся производством медикаментов, тратят в среднем от 20 до 30% прибыли на администрирование и продажи. Если предприятия начнут активнее использовать Большие Данные, чтобы определить наиболее рентабельные и быстро растущие рынки, расходы будут немедленно сокращены.

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Наконец, 58% директоров по маркетингу уверяют, что реализация технологий Big Data прослеживается в поисковой оптимизации (SEO), e-mail- и мобильном маркетинге, где анализ данных отыгрывает наиболее значимую роль в формировании маркетинговых программ. И лишь на 4% меньше респондентов уверены, что Большие Данные будут играть значимую роль во всех маркетинговых стратегиях на протяжении долгих лет.

Не менее любопытно то, как эти технологии применяются для снижения влияния человека на Землю. Возможно, что именно машинное обучение в конечном счете будет единственной силой, способной поддерживать хрупкое равновесие. Тема влияния человека на глобальное потепление до сих пор вызывает много споров, поэтому только достоверные предсказательные модели на основе анализа большого объема данных могут дать точный ответ. В конечном счете, снижение выбросов поможет и нам всем: мы будем меньше тратиться на энергию.

Сейчас Big Data — это не абстрактное понятие, которое, может быть, найдет свое применение через пару лет. Это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Этап активной интеграции Больших Данных в нашу повседневную жизнь только начался, и кто знает, какова будет роль Big Data уже через несколько лет?

Follow @ru_datasides

БОЛЬШЕ ИСТОРИЙ

ru.datasides.com


Смотрите также