BIG DATA 2016: Большие Данные про машины и людей
На конференции Big Data 2016 активно обсуждалось использование социальных данных
В программе форума BIG DATA 2016, проведенного издательством «Открытые системы», большое место было отведено и «социальной», и «машинной» составляющим Больших Данных. Евгений Степанов, руководитель направления HPE Big Data Platform в России, рассказал Computerworld Россия, каким он видит рынок Больших Данных и его тенденции.
— В жизни Больших Данных наступил перелом: с одной стороны, есть примеры успешных проектов, некоторые из них представлены на форуме. С другой — аналитики говорят, что почти 75% подобных проектов терпят неудачу. Каково положение, по вашей оценке?
При всей разноплановости проектов в этой области можно выделить закономерности, объясняющие успех или провал проектов, связанных с их анализом.
Многие неудачи обусловлены тем, что в проектах используются компоненты, которые изначально не были предназначены для того, чтобы быть между собой интегрированными, тем более не предполагалось строить на их основе полноценные решения промышленного уровня.
Сейчас мы видим, что технологии консолидируются, и в ближайшее время будем наблюдать коммодитизацию рынка Больших Данных, начнет появляться все больше универсальных шаблонов построения решений, и это в конечном итоге приведет к тому, что заказчикам будет проще их строить.
— Вы полагаете, основная причина провалов – технологическая, использование неподходящих инструментов?
Это первая причина. Есть и другая – неверная постановка задачи, непонимание, как ее решать, как создавать команды для работы с Большими Данными. Но и в этом отношении есть сдвиги, появляется понимание, как должна быть организационно выстроена работа с ними.
Задач традиционно две — минимизировать издержки и повысить прибыль. Около 40% проектов в области Больших Данных нацелены на первую, 60% — на вторую. Все-таки сейчас в существующей конкурентной среде первична задача повышения прибыли, повышения выручки.
— Фактически все начинается с попытки поставить задачу — определить, что на самом деле нужно. А часто бывает, что задача вырисовывается не такая, как изначально предполагалось?
Да, конечно. В 30-40% случаев так и происходит. Первичная постановка задачи никуда не исчезает, но, бывает, возникают «спецэффекты» — побочные эффекты анализа, когда мы находим новые задачи, новые закономерности, которые позволяют расширить начальную задачу.
— Вы выделяете три типа данных — привычные бизнес-данные, количество которых относительно невелико и растет умеренными темпами, а также «машинные» и «социальные» данные. Машинные данные достаточно формализованы, мы в принципе знаем, что нам придет от датчика. Можно ли их считать полноценной составляющей Больших Данных?
Казалось бы, эти данные структурированы, и мы знаем, что нам даст каждый конкретный датчик, но очень сильное влияние оказывает их количество и многообразие. По этой причине часто связи между результатами измерения в различных точках заранее не очевидны. А потому сейчас аналитика датчиков Интернета вещей становится одной из ключевых задач.
— И третья категория – социальные данные. Самые многочисленные и быстрорастущие, наименее структурированные. Неужели ко всем трем категориям возможен единый подход?
Скорее — единый набор средств аналитики. Доля и значение социальных данных все выше и выше. Их использование сейчас для многих компаний является единственным средством получить конкурентное преимущество.
Если говорить о методах, то, по сути, построение прогноза с датчиков и прогноза поведения социальных групп не сильно различаются в том плане, что используются одни и те же инструменты и математические методы. Сложность обработки социальных данных в том, что люди создают информацию и воспринимают ее из множества источников — видео, телефон, фотоаппарат. И, перед тем как мы применим те же самые методы, которые мы применяем для анализа машинных данных, нам необходимо эту информацию превратить в те данные, которые машина сможет проанализировать.
— И, наверное, очистить их, поскольку, как утверждается, боты начинают вести себя «как люди»…
Задача очистки данных важна, но главное не переусердствовать. Тут основной принцип — «не навреди». Мы в любом случае можем вычислить крайние значения диапазона, который мы измеряем, и за пределами крайних значений мы всю информацию отфильтровываем.
И, естественно, механизмы поведенческого анализа, позволяющие отличить людей от роботов, проанализировать поведение вплоть до того, какой характер у человека, какие данные он вводит. Технологии управления Большими Данными не ставят цель заменить человека или создать искусственный интеллект, который сможет полностью исключить квалифицированных специалистов. Они представляют собой инструмент дополнения человеческого интеллекта, есть такое понятие — «дополненный интеллект», подобно «дополненной реальности». При этом они позволяют решать многие задачи практически «из коробки». Скажем, чтобы решить задачу распознавания лиц, вам не надо разворачивать гигантскую машину по анализу всего, достаточно одного модуля.
— Лица сейчас распознают даже смартфоны…
Да, но смартфоны, во-первых, не распознают лица, в промышленных масштабах, во-вторых, не позволяют искать человека по лицу в социальной сети. Или, допустим, сопоставлять лица, которые находятся в социальных сетях и в вашей внутренней базе, с соблюдением всех правил корпоративной безопасности.
— «Cоциальная» часть Больших Данных, как мне кажется, наиболее интересна….
Интересны все. Но задача управления бизнес-данными вполне изучена, она стала в первую очередь задачей снижения издержек, скажем — сокращения стоимости хранения и обработки информации, уменьшения сроков ее анализа.
Но на основе более полного изучения этой информации, прежде всего бизнес-данных и социальных данных, можно получить новые возможности, создавать новые продукты. В финансовой сфере, в ретейле уже есть подобные примеры.
Машинные данные пока используются меньше; в ретейле, к примеру, это один из ключевых недооцененных источников. При правильной постановке задачи, когда мы заходим в магазин, нас учитывают, например, по факту регистрации телефона в сети Wi-Fi магазина, анализируют наши передвижения. На основе этих данных продвинутые ретейлеры строят аналитику и принимают решения по расстановке товаров, распределению специалистов и т. д.
— Все типы данных, наверное, анализируют только в телекоме…
Да, они их увязывают и с социальными данными, и с бизнес-данными. Операторы, пожалуй, были первыми, кто стал анализировать все виды данных, увязывая их друг с другом. И постепенно начинают предлагать продукты на базе анализа не только своим пользователям, но и другим компаниям — рекламодателям, тем же ретейлерам.
— Каким компаниям имеет смысл затевать проект по Большим Данным? Понятно, что для кого-то он будет неподъемным, данных будет мало, они будут неинтересны. Есть какие-то критерии?
С технической точки зрения стоимость входа сейчас на рынок анализа Больших Данных низка, как это ни странно. А данные для анализа есть в любой компании, важно правильно к ним подойти. Есть примеры, когда наличие аналитических инструментов позволяет создавать новые компании, новые виды бизнеса.
Для меня более интересен вопрос — я поднимал его на форуме, — когда Большие Данные превратятся в то, во что превратился Интернет, когда простые люди будут чувствовать пользу от них.
— И когда?
Думаю, через три-пять лет технологии обретут целостный вид и все договорятся, что именно мы имеем в виду под Большими Данными.