Menu
02.03.2015 isreky 2 комментариев

У нас вы можете скачать книгу Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики Б в fb2, txt, PDF, EPUB, doc, rtf, jar, djvu, lrf!

Однако первоначальная команда остается в подразделении, где она была создана. Другая распространенная гибридная модель подразумевает существование главной централизованной команды, которую часто называют центром передового опыта center of excellence — COE , или экспертным центром center of expertise — COE.

Задача специалистов данной команды состоит в поддержке предприятия в целом. Хотя большинство аналитиков работают в конкретных подразделениях, существуют свободно перемещающиеся между бизнес-единицами сотрудники, призванные поддерживать согласованность используемых подходов и инструментов. Команда COE также аккумулирует новые знания, получаемые аналитиками в процессе своей работы в различных подразделениях.

Команды аналитиков, работающие в бизнесединицах, могут быть либо формально, либо неформально подотчетны главной группе аналитиков. Не беспокойтесь о структуре — беспокойтесь о людях. Кроме того, важно сосредоточиться на создании среды и культуры, позволяющих вашей организации нанимать, развивать и удерживать талантливых аналитиков. Поддержание высокого уровня компетентности команды. В аналитической команде работают люди с различным уровнем профессионализма, как и в любой другой команде: На начальном этапе необходимо сосредоточить внимание на конкретных навыках, которые крайне необходимы в данный момент для решения существующих проблем.

По мере того как команда будет расти, важно вводить туда людей, обладающих различными аналитическими навыками. Если первые нанятые вами специалисты имеют сильную подготовку в области интеллектуального анализа данных, далее имеет смысл искать людей с опытом работы в сфере оптимизации или прогнозирования. Участие специалистов с опытом работы в различных областях аналитики предоставляет больше возможностей для выявления новых способов повышения ценности бизнеса.

Кроме того, по мере роста команды можно сосредоточиться на создании карьерных возможностей. Изначально нанятые люди, как правило, достаточно опытные, поскольку они самостоятельно и успешно работают, практически без помощи других экспертов.

По мере роста команды можно начинать нанимать менее опытных аналитиков и развивать их. Матричный подход — неиерархический подход к управлению деятельностью команды — помогает сохранить высокий уровень навыков аналитиков. Он предполагает назначение руководителя конкретного проекта, которому поручается выполнение нескольких ключевых функций. Во-первых, он отвечает за управление проектом. К счастью, как правило, в аналитических проектах объем работы, связанной с управлением им, невелик.

Во-вторых, руководитель проекта отвечает за определение направления проекта, разработку плана анализа и соблюдение сроков. Третья и самая важная функция предусматривает обобщение результатов, их интерпретацию и разработку рекомендаций, а также подготовку представления результатов работ по проекту. Под началом руководителя аналитического проекта находится один или несколько специалистов, отвечающих за выполнение работ по проекту.

В команде не обязательно должен присутствовать человек, которого называют руководителем аналитического проекта, поскольку дело не в названии, а в выполнении необходимых для конкретного проекта функций.

Например, в команде есть два специалиста — Боб и Сью. При работе над проектом А Сью может быть руководителем, а Боб — ее подчиненным. При работе над проектом Б руководителем может быть Боб, а Сью — работать под его началом. Руководителем выбирают того, кто лучше всего подходит для выполнения соответствующих функций. Например, если проект в значительной степени ориентирован на прогнозирование, то руководителем будет выбран человек, который хорошо знаком с данной областью.

Разумеется, самых сильных и опытных аналитиков чаще выбирают руководителями проектов, а новым и не слишком опытным специалистам чаще отводится роль подчиненных. Однако назначение функций исключительно на основе старшинства или стажа может привести к путанице. Вот почему использование матричного подхода для управления командой аналитиков — хорошая идея. Когда члены команды обмениваются должностями, это развивает сплоченность.

Каждый человек старается держать свое эго под контролем, поскольку знает, что время от времени ему придется работать под началом одного из коллег.

Члены команды могут по-настоящему узнать друг друга и проявить свои самые сильные стороны, а также многому друг у друга научиться, что подводит нас к теме взаимного обучения. Матричный подход к управлению командой аналитиков помогает увеличить производительность труда, сплотить команду и обеспечить рост компетентности специалистов. Один из самых важных аспектов работы аналитической команды независимо от ее структуры — обеспечение возможности взаимного обучения специалистов. Если один из них выдающийся программист, убедитесь, что он делится с коллегами своим опытом или создает письменное руководство, где изложены советы и тонкости работы, а также наставляет других или даже проводит небольшие уроки.

Члены команды захотят совершенствоваться. Одним из лучших способов является освоение новых для них областей аналитики, а также совместная работа над проектами. Такое обучение будет полезно как обучающему, так и обучающемуся.

Менеджерам нельзя терять хватку. Менеджеры и руководители должны участвовать в рабочем процессе и не терять своих навыков. В любом случае считается, что такой человек мало что умеет. Он, может быть, хорошо говорит, но не делает то, о чем говорит. Профессионалы в области аналитики часто даже более чувствительны к таким вещам, чем представители других профессий.

То же самое относится ко многим техническим областям. Технически подкованные люди, как правило, не уважают руководителей, которые указывают им, что делать, стоят над душой и критикуют их работу, если эти руководители не являются специалистами в том, о чем говорят. Если аналитик видит, что руководство не разбирается в том, о чем говорит, то сохранить его уважение будет практически невозможно. Это не означает, что человек, не обладающий глубокими познаниями во всех областях аналитики, не может управлять аналитиками.

Менеджеру важно признать границы своих знаний и довериться команде в деталях, выходящих за рамки его опыта. Навыки менеджера должны оставаться на высоком уровне Однако при необходимости он вступал в бой и сражался наравне с лучшими воинами. Команда будет всегда оставаться в тонусе, если знает, что при необходимости лидер сможет лично позаботиться о деле. Для того чтобы менеджеры не утратили свои навыки, подумайте о том, чтобы их обязанности менялись по крайней мере один раз в год.

Это отличный способ сохранить навыки актуальными, хотя реализация этого плана и представляет определенные трудности. Существуют компании, которые используют такой подход.

Я знаю сеть ресторанов, в которой каждого сотрудника обязывают работать в ресторане каждый год по нескольку дней, чтобы все понимали, что там происходит. Это позволяет всем сотрудникам сохранять контакт с реальным миром, и мои знакомые, работающие там, находят такое ежегодное упражнение очень ценным.

Кто должен заниматься углубленной аналитикой? На форумах сообщества аналитиков часто затрагивается одна тема.

Я даже обсуждал ее в моем блоге Вопрос заключается в следующем. Учитывая существующее в настоящее время программное обеспечение и инструменты с дружественным к пользователю интерфейсом, которые дают возможность заниматься углубленной аналитикой, стоит ли позволять людям, не имеющим соответствующей подготовки, самостоятельно производить анализ, используя эти инструменты?

То, что инструмент легок в использовании, совсем не означает, что его легко использовать правильно. Именно простота использования позволяет быстро и неосознанно делать именно неправильные вещи. Например, инструменты, генерирующие код SQL с помощью интерфейса point-and-click, дают возможность объединять данные так, как пользователям заблагорассудится.

Эти средства используют необходимый синтаксис, но не гарантируют, что этот синтаксис будет иметь хоть какое-то значение. Организация должна убедиться, что человек, который будет применять тот или иной инструмент, имеет подходящие навыки и опыт. Аналитический инструмент может снять с пользователя часть нагрузки, связанной с программированием, однако пользователю необходимо разбираться в генерируемых результатах.

Если бы вы были уверены в том, что новичок может задавать правильные вопросы, что все необходимые данные подготовлены и доступны в нужном формате и что точно известно, какой алгоритм следует применять, то добиться успеха мог бы практически любой человек. В таком случае пользователь действительно мог бы просто нажимать на кнопки. В реальном мире так не бывает. Многое зависит от создания подходящего аналитического процесса или модели, а это уже выходит за рамки простого использования интерфейса инструмента.

Правильно ли было предсказано поведение? Поддерживает ли это предсказание самый лучший набор независимых переменных? Достаточно ли у аналитика опыта, чтобы понять, что возникли проблемы? Знает ли он, как их решать? Мы говорили в главе 7 о том, что для проведения углубленного анализа не существует волшебной кнопки! Это не означает, что новички, не имеющие специальной подготовки или навыков, не могут создать дополнительную ценность для организации. Это просто вопрос гарантии того, что они не превысят своих полномочий и не будут делать того, что им не следует.

Большая часть сотрудников организации должны использовать заранее определенные шаблоны или отчеты; возможно, им будет поручен некоторый дополнительный анализ. Более сложную работу следует оставить экспертам. Формальная аналитическая команда должна состоять в основном из таких экспертов. Комментарии, приведенные в предыдущем разделе, иногда наводят на мысль о том, что профессионалы в области аналитики занимают оборонительную позицию.

На самом деле такие правила приняты во многих других областях деятельности. Почему-то люди, далекие от аналитики, не распространяют на нее логику, которую применили бы в иной области. Рассмотрим, почему следует позаботиться о том, чтобы углубленной аналитикой занимались подходящие люди. Джейн решила, что она больше не хочет быть аналитиком, а желает заниматься созданием рекламы для отдела маркетинга.

Она установила на свой компьютер те же современные и мощные инструменты для создания графики и генерации контента, которые используют маркетологи. Она потратила несколько часов, чтобы научиться пользоваться этими инструментами. Джейн смогла легко создавать брошюры, графику и все, что ей нужно, поскольку программное обеспечение позволяет простым щелчком кнопки мыши организовать фотографии, изображения и текст. Она идет в отдел маркетинга и говорит: Я хотела бы присоединиться к вашей команде и заниматься прямой почтовой рекламой, создавать журнальные объявления и брошюры о продуктах.

Джон решил, что хочет работать в команде CFO и каждый месяц заниматься закрытием отчетов. Он узнал, какое бухгалтерское программное обеспечение использует его компания. Как и Джейн, потренировался в использовании этого программного обеспечения. Затем он идет в бухгалтерию и говорит: У меня нет никакой подготовки в области финансов или бухгалтерского дела. Однако я прошел все курсы, доступные для программного пакета, который вы используете.

Я знаю, какие пункты меню необходимо выбирать на каждом этапе закрытия отчета. Когда я могу начать работу? Он спрашивает у Джо, какую службу тот может порекомендовать. Я только что купил первоклассную бензопилу. Я прочитал руководство от корки до корки, лезвия наточены, и пила готова к работе.

Какой сосед стал бы всерьез рассматривать такое смешное предложение? Не ищите легких путей. Большинство людей посмеются, услышав о том, что новичок хочет заняться созданием рекламы для крупного маркетингового проекта или закрытием корпоративных книг; не воспримут всерьез слова соседа с первоклассной бензопилой, который предложил спилить дерево.

Почему же тогда многие готовы предположить, что человек, не обладающий соответствующим опытом, но научившийся использовать аналитический инструмент, может создавать высококачественные аналитические процессы? Не попадайте в эту ловушку! Организация, которая хочет создать отличную команду аналитиков, должна помнить, что эффективная аналитика — это и наука, и искусство.

Как великие художники, вероятно, не смогли бы нарисовать шедевр, впервые взяв в руки кисть, так и аналитическая команда не может стать выдающейся в первый же день работы. Это приходит с практикой и опытом. Как и в других дисциплинах, в аналитике существуют сложности и нюансы, которые неочевидны для тех, кто не знаком с этой областью. Вы не сможете позволить новичку без необходимых навыков, образования и опыта делать вашу собственную работу?

Тогда не стоит позволять новичку без необходимых навыков, образования и опыта создавать передовые аналитические процессы. Как говорилось в главе 8, крайне важно, чтобы аналитическая команда состояла из профессионалов, а не просто из людей, которые перешли из других отделов организации и получили новую роль и должность.

Создайте такие условия, чтобы новички могли достичь успеха. Теперь посмотрим на эту тему с более позитивной точки зрения. В организации многие сотрудники хотят использовать средства углубленной аналитики.

Предположим, Барб из отдела маркетинга является одной из них и она готова взять на себя ответственность за аналитику в своей бизнес-единице. Она готова упорно работать. Это очень хорошо, и аналитическая команда, конечно, поддержит Барб и поможет ей. Однако начинать следует не с установки программного обеспечения на ее компьютер, чтобы она могла начать самостоятельно проводить анализ.

Вернемся к тому, что дружественные к пользователю аналитические инструменты способствуют повышению производительности труда. Возражение против того, чтобы инструменты были доверены неподготовленным людям, продиктовано вовсе не желанием защитить рабочие места профессиональных аналитиков и запретить использование новых технологий. Если бы дело было в этом, то дружественных к пользователю аналитических инструментов просто не существовало бы. Человек с ограниченным ви дением способен утверждать: Любой, кто так думает, должен покинуть команду, поскольку никогда не сможет стать выдающимся аналитиком.

Правильно было бы рассматривать данную ситуацию так: Если вдруг возникнет возможность выполнять текущую работу в два раза быстрее, значит, половину своего времени они смогут потратить на решение новых проблем и создать еще большую дополнительную ценность. Современные удобные инструменты еще больше будут оправдывать существование этих специалистов, помогать им в развитии своего мастерства и ставить перед ними дополнительные задачи. Эта ситуация является выигрышной с любой точки зрения.

Пусть каждый занимается своим делом. Если специалисты в области бизнеса, далекие от аналитики, захотят ею воспользоваться, им не обязательно браться за сложную работу. Работа аналитической команды заключается в том, чтобы аналитика применялась по всей организации. Пусть бизнесмены тратят свое время на продвижение идеи использования аналитики для изменения бизнес-процессов, которыми они управляют.

Если аналитические команды будут делать то, что они умеют делать лучше всего, а бизнескоманды — то, что они делают лучше всего, то выиграют все. Надеюсь, вы убедились, что дружественные к пользователю аналитические технологии сами по себе являются хорошей вещью.

Как же организации следует использовать их? Главное заключается в том, чтобы помочь Барб достичь своих целей.

Это не значит, что ей следует поручить всю сложную работу. Команда аналитиков должна работать вместе с ней, помочь ей произвести необходимый анализ и позволить делать отчеты о работе созданных ими моделей. Результаты, касающиеся клиентов, должны отображаться в программе CRM. Они должны быть доступны для любых других корпоративных приложений.

Барб необходимо предоставить инструменты для использования аналитики, которая была для нее разработана. Самостоятельно выполнять сложную работу она, вероятно, хочет не больше, чем это ей необходимо. Почему ИТ-специалисты и аналитики не ладят между собой? Создавая аналитическую команду, организация сталкивается с серьезной проблемой. Это война между аналитиками и ИТ-специалистами.

Во многих организациях между ними существует длительная вражда. Верите или нет, но для возникновения этой напряженности в прошлом действительно существовали логичные, реальные причины. Однако сегодня они неактуальны. Чтобы понять почему, рассмотрим роли, которые организации отводят ИТ-специалистам и аналитикам.

Аналитику поручено расширение границ использования корпоративных данных табл. Он должен придумывать инновационные методы и при этом не ограничиваться определенными рамками. В то же время ИТ-специалисты должны поддерживать работу систем и обеспечивать, чтобы каждый мог сделать то, что ему нужно. ИТ-специалистам нужно гарантировать эффективное распределение ресурсов и сохранение контроля.

ИТ-специалисты и аналитики не ладят отчасти потому, что выполняют функции, противоречащие друг другу. Одна и та же компания платит им за прямо противоположные вещи!

Одной команде поручено скрывать данные, управлять ими и контролировать использование ресурсов. Другой — обрабатывать данные, используя большое количество ресурсов, и находить новые способы ведения дел.

В такой ситуации возникновение конфликта практически неизбежно. Еще более усложняет дело то, что аналитики обычно подотчетны главному директору по управлению бизнесом, а ИТ-специалисты — главному директору по информационным технологиям. Единственным человеком в организации, который имеет непосредственную власть над обеими командами, является СЕО. Однако оба руководителя высшего звена вряд ли захотят привлекать СЕО к разрешению разногласий между своими командами.

ИТ-специалистам и аналитикам нужно подписать мирный договор! Очень важно, чтобы ваша организация заставила Ит-команду и аналитическую команду прийти к соглашению о совместной работе.

Доступные сегодня технологии позволяют обеим командам мирно сосуществовать и даже помогать друг другу. Приложите к этому усилия, иначе вам будет очень трудно создать отличную аналитическую команду. А аналитики считают ИТ-специалистов помешанными на контроле людьми, которые поставили целью сдерживание прогресса и создание препятствий. В главах 4 и 5 мы рассказали о появлении песочниц, аналитики, встроенной в базы данных, и о слиянии среды данных с аналитической средой.

Эти технологии позволяют преодолеть разрыв между ИТ-специалистами и аналитиками. Если ваша организация намерена создать выдающуюся команду аналитиков, очень важно устранить этот разрыв. Аналитиков сложно заставить признаться, что они хотели бы достичь соглашения с ИТ-специалистами. Они не стали бы управлять отдельной системой, если бы не считали это неизбежным злом, необходимым для выполнения их работы.

Потому что это часто отвлекает аналитиков от работы, которую они по-настоящему любят! Если команда аналитиков имеет собственную аналитическую среду, которую им приходится поддерживать, то это фактически превращает их в системных администраторов, планировщиков технического обслуживания и т.

Аналитик создает новый аналитический процесс, который должен выполняться еженедельно. Угадайте, что происходит дальше? Ему же приходится каждую неделю следить за работой этого процесса и контролировать ее! Он же должен решать проблемы, связанные с изменением в потоках данных или другими изменениями в системе, оказывающими на этот процесс влияние. Аналитики на самом деле не хотят этим заниматься. У него не останется времени на проведение нового анализа!

Это довольно плачевный итог. Аналитическая команда с удовольствием передала бы функции системного администрирования, планирования, резервного копирования и т. ИТ-отделу, сотрудники которого получают зарплату за эту работу, любят ее и являются в ней специалистами. Так гораздо эффективнее, и все будут счастливы. Это позволит аналитикам высвободить время на совершенствование своего мастерства вместо того, чтобы тратить его на наблюдение за работой процессов.

Самые важные уроки этой главы. Успех в большей мере зависит от людей, составляющих аналитическую команду, чем от места этой команды в организационной структуре. Придется потрудиться, чтобы найти подходящих людей. Со временем компании часто переходят к централизованной или гибридной структуре. Позвольте руководить более подготовленному специалисту при работе над каждым проектом. Они мирились с тем, что многие ночи и выходные я посвящал этой книге 7.

Возможно, вы уже на протяжении некоторого времени пытаетесь справиться с этим, понять, как хранить данные для последующего доступа, как исправлять ошибки и недостатки или классифицировать их. Теперь вы готовы извлечь смысл из этого огромного набора данных путем их анализа, чтобы узнать что-то о своих клиентах, своем бизнесе или о некоторых аспектах своей организационной среды. А возможно, вы пока далеки от этого, но уже видите свет в конце туннеля управления данными.

В любом случае вы пришли по адресу. Билл Фрэнкс предполагает, что вскоре мир наводнят не только большие данные, но и книги о больших данных. Я предсказываю без всякой аналитики , что эта книга будет отличаться от прочих. Во-первых, она одна из первых на эту тему.

Но, самое главное, она сконцентрирована на ином. Большинство книг о больших данных будут посвящены управлению большими данными: Если вы много читаете о Hadoop, MapReduce или других методах хранения данных, это значит, что вы наткнулись на книгу, посвященную управлению большими данными. Это, конечно, важная работа. Независимо от их объема и качества данные мало чем полезны, если их не поместить в такую среду и формат, которые позволят получить к ним доступ и проанализировать их.

Сама по себе тема управления большими данными не обеспечивает движения вперед. Для того чтобы извлечь пользу из данных, необходимо проанализировать их и совершить какое-либо действие на основании результатов анализа. Так же как традиционные инструменты управления базами данных не обеспечивали автоматический анализ данных о транзакциях, полученных из традиционных систем, системы Hadoop и MapReduce не производят автоматическую интерпретацию данных, полученных от сайтов, картирования генов, анализа изображений или других источников больших данных.

Даже до наступления эпохи больших данных многие организации многие годы а иногда и десятилетия занимались исключительно управлением данными, не извлекая из них никакой пользы в плане улучшения качества анализа и принятия решений.

Думаю, эта книга акцентирует внимание именно на том, на чем нужно. Она в первую очередь посвящена эффективному анализу больших объемов данных, а не управлению ими. Она начинается с данных и переходит к таким темам, как фреймовое представление решения, построение аналитического центра и создание аналитической культуры. Разумеется, здесь упоминается об управлении большими данными, однако основное внимание уделено созданию, организации, подбору персонала и воплощению аналитических инициатив, которые позволяют извлечь из входных данных пользу.

На тот случай, если вы этого не заметили: Я занимался в основном вопросами конкуренции компаний в области аналитики, и мои книги и статьи по этой теме были самыми популярными из всех, что я когда-либо писал. Конференции на тему аналитики проводятся повсеместно. У таких крупных консалтинговых фирм, как Accenture, Deloitte и IBM, имеется большой практический опыт в этой области. Многие компании, государственные и даже некоммерческие организации сделали аналитику своим стратегическим приоритетом.

Сегодня наблюдается повышенный интерес к проблеме больших данных, однако в центре внимания должны по-прежнему оставаться способы приведения этих данных в форму, позволяющую проанализировать их и использовать в процессе принятия решений. Его компания Teradata, в отличие от других поставщиков систем хранения данных, всегда была максимально сосредоточена именно на анализе данных и извлечении из них пользы для бизнеса. И хотя компания хорошо известна как поставщик корпоративных инструментов для хранения данных, Teradata в течение многих лет также предоставляла набор аналитических приложений.

За последние несколько лет Teradata наладила тесное партнерство с SAS ведущим поставщиком аналитического программного обеспечения для разработки высокомасштабируемых инструментов проведения анализа больших баз данных. Эти инструменты, которые часто подразумевают встроенный анализ в среде хранилища данных, предназначены для таких мощных аналитических приложений, как системы обнаружения мошенничества в режиме реального времени и крупномасштабного скоринга 1 покупательского поведения потребителей.

Вероятно, лучшего источника на эту тему просто не существует. Так что же еще особенно интересного и важного содержится в этой книге?

На протяжении всей книги Фрэнкс отмечает, что большая часть данных вообще бесполезна и очень важно уметь отфильтровывать ненужные данные. Обзор источников больших данных в главе 3 интересный, полезный и необыкновенно подробный каталог.

Подход к веб-данным и веб-аналитике в главе 2 может заинтересовать людей и организации, которые стремятся понять поведение потребителей, совершающих покупки через интернет. Этот подход выходит далеко за рамки обычной веб-аналитики, ориентированной на отчетность.

В ней автор также описывает такие современные технологии, как MapReduce, и разумно утверждает, что анализ больших данных потребует использования комбинации сред. Эта книга содержит ультрасовременные сведения о том, как создавать аналитические среды и управлять ими, эти сведения вы также нигде больше не найдете. В главе 6 рассматриваются доступные сегодня типы аналитического программного обеспечения, в том числе программной среды R с открытым исходным кодом.

Обычно очень трудно найти здравое рассуждение о сильных и слабых сторонах различных аналитических сред, однако здесь оно представлено.

И наконец, описание методов анализа будет понятно даже далеким от техники людям. Третья часть книги сосредоточена на том, как управлять человеческим и организационным аспектами аналитики. В этом автор также опирается на здравый смысл. Мне, например, особенно понравился акцент на фреймовом представлении проблем и решений в главе 1 Скоринг англ. В зависимости от суммы набранных баллов принимается решение об одобрении или отказе в выдаче кредита.

Слишком многие аналитики принимаются за анализ, не задумываясь о более важных вопросах, связанных с постановкой проблемы. Недавно меня спросили, описывал ли кто-нибудь, кроме меня, аналитическую культуру. Я сказал, что не знаю, однако это было до того, как я прочитал четвертую часть книги Фрэнкса. Она связывает аналитическую и инновационную культуру так, как никто прежде этого не делал. Хотя книга содержит технические сведения, она доступна для широкой аудитории, в том числе для людей с ограниченными техническими познаниями.

Совет Фрэнкса по поводу инструментов для визуализации данных касается всей книги: Если ваша организация собирается заняться аналитикой а так и должно быть!

Даже если вы не специалист в технических вопросах, необходимо ознакомиться с некоторыми темами, связанными с обеспечением аналитических возможностей компании. Если же вы как раз являетесь техническим специалистом, то многое узнаете о человеческом аспекте аналитики.

Если вы читаете это предисловие в книжном магазине или просматриваете описание книги на сайте, смело покупайте ее. Если вы ее уже купили, немедленно приступайте к чтению! Томас Дэвенпорт, заслуженный профессор информатики и управления, Бэбсон-колледж. Сооснователь и директор по исследованиям Международного института аналитики Кажется, магазин прочитал ваши мысли, поскольку всего несколько часов назад вы просматривали информацию о компьютерах на его сайте Вы отправились в магазин за компьютером, и по пути поступает предложение купить со скидкой кофе в кофейне, мимо которой вы проезжаете: Думаете, это картины далекого будущего?

Нет, эти сценарии возможны уже сегодня! Кажется, что сегодня уже не обойтись без этих понятий. Люди обсуждают, пишут и продвигают идеи больших данных и передовой аналитики. Теперь к их суждениям можно добавить и эту книгу. Что реально, а что нет? Уж слишком много внимания к этой теме! Может быть, анализ больших данных не более чем шумиха? Разговоров на эту тему и правда много, однако эпоха преобразований в сфере аналитических возможностей и эффективного использования больших объемов данных действительно наступила.

За ажиотажем, поднятым в средствах массовой информации, стоит нечто очень реальное и мощное. Шумиха вокруг больших данных объясняется тем, что и предприятия, и потребители взволнованы ожиданием тех преимуществ, которые со временем предоставит анализ больших данных. Большие данные, в свою очередь, становятся источником новых данных, которые стимулируют аналитические инновации в бизнесе, правительстве и академических кругах.

Эти нововведения в состоянии радикально изменить взгляд организаций на свой бизнес. Большие данные обеспечат информацию, которая поможет принимать более взвешенные решения, и в некоторых случаях они будут разительно отличаться от тех, что принимаются сегодня. Анализ больших данных даст такое понимание, о котором сегодня можно только мечтать. Вы увидите, что укрощение волны больших данных и укрощение новых источников данных осуществляется аналогичными способами.

Тем не менее дополнительные возможности, которые предоставляют большие данные, требуют использования новейших инструментов, технологий, методов и процессов. Старые способы анализа просто не сработают. Пришло время, когда передовые аналитические методы должны перейти на следующий уровень.

Именно этому посвящена книга. Скорее, это попытка определить, какие предприятия выиграют, а какие проиграют в следующем десятилетии. Подготовившись и взяв на себя инициативу, организации сумеют оседлать волну больших данных, чтобы достичь успеха, вместо того чтобы быть ею раздавленными.

Что нужно знать и как подготовиться, чтобы подчинить себе большие данные и извлечь из них ценные новые сведения? Сядьте поудобнее и приготовьтесь это выяснить! Эта книга подходит к вопросу с иной точки зрения. Основное внимание уделено объяснению, что такое большие данные и как с помощью аналитики их можно использовать, а также рассказать о подходах к созданию и развитию передовой аналитической экосистемы мирового класса в современной среде больших данных.

Эта книга адресована широкому кругу читателей. Профессиональный ли вы аналитик, предприниматель, использующий результаты работы аналитиков, или вам просто интересна тема больших данных в этой книге вы найдете для себя что-нибудь полезное. В книге нет подробных технических описаний; технические детали используются лишь в той мере, в какой необходимо обеспечить высокий уровень понимания обсуждаемой темы.

Цель помочь читателям понять и начать применять эти концепции, а также определить области для дальнейшего исследования. Эта книга скорее руководство, чем учебник, и она доступна для читателей, далеких от технических вопросов. В то же время те, кто уже глубоко понимает тему, между строк смогут увидеть технический подтекст. В первой части объясняется, что такое большие данные, каково их значение и способы применения.

Вторая часть касается инструментов, технологий и методов, необходимых для анализа и успешного использования больших данных. Третья часть посвящена людям, командам и принципам анализа, которые позволяют обеспечить эффективность. Четвертая часть подводит итог и фокусируется на том, как внедрить передовые методы анализа с помощью центра аналитических инноваций и изменения культуры. Приведем более подробное описание тем каждой части и главы. Появление больших данных В первой части идет речь о том, что такое большие данные, почему они важны, в чем состоят преимущества их анализа.

Описаны десять источников больших данных и то, как эти источники могут быть использованы организациями для улучшения своего бизнеса. Если читатели не знают, что такое большие данные или насколько широко их применение, первая часть даст ответы на эти вопросы.

Эта глава начинается с обзора темы больших данных. Затем приводится ряд соображений о том, как организации могут их использовать. Для того чтобы помочь своим организациям справиться с волной больших данных, читателям следует разобраться в содержимом данной главы так же хорошо, как в остальных главах. Вероятно, наиболее широко используемый и самый известный источник больших данных на сегодняшний день это данные, собранные с помощью сайтов.

Журналы, которые содержат историю посещения пользователями веб-страниц, настоящая сокровищница информации, которая только и ждет, чтобы ее проанализировали. Организации в целом ряде отраслей уже интегрировали подробные данные о клиентах, полученные с помощью сайтов, в собственную аналитическую среду.

В этой главе показано, как эти данные расширяют возможности и изменяют процесс принятия различных бизнес-решений. Источники больших данных и их ценность. Здесь мы подробно рассмотрим еще девять источников больших данных, чтобы объяснить, что представляет собой каждый источник данных, а также перечислим некоторые способы их применения в бизнесе. Одни и те же базовые технологии могут привести к возникновению нескольких источников больших данных в различных отраслях, а различные отрасли могут воспользоваться преимуществами одних и тех же источников данных.

Большие данные имеют очень широкую сферу применения. За последние годы увеличились возможности масштабируемости этих трех факторов.

Организации не могут далее полагаться на устаревшие подходы и желают оставаться конкурентоспособными в мире больших данных. Читатели познакомятся с рядом концепций, с которыми им предстоит столкнуться в мире анализа больших данных. Эволюция масштабируемости аналитических систем.

Темп роста объема данных всегда предъявлял высокие требования к наиболее масштабируемым из доступных методов анализа. Перед появлением больших данных они уже были близки к своим пределам. Теперь традиционные подходы просто не работают. В этой главе рассматриваются слияние аналитической среды со средой данных, массивно-параллельные архитектуры, облачные и грид-вычисления, а также модель MapReduce.

Каждая из этих парадигм обеспечивает большую масштабируемость и будет играть важную роль в процессе анализа больших объемов данных. Значительное увеличение уровня масштабируемости требует обновления аналитических процессов. Глава начинается с описания использования так называемых аналитических песочниц для обеспечения профессиональных аналитиков масштабируемой средой в целях создания передовых аналитических процессов.

Далее объясняется, как наборы данных предприятия могут обеспечить большую последовательность и уменьшить риск при создании аналитических данных и одновременном увеличении производительности труда аналитика. В конце главы описывается, как встроенные процессы скоринга позволяют пользователям и приложениям использовать результаты применения передовых аналитических процессов.

Эволюция аналитических инструментов и методов. В этой главе рассматриваются пути развития передовых аналитических инструментов, а также объясняется, как подобные прорывы повлияют на работу профессиональных аналитиков с большими объемами данных.

Затрагиваются такие темы, как эволюция визуальных интерфейсов, аналитические точечные решения, инструменты с открытым исходным кодом и инструменты визуализации данных. Рассказывается, как профессиональные аналитики изменили свои подходы к построению моделей для более эффективного использования имеющихся возможностей.

Наиболее важный фактор при проведении любого анализа, в том числе анализа больших данных, наличие подходящих людей, которые руководствуются правильными принципами анализа. Ознакомившись с третьей частью, читатели будут лучше понимать, чем хороший анализ, хороший профессиональный аналитик и хорошая команда аналитиков отличаются от остальных. Что такое хороший анализ? Подсчет статистики, составление отчета и применение алгоритма моделирования лишь некоторые из необходимых шагов для обеспечения хорошего анализа.

В начале данной главы поясняются отдельные определения, а затем речь идет об обеспечении качественного анализа. Большие данные довольно сложная тема, поэтому особенно важно понять принципы, излагаемые в этой главе.

Что такое хороший профессионал в области аналитики? Навыки в области математики, статистики и программирования необходимые, но недостаточные характеристики хорошего профессионального аналитика. Хороший аналитик должен иметь такие качества, как обязательность, творчество, деловая смекалка, навыки проведения презентации и интуиция. В этой главе описано, почему каждая из этих черт имеет большое значение для профессионального аналитика и почему ими не стоит пренебрегать.

Что такое хорошая аналитическая команда? Как организации следует создавать и поддерживать команды аналитиков, чтобы обеспечить оптимальный эффект? Каким образом команды вписываются в организацию? Как они должны работать? Здесь затронуты часто встречающиеся проблемы и изложены принципы, которые необходимо иметь в виду при создании аналитической команды. Поскольку это фундамент многих дисциплин, внимание сосредоточено на том, какое отношение данные принципы имеют к передовой аналитике в современной корпоративной среде.

Описываемые концепции, вероятно, знакомы читателям в отличие от способов их применения к области передовой аналитики и больших данных. Создание условий для внедрения инноваций в сфере аналитики. Глава начинается с обзора некоторых принципов, лежащих в основе успешного внедрения инноваций.

Далее объясняется, как они применяются в мире больших данных и передовой аналитики, с помощью концепции центра аналитических инноваций. Цель состоит в том, чтобы показать читателям, как можно обеспечить внедрение аналитических инноваций и укрощение больших данных в своих организациях.

Создание культуры инноваций и открытий. Глава посвящена созданию культуры инноваций и открытий. Она написана легко и непринужденно и дает пищу для размышлений о том, что требуется для создания культуры, способной к инновационному анализу. Изложенные в главе принципы хорошо известны. Тем не менее их стоит еще раз проанализировать, а затем подумать о том, как их применить к большим данным и передовой аналитике. Пожалуй, ничто так сильно не повлияет на сферу передовой аналитики в ближайшие годы, как постоянное появление новых и мощных источников данных.

Если говорить об анализе потребительского рынка, время, когда можно было полагаться исключительно на демографию и историю покупок, осталось в прошлом. Практически в каждой отрасли существует по крайней мере один совершенно новый источник данных, который в ближайшее время появится в интернете, если его еще там нет.

Одни источники данных широко используются в различных отраслях промышленности, другие в очень небольшом количестве отраслей или ниш. Многие из этих источников данных попадают под определение, которое вызывает в последнее время много шума: Большие данные появляются везде, и их умелое применение окажется конкурентным преимуществом. Игнорирование больших данных опасно для организации, поскольку так можно отстать от конкурентов.

Чтобы оставаться конкурентоспособными, крайне важно, чтобы организации активно анализировали эти новые источники данных и воспользовались содержащимися в них ценными сведениями. Профессиональным аналитикам предстоит много работы!

Нелегко будет объединить большие данные со всеми остальными данными, которые в течение многих лет применялись для анализа. Далее приведены соображения о том, чем они могут быть полезны организации. Первое определение предложил Мерв Адриан из компании Gartner 2 в статье для журнала Teradata Magazine в первом квартале года: Другое хорошее определение появилось в докладе McKinsey Global Institute 3 в мае года: Из этих определений следует, что то, что считается большими данными, будет изменяться по мере развития технологий.

Некоторых настораживает этот аспект понятия больших данных. Приведенные определения подразумевают, что суть больших данных может отличаться в зависимости 2 Gartner исследовательская и консалтинговая компания, специализирующаяся на рынках информационных технологий. В докладе McKinsey отмечены несколько интересных фактов, которые дают представление об объеме существующих сегодня данных.

Каждый месяц через сеть Facebook пользователи обмениваются 30 миллиардами фрагментов информации. В среднем компании пятнадцати из семнадцати отраслей промышленности Соединенных Штатов имеют больше информации, чем Библиотека Конгресса США [3]. Большие данные характеризуются возросшей скоростью их передачи, сложностью и разнообразием по сравнению с источниками данных прошлого. Это не только возросший объем, но и возросшая скорость передачи и разнообразие источников. Такие факторы, разумеется, усложняют работу с большими данными, поскольку вам приходится иметь дело не просто с большим количеством данных, а с тем, что они поступают к вам очень быстро, в сложных формах и из разнообразных источников.

Легко понять, почему большие данные сравнивают с приливной волной и почему ее приручение настоящий вызов! Методы, процессы и системы анализа, внедренные в организациях, будут использоваться до предела, а возможно, и сверх предела. Необходимо разработать дополнительные методы и процессы анализа на базе обновленных технологий и методов для того, чтобы эффективно анализировать большие данные и действовать на основании полученных результатов. Мы коснемся всех этих тем в данной книге, чтобы продемонстрировать целесообразность укрощения больших данных.

А теперь устроим небольшую викторину! Остановитесь на минуту и попробуйте ответить на следующий вопрос, прежде чем читать дальше: Задумайтесь об этом на минуту и, определившись с ответом, переходите к следующему абзацу. Мысленно проиграйте музыку, которую включают в игре, пока участники думают. Теперь проверим, правы ли вы. Правильный ответ вариант 4. Важнее всего то, как организации используют большие данные.

Анализ больших данных, производимый вашей организацией, в сочетании с действиями, предпринимаемыми для улучшения вашего бизнеса, вот что имеет значение.

Наличие большого источника данных само по себе не является дополнительной ценностью. Возможно, ваши данные больше, чем мои.

На самом деле наличие любого набора данных, вне зависимости от размера, само по себе не добавляет какойлибо ценности. Собранные, но не используемые данные имеют не большее значение, чем Данные не имеют значения до тех пор, пока не будут помещены в контекст и использованы.

Мощь больших данных, как, впрочем, любого источника данных, заключается в том, что с ними делают. Какие действия предпринимаются на основании полученных результатов? Как эти данные используются для совершенствования бизнеса?

Вокруг больших данных поднята такая шумиха, что многие полагают: Когда вы отберете действительно нужную вам информацию, источник больших данных может показаться вам не таким уж большим. Но это ничего не значит, поскольку после обработки данных их объем не имеет значения. Важно то, что вы будете делать с полученными результатами. Дело не в объеме данных, а в способе их использования! Значимость большим данным придает вовсе не то, что они большие, и даже не то, что они представляют собой данные.

Важно то, как вы анализируете и применяете эти данные для развития своего бизнеса. Что делает большие данные интересными для вас и вашей организации? Самое интересное связано с новыми мощными средствами их анализа. Об этом и поговорим. Чем большие данные отличаются от традиционных данных? Большие данные отличаются от традиционных данных рядом важных характеристик. Не каждый источник больших данных имеет все перечисленные особенности, однако большинству свойственно следующее.

Во-первых, большие данные часто автоматически генерируются машиной без участия человека. Традиционные источники данных всегда предполагают присутствие человека. Возьмем, к примеру, розничные или банковские транзакции, записи с содержанием телефонных звонков, доставку товаров или выставление счетов на оплату. Все эти действия подразумевают присутствие человека, который способствует созданию данных. Кто-то должен внести деньги, сделать покупку, позвонить по телефону, отправить посылку или сделать платеж.

В каждом случае частью процесса создания новых данных остается человек, совершающий какие-либо действия. С большими данными дело обстоит иначе. Многие источники больших данных генерируются вообще без взаимодействия с человеком, например встроенный в двигатель датчик генерирует данные, даже если никто его об этом не просит. Во-вторых, большие данные обычно соотносятся с совершенно новыми источниками данных. Это не просто расширение возможностей сбора существующих данных. Например, через интернет потребители могут взаимодействовать с банком или магазином, однако выполняемые ими операции принципиально не отличаются от традиционных.

Они просто выполняют те же операции через другой канал. Организация может собрать данные о транзакциях, совершенных через интернет, однако они мало чем отличаются от транзакций, которые совершались раньше. Тем не менее сбор данных о поведении потребителей в процессе совершения транзакции предоставляет принципиально новую информацию, о которой мы подробно поговорим во второй главе.

Например, вы, вероятно, в течение многих лет каждый месяц вручную снимали показания счетчика электроэнергии. Можно ли считать, что интеллектуальный счетчик, фиксирующий показания каждые 15 минут, предоставляет те же самые данные?

Или эта информация совершенно иного качества, открывающая возможности для проведения более глубокого анализа? Об этом речь пойдет в третьей главе. В-третьих, многие источники больших данных не замышлялись как дружественные к пользователю. Впрочем, некоторые из них вообще не замышлялись! Возьмем, к примеру, текстовые потоки от сайта социальных медиа. Пользователей невозможно убедить соблюдать определенные правила грамматики, синтаксиса или лексические нормы.

Когда люди публикуют запись, вы получаете то, что получаете. Работать с такими данными в лучшем случае трудно, а в худшем отвратительно. О текстовых данных говорится в главах 3 и 6. Большинство традиционных источников данных дружественны к пользователю. Например, системы для отслеживания транзакций предоставляют данные в понятной форме, что облегчает их загрузку и работу с ними.

Частично это было продиктовано исторически сложившейся необходимостью в эффективном использовании пространства. Для избыточных данных просто не было места. Большие данные бывают неприглядными Традиционные источники данных с самого начала разрабатывались с учетом определенных требований.

Каждый бит данных имел высокую ценность, иначе он не был бы учтен. Поскольку стоимость хранения данных стремится к нулю, источники больших данных, как правило, содержат все, что может быть использовано. Это означает, что при проведении анализа необходимо разбираться в огромном количестве хлама.

И, наконец, потоки больших данных далеко не всегда представляют собой особую ценность. Большая часть данных может быть вообще бесполезной. В журнале логов содержится как очень полезная информация, так и не имеющая ценности. Необходимо отсортировать мусор и извлечь ценные и релевантные фрагменты информации. Это было связано с ограничениями масштабируемости: Мало того что записи данных были предопределены заранее каждый фрагмент данных имел высокую ценность.

С тех пор изменилось одно важное обстоятельство: Это привело к тому, что большие данные по умолчанию включают всю возможную информацию, а позже приходится разбираться в том, что же из собранного имеет значение. Зато есть гарантия, что ничего не будет упущено, но усложняет процесс анализа больших данных.

В чем сходство между большими данными и традиционными данными? Любая животрепещущая тема вызывает различные, порой взаимоисключающие толкования. Существует мнение, что большие данные в корне изменят способы анализа и использования его результатов. Однако если вдуматься, это не так. Это как раз тот случай, когда шумиха выходит за рамки реальности.

Ни для кого не новость, что большой объем больших данных создает проблемы масштабируемости. Большинство новых источников данных поначалу считались большими и Большие данные это просто очередная волна новых данных, которая раздвигает существующие пределы. Аналитики смогли приручить прошлые источники данных с учетом существовавших в то время ограничений, и большие данные тоже будут приручены. В конце концов, аналитики в течение длительного времени находились в авангарде изучения новых источников данных.

Так и будет продолжаться. Кто первым начал анализировать данные о телефонных звонках в телекоммуникационных компаниях? На своей первой работе я проводил анализ данных, записанных на магнитные ленты. В то время казалось, что данных было огромное количество. Кто первым начал анализировать данные с мест продаж в розничных магазинах? Сначала анализ данных о сотнях тысяч товаров в тысячах магазинов считался огромной проблемой. Сегодня это не так. Профессионалы в области аналитики, которые первыми начали работать с этими источниками, имели дело с тем, что в то время считалось немыслимо большими объемами данных.

Им необходимо было найти способ анализа и использования данных с учетом существующих в то время ограничений. Многие сомневались в том, что это возможно, а некоторые даже ставили под сомнение ценность таких данных.

Это очень похоже на то, что происходит с большими данными сегодня, не так ли? Большие данные не повлияют ни на задачи, которые решают профессионалы в области аналитики, ни на причины, по которым они это делают. Даже для тех, кто сейчас называет себя не аналитиками, а учеными в области науки о данных, цели и задачи остаются прежними. Конечно, решаемые проблемы будут эволюционировать вместе с большими данными так было всегда. Однако в конце концов аналитики и ученые будут просто изучать новые и немыслимо большие наборы данных, чтобы обнаружить ценные тенденции и модели, как они всегда это делали.

Более подробно мы поговорим об этих специалистах в главах 7, 8 и 9. Сейчас важно понять, что задачи, связанные с большими данными, не так новы, как может показаться. Вам нечего бояться Во многих отношениях большие данные не создают для вашей организации новых проблем. Укрощение новых источников больших данных, которые раздвигают существующие пределы масштабируемости, постоянная тема в мире аналитики. Большие данные представляют собой просто новое поколение таких данных. Профессиональные аналитики хорошо разбираются в решении подобных задач.

Если ваша организация справляется с существующими массивами информации, она справится и с большими данными. Большие данные потребуют изменения тактик, которые используют в своей работе профессиональные аналитики. Для обеспечения более эффективной работы с большими данными к традиционным аналитическим средствам добавятся новые инструменты, методы и технологии. Для отбора ценных сведений из потоков больших данных будут разработаны сложные алгоритмы фильтрации; будут усовершенствованы процессы моделирования и прогнозирования.

Более подробно это обсуждается в главах 4, 5 и 6. Перечисленные тактические изменения коренным образом не меняют цели или сам процесс анализа. Большие данные, безусловно, будут способствовать внедрению новых и инновационных средств анализа, и это заставит аналитиков проявлять творческий подход к работе в пределах существующих ограничений в масштабируемости. Большие данные с Тем не менее их использование на самом деле не сильно отличается от того, чем аналитики всегда занимались.

Они готовы ответить на вызов. Риски, связанные с большими данными С большими данными связаны определенные риски. Так, например, организация может оказаться настолько перегруженной большими данными, что не будет способна на какой-либо прогресс. Ключевой момент здесь, как мы увидим в главе 8, наличие нужных людей, которые не допустят этого. Вам нужны правильные люди, способные справиться с проблемами, которые возникают с появлением больших данных. Если такие специалисты есть, организации могут избежать пробуксовки в своем развитии.

Другой риск заключается в том, что расходы по сбору больших данных растут быстрее, чем возможности организации по их использованию.

Избежать этой проблемы можно, лишь обеспечив соответствующий темп развития. Необходимо собирать и изучать образцы новых данных. С их помощью можно провести экспериментальный анализ, чтобы определить, что действительно важно в каждом источнике и как каждый из них может быть использован.

Основываясь на этом, организация будет готова к проведению полномасштабного эффективного анализа источника данных.