Данные и системы: могут ли уроки кибернетической теории больших систем оказаться полезными при популяризации big data?
Эпохальный номер Nature.
Big Data, “большие данные” – одно из самых популярных понятий современного компьютерного мира. Поисковик «Компьютерры» даёт 719 ссылок на связанные с ним материалы. Google предлагает 1 730 000 адресов. Концепция “больших данных” прошла большой путь за неполные пять лет.
Да, менее чем через месяц ей можно будет отмечать пятилетие. 4 сентября 2008 года в свет вышел специальный выпуск Nature «Наука петабайтной эры», посвященный тому, как повлияют на будущее наук возможности работы с большими объемами данных.
А всего лишь через три года аналитики из Gartner поставили эту технологию на второе место в перечне важнейших тенденций компьютерного мира. Логика их была железной: данные увеличиваются восьмикратно за пятилетку.
80% этих данных не структурировано. (Следовательно – и не обрабатываемо традиционными методами…) А ведь если их собрать и упорядочить, то из того, что уже доступно, можно получить информацию, чрезвычайно полезную для захвата и удержания места на рынке.
Тогда Gartner’овцы отдали Big Data второе место после виртуализации. Ну а теперь эксперты Cisco, опросившие 1 800 ИТ-специалистов по всему миру, получили такой ответ: «Четверо из пяти опрошенных говорят, что для работы с Big Data понадобится облачная инфраструктура». («Что мешает нам начать пользоваться плодами Big Data»).
То есть “большие данные” сходятся в развитии с технологическим преемником виртуализации.
“Большие данные” в облаках (прогноз на 2017 год); выделяется роль бизнес-применений.
Но, несмотря на интереснейшие применения Big Data, вопрос-то всё равно задаётся так? «Что мешает?..» И, может быть, кроме названных айтишниками проблем с планированием, финансами, инфраструктурой, риск-менеджментом и безопасностью (напомним, что опрос Cisco производился до шумихи, связанной со Сноуденом), есть ещё причина одна. Незаметная тем, кто находится в среде ИТ-специалистов и многое воспринимает как должное.
Может быть, концепция эта и связанные с ней технологии недостаточно популяризируются? Может быть, многочисленные материалы понятны лишь специалистам? А финансисты и руководители некомпьютерных бизнесов, равно как и некомпьютерные специалисты, не слишком хорошо представляют, почему же данные “большие” и какие преимущества это даёт в практической деятельности… (По опросам весны прошлого года лишь менее половины считало термин Big Data точно определённым.)
Так смеются над размытостью терминов вокруг Big Data и их проблемами безопасности.
Давайте же попробуем ответить на эти вопросы, воспользовавшись концепциями дисциплины кибернетики, бурно развивавшейся в пятидесятые–шестидесятые годы прошлого века. Они имеют то преимущество, что давно вошли в учебные планы и достаточно широко известны.
Возможно, наши рассуждения пригодятся и ИТ-специалистам – в общении с коллегами некомпьютерного профиля, при обучении молодёжи.
Три V “больших данных” – Объём, Вариативность и Скорость – известны широко.
Итак, кибернетика. Была в ней концепция больших систем. И концепция эта оказалась столь плодотворна, что даже удостоилась отдельной статьи в 3-м издании Большой советской энциклопедии. Вот с ней-то мы и попробуем соотнести наши Big Data.
Которые были анонсированы в Nature, подробно описывающем биологические приложения. А вот классическим примером большой системы считался «живой организм с его системами питания, дыхания, движения, нервной и гуморальной регуляции, восстановления разрушающихся элементов (клеток) и воспроизведения дочерних организмов».
Так – сразу находим нечто общее!
Дальше, всего лишь через три года, как мы видели, Gartner счёл “большие данные” вторым по актуальности бизнес-направлением. Но ведь и в большие системы включалась «торговая сеть, включающая поставщиков товаров, склады, торговые точки, персонал, финансы, учёт и отчётность», – это в советской-то энциклопедии конца 1960-х, когда ни полноценных сетей, ни рыночной дистрибуции в стране не было.
То есть с самого начала мы видим параллели между теми объектами, которые пытались изучать с помощью теории больших систем, и теми, данные с которых сегодня обрабатываются методами Big Data! Не правда ли, интересно?
А дальше еще занимательней: «… с целью изучения и совершенствования Б. с. используются только такие методы, которые не игнорируют наличия тесной взаимосвязи между большим числом факторов, определяющих поведение рассматриваемой системы; учитывается большая или меньшая неопределённость поведения системы в целом и отдельных её частей как результат действия случайных факторов и участия в системе людей; принимается во внимание взаимовлияние системы и окружающей её среды; учитываются изменения во времени свойств системы и внешней среды. Такой подход эффективен при исследовании сложных технических, экономических и биологических систем, для которых оказываются бесплодными традиционные методы, основанные на поочерёдном изучении отдельных черт системы или отдельных явлений или на далеко идущем упрощении объекта рассмотрения»; ведь «совершенствование Б. с.» – это же та же самая оптимизация деятельности торговой сети, для которой собирают и обрабатывают “большие данные”.
А данные, которыми оперирует современный бизнес, действительно очень велики. Сеть универмагов Walmart за час обрабатывает более миллиона потребительских транзакций; ещё несколько лет назад они размещались в базе данных объёмом более 2,5 петабайт (2 560 терабайт); считалось, что это в 167 раз больше информации, чем во всех книгах Библиотеки конгресса.
И вот теперь, при обработке “больших данных”, как и раньше, в теории больших систем, ставятся задачи учесть многочисленные связи, присутствующие в обоих случаях. Скажем, возьмём живой объект теории больших систем.
Что могли сделать с ним традиционные методы наук о жизни?
Прежде всего – описать и классифицировать. Этим занимались еще в античности, когда работать руками учёным мужам было не принято.
Потом настало Новое время с его экспериментальным подходом, выражавшимся прежде всего в анатомировании. (Стандартный сюжет историй той эпохи – врачи, ворующие трупы с кладбища и принимаемые суеверными обывателями за чертей…) Появились микроскопы, и объём получаемой анатомической информации резко возрос, порождая цитологию. Потом, по мере успехов химии, стал возможен качественный анализ живой материи.
Потом биохимия, анализы количественные и даже в динамике… Но – по одному, двум параметрам. А в живом организме их много больше, и все они связаны между собой. (Видите, в объекте теории больших систем уже налицо и объём, гигантское количество клеток, и изменчивость, присущая биохимическим процессам, и потребная скорость изучения, без которой жизнь утечёт мимо – практически аналоги 3 V из Big Data.) И по отдельности микроскопические наблюдения и химические анализы говорят о чём угодно, но только не о том, как организм работает в целом.
Вот тут-то теория больших систем и предложила свой специфический подход. Свою собственную систему понятий.
Методы формирования моделей, которые были бы достаточно сложными, чтобы описывать реальные процессы, и достаточно простыми, чтобы работать с ними на практике. Приёмы декомпозиции, позволяющие разделить систему на отдельные части, но не потерять основных связей между ними.
И – противоположные им приёмы агрегатирования, состоящие в замене нескольких показателей одним, но важнейшим для решения задач анализа и оптимизации системы.
Именно тогда был предложен приём, сводящийся к тому, что для исследования большой системы надо создать её модель. Математическую, просчитываемую далее на цифровых или аналоговых (где напряжения моделировали переменные) машинах.
Такая вот теория… Оставшаяся теорией: мощь тогдашних компьютерных технологий была ничтожна, несравнима со смартфоном.
А сейчас мы читаем о моделировании головного мозга. Имитация работы ста триллионов синапсов – это развитие давнишних методов теории больших систем. Ведь даже современной процессорной мощи лобовой просчёт не по силам.
Налицо упрощённое моделирование, декомпозиция и агрегатирование, снижение скорости моделирования в 1 500 раз по сравнению с реальными нейронами. Но – задача, хоть и в упрощенном виде, решается.
И вот сегодняшние Big Data информационных технологий поразительно похожи на большие системы кибернетики. Только теми занималась теория (ну не было еще процессорной мощи), а “большими данными” – практика.
Nature рассуждает о петабайтной науке, а у Walmart уже давно петабайтные базы. Именно благодаря такому сращиванию бизнеса и информационных технологий США лидирует, скажем, на глобальном рынке интернет-торговли.
Так вот, из баз данных универмага можно вытащить поразительно много интересного для улучшения дел в бизнесе. Только данные эти в конечном счёте необходимо свести к виду и объёму, обозримому для человека, который будет принимать решения.
То есть, говоря аналогиями из биологии, не перечислять зоологу все статические и динамические данные всех клеток организма, а, выполнив декомпозицию, сказать, что есть у него мозг, сердце, печень… Выполнив агрегатирование, доложить, что пульс такой-то, а кровяное давление такое-то… И что по составу крови видно: если животному не дать сена, то оно сдохнет. Причём последнее заключение должно даваться в течение времени, пока скотина ещё жива, а не с замедлением на порядки!
Ах да, в отличие от зоолога, знающего анатомию, методы работы с Big Data не подозревают о наличии таких готовых паттернов, как сердце и почки. Они должны выяснить их существование в процессе применения: в этом сложность работы с “большими данными”, но в этом и их мощь.
Скажем, бухгалтерия по своим стандартам-паттернам легко перемелет цифры приходов и расходов, связанные с покупательскими транзакциями, – и определит, что Amazon во втором квартале 2013 года понёс убытки в 7 миллионов долларов, по паре центов на акцию. Но даже если транзакций в день миллионы, то это не работа с “большими данными”.
А вот оперативно выявить предпочтения многочисленных покупателей (изменчивые, неясные даже им самим, но отражающиеся в накопленной информации об их покупках) и скорректировать рекламные кампании, цены, ввести новый ассортимент, обратив убытки в прибыли (и всё это в ограниченное время) – это была бы работа с Большими Данными (3 V). К которой бизнес неизбежно придёт: слишком уж сложен современный мир. А аналогии, при всей их неточности, могут ему в этом помочь…
Важно лишь запомнить главное: Big Data – это те самые большие системы кибернетики. Только сделанные не из живых клеток, подобно коровам, составлявшим богатство скотоводов-масаи в традиционном обществе, а из чисел.
Тех самых чисел, которые в информационном обществе породили астрономические капиталы Microsoft и Apple.
Система Кадочникова. Семидневный Тренинг В Анапе