Данные и системы: могут ли уроки кибернетической теории больших систем оказаться полезными при популяризации big data?

Данные и системы: могут ли уроки кибернетической теории больших систем оказаться полезными при популяризации big data?

Эпохальный номер Nature.

Big Data, “большие данные” – одно из самых популярных понятий современного компьютерного мира. Поисковик «Компьютерры» даёт 719 ссылок на связанные с ним материалы. Google предлагает 1 730 000 адресов. Концепция “больших данных” прошла большой путь за неполные пять лет.

Да, менее чем через месяц ей можно будет отмечать пятилетие. 4 сентября 2008 года в свет вышел специальный выпуск Nature «Наука петабайтной эры», посвященный тому, как повлияют на будущее наук возможности работы с большими объемами данных.

А всего лишь через три года аналитики из Gartner поставили эту технологию на второе место в перечне важнейших тенденций компьютерного мира. Логика их была железной: данные увеличиваются восьмикратно за пятилетку.

80% этих данных не структурировано. (Следовательно – и не обрабатываемо традиционными методами…) А ведь если их собрать и упорядочить, то из того, что уже доступно, можно получить информацию, чрезвычайно полезную для захвата и удержания места на рынке.

Тогда Gartner’овцы отдали Big Data второе место после виртуализации. Ну а теперь эксперты Cisco, опросившие 1 800 ИТ-специалистов по всему миру, получили такой ответ: «Четверо из пяти опрошенных говорят, что для работы с Big Data понадобится облачная инфраструктура». («Что мешает нам начать пользоваться плодами Big Data»).

То есть “большие данные” сходятся в развитии с технологическим преемником виртуализации.

“Большие данные” в облаках (прогноз на 2017 год); выделяется роль бизнес-применений.

Но, несмотря на интереснейшие применения Big Data, вопрос-то всё равно задаётся так? «Что мешает?..» И, может быть, кроме названных айтишниками проблем с планированием, финансами, инфраструктурой, риск-менеджментом и безопасностью (напомним, что опрос Cisco производился до шумихи, связанной со Сноуденом), есть ещё причина одна. Незаметная тем, кто находится в среде ИТ-специалистов и многое воспринимает как должное.

Может быть, концепция эта и связанные с ней технологии недостаточно популяризируются? Может быть, многочисленные материалы понятны лишь специалистам? А финансисты и руководители некомпьютерных бизнесов, равно как и некомпьютерные специалисты, не слишком хорошо представляют, почему же данные “большие” и какие преимущества это даёт в практической деятельности… (По опросам весны прошлого года лишь менее половины считало термин Big Data точно определённым.)

Так смеются над размытостью терминов вокруг Big Data и их проблемами безопасности.

Давайте же попробуем ответить на эти вопросы, воспользовавшись концепциями дисциплины кибернетики, бурно развивавшейся в пятидесятые–шестидесятые годы прошлого века. Они имеют то преимущество, что давно вошли в учебные планы и достаточно широко известны.

Возможно, наши рассуждения пригодятся и ИТ-специалистам – в общении с коллегами некомпьютерного профиля, при обучении молодёжи.

Три V “больших данных” – Объём, Вариативность и Скорость – известны широко.

Итак, кибернетика. Была в ней концепция больших систем. И концепция эта оказалась столь плодотворна, что даже удостоилась отдельной статьи в 3-м издании Большой советской энциклопедии. Вот с ней-то мы и попробуем соотнести наши Big Data.

Которые были анонсированы в Nature, подробно описывающем биологические приложения. А вот классическим примером большой системы считался «живой организм с его системами питания, дыхания, движения, нервной и гуморальной регуляции, восстановления разрушающихся элементов (клеток) и воспроизведения дочерних организмов».

Так – сразу находим нечто общее!

Дальше, всего лишь через три года, как мы видели, Gartner счёл “большие данные” вторым по актуальности бизнес-направлением. Но ведь и в большие системы включалась «торговая сеть, включающая поставщиков товаров, склады, торговые точки, персонал, финансы, учёт и отчётность», – это в советской-то энциклопедии конца 1960-х, когда ни полноценных сетей, ни рыночной дистрибуции в стране не было.

То есть с самого начала мы видим параллели между теми объектами, которые пытались изучать с помощью теории больших систем, и теми, данные с которых сегодня обрабатываются методами Big Data! Не правда ли, интересно?

А дальше еще занимательней: «… с целью изучения и совершенствования Б. с. используются только такие методы, которые не игнорируют наличия тесной взаимосвязи между большим числом факторов, определяющих поведение рассматриваемой системы; учитывается большая или меньшая неопределённость поведения системы в целом и отдельных её частей как результат действия случайных факторов и участия в системе людей; принимается во внимание взаимовлияние системы и окружающей её среды; учитываются изменения во времени свойств системы и внешней среды. Такой подход эффективен при исследовании сложных технических, экономических и биологических систем, для которых оказываются бесплодными традиционные методы, основанные на поочерёдном изучении отдельных черт системы или отдельных явлений или на далеко идущем упрощении объекта рассмотрения»; ведь «совершенствование Б. с.» – это же та же самая оптимизация деятельности торговой сети, для которой собирают и обрабатывают “большие данные”.

А данные, которыми оперирует современный бизнес, действительно очень велики. Сеть универмагов Walmart за час обрабатывает более миллиона потребительских транзакций; ещё несколько лет назад они размещались в базе данных объёмом более 2,5 петабайт (2 560 терабайт); считалось, что это в 167 раз больше информации, чем во всех книгах Библиотеки конгресса.

И вот теперь, при обработке “больших данных”, как и раньше, в теории больших систем, ставятся задачи учесть многочисленные связи, присутствующие в обоих случаях. Скажем, возьмём живой объект теории больших систем.

Что могли сделать с ним традиционные методы наук о жизни?

Прежде всего – описать и классифицировать. Этим занимались еще в античности, когда работать руками учёным мужам было не принято.

Потом настало Новое время с его экспериментальным подходом, выражавшимся прежде всего в анатомировании. (Стандартный сюжет историй той эпохи – врачи, ворующие трупы с кладбища и принимаемые суеверными обывателями за чертей…) Появились микроскопы, и объём получаемой анатомической информации резко возрос, порождая цитологию. Потом, по мере успехов химии, стал возможен качественный анализ живой материи.

Потом биохимия, анализы количественные и даже в динамике… Но – по одному, двум параметрам. А в живом организме их много больше, и все они связаны между собой. (Видите, в объекте теории больших систем уже налицо и объём, гигантское количество клеток, и изменчивость, присущая биохимическим процессам, и потребная скорость изучения, без которой жизнь утечёт мимо – практически аналоги 3 V из Big Data.) И по отдельности микроскопические наблюдения и химические анализы говорят о чём угодно, но только не о том, как организм работает в целом.

Вот тут-то теория больших систем и предложила свой специфический подход. Свою собственную систему понятий.

Методы формирования моделей, которые были бы достаточно сложными, чтобы описывать реальные процессы, и достаточно простыми, чтобы работать с ними на практике. Приёмы декомпозиции, позволяющие разделить систему на отдельные части, но не потерять основных связей между ними.

И – противоположные им приёмы агрегатирования, состоящие в замене нескольких показателей одним, но важнейшим для решения задач анализа и оптимизации системы.

Именно тогда был предложен приём, сводящийся к тому, что для исследования большой системы надо создать её модель. Математическую, просчитываемую далее на цифровых или аналоговых (где напряжения моделировали переменные) машинах.

Такая вот теория… Оставшаяся теорией: мощь тогдашних компьютерных технологий была ничтожна, несравнима со смартфоном.

А сейчас мы читаем о моделировании головного мозга. Имитация работы ста триллионов синапсов – это развитие давнишних методов теории больших систем. Ведь даже современной процессорной мощи лобовой просчёт не по силам.

Налицо упрощённое моделирование, декомпозиция и агрегатирование, снижение скорости моделирования в 1 500 раз по сравнению с реальными нейронами. Но – задача, хоть и в упрощенном виде, решается.

И вот сегодняшние Big Data информационных технологий поразительно похожи на большие системы кибернетики. Только теми занималась теория (ну не было еще процессорной мощи), а “большими данными” – практика.

Nature рассуждает о петабайтной науке, а у Walmart уже давно петабайтные базы. Именно благодаря такому сращиванию бизнеса и информационных технологий США лидирует, скажем, на глобальном рынке интернет-торговли.

Так вот, из баз данных универмага можно вытащить поразительно много интересного для улучшения дел в бизнесе. Только данные эти в конечном счёте необходимо свести к виду и объёму, обозримому для человека, который будет принимать решения.

То есть, говоря аналогиями из биологии, не перечислять зоологу все статические и динамические данные всех клеток организма, а, выполнив декомпозицию, сказать, что есть у него мозг, сердце, печень… Выполнив агрегатирование, доложить, что пульс такой-то, а кровяное давление такое-то… И что по составу крови видно: если животному не дать сена, то оно сдохнет. Причём последнее заключение должно даваться в течение времени, пока скотина ещё жива, а не с замедлением на порядки!

Ах да, в отличие от зоолога, знающего анатомию, методы работы с Big Data не подозревают о наличии таких готовых паттернов, как сердце и почки. Они должны выяснить их существование в процессе применения: в этом сложность работы с “большими данными”, но в этом и их мощь.

Скажем, бухгалтерия по своим стандартам-паттернам легко перемелет цифры приходов и расходов, связанные с покупательскими транзакциями, – и определит, что Amazon во втором квартале 2013 года понёс убытки в 7 миллионов долларов, по паре центов на акцию. Но даже если транзакций в день миллионы, то это не работа с “большими данными”.

А вот оперативно выявить предпочтения многочисленных покупателей (изменчивые, неясные даже им самим, но отражающиеся в накопленной информации об их покупках) и скорректировать рекламные кампании, цены, ввести новый ассортимент, обратив убытки в прибыли (и всё это в ограниченное время) – это была бы работа с Большими Данными (3 V). К которой бизнес неизбежно придёт: слишком уж сложен современный мир. А аналогии, при всей их неточности, могут ему в этом помочь…

Важно лишь запомнить главное: Big Data – это те самые большие системы кибернетики. Только сделанные не из живых клеток, подобно коровам, составлявшим богатство скотоводов-масаи в традиционном обществе, а из чисел.

Тех самых чисел, которые в информационном обществе породили астрономические капиталы Microsoft и Apple.

Система Кадочникова. Семидневный Тренинг В Анапе


Читать также…

Читайте также: