Все о данных
November 12, 2020

Данные должны обрабатывается в центре или на краю? Часть 3.

“Edge computing” находится на подъеме.

РАЗ В ГОДУ вычислительное облако приземляется в Лас-Вегасе. В начале декабря десятки тысяч компьютерных фанатов, в основном мужчины, приезжают в американскую столицу азартных игр в надежде не на выигрыш, а что бы узнать больше об Amazon Web Services (AWS), крупнейшем в мире провайдере облачных вычислений. В прошлом году у них был выбор из более чем 2500 различных сессий в течение недели на праздничном мероприятии, которое называлось «Re: Invent». Кульминационным моментом стало выступление Энди Ясси, неутомимого босса компании, который бродил по сцене почти три часа с последними предложениями AWS.

Но те, кто осмелится пройти пешком длинные городские кварталы Лас-Вегаса до места проведения конференции, могут подключиться к облаку, а значит, и к зеркальным мирам, по-другому. Нажмите кнопку, чтобы запросить зеленый свет на одном из тысяч перекрестков, и это вызовет программное обеспечение от SWIM.AI запуск которого выполнит ряд расчетов, которые могут повлиять на транспортный поток во всем городе. Эти пересечения существуют не только в физическом мире, но и живут в виде цифровых близнецов в центре обработки данных. Каждый человек получает информацию из своего окружения не только от нажимающих на кнопки пешеходов, но и от каждого автомобиля, пересекающего петлю на дороге, и от каждого изменения света - и постоянно предсказывает, что его светофоры будут делать на две минуты раньше времени. Такие фирмы, как Uber, в частности, могут затем передавать эти прогнозы в свои системы для оптимизации маршрутов движения.

AWS представляет собой централизованную модель, в которой все данные собираются и обрабатываются в нескольких местах, а именно в больших центрах обработки данных. SWIM.AI с другой стороны, это пример того, что называется “граничными вычислениями”: данные обрабатываются в режиме реального времени как можно ближе к месту их сбора. Именно между этими двумя полюсами будет находиться инфраструктура информационной экономики. Это будет, если процитировать метафору, впервые использованную Брайаном Артуром из Института Санта-Фе, очень похоже на корневую систему осины. Для каждого дерева над землей есть мили и мили взаимосвязанных корней под землей, которые также соединяются с корнями других деревьев. Точно так же для каждого центра хранения данных размером со склад будет существовать бесконечная сеть кабелей и соединений, собирающих данные из каждого уголка и закоулка мира.

Чтобы понять, как все это может работать, рассмотрим происхождение и путешествие типичного бита и то, как они будут меняться в ближайшие годы. Сегодня бит чаше всего создается человеком, нажав на веб-сайт или нажав на смартфон. Завтра он будет чаще всего генерироваться машинами, коллективно называемыми "Интернет вещей" (IOT ): кранами, автомобилями, стиральными машинами, очками и так далее. И эти устройства будут не только служить датчиками, но и воздействовать на мир, в который они встроены.

Ericsson, производитель сетевого оборудования, прогнозирует, что количество устройств IOT достигнет 25 млрд к 2025 году, по сравнению с 11 млрд в 2019 году. Такая оценка может показаться эгоистичной, но этот взрыв является вероятным результатом большого сдвига в том, как собираются данные. В настоящее время многие устройства привязаны кабелем. Все чаще они будут подключаться по беспроводной сети. 5G следующее поколение мобильных технологий, предназначено для поддержки 1m соединений на квадратный километр, это означает, что только в Манхэттене может быть 60m соединений. По оценкам компании Ericsson, к 2025 году мобильные сети будут ежемесячно передавать 160 эксабайт данных по всему миру, что в четыре раза превышает текущий объём.

Назначение вашего среднего бита тоже меняется. Исторически сложилось так, что большая часть цифровой информации оставалась дома, на устройстве, где она была создана. Теперь все больше и больше данных поступает на крупные вычислительные фабрики , управляемые AWS, а также ее основными конкурентами-Microsoft Azure, Alibaba Cloud и Google Cloud. Это, в большинстве случаев, пока единственные места с достаточной вычислительной мощностью для обучения алгоритмов, которые могут, например, быстро обнаруживать мошенничество с кредитными картами или предсказывать, когда машина нуждается в проверке, говорит Билл Васс, который управляет крупнейшим в мире бизнесом по хранению данных AWS. Он отказывается сказать, насколько он большой, известно только то, что он в 14 раз больше, чем у ближайшего конкурента AWS, Azure (см. Диаграмму).

Чего Г-н Васс также предпочитает не говорить, так это того, что AWS и другие крупные поставщики облачных вычислений сильно стремятся углубить эту централизацию. AWS предоставляет клиентам бесплатное или дешевое программное обеспечение, которое упрощает подключение и управление устройствами Интернета вещей. Он предлагает не менее 14 способов получения данных в своем облаке, в том числе несколько сервисов для этого через интернет но и автономные методы, такие как грузовики, упакованные с цифровым хранилищем, которое может вместить до 100 петабайт, чтобы перевозить данные (один из которых г-н Яссы приветствовал на сцене во время своего основного выступления в 2016 году).

Причина такого подхода не является секретом. Данные притягивают больше данных, потому что различные наборы наиболее выгодно добываются вместе - явление, известное как ”гравитация данных". И как только важные данные фирмы оказываются в облаке, она перемещает все больше своих бизнес- приложений в вычислительные небеса, создавая все больше доходов для поставщиков облачных вычислений. Облачные провайдеры также предлагают все более богатую палитру услуг,которые позволяют клиентам добывать свои данные для анализа.

Однако такая централизация сопряжена с определенными издержками. Один из них-это крупные сборы, которые фирмы должны платить, когда они хотят переместить данные в другие облака. Что еще более важно, концентрация данных в крупных центрах может также привести к увеличению расходов на охрану окружающей среды. Отправка данных в центральное место потребляет энергию. И, оказавшись там, велик соблазн продолжать их обрабатывать. По данным OpenAI, стартап-аналитического центра, вычислительные мощности, используемые в передовых проектах ИИ, начали стремительно расти в 2012 году. До этого он строго соответствовал закону Мура, согласно которому вычислительная мощность чипов удваивается примерно каждые два года. ; с тех пор спрос удваивался каждые 3,4 месяца.

К счастью, уже началось встречное движение-к вычислительному "краю", где генерируются данные. Это не только серверы в больших центрах обработки данных, которые становятся все более мощными, но и более мелкие локальные центры и сами подключенные устройства, что позволяет анализировать данные ближе к источнику. Более того, программное обеспечение теперь существует для перемещения вычислительной мощности вокруг того, где она работает лучше всего, что может быть на устройствах IOT или рядом с ними.

Такие приложения, как самоуправляемые автомобили, нуждаются в очень быстро реагирующих соединениях и не могут позволить себе риск отключения, поэтому вычисления должны происходить в соседних центрах обработки данных или даже в самом автомобиле. А в некоторых случаях потоки данных просто слишком велики, чтобы отправлять их в облако, как это происходит со светофорами в Лас-Вегасе, которые вместе генерируют 60 терабайт в день (десятая часть суммы, которую Facebook собирает в день).

В один прекрасный день в ближайшее время могут вспыхнуть дебаты о том, следует ли облагать налогом генерацию данных

Как далеко качнется маятник назад?
Ответ зависит от того, кого вы спрашиваете. Край важен, признает Мэтт Вуд , который отвечает за AI в AWS, но “в какой-то момент вам нужно объединить свои данные вместе, чтобы вы могли обучать свои модели”. Сэм Джордж, который возглавляет бизнес интернета вещей Azure, ожидает, что вычисления будут равномерно распределены между облаком и его краем. И Саймон Кросби, главный технолог компании SWIM.AI, признавая, что подход его фирмы “не применяется везде”, утверждает, что слишком много данных генерируется на краю, чтобы отправить их в облако, и никогда не будет достаточно данных, чтобы помочь ученым централизованно обучить все модели.

Но даже в этом случае это контрдвижение может зайти недостаточно далеко. Учитывая эти стимулы, крупные поставщики облачных услуг по-прежнему будут испытывать соблазн собрать слишком много данных и сжать их. В один прекрасный день могут вспыхнуть дебаты о том, следует ли облагать налогом генерацию данных, если мир не хочет утонуть в цифровом море.■

Часть 4.

Эта статья появилась в специальном разделе печатного издания The Economist под заголовком " распространение"

Автор хотел бы выразить признательность за щедрую помощь, оказанную ему многими людьми при подготовке настоящего доклада. Помимо тех, кто упомянут в тексте, особую благодарность выражают Алессандро Аксиотти из Университета Карнеги-Меллон, Алина Бланкертц из Stiftung Neue Verantwortung, Мартин Касадо из Andreessen Horowitz, Дирк Дидаскалу из AWS, Мартин Флеминг из IBM, Джейсон Фурман из Гарвардского университета, Али Годси из Databricks, Джон Хейгел из Deloitte, Стивен Орбан из AWS, Тони Керзон Прайс из openDemocracy, Генри Фаррелл из Университета Джорджа Вашингтона, Томас Рэмдж, пинг ли из Accel Partners, Мэтт Прюитт из RadicalxChange, Макс Ширсон из Battery Ventures, Джеймс Шорт из Калифорнийского университета в Сан-Диего, Бипул Синха из Rubrik, Dawn Song из Oasis Labs, Джуила Уайт из Microsoft и Матей Захария из Databricks.
https://www.economist.com/special-report/2020/02/20/a-deluge-of-data-is-giving-rise-to-a-new-economy