Все о данных
November 12, 2020

Данные больше похожи на нефть или солнечный свет? Часть 2.

Этот вопрос подчеркивает множество различных граней данных.

Страстные грамматики давно спорят, как воспринимать «данные»,в единственном или множественном числе (вопреки общепринятой практике, мы пока придерживается последнего). Лучше спросить, почему данные имеют такое единственное множественное число? То есть почему у них так много разных лиц?

Чтобы получить ответ, начните с множества метафор, используемых для описания потоков данных. Первоначально они были уподоблены нефти, предполагая, что данные являются топливом будущего. Совсем недавно это сравнение было с солнечным светом, потому что вскоре, подобно солнечным лучам, они будут повсюду и будут лежать в основе всего. Есть также разговор о данных как инфраструктуре: они должны рассматриваться как своего рода цифровой близнец автомобильных или железных дорог, требующий государственных инвестиций и новых институтов для управления ими.

Умножение метафор отражает податливую экономику данных. Во-первых, они “неконкурентоспособны”: поскольку они бесконечно копируемы, они могут использоваться многими людьми, не ограничиваясь использованием другими. Но они также "исключаются": такие технологии, как шифрование, могут контролировать, кто имеет к ним доступ. В зависимости от того, где установлен криптографический слайдер, данные действительно могут быть частными товарами, такими как нефть, или общественными товарами, такими как солнечный свет, или стать чем то средним.

Это, в свою очередь, означает, что существует не одна а три более или менее различных экономики данных, каждая из которых имеет свою собственную идеологию. И большой вопрос заключается в том, придет ли человек к господству, или же «зеркальный мир» будет такой же мешаниной, как и реальный.

Если нефть все еще является самой распространенной метафорой, то это потому, что сравнивать данные с черным веществом легко. Как и нефть, данные должны быть очищены, чтобы быть полезными. В большинстве случаев они должны быть "очищены” и "помечены", то есть лишены неточностей и помечены для идентификации того, что можно увидеть, скажем, на видео. Это породило глобальную индустрию, в которой заняты сотни тысяч человек, в основном в странах с низким уровнем заработной платы. Scale AI, стартап из Сан-Франциско, в котором работают 30 000 таггеров по всему миру, которые просматривают кадры из автомобилей с автопилотом и гарантируют, что программное обеспечение фирмы правильно классифицировало такие вещи, как дома и пешеходов.

Прежде чем данные смогут привести в действие сервисы искусственного интеллекта, они также должны быть поданы через алгоритмы, чтобы научить их распознавать лица, управлять автомобилями с автопилотом и предсказывать, когда реактивные двигатели нуждаются в проверке. Кроме того, для формирования статистических моделей часто требуется объединение различных наборов данных. В случае реактивных двигателей, оброботка данных об использовании и погоде помогает прогнозировать износ.

Метафора нефти также звучит верно, потому что некоторые типы данных и некоторые идеи, извлеченные из них, уже широко продаются. Интернет-реклама это, пожалуй, самый большой рынок для персональных данных: клики покупаются и продаются на основе подробного цифрового профиля каждого зрителя. По данным Strategy& в 2018 году он стоил $178 млрд. Брокеры данных, которые могут отслеживать тысячи точек данных для каждого человека, также делают бойкий бизнес с личной информацией. Они продают ее всем, от банков до операторов связи, получая годовой доход более $ 21 млрд, говорит Strategy&.

Кроме того, очень выгодным может быть предоставление аналитической информации из данных интеллектуального анализа. На Kaggle, веб-сайте, принадлежащем Google, который проводит конкурсы машинного обучения, тысячи команд ученых-исследователей данных соревнуются друг с другом, чтобы увидеть, кто может придумать лучшие алгоритмы для прогнозирования энергопотребления здания или обнаружения “deepfake” видео, с призами иногда превышающими $1 млн. Это также способ заработать деньги Facebook и Google. Они почти никогда не продают данные, но они действительно продают идеи о том, кто является лучшей мишенью для рекламы.

Тем не менее данные не смогли стать “новым классом активов”, как это было сказано на Всемирном экономическом форуму в 2011 году. Большинство данных никогда не меняют руки, и попытки сделать их более торгуемыми не взлетели. Чтобы изменить это, особенно в Европе, производители стремятся обеспечить права собственности на данные, генерируемые их продуктами. Другие хотят, чтобы потребители владели данными, которые они создают, чтобы они могли продавать их и получать прибыль от своей информации.

Опять же, экономика встает на пути. Хотя данные часто рассматриваются как товар, корпоративные наборы данных, в частности, как правило, не являются взаимозаменяемыми. Каждый из них отличается как по способу его сбора, так и по своему назначению и надежности. Это затрудняет для покупателей и продавцов согласование цены: ценность каждого сорта трудно сравнить и она изменяется с течением времени. Еще одним препятствием для торговли является то, что ценность набора данных зависит от того, кто им управляет. То, что может быть просто исчерпанием данных для одной фирмы, может быть цифровым золотом для другой.

” Истинной ценности данных не существует", - говорит Дайан Койл из Кембриджского университета.

Что касается персональных данных, определение прав собственности является сложным, потому что много информации не может быть приписано одному человеку. Кому, например, принадлежит тот факт, что сайт знакомств создал пару? А сами супруги? Усложняя дело, данные имеют множество внешних эффектов, как положительных, так и отрицательных, что означает, что рынки часто терпят неудачу. Зачем социальной сети, скажем, покупать данные отдельного человека, если она может делать достаточно точные прогнозы о нем, перемалывая данные от других пользователей?

Хотя данные вряд ли когда-либо будут продаваться так же широко, как нефть, технологические фирмы продолжают пытаться сделать это проще. Amazon Web Services (AWS), облачная вычислительная машина гиганта электронной коммерции, недавно запустила рынок, который стремится сделать торговлю данными как можно более легкой. Он работает немного как интернет-магазин для приложений для смартфонов: покупатели подписываются на каналы, соглашаются с условиями лицензирования, а AWS обрабатывает платеж.

Свет а не тьма.

Сторонники движения "Открытые данные" подталкивают организации отказаться от своих данных.Поскольку метафора нефти рассматривается как все более проблематичная, сравнение с солнечным светом или аналогичными ресурсами, такими как воздух и вода, подходит больше. Многие люди, предпочитающие эту метафору, спрашивают, Если данные действительно не поддаются превращению в Торговый товар, то зачем даже пытаться? Не лучше ли вместо этого обеспечить, чтобы данные использовались в максимально возможной степени? Ведь это позволит максимально увеличить общественное богатство. Другими словами, никто не ставит шторы и не пытается взимать плату за солнечный свет.

Эта линия аргументации уже породила то, что известно как движение “открытых данных”. Ее сторонники подталкивают организации и университеты к тому, чтобы раздавать свои данные, чтобы они могли широко использоваться, например, стартапами. Сегодня большинство правительств, национальных или иных, могут похвастаться проектом открытых данных, хотя качество предоставляемых данных сильно варьируется.

В последнее время компании также начали публиковать свои данные. Несколько фирм, которые работают с автомобильными автопилотами, поделились информацией, собранной их транспортными средствами.

” Чтобы исследователи задавали правильные вопросы, им нужны правильные данные", - говорит Драгомир Ангуэлов, главный ученый в Waymo.

Waymo фирма принадлежащая Alphabet, материнской компании Google, которая является одной из компаний, которая сделала это. Другие работают над технологией, чтобы сделать такой обмен данными проще: Microsoft и другие производители программного обеспечения скоро начнут реализовывать то, что он называет “инициативой открытых данных”.

Некоторые рассматривают такие усилия как начало движения за данные с открытым исходным кодом, во многом похожего на подход, который в настоящее время управляет значительной частью индустрии программного обеспечения. И Microsoft, в частности, очень хочет, чтобы это произошло. ” Нам нужно демократизировать ИИ и данные, на которые он опирается“, - пишет Брэд Смит, президент и главный юридический директор фирмы в своей недавно опубликованной книге ”Инструменты и оружие".

Неудивительно, что эта позиция также попахивает личным интересом: Microsoft не делает много денег непосредственно из данных, но делает это с помощью инструментов и служб, которые обрабатывают данные.

Однако, как и сравнение нефти, аналогия "данные как солнечный свет" разрушается. Для персональных данных главным ограничением является все более строгое законодательство о конфиденциальности, такое как общее регулирование защиты данных ЕС ( GDPR ), а также Закон о конфиденциальности потребителей Калифорнии (CCPA), который начал применяться в июле. Для корпоративных данных проверки носят экономический характер: генерирование хороших данных является дорогостоящим, и они могут раскрыть слишком много о продуктах фирмы. "Компании будут принимать очень стратегические решения о том, какие наборы данных они будут публиковать а какие они будут держать в себе", - объясняет Майкл Чуи из McKinsey Global Institute, консалтингового аналитического центра.

Отделить то, чем можно безопасно поделиться , от того, что следует тщательно охранять, будет сложно, но технология должна со временем облегчить такие решения. Например, нечто под названием "дифференциальная конфиденциальность" заменяет один набор данных другим, который включает различную информацию, но имеет те же статистические закономерности. "Гомоморфное шифрование" позволяет алгоритмам обрабатывать данные без их расшифровки. И блокчейны,которые являются специальными базами данных того рода, которые лежат в основе многих цифровых валют, позволяют людям и компаниям управлять в мельчайших деталях, кто имеет доступ,к каким данным и отслеживать, кто это сделал.

Постепенно эти технологии внедряются. DECODE, инициатива, финансируемая до прошлого года Европейским Союзом, использовала их комбинацию для создания инструментов, которые позволяют людям контролировать данные, которые они генерируют и собирают о своей окружающей среде, например, об уровнях шума и качестве воздуха. Они проходят испытания в Амстердаме и Барселоне.
Oasis Labs, другой стартап в Сан- Франциско, построил нечто подобное для медицинских данных. Его первый сервис, который будет запущен в ближайшее время, позволит пользователям пожертвовать генетическую информацию для исследовательских проектов.

Такие технологии разделения данных также являются зернами для мельницы тех, кто уподобляет данные инфраструктуре.

“Вы должны путешествовать по многим цифровым дорогам и объединять множество наборов данных и потоков чтобы получить новые идеи" - говорит Джени Теннисон, которая возглавляет Институт открытых данных, исследовательский центр, базирующийся в Великобритании. Некоторые из них будут частными платными дорогами, другие-общественными многополосными магистралями, но многие из них должны эксплуатироваться как общие цифровые ресурсы, управляемые в “клубе” пользователями.Однако одних технологий будет недостаточно для создания этих “клубных товаров”. Они также нуждаются в учреждениях, которые обеспечивают то, что г-жа Теннисон называет “управление данными”. Трасты данных, информационные кооперативы, хранилища персональных данных-все они различны в деталях, но идея по существу одна и та же: они обеспечивают структуру управления для организации доступа к данным таким образом, чтобы учитывать интересы тех, кто производит и использует тот или иной вид данных.

Это еще рано, но такие «клубы данных»начали появляться во многих местах. Midata является швейцарским кооперативом, который собирает и управляет данными здравоохранения. В Тайване Одри Тан, цифровой министр, создал постоянный "президентский хакатон “для создания” данных коллаборационистов", в том числе несколько для экологических данных. В Финляндии компания "Sitra“, занимающаяся разработкой политики, начала аналогичную конкурентную борьбу, чтобы помочь начать” честный обмен данными".

Новая вещь на старом континенте

Большинство проектов все еще невелики и живут на общественные деньги, что вызывает сомнения в том, будут ли они когда-нибудь большой частью экономики данных. Но будут ли они успешны или нет-это вопрос политической воли, говорит Франческа Бриа, основатель DECODE. В частности, утверждает она, городам необходимо создавать альтернативы крупным онлайн-платформам, которые рассматривают собираемые ими данные как свои собственные. Бывший главный технический директор Барселоны, она превратила город в модель того, что возможно теперь копируется в других странах Европы. Жители Барселоны не только могут контролировать данные, которые город хранит на них, но и его поставщики должны добавить информацию, которую они собирают при оказании услуг в муниципальные службы данных.

Учитывая их соответствующие ограничения, ни один из трех видов экономики данных не будет доминировать, но они, вероятно, будут иметь опорные пункты. В Америке данные трактуются как нефть: тот, кто их добывает, владеет ими. Китай- хотя он также имеет собственные жадные до данных онлайн- платформы, включая Alibaba и Tencent,—является крайним примером места, где данные являются общественными благами. В конечном счете они контролируются государством, которое подталкивает фирмы к объединению определенных типов данных, таких как данные о состоянии здоровья. В Европе многие регулирующие органы стали рассматривать данные как инфраструктуру. Новая Европейская комиссия в Брюсселе имеет большие планы по поддержке создания трастов данных.

Это звучит так, как будто ЕС вот-вот обречет себя на то, чтобы остаться техническим отстающим. Но это не обязательно так. "Справедливая экономика данных” та, которая учитывает интересы граждан и потребителей, которые будут генерировать большую часть топлива будущего может оказаться вполне конкурентоспособной, говорит Луукас Ильвес, соавтор доклада для Sitra в Финляндии. Если люди, а также фирмы могут доверять информационной инфраструктуре континента, они будут готовы делиться большим количеством и лучшими данными, что означает улучшение услуг для всех. Если бы такой "добродетельный цикл" должен был начаться, то это было бы поворотным моментом в судьбе старого мира.■

Часть 3.

Эта статья появилась в специальном разделе печатного издания The Economist под заголовком " Цифровая множественность"

Автор хотел бы выразить признательность за щедрую помощь, оказанную ему многими людьми при подготовке настоящего доклада. Помимо тех, кто упомянут в тексте, особую благодарность выражают Алессандро Аксиотти из Университета Карнеги-Меллон, Алина Бланкертц из Stiftung Neue Verantwortung, Мартин Касадо из Andreessen Horowitz, Дирк Дидаскалу из AWS, Мартин Флеминг из IBM, Джейсон Фурман из Гарвардского университета, Али Годси из Databricks, Джон Хейгел из Deloitte, Стивен Орбан из AWS, Тони Керзон Прайс из openDemocracy, Генри Фаррелл из Университета Джорджа Вашингтона, Томас Рэмдж, пинг ли из Accel Partners, Мэтт Прюитт из RadicalxChange, Макс Ширсон из Battery Ventures, Джеймс Шорт из Калифорнийского университета в Сан-Диего, Бипул Синха из Rubrik, Dawn Song из Oasis Labs, Джуила Уайт из Microsoft и Матей Захария из Databricks.
https://www.economist.com/special-report/2020/02/20/a-deluge-of-data-is-giving-rise-to-a-new-economy