Очень короткая история науки о данных

23 мая 2014 2180 admin

Очень короткая история науки о данных


Автор: Джил Пресс, колумнист Forbes.

История о том, как ученые, занимающиеся исследованием данных, стали сексуально привлекательными - это преимущественно история слияния зрелой дисциплины статистического анализа с молодой наукой информатикой. Термин "наука о данных" появился сравнительно недавно, конкретно для обозначения новой профессии, которая, как ожидается, будет извлекать какой-то смысл из хранения огромным массивов данных. Но извлекание смысла из данных началось отнюдь не вчера и давно уже обсуждается учеными, статистами, библиотекарями, специалистами в области информатики и другими.

Мы проследим эволюцию термина "наука о данных" и его использование, а также попытаемся дать определение ему и родственным терминам. В 1962 году Джон У. Тьюки писал в книге "Будущее анализа данных" следующее:"Долгое время мне казалось, что я специалист в области статистики, заинтересованный в умозаключениях, идущих от частного к общему. Но наблюдая за эволюцией математического статистического анализа, я всерьез задумался и начал сомневаться в своем предназначении и призвании... До меня дошло, что в первую очередь мне интересен анализ данных... Анализ данных и те части статистического анализа, которые поддерживают его, должны приобретать черты научного знания, а не математики... анализ данных, по своей внутренней сути - эмпирическая наука.... Насколько важно для жизни и эволюции... появление электронного компьютера с хранящимися в нем программами? Многие удивятся, если на этот вопрос будет дан такой ответ: "важно, но не жизненно важно", поскольку у некоторых нет ни капли сомнений в том, что компьютер стал "жизненно важным и незаменимым средством".

В 1947 году Тьюки придумал термин "бит", который Клод Шэннон использовал в своей статье "Математическая теория коммуникационных связей", опубликованной в 1948 году. В 1977 году Тьюки опубликовал "Разведочный анализ данных", доказывая, что нужно больше внимания уделять использованию данных для выдвижения гипотез, и что Разведочный анализ данных и Подтверждающий анализ данных "могут и должны происходить бок о бок".

В 1974 году Питер Наур публикует "Краткое исследование компьютерных методов в Швеции и США". В книге анализируются современные методы обработки данных, используемые в широком спектре приложений, вокруг теории данных, как они определяются в Руководстве Международной федерации по обработке информации (МФОИ): "Данные - это формальное представление фактов или идей, которые могут передаваться, и которыми можно манипулировать посредством какого-то процесса". В Предисловии к книге читателю сообщается, что на Конгрессе МФОИ в 1968 году был представлен план на будущее под названием "Даталогия, наука о данных и их обработке и её место в образовании", и что в тексте книги "термин 'наука о данных' используется в широком смысле". Наур предлагает следующее определение науки о данных: "Наука обработки и анализа данных после их формирования, тогда как исследование внутреннего содержания данных перепоручается другим наукам и областям знания".

В 1977 году создается Международная ассоциация статистических вычислений (МАСВ) как Секция Института информатики (ИСИ). "Задача МАСВ - связать воедино статистическую методологию, современную компьтютерную технологию и знания предметных (узких) специалистов для преобразования данных в информацию и знание". В 1995 году она была преобразована в ежегодную конференцию Ассоциации по обработке данных и специальной группы по выявлению знаний и добыванию данных (ACM SIGKDD).

В 1989 году Грегори Пятецки-Шапиро организует первый семинар по выявлению знания в базах данных и становится его председателем.

В сентябре 1994 года журнал BusinessWeek публикует тему номера под названием "Маркетинг баз данных": "Компании собирают о вас горы информации, силясь предсказать вероятность того, что вы купите их продукцию, и, используя это знание, составить специальное маркетинговое сообщение лично для вас, чтобы побудить вас принять решение по приобретению их продукции... Всеобщее воодушевление, вызванное распространением кассовых сканеров самообслуживания (checkout scanners) в 1980-х годах, закончилось всеобщим разочарованием: многие компании были слишком озадачены самими объёмами данных, чтобы извлекать какую-то пользу из этой информации... И всё же многие компании полагают, что у них нет другого выбора, как только храбро идти навстречу новому рубежу в виде маркетинга баз данных".

В 1996 году члены Международной федерации обществ классификации (МФОК) съехались в Кобе, Япония, на очередную конференцию. Впервые в название конференции был включен термин "наука о данных" ("Наука о данных, классификация и родственные методы"). МФОК был основан в 1985 году шестью обществами классификации, связанными с конкретными странами и языками, одно из которых - "Общество классификации" - было создано в 1964 году. Общества классификации по разному используют в своих публикациях такие термины и фразы как "анализ данных", "добывание данных" и "наука о данных".

В 1996 году Усама Файяд, Грегори Пятецки-Шапиро и Падхрек Смит издают книгу "От добвания данных к обнаружению знаний в базах данных". Вот что они, в частности, писали: "Исторически идея обнаружения полезных закономерностей в данных обозначалась разными терминами, включая "добывание данных", "извлечение знаний", обнаружение информации", "сбор информации", "археология данных" и "обработка шаблона данных"... С нашей точки зрения ОЗБД (обнаружение знаний в базах данных) - это общий процесс выуживания из данных полезных знаний, а "добывание данных" - конкретный шаг в этом направлении. Добывание данных - это применение конкретных алгоритмов для извлечения из данных шаблонов или комбинаций... дополнительные шаги в процессе ОЗБД, такие как подготовка данных, отбор данных, очистка данных, включение или встраивание актуальных прежних знаний и надлежащее объединение результатов добычи данных - необходимы для извлечения полезных знаний из данных. Слепое применение методов добычи данных (справедливо раскритикованное в трудах по статистическому анализу как "слепое прочесывание данных") может быть опасным занятием, ведущим к выявлению бессмысленных и неактуальных шаблонов".

В 1997 году начал издаваться журнал "Добывание данных и обнаружение знаний". Тот факт, что две основные терминологические фразы поменялись местами, показывает выход на первый план термина "добывание данных" как более популярного способа обозначать "извлечение информации из больших массивов данных".

В декабре 1999 года в статье "Добывание слитков знания из данных", опубликованной в журнале Knowledge@Wharton, была приведена следующая цитата Джейкоба Захави: "Традиционные статистические методы хорошо справляются с небольшими массивами данных. Однако современные базы данных - это миллионы рядов и десятки столбцов... Масштабируемость - это большая проблема в добывании данных. Другим техническим вызовом оказывается разработка моделей, с помощью которых можно лучше анализировать данные, выявляя нелинейные связи и взаимодействие между элементами... Возможно, придется разработать специальные инструменты добывания данных для анализа решений, принимаемых на сайтах".

В 2001 году Уильям С. Кливленд опубликовал статью "Наука о данных: план действий для расширения технических областей статистического анализа". Это план "расширения важных областей технической работы в статистическом анализе. Поскольку план амбициозный и подразумевает существенные перемены, видоизмененная область знаний будет называться 'наукой о данных'". Кливленд рассматривает предлагаемую новую дисциплину в контексте информатики и современной работы по добыванию данных: "... выгода для аналитика данных ограниченна, потому что среди экспертов информатики знание о том, как подходить к анализу данных, ограниченно, как ограниченно и знание экспертов в области статистики об условиях обработки данных. Слияние баз данных было бы мощной силой и стимулом для инноваций. Это означает, что специалистам по статистике сегодня следует стремиться к обработке данных для получения знаний - ведь и наука о данных обращалась в прошлом к математике... на факультетах науки о данных сегодня должны быть люди, посвящающие свою карьеру развитию обработки данных и налаживающих партнерские отношения с экспертами в области информатики".

В 2001 году Лео Брейман публикует "Статистическое моделирование: две культуры", где пишет следующее: "Существуют две культуры использования статистического моделирования, позволяющие делать какие-то выводы из исследования данных. Одна исходит из того, что данные генерируются посредством определенной стохастической модели. Другая использует алгоритмические модели и исходит из того, что алгоритм образования данных неизвестен. Статистическое сообщество привержено почти исключительному использованию моделей данных. Эта приверженность привела к появлению неуместной теории, спорным выводам, и помешала специалистам по статистике работать над широким спектром интересных текущих проблем. Алгоритмическое моделирование и в теории, и на практике быстро развилось в других областях знания, помимо статистического анализа. Его можно использовать как в больших и сложных массивах данных, так и в качестве более точной альтернативы моделированию данных на меньших массивах. Если наша цель как отрасли - использовать данные для решения проблем - то нам следует уходить от исключительной зависимости от моделей данных и брать на вооружение более разнообразный набор инструментов".

В апреле 2002 года начал издаваться "Журнал науки о данных", и начали публиковаться статьи по "управлению данными и базами данных в науке и технологии. В журнале описываются системы данных, их публикация в Интернете, приложения и юридические вопросы". Журнал издается Комитетом по данным для науки и технологии (CODATA) Международного Совета по науке (МСН). Вот что там, в частности, объяснялось: "Под "наукой о данных мы подразумеваем почти все, что имеет отношение к данным: сбор, анализ, моделирование... тем не менее, важнейшая часть заключается в применении данных во всевозможных приложениях. Журнал посвящен применению статистических методов в целом... Он создаст платформу, где все работники отрасли смогут излагать свою точку зрения и обмениваться идеями".

В мае 2005 года Томас Х. Дэвенпорт, Дон Коэн и Эл Джейкобсон публикуют "Конкуренция в аналитике" - доклад Центра информационных исследований при Колледже Бэбсона, в котором описывается появление "новой разновидности конкуренции на базе расширенного применения аналитики, данных и принятия решений на основе выявленных фактов... Вместо конкуренции в традиционных областях, компании начинают использовать статистический и количественный анализ, а также прогностическое моделирование в качестве главных элементов конкуренции". Это исследование затем публикуется Дэвенпортом в "Гарвард Бизнес Ревью" (январь 2006 г.) и расширяется до размеров книги (в соавторстве с Джин Г. Харрис) - "Конкуренция в аналитике: новая наука побеждать" (март 2007 г.).

В сентябре 2005 года "Национальный научный совет" публикует "Долгоживущие собрания цифровых данных: подспорье для науки и образования в 21-м веке". Вот одна из рекомендаций этого доклада: "Государственный научный фонд (ГНФ), совместно с менеджерами по сбору данных и всем сообществом, должен разработать и доработать карьерные перспективы для исследователей данных и позаботиться о том, чтобы в научных исследованиях принимало участие достаточное число выскоклассных учёных". В докладе исследователи данных определяются как "специалисты в области информатики, баз данных, программирования, инжиниринга ПО, отраслевые эксперты, кураторы и составители экспертных аннотаций, библиотекари, архивоведы и другие, которые критически важны для успешного управления цифровым сбором данных".

В 2007 году при Фуданском университете в Шанхае (Китай) создается Научно-исследовательский центр по даталогии и науке о данных. В 2009 году двое ученых, работающих в этом центре, Янг Йонг Жу [Yangyong Zhu] и Юн Цонг [Yun Xiong] издают труд под названием "Введение в даталогию и науку о данных", в котором заявляют: "В отличие от естественных и общественных наук, даталогия и наука о данных считает своим объектом исследования данные в киберпространстве. Это новая наука". Центр проводит ежегодные симпозиумы по даталогии и науке о данных.

В июле 2008 года Комитет объединенных информационных систем (КОИС) публикует заключительный доклад по заказанному им исследованию "Для изучения роли исследователей данных и их карьерных перспективах, а также обеспечения научно-исследовательского сообщества специализированными навыками кураторства данных и выработки соответствующих рекомендаций". В заключительном докладе под названием "Профессиональные навыки, роль и карьера исследователей данных и кураторов: оценка текущей практики и будущих потребностей" исследователи данных определяются как "работники исследовательских центров или, в случае с персоналом центров обработки данных, специалисты, тесно сотрудничающие с создателями данных, которые могут участвовать в творческом анализе, позволяя другим работать с цифровыми данными и разработками в области технологии баз данных".

В январе 2009 года издаётся "Использование силы цифровых данных для науки и общества". Это доклад, подготовленный Межведомственной рабочей группой по цифровым данным для Научного комитета по науке при Национальном совете по науке и технологии. В нём говорится, что "стране нужно выявлять и содействовать появлению новых дисциплин и специалистов для решения сложных и динамичных задач цифрового сохранения, повторного использования и изменения назначения данных, а также устойчивого доступа к данным. Многие дисциплины сталкиваются с появлением нового типа экспертов в области управления и исследования данных - в частности, в области обработки и исследования компьютерной информации и данных, а также в других сегментах научного знания. Эти люди являются ключом к нынешним и будущим успехам научных предприятий. Однако они получают недостаточно признания и имеют ограниченные карьерные перспективы".

В январе 2009 года Хэл Вариан, главный экономист Google, сообщает следующее журналу McKinsey Quarterly: "Я не устаю говорить о том, что специалисты по статистике будут привлекательной профессией в следующем десятилетии. Люди думают, что я шучу, но кто мог бы подумать, что инженеры по вычислительной техники станут очень привлекательной профессией в 1990-х годах? Способность работать с данными - понимать их, обрабатывать их, извлекать из них какую-то ценность, наглядно представлять их, передавать их - все это станет чрезвычайно важным навыком в следующие десятилетия... Потому что сегодня мы имеем дело, по сути дела, с неограниченным, беспрепятственным и повсеместным потоком данных. Похвальный и редкий навык - это способность понимать эти данные и извлекать из них нечто ценное... Я действительно думаю, что очень высоко будут цениться такие навыки как получение доступа к данным, понимание этих данных и передача ценных идей, которые можно почерпнуть из анализа данных. Менеджерам нужно иметь возможность доступа к данным и их понимания".

В марте 2009 года Кирк Д. Борн и другие астрофизики передают для "Обзора развития астрофизики за прошедшее десятилетие 2010 [Astro2010 Decadal Survey]" свою статью под названием "Революция в обучении астрономии: наука о данных для масс", где пишут: "Обучение следующего поколения изящному искусству извлечения разумных объяснений и логичных знаний из данных необходимо для успешного развития наук, сообществ, проектов, агентств, предприятий и экономик. Это справедливо как в отношении специалистов, так и всех остальных (широкой общественности, педагогов, студентов, рабочих). Специалисты должны научиться применять новые методы исследования науки о данных, чтобы совершенствовать понимание Вселенной. Неспециалистам нужны навыки информационной грамотности, если они хотят быть продуктивной частью рабочей силы 21-го века, объединяя их с фундаментальными навыками пожизненного обучения в мире, в котором данные играют все более важную роль".

В мае 2009 года Майк Дрисколл пишет в книге "Три привлекательных навыка энтузиастов в области данных ": "...Поскольку мы вступаем в Век данных, люди, умеющие моделировать, визуально передавать данные, вносить случайные изменения в файлы - называйте нас статистами или фанатами данных - это ценный ресурс" (в августе 2010 года Дискролл опубликовал "Семь секретов успешных исследователей данных").

В июне 2009 года Натан Яу пишет в книге "Появление исследователя данных": "Как нам всем хорошо известно, главный экономист Google Хэл Вариан заявил в январе, что одной из самых привлекательных профессий в следующем десятилетии будут специалисты по статистике. Я всецело с ним солидарен, но хотел бы пойти ещё на шаг дальше и сказать, что они уже сегодня привлекательны во всех отношениях: и внешне и с интеллектуальной точки зрения. Но если до конца прочитать то памятное интервью Вариана, то будет понятно, что под специалистами по статистике он фактически имел в виду любого специалиста, умеющего извлекать информацию из больших массивов данных, а затем передавать нечто ценное для использования специалистам из других областей, не связанных с обработкой данных... Бен Фрай... доказывает появление целой новой отрасли, объединяющей навыки, умения и таланты из других, подчас не связанных друг с другом отраслей знания... [информатика, математика, статистика и добывание данных, графический дизайн и проектирование, взаимодействие между человеком и компьютером]. После двух лет наглядного представления информации на сайте FlowingData складывается впечатление, что взаимодействие разных отраслей становится все более обыденным делом, но, что ещё важнее, конструирование информации для обработки все больше приближается к реальности. Мы видим, что исследователи данных - люди, которые умеют все это делать, - это выходцы из смежных областей".

В июне 2009 года Трой Садковски создает группу исследователей данных в сети Linkdeln в качестве спутника для своего сайта datascientists.com (который впоследствии был переименован в datascientists.net).

В феврале 2010 года Кеннет Кукиер пишет в Специальном докладе для журнала The Economist "Всюду данные": "... появился новый тип профессионала - исследователь данных, совмещающий навыки программиста, специалиста по статистике и рассказчика (артиста), чтобы извлекать слитки золота из-под гор данных".

В июне 2010 года Майк Лукидес пишет в статье "Что такое наука о данных?": "Исследователи данных сочетают предприимчивость с терпением, готовностью поэтапно создавать продукты в сфере обработки данных, а также способностью исследователя и способностью перебирать варианты решений. Они занимаются междисциплинарными исследованиями, могут исследовать все аспекты проблемы - от начального сбора данных и приведения данных к требуемым условиям до выводов и заключений. Они могут мыслить нестандартно, предлагать новые способы рассмотрения проблемы или работать с широко определяемыми проблемами: "У нас тут куча данных, что вы могли бы с ними сделать?""

В сентябре 2010 года Хиллари Мейсон и Крис Уиггинс пишут в статье "Классификация науки о данных": "... мы думали, что было бы полезно предложить одну возможную классификацию... того, что делает исследователь данных, в условно хронологической последовательности: получить, очистить, исследовать, смоделировать и интерпретировать... Наука о данных - это смесь искусства хакеров... статистического анализа и машинного обучения..., а также упражнение в математике и в области данных, с целью объяснить аналитическую информацию... Она требует творческих решений и открытости ума в научном контексте".

В сентябре 2010 года Дрю Конвей пишет в статье "Диаграмма Венна в науке о данных": "... чтобы стать грамотным исследователем данных, нужно многому научиться. К сожалению, простое перечисление текстов, учебных курсов и семинаров не поможет разгадывать загадки. Поэтому, с целью упрощения дискуссии и добавления собственных мыслей к уже переполненному рынку идей, я представляю Диаграмму Венна в науке о данных... хакерские навыки, знание математики и статистического анализа и значительный опыт и знания".

В мае 2011 года Пит Уорден пишет в статье "Почему термин 'наука о данных' ущербен, но полезен": "Нет общепринятых границ того, что входит, и что не входит в науку о данных. Может быть, это просто модный ребрендинг статистического анализа? Я так не думаю, но у меня нет полноценного определения этой отрасли знания. Я полагаю, что изобилие данных, которое обрушилось на нас в последнее время, пробудило нечто новое в мире, и когда я осматриваюсь, то вижу людей, имеющих между собой много общего, которых никак нельзя вписать в привычные рамки той или иной профессии. Эти люди склонны работать за рамками узких специальностей, преобладающих в корпоративном и институциональном мире, обрабатывая все, что можно - от нахождения данных, масштабной их обработки, наглядного представления и описания в виде какой-то истории или связного рассказа. Похоже, что для начала они смотрят, что данные им говорят, а затем выбирают интересные нити для их разматывания и изучения вместо того, чтобы использовать традиционный для ученых подход: сначала определить проблему, а затем разыскать данные, которые проливают на нее свет".

В мае 2011 года Дэвид Смит пишет в статье "Наука о данных: что в имени твоем?": "Термины "наука о данных" и "исследователь данных" вошли в обиход чуть больше года назад, но с тех пор уже успели пустить глубокие корни: многие компании сегодня нанимают "исследователей данных", и целые конференции проводятся под вывеской "наука о данных". Но, несмотря на повсеместное принятие новой терминологии, некоторые сопротивляются переменам и не желают отказываться от более привычных терминов, таких как "специалист по статистике" или "аналитик данных"... Мне думается, что термин "наука о данных" лучше описывает то, чем мы фактически занимаемся: сочетание компьютерного хакерства, анализа данных и решение проблем".

В июне 2011 года Мэттью Дж. Грейм выступает на семинаре по Астростатистике и добыванию данных в больших астрономических базах данных с докладом "Искусство науки о данных", где говорит следующее: "Чтобы процветать в новой информационно ёмкой научной среде 21-го века, нам нужно развивать новые навыки... Нам нужно понять, что правит данными, каким закономерностям они подчиняются, как они символически представляются и передаются, и какова их связь с материальным пространством и временем".

В сентябре 2011 года Харлан Харрис пишет в статье "Наука о данных, Закон Мора и Деньгобол": "Наука о данных - это то, чем занимаются исследователи данных. То, чем занимаются исследователи данных, подробно описано; это широкий спектр работ - от сбора и перебора данных, применения статистического анализа и машинного обучения и родственных методов до интерпретации, передачи и наглядного представления результатов. Наверно, более фундаментальный вопрос в том, что представляют собой исследователи данных... Мне нравится идея о том, что наука о данных определяется её практиками. Это не просто какая-то категория деятельности, а большие карьерные возможности. Из бесед с людьми, называющими себя исследователями данных, я вынес для себя то, что их карьера весьма эклектична, и это в каком-то смысле полный нонсенс".

В сентябре 2011 года Д. Дж. Патил пишет в статье "Создание коллективов исследователей данных": "С 2008 года мы с Джеффом Хаммербахером (@hackingdata) поделились опытом построения и структурирования данных и групп аналитиков в сетях Facebook и Linkdeln. Во многих отношениях эта встреча стала началом науки о данных как отдельной профессии и специализации... мы поняли, что по мере разрастания наших организаций нам придется подумать о том, как лучше называть специалистов, которые вливаются в наши коллективы. Термин "бизнес аналитик" казался слишком узким. "Аналитик данных" был конкурентоспособным вариантом, но нам казалось, что подобное обозначение не дает полного представления обо всем том, чем занимаются эти люди. В конце концов, многие члены наших коллективов были хорошими специалистами в инженерии. "Научный исследователь" - неплохое название новой специальности, которое взяли на вооружение такие компании, как Sun, HP, Xerox, Yahoo и IBM. Однако нам казалось, что большинство научных исследователей работают над футуристическими и абстрактными проектами, по большей части в лабораториях и в отрыве от групп, разрабатывающих актуальные продукты. Чтобы лабораторные исследования оказали влияние на ключевые продукты, могут потребоваться многие годы, и этого может никогда не произойти. Вместо этого, наши коллективы сосредоточились на работе с приложениями данных, которые могли бы оказать моментальное и глубокое воздействие на бизнес. Термин, который лучше всего подходил, как нам казалось, это "исследователь данных". Это люди, использующие одновременно данные и науку, чтобы создавать нечто новое".

В сентябре 2012 года Том Дэвенпорт и Д. Дж. Патил публикуют статью "Исследователь данных: самая привлекательная профессия 21-го века", которая была издана в журнале "Гарвард Бизнес Ревью".

Перевод Игоря Поспехина

источник: http://webscience.ru/details/ochen-korotkaya-istoriya-nauki-o-dannyh
  • 0

Другие новости по теме:

Другие новости по теме:

    Информация

    Комментирование данной новости запрещено.
    Последнии комментарии
    Обновление NetBSD до STABLE
    Автор www3 (14.06.2024)
    Много кто пользуется, но народ не очень словоохотл...
    Обновление NetBSD до STABLE
    Автор www2 (14.06.2024)
    anon, я пользуюсь.
    Как конвертировать LSD в DSL
    Автор testforasong (28.01.2024)
    Здравствуйте, не нахожу байт за номером 5A9DD. Ест...
    Как сменить версию php через .htacces
    Автор anon (19.09.2022)
    Спасибо!
    Хоть у кого-то подробное объяснение!
    Обновление NetBSD до STABLE
    Автор anon (12.09.2022)
    Кто-то еще пользуется этой системой?)
    FreeSWITCH on NetBSD
    Автор admin (27.11.2020)
    2default
    круто! хоть какой-то свежак)
    да, netb...
    FreeSWITCH on NetBSD
    Автор default (24.11.2020)
    admin, Собрал, запустил, таки 1.8.7. С ним вполне ...
    FreeSWITCH on NetBSD
    Автор admin (20.11.2020)
    Пробуем последнюю отсюда: https://files.freeswitch...
    FreeSWITCH on NetBSD
    Автор default (20.11.2020)
    admin, Давай скооперируемся. И мне нужен. На FreeB...
    i3lock
    Автор admin (20.11.2020)
    аха, спасибо. Исправили)
     Популярные
       
    Календарь
    « Апрель »
    Пн Вт Ср Чт Пт Сб Вс
    1 2 3 4 5 6
    7 8 9 10 11 12 13
    14 15 16 17 18 19 20
    21 22 23 24 25 26 27
    28 29 30
    Облако тегов