Логин:
Пароль:
Поиск:

Слушать радио ОБА-НА

Linux vs Windows: влияние OS на uptime и скорость. NetBSD - лучший!


Автор: admin от 22 мая 2014
  • 0

Linux vs Windows: влияние OS на uptime и скорость. NetBSD - лучший!



Перевод (вольный, как смог wink ) http://www.feyrer.de/NetBSD/bx/blosxom.cgi/nb_20070501_0319.html
Кот, в свою очередь является репостом http://blog.monitor.us/2007/04/linux-versus-windows-os-impact-on-uptime-and-speed/

Из статьи "Linux против Windows: влияние ОС на uptime и скорость":"Есть много факторов, которые влияют на доступность веб-сайта и производительность для конечного пользователя, а именно, провайдер интернета, местонахождение сервера, параметры сервера, язык программирования, архитектура и реализация приложения. Один из критических параметров - выбор Операционной Системы ( ОС ).
Многие пользователи вынуждены выбирать между Linux и Windows, двумя популярными вариантами для web-серверов. Предоставляя сервис свободного мониторинга, мы в mon.itor.us собрали большой объем данных, чтобы выполнить уникальное аналитическое исследование, исследующее корреляцию ОС с uptime и производительностью.

Выполняя эвристические процедуры определения ОС, мы придумали статистики, которые могут быть интересны для нашего сообщества.
Мы могли бы обнаружить ОС для приблизительно 13 000 сайтов (в то время как база мониторинга гораздо больше, мы либо не смогли обнаружить операционную систему или вероятность обнаружения была ниже разумного порога). После удаления редко используемых ОС мы получили 12 089 сайтов на 16 неделе.

Здесь представлены три интересных результата:

1. Состав проверенных вебсайтов по обнаруженным ОС:



amount_of_monitored_websites_by_detected_os.png (12.76 Kb)



Итак, около 13 000 вебсайтов, и только 238 ( 2% ) работают под NetBSD. Не очень много, особенно когда 774 управляются MINIX (какого хуя ?! tongue ), ну ладно - наверху одиноко 8-)

Данные иллюстрирует очевидное лидерство Linux (60%), следующая Windows (17%).
Почти 2/3 нашего сообщества используют Linux в качестве ОС.

Затем мы проанализировали uptime и скорость отклика для каждый операционной системы. Мы следим каждые 30 минут одновременно с 3 мест в США, Германии и Австрии, поэтому мы выполняем 1008 проверок в неделю для каждого сайта.
Это означает, что, например, что мы сделали для обнаруженных серверов Linux 7295 * 1008 = 7353360 проверок за 16 недель. Аналогично мы сделали 2052 * 1008 = 2068416 провекрок для серверов Windows, на той же неделе. Это дает нам прочную основу для сравнения ОС, предполагая, что можно пренебречь другими различими (например, в каждой группе будет одинаковые проценты хороших провайдеров, хороший дизайн приложений и т.д.).

Когда мы вычислили средние данные и отсортировали по uptime работы мы получили следующие картины (в неделю):

2. Анализ статистики ОС веб-сайтов, отсортированные по uptime:



sorted_os_by_uptime.png (40.64 Kb)



Таким образом, в течение по крайней мере трех недель, NetBSD показал лучшие результаты продолжительности работы ( uptime ). Yai!

Это показывает, NetBSD, как явного лидера в безотказной работе.
BSD серверы и так же Solaris демонстрируют высокий уровень надежности.
Linux опередил Windows, каждую неделю более чем на 0,5%.

Для вашего понимания 0,5% простоя означает 50 минут в неделю, или 216 минут или 3 часа 36 минут в месяц. Стоимость 1 минуты простоя зависит от вашего бизнеса, но, как правило, если вы работаете в бизнес-приложении это может быть довольно высоким (например, см. http://blog.mon.itor.us/?page_id=10) - до нескольких тысяч и даже десятки тысяч.

Одной из причин низкой работоспособности Windows, является необходимость перезагрузки, после патчей, обновлений и установок.
Другим важным параметром является время отклика - сколько времени это займет для пользователя, чтобы получить веб-страницу после подачи запроса HTTP.

Мы отсортировали результаты по среднему времени отклика для ОС и картина - то же самое в неделю к недельному сравнению (We sorted by average response time per OS platform and the picture is the same on week to week comparison:):

3. Анализ статистики ОС веб-сайтов, отсортированные по времени отклика:



sorted_os_by_responce.png (40.46 Kb)



Снова NetBSD занимает первое место в течение трех недель, если взглянуть на время отклика.
NetBSD является лидером по производительности, а затем Solaris и OpenBSD.
Linux опередил Windows, реагируя на около 50 миллисекунд быстрее.

Цитируя снова статью:" Подводя итог, статистически, серверы на основе Linux обеспечивают лучшую доступность и скорость отклика, чем серверы на базе Windows. Абсолютным лидером является NetBSD в обеих категориях; OpenBSD и Solaris также демонстрируют хорошие результаты.  

Мы надеемся, эти данные будут иметь большое значение для нашего сообщества в процессе выбора хостинга."

Обновлено: 9.10.2014 - 05:06

Очень короткая история науки о данных


Автор: admin от 22 мая 2014
  • 0

Очень короткая история науки о данных



Автор: Джил Пресс, колумнист Forbes.

История о том, как ученые, занимающиеся исследованием данных, стали сексуально привлекательными - это преимущественно история слияния зрелой дисциплины статистического анализа с молодой наукой информатикой. Термин "наука о данных" появился сравнительно недавно, конкретно для обозначения новой профессии, которая, как ожидается, будет извлекать какой-то смысл из хранения огромным массивов данных. Но извлекание смысла из данных началось отнюдь не вчера и давно уже обсуждается учеными, статистами, библиотекарями, специалистами в области информатики и другими.

Мы проследим эволюцию термина "наука о данных" и его использование, а также попытаемся дать определение ему и родственным терминам. В 1962 году Джон У. Тьюки писал в книге "Будущее анализа данных" следующее:"Долгое время мне казалось, что я специалист в области статистики, заинтересованный в умозаключениях, идущих от частного к общему. Но наблюдая за эволюцией математического статистического анализа, я всерьез задумался и начал сомневаться в своем предназначении и призвании... До меня дошло, что в первую очередь мне интересен анализ данных... Анализ данных и те части статистического анализа, которые поддерживают его, должны приобретать черты научного знания, а не математики... анализ данных, по своей внутренней сути - эмпирическая наука.... Насколько важно для жизни и эволюции... появление электронного компьютера с хранящимися в нем программами? Многие удивятся, если на этот вопрос будет дан такой ответ: "важно, но не жизненно важно", поскольку у некоторых нет ни капли сомнений в том, что компьютер стал "жизненно важным и незаменимым средством".

В 1947 году Тьюки придумал термин "бит", который Клод Шэннон использовал в своей статье "Математическая теория коммуникационных связей", опубликованной в 1948 году. В 1977 году Тьюки опубликовал "Разведочный анализ данных", доказывая, что нужно больше внимания уделять использованию данных для выдвижения гипотез, и что Разведочный анализ данных и Подтверждающий анализ данных "могут и должны происходить бок о бок".

В 1974 году Питер Наур публикует "Краткое исследование компьютерных методов в Швеции и США". В книге анализируются современные методы обработки данных, используемые в широком спектре приложений, вокруг теории данных, как они определяются в Руководстве Международной федерации по обработке информации (МФОИ): "Данные - это формальное представление фактов или идей, которые могут передаваться, и которыми можно манипулировать посредством какого-то процесса". В Предисловии к книге читателю сообщается, что на Конгрессе МФОИ в 1968 году был представлен план на будущее под названием "Даталогия, наука о данных и их обработке и её место в образовании", и что в тексте книги "термин 'наука о данных' используется в широком смысле". Наур предлагает следующее определение науки о данных: "Наука обработки и анализа данных после их формирования, тогда как исследование внутреннего содержания данных перепоручается другим наукам и областям знания".

В 1977 году создается Международная ассоциация статистических вычислений (МАСВ) как Секция Института информатики (ИСИ). "Задача МАСВ - связать воедино статистическую методологию, современную компьтютерную технологию и знания предметных (узких) специалистов для преобразования данных в информацию и знание". В 1995 году она была преобразована в ежегодную конференцию Ассоциации по обработке данных и специальной группы по выявлению знаний и добыванию данных (ACM SIGKDD).

В 1989 году Грегори Пятецки-Шапиро организует первый семинар по выявлению знания в базах данных и становится его председателем.

В сентябре 1994 года журнал BusinessWeek публикует тему номера под названием "Маркетинг баз данных": "Компании собирают о вас горы информации, силясь предсказать вероятность того, что вы купите их продукцию, и, используя это знание, составить специальное маркетинговое сообщение лично для вас, чтобы побудить вас принять решение по приобретению их продукции... Всеобщее воодушевление, вызванное распространением кассовых сканеров самообслуживания (checkout scanners) в 1980-х годах, закончилось всеобщим разочарованием: многие компании были слишком озадачены самими объёмами данных, чтобы извлекать какую-то пользу из этой информации... И всё же многие компании полагают, что у них нет другого выбора, как только храбро идти навстречу новому рубежу в виде маркетинга баз данных".

В 1996 году члены Международной федерации обществ классификации (МФОК) съехались в Кобе, Япония, на очередную конференцию. Впервые в название конференции был включен термин "наука о данных" ("Наука о данных, классификация и родственные методы"). МФОК был основан в 1985 году шестью обществами классификации, связанными с конкретными странами и языками, одно из которых - "Общество классификации" - было создано в 1964 году. Общества классификации по разному используют в своих публикациях такие термины и фразы как "анализ данных", "добывание данных" и "наука о данных".

В 1996 году Усама Файяд, Грегори Пятецки-Шапиро и Падхрек Смит издают книгу "От добвания данных к обнаружению знаний в базах данных". Вот что они, в частности, писали: "Исторически идея обнаружения полезных закономерностей в данных обозначалась разными терминами, включая "добывание данных", "извлечение знаний", обнаружение информации", "сбор информации", "археология данных" и "обработка шаблона данных"... С нашей точки зрения ОЗБД (обнаружение знаний в базах данных) - это общий процесс выуживания из данных полезных знаний, а "добывание данных" - конкретный шаг в этом направлении. Добывание данных - это применение конкретных алгоритмов для извлечения из данных шаблонов или комбинаций... дополнительные шаги в процессе ОЗБД, такие как подготовка данных, отбор данных, очистка данных, включение или встраивание актуальных прежних знаний и надлежащее объединение результатов добычи данных - необходимы для извлечения полезных знаний из данных. Слепое применение методов добычи данных (справедливо раскритикованное в трудах по статистическому анализу как "слепое прочесывание данных") может быть опасным занятием, ведущим к выявлению бессмысленных и неактуальных шаблонов".

В 1997 году начал издаваться журнал "Добывание данных и обнаружение знаний". Тот факт, что две основные терминологические фразы поменялись местами, показывает выход на первый план термина "добывание данных" как более популярного способа обозначать "извлечение информации из больших массивов данных".

В декабре 1999 года в статье "Добывание слитков знания из данных", опубликованной в журнале Knowledge@Wharton, была приведена следующая цитата Джейкоба Захави: "Традиционные статистические методы хорошо справляются с небольшими массивами данных. Однако современные базы данных - это миллионы рядов и десятки столбцов... Масштабируемость - это большая проблема в добывании данных. Другим техническим вызовом оказывается разработка моделей, с помощью которых можно лучше анализировать данные, выявляя нелинейные связи и взаимодействие между элементами... Возможно, придется разработать специальные инструменты добывания данных для анализа решений, принимаемых на сайтах".

В 2001 году Уильям С. Кливленд опубликовал статью "Наука о данных: план действий для расширения технических областей статистического анализа". Это план "расширения важных областей технической работы в статистическом анализе. Поскольку план амбициозный и подразумевает существенные перемены, видоизмененная область знаний будет называться 'наукой о данных'". Кливленд рассматривает предлагаемую новую дисциплину в контексте информатики и современной работы по добыванию данных: "... выгода для аналитика данных ограниченна, потому что среди экспертов информатики знание о том, как подходить к анализу данных, ограниченно, как ограниченно и знание экспертов в области статистики об условиях обработки данных. Слияние баз данных было бы мощной силой и стимулом для инноваций. Это означает, что специалистам по статистике сегодня следует стремиться к обработке данных для получения знаний - ведь и наука о данных обращалась в прошлом к математике... на факультетах науки о данных сегодня должны быть люди, посвящающие свою карьеру развитию обработки данных и налаживающих партнерские отношения с экспертами в области информатики".

В 2001 году Лео Брейман публикует "Статистическое моделирование: две культуры", где пишет следующее: "Существуют две культуры использования статистического моделирования, позволяющие делать какие-то выводы из исследования данных. Одна исходит из того, что данные генерируются посредством определенной стохастической модели. Другая использует алгоритмические модели и исходит из того, что алгоритм образования данных неизвестен. Статистическое сообщество привержено почти исключительному использованию моделей данных. Эта приверженность привела к появлению неуместной теории, спорным выводам, и помешала специалистам по статистике работать над широким спектром интересных текущих проблем. Алгоритмическое моделирование и в теории, и на практике быстро развилось в других областях знания, помимо статистического анализа. Его можно использовать как в больших и сложных массивах данных, так и в качестве более точной альтернативы моделированию данных на меньших массивах. Если наша цель как отрасли - использовать данные для решения проблем - то нам следует уходить от исключительной зависимости от моделей данных и брать на вооружение более разнообразный набор инструментов".

В апреле 2002 года начал издаваться "Журнал науки о данных", и начали публиковаться статьи по "управлению данными и базами данных в науке и технологии. В журнале описываются системы данных, их публикация в Интернете, приложения и юридические вопросы". Журнал издается Комитетом по данным для науки и технологии (CODATA) Международного Совета по науке (МСН). Вот что там, в частности, объяснялось: "Под "наукой о данных мы подразумеваем почти все, что имеет отношение к данным: сбор, анализ, моделирование... тем не менее, важнейшая часть заключается в применении данных во всевозможных приложениях. Журнал посвящен применению статистических методов в целом... Он создаст платформу, где все работники отрасли смогут излагать свою точку зрения и обмениваться идеями".

В мае 2005 года Томас Х. Дэвенпорт, Дон Коэн и Эл Джейкобсон публикуют "Конкуренция в аналитике" - доклад Центра информационных исследований при Колледже Бэбсона, в котором описывается появление "новой разновидности конкуренции на базе расширенного применения аналитики, данных и принятия решений на основе выявленных фактов... Вместо конкуренции в традиционных областях, компании начинают использовать статистический и количественный анализ, а также прогностическое моделирование в качестве главных элементов конкуренции". Это исследование затем публикуется Дэвенпортом в "Гарвард Бизнес Ревью" (январь 2006 г.) и расширяется до размеров книги (в соавторстве с Джин Г. Харрис) - "Конкуренция в аналитике: новая наука побеждать" (март 2007 г.).

В сентябре 2005 года "Национальный научный совет" публикует "Долгоживущие собрания цифровых данных: подспорье для науки и образования в 21-м веке". Вот одна из рекомендаций этого доклада: "Государственный научный фонд (ГНФ), совместно с менеджерами по сбору данных и всем сообществом, должен разработать и доработать карьерные перспективы для исследователей данных и позаботиться о том, чтобы в научных исследованиях принимало участие достаточное число выскоклассных учёных". В докладе исследователи данных определяются как "специалисты в области информатики, баз данных, программирования, инжиниринга ПО, отраслевые эксперты, кураторы и составители экспертных аннотаций, библиотекари, архивоведы и другие, которые критически важны для успешного управления цифровым сбором данных".

В 2007 году при Фуданском университете в Шанхае (Китай) создается Научно-исследовательский центр по даталогии и науке о данных. В 2009 году двое ученых, работающих в этом центре, Янг Йонг Жу [Yangyong Zhu] и Юн Цонг [Yun Xiong] издают труд под названием "Введение в даталогию и науку о данных", в котором заявляют: "В отличие от естественных и общественных наук, даталогия и наука о данных считает своим объектом исследования данные в киберпространстве. Это новая наука". Центр проводит ежегодные симпозиумы по даталогии и науке о данных.

В июле 2008 года Комитет объединенных информационных систем (КОИС) публикует заключительный доклад по заказанному им исследованию "Для изучения роли исследователей данных и их карьерных перспективах, а также обеспечения научно-исследовательского сообщества специализированными навыками кураторства данных и выработки соответствующих рекомендаций". В заключительном докладе под названием "Профессиональные навыки, роль и карьера исследователей данных и кураторов: оценка текущей практики и будущих потребностей" исследователи данных определяются как "работники исследовательских центров или, в случае с персоналом центров обработки данных, специалисты, тесно сотрудничающие с создателями данных, которые могут участвовать в творческом анализе, позволяя другим работать с цифровыми данными и разработками в области технологии баз данных".

В январе 2009 года издаётся "Использование силы цифровых данных для науки и общества". Это доклад, подготовленный Межведомственной рабочей группой по цифровым данным для Научного комитета по науке при Национальном совете по науке и технологии. В нём говорится, что "стране нужно выявлять и содействовать появлению новых дисциплин и специалистов для решения сложных и динамичных задач цифрового сохранения, повторного использования и изменения назначения данных, а также устойчивого доступа к данным. Многие дисциплины сталкиваются с появлением нового типа экспертов в области управления и исследования данных - в частности, в области обработки и исследования компьютерной информации и данных, а также в других сегментах научного знания. Эти люди являются ключом к нынешним и будущим успехам научных предприятий. Однако они получают недостаточно признания и имеют ограниченные карьерные перспективы".

В январе 2009 года Хэл Вариан, главный экономист Google, сообщает следующее журналу McKinsey Quarterly: "Я не устаю говорить о том, что специалисты по статистике будут привлекательной профессией в следующем десятилетии. Люди думают, что я шучу, но кто мог бы подумать, что инженеры по вычислительной техники станут очень привлекательной профессией в 1990-х годах? Способность работать с данными - понимать их, обрабатывать их, извлекать из них какую-то ценность, наглядно представлять их, передавать их - все это станет чрезвычайно важным навыком в следующие десятилетия... Потому что сегодня мы имеем дело, по сути дела, с неограниченным, беспрепятственным и повсеместным потоком данных. Похвальный и редкий навык - это способность понимать эти данные и извлекать из них нечто ценное... Я действительно думаю, что очень высоко будут цениться такие навыки как получение доступа к данным, понимание этих данных и передача ценных идей, которые можно почерпнуть из анализа данных. Менеджерам нужно иметь возможность доступа к данным и их понимания".

В марте 2009 года Кирк Д. Борн и другие астрофизики передают для "Обзора развития астрофизики за прошедшее десятилетие 2010 [Astro2010 Decadal Survey]" свою статью под названием "Революция в обучении астрономии: наука о данных для масс", где пишут: "Обучение следующего поколения изящному искусству извлечения разумных объяснений и логичных знаний из данных необходимо для успешного развития наук, сообществ, проектов, агентств, предприятий и экономик. Это справедливо как в отношении специалистов, так и всех остальных (широкой общественности, педагогов, студентов, рабочих). Специалисты должны научиться применять новые методы исследования науки о данных, чтобы совершенствовать понимание Вселенной. Неспециалистам нужны навыки информационной грамотности, если они хотят быть продуктивной частью рабочей силы 21-го века, объединяя их с фундаментальными навыками пожизненного обучения в мире, в котором данные играют все более важную роль".

В мае 2009 года Майк Дрисколл пишет в книге "Три привлекательных навыка энтузиастов в области данных ": "...Поскольку мы вступаем в Век данных, люди, умеющие моделировать, визуально передавать данные, вносить случайные изменения в файлы - называйте нас статистами или фанатами данных - это ценный ресурс" (в августе 2010 года Дискролл опубликовал "Семь секретов успешных исследователей данных").

В июне 2009 года Натан Яу пишет в книге "Появление исследователя данных": "Как нам всем хорошо известно, главный экономист Google Хэл Вариан заявил в январе, что одной из самых привлекательных профессий в следующем десятилетии будут специалисты по статистике. Я всецело с ним солидарен, но хотел бы пойти ещё на шаг дальше и сказать, что они уже сегодня привлекательны во всех отношениях: и внешне и с интеллектуальной точки зрения. Но если до конца прочитать то памятное интервью Вариана, то будет понятно, что под специалистами по статистике он фактически имел в виду любого специалиста, умеющего извлекать информацию из больших массивов данных, а затем передавать нечто ценное для использования специалистам из других областей, не связанных с обработкой данных... Бен Фрай... доказывает появление целой новой отрасли, объединяющей навыки, умения и таланты из других, подчас не связанных друг с другом отраслей знания... [информатика, математика, статистика и добывание данных, графический дизайн и проектирование, взаимодействие между человеком и компьютером]. После двух лет наглядного представления информации на сайте FlowingData складывается впечатление, что взаимодействие разных отраслей становится все более обыденным делом, но, что ещё важнее, конструирование информации для обработки все больше приближается к реальности. Мы видим, что исследователи данных - люди, которые умеют все это делать, - это выходцы из смежных областей".

В июне 2009 года Трой Садковски создает группу исследователей данных в сети Linkdeln в качестве спутника для своего сайта datascientists.com (который впоследствии был переименован в datascientists.net).

В феврале 2010 года Кеннет Кукиер пишет в Специальном докладе для журнала The Economist "Всюду данные": "... появился новый тип профессионала - исследователь данных, совмещающий навыки программиста, специалиста по статистике и рассказчика (артиста), чтобы извлекать слитки золота из-под гор данных".

В июне 2010 года Майк Лукидес пишет в статье "Что такое наука о данных?": "Исследователи данных сочетают предприимчивость с терпением, готовностью поэтапно создавать продукты в сфере обработки данных, а также способностью исследователя и способностью перебирать варианты решений. Они занимаются междисциплинарными исследованиями, могут исследовать все аспекты проблемы - от начального сбора данных и приведения данных к требуемым условиям до выводов и заключений. Они могут мыслить нестандартно, предлагать новые способы рассмотрения проблемы или работать с широко определяемыми проблемами: "У нас тут куча данных, что вы могли бы с ними сделать?""

В сентябре 2010 года Хиллари Мейсон и Крис Уиггинс пишут в статье "Классификация науки о данных": "... мы думали, что было бы полезно предложить одну возможную классификацию... того, что делает исследователь данных, в условно хронологической последовательности: получить, очистить, исследовать, смоделировать и интерпретировать... Наука о данных - это смесь искусства хакеров... статистического анализа и машинного обучения..., а также упражнение в математике и в области данных, с целью объяснить аналитическую информацию... Она требует творческих решений и открытости ума в научном контексте".

В сентябре 2010 года Дрю Конвей пишет в статье "Диаграмма Венна в науке о данных": "... чтобы стать грамотным исследователем данных, нужно многому научиться. К сожалению, простое перечисление текстов, учебных курсов и семинаров не поможет разгадывать загадки. Поэтому, с целью упрощения дискуссии и добавления собственных мыслей к уже переполненному рынку идей, я представляю Диаграмму Венна в науке о данных... хакерские навыки, знание математики и статистического анализа и значительный опыт и знания".

В мае 2011 года Пит Уорден пишет в статье "Почему термин 'наука о данных' ущербен, но полезен": "Нет общепринятых границ того, что входит, и что не входит в науку о данных. Может быть, это просто модный ребрендинг статистического анализа? Я так не думаю, но у меня нет полноценного определения этой отрасли знания. Я полагаю, что изобилие данных, которое обрушилось на нас в последнее время, пробудило нечто новое в мире, и когда я осматриваюсь, то вижу людей, имеющих между собой много общего, которых никак нельзя вписать в привычные рамки той или иной профессии. Эти люди склонны работать за рамками узких специальностей, преобладающих в корпоративном и институциональном мире, обрабатывая все, что можно - от нахождения данных, масштабной их обработки, наглядного представления и описания в виде какой-то истории или связного рассказа. Похоже, что для начала они смотрят, что данные им говорят, а затем выбирают интересные нити для их разматывания и изучения вместо того, чтобы использовать традиционный для ученых подход: сначала определить проблему, а затем разыскать данные, которые проливают на нее свет".

В мае 2011 года Дэвид Смит пишет в статье "Наука о данных: что в имени твоем?": "Термины "наука о данных" и "исследователь данных" вошли в обиход чуть больше года назад, но с тех пор уже успели пустить глубокие корни: многие компании сегодня нанимают "исследователей данных", и целые конференции проводятся под вывеской "наука о данных". Но, несмотря на повсеместное принятие новой терминологии, некоторые сопротивляются переменам и не желают отказываться от более привычных терминов, таких как "специалист по статистике" или "аналитик данных"... Мне думается, что термин "наука о данных" лучше описывает то, чем мы фактически занимаемся: сочетание компьютерного хакерства, анализа данных и решение проблем".

В июне 2011 года Мэттью Дж. Грейм выступает на семинаре по Астростатистике и добыванию данных в больших астрономических базах данных с докладом "Искусство науки о данных", где говорит следующее: "Чтобы процветать в новой информационно ёмкой научной среде 21-го века, нам нужно развивать новые навыки... Нам нужно понять, что правит данными, каким закономерностям они подчиняются, как они символически представляются и передаются, и какова их связь с материальным пространством и временем".

В сентябре 2011 года Харлан Харрис пишет в статье "Наука о данных, Закон Мора и Деньгобол": "Наука о данных - это то, чем занимаются исследователи данных. То, чем занимаются исследователи данных, подробно описано; это широкий спектр работ - от сбора и перебора данных, применения статистического анализа и машинного обучения и родственных методов до интерпретации, передачи и наглядного представления результатов. Наверно, более фундаментальный вопрос в том, что представляют собой исследователи данных... Мне нравится идея о том, что наука о данных определяется её практиками. Это не просто какая-то категория деятельности, а большие карьерные возможности. Из бесед с людьми, называющими себя исследователями данных, я вынес для себя то, что их карьера весьма эклектична, и это в каком-то смысле полный нонсенс".

В сентябре 2011 года Д. Дж. Патил пишет в статье "Создание коллективов исследователей данных": "С 2008 года мы с Джеффом Хаммербахером (@hackingdata) поделились опытом построения и структурирования данных и групп аналитиков в сетях Facebook и Linkdeln. Во многих отношениях эта встреча стала началом науки о данных как отдельной профессии и специализации... мы поняли, что по мере разрастания наших организаций нам придется подумать о том, как лучше называть специалистов, которые вливаются в наши коллективы. Термин "бизнес аналитик" казался слишком узким. "Аналитик данных" был конкурентоспособным вариантом, но нам казалось, что подобное обозначение не дает полного представления обо всем том, чем занимаются эти люди. В конце концов, многие члены наших коллективов были хорошими специалистами в инженерии. "Научный исследователь" - неплохое название новой специальности, которое взяли на вооружение такие компании, как Sun, HP, Xerox, Yahoo и IBM. Однако нам казалось, что большинство научных исследователей работают над футуристическими и абстрактными проектами, по большей части в лабораториях и в отрыве от групп, разрабатывающих актуальные продукты. Чтобы лабораторные исследования оказали влияние на ключевые продукты, могут потребоваться многие годы, и этого может никогда не произойти. Вместо этого, наши коллективы сосредоточились на работе с приложениями данных, которые могли бы оказать моментальное и глубокое воздействие на бизнес. Термин, который лучше всего подходил, как нам казалось, это "исследователь данных". Это люди, использующие одновременно данные и науку, чтобы создавать нечто новое".

В сентябре 2012 года Том Дэвенпорт и Д. Дж. Патил публикуют статью "Исследователь данных: самая привлекательная профессия 21-го века", которая была издана в журнале "Гарвард Бизнес Ревью".

Перевод Игоря Поспехина

источник: http://webscience.ru/details/ochen-korotkaya-istoriya-nauki-o-dannyh

Эксперт по данным


Автор: admin от 22 мая 2014
  • 0

Эксперт по данным



Понравилась одна статейка. Почемубы не скопипастить ;)
их потом так долго найти в сети..

Ученый по данным Томас Терстон (Thomas Thurston) использует алгоритмы, чтобы понять общие черты успешных и неудачных бизнесов.

Наука данных используется повсеместно, от медицинских исследований до ипотечных заявок, но она не столь широко используется, когда речь идет о прогнозировании результатов для начинающих предприятий. Томас Терстон, основатель компании Growth Science в Портленде (штат Орегон), провел последние семь лет над созданием баз данных и алгоритмов, направленных на поиск общих черт между успешными и неудачными предприятиями. Идея возникла, когда он работал в Intel и набрала обороты, когда Клейтон Кристенсен (Clayton Christensen) - уважаемый профессор Гарвардской школы бизнеса, предложил Терстону провести год «оттачивая» свое исследование в Гарварде.

Сейчас Терстону 36 лет, он занят развитием нового бизнеса, работает с большими и средними компаниями и применяет свои исследования в инвестиционных решениях для венчурной компании Ironstone Group.

Журналист издания Entrepreneur Сара Макс (Sarah Max) пообщалась с Терстоном о том, почему предприниматели и инвесторы должны уделять столько же внимания числам как и своей интуиции.

Entrepreneur: Когда вы встречаете кого-то на вечеринке, как вы описываете, что вы делаете?

Терстон: Обычно я говорю, что могу предсказать выживет бизнес или нет. Это хороший ярлык, но, как правило, приводит к большему количеству вопросов. Ученый данных, на мой взгляд, это тот, кто смотрит на данные чтобы попытаться найти закономерности. Вы смотрели фильм Moneyball? Мы — это тот парень из Йельского университета.

Entrepreneur: Что вдохновило вас изучать шансы в бизнесе?

Терстон: Около семи лет назад я работал в Intel в новом бизнес-подразделении, которое Intel закрыл без всякой видимой причины. Я помню, как был разочарован и подумал, что мы определенно могли бы посмотреть на все инвестиции Intel и найти определенный шаблон. Когда мы посмотрели на данные компаний за пределами Intel, то обнаружили, что шаблоны сохраняются. Это было после того, как я провел год в Гарварде с Клейтоном Кристенсеном. Многое из того, что мы обнаружили, согласуется с работой, которой он занимался.

Entrepreneur: Когда вы решили уйти на собственные хлеба?

Терстон: Я вернулся из Гарварда в 2008 году, моя группа в Intel была реорганизована. Я расстался с Intel в хороших отношениях и запустил свой стартап.

Entrepreneur: И вы сделали свой стартап Growth Science по своим собственным алгоритмам?

Терстон: Я так делал в течение первых трех лет и мне не понравилось, то что получилось. Мы были обречены. Так много компаний с которыми мы работаем и я игнорировал их пока бизнес рос и все было хорошо. Примерно через три года появился крупный конкурент и я предупредил сотрудников и возможном крахе. Мы должны были переосмыслить нашу бизнес-модель и теперь (стучу по дереву) она, кажется, работает.

Entrepreneur: Расскажите немного о ключевых факторов, влияющих на ваши модели.

Терстон: Есть несколько инструментов, но все они косвенно выражают ответ, который и так очевиден. Мы склонны смотреть на стратегии бизнеса и там мы находим наиболее подходящие для предсказаний переменные. Что именно в стратегии позволяет делать прогнозы? Если это новый стартап, у которого лучший виджет на рынке, то мы обнаруживаем, что такой бизнес обречен примерно в 90 процентах случаев. Их шансы намного хуже, чем у большинства компаний. В среднем около 70 — 80 процентов предприятий терпят неудачу в течение 10 лет. Тем не менее, стратегия большинства стартапов — делать что-то лучше, чем все остальные.

Entrepreneur: Это кажется довольно нелогичным. Объясните.

Терстон: Если они на самом деле лучшие, они начнут переманивать наиболее выгодных клиентов у своих огромных конкурентов. Пройдет немного времени и их конкуренты поймут в чем дело и раздавят их. Если вы заберете лучших клиентов у крупных компаний, они вам ответят.

Entrepreneur: Какие стратегии дают больше шансов?

Терстон: Есть много, но моя любимая является хорошим контрапунктом. Оказывается, если вы идете на рынок с худшим продуктом, но он самый дешевый, то вероятность выживания повышается в 6 — 8 раз. Подумайте о Walmart, McDonald и, в начале, даже Intel. Как они все начинали? Это хороший вариант чтобы начать, потому что крупные компании не успеют вам ответить, если не потеряют из-за вас своих лучших клиентов.

Entrepreneur: Откуда вы получаете ваши данные?

Терстон: У нас есть инструменты, которые тянут данные для нас из Интернета. Иногда мы покупаем данные, но это крайне редко. Многие мы собрали сами в течение долгого времени с тысячами компаний.

Entrepreneur: Вы объединились с видным инвестиционным банкиром Биллом Хамбречем (Bill Hambrecht) чтобы запустить венчурный фонд на основе ваших выводов. Google Ventures следовала подобной стратегии с 2009 года, но они не считают это основным. Что традиционные венчурные капиталисты обычно говорят о том, что вы делаете?

Терстон: Большинство венчурных капиталистов остались в стороне от этого, потому что больше полагаются на свою интуицию и опыт. Их наборы данных могут охватывать пару сотен предприятий, но они опираясь на собственный опыт могут одновременно заниматься только двумя или тремя. С наукой данных вы можете охватить тысячи. Вопрос — сможете ли вы столько переварить, кто-то может, но большинство — нет.

Вот еще один пример: команда является вещью номер один, как говорят венчурные капиталисты. Да, предприниматели, которые были успешны в своей первой компании, как правило, в следующей еще лучше, но разница между лучшим и худшим составляет только около 12 процентов. Другими словами, у опытных предпринимателей только на 12 процентов больше шансов выжить. Если половина вашего решения основывается на команде вы дико преувеличиваете эту переменную.

Entrepreneur: Какие книги вы рекомендуете читать предпринимателям, чтобы получить лучшее представление о науке данных?

Терстон: Нейт Сильвер (Nate Silver) только, что выпустила книгу «Сигнал и шум» (The Signal and the Noise). Если бы были бейсбольные карточки с учеными данных на них был бы Бейб Рут (Babe Ruth). Одной из моих любимых книг всех времен является «Мышление, быстрое и медленное» (Thinking, Fast and Slow) Даниэля Канемана (Daniel Kahneman). Он вообще не упоминает науку данных, но эта книга о когнитивной предвзятости.

Человеческий ум очень, очень хорош в некоторых вещах, но он имеет свои ограничения. То, что мы, как правило, делаем плохо, компьютеры, наоборот, делают хорошо. Я не говорю, что для принятия деловых решений используются только алгоритмы. Алгоритм не может сказать вам, что генеральный директор полное ничтожество и вы не должны с ним работать. Но если вы сможете совместить эти две вещи вместе, то получите гораздо более сильные прогнозы.

источник: http://www.siliconpulse.com/data-expert-why-businesses-fail/

Обновлено: 22.05.2014 - 13:32

Список софта для Desktop/Office версии NetBSD.


Автор: admin от 13 мая 2014
  • 0

Список софта для Desktop/Office версии NetBSD.



Давно хотелось составить список софта, который можно было бы использовать для Desktop/Office версии NetBSD.
Сначала, конечно, просто ставились программы, смотрелись, сравнивались.

Сейчас выработалась некоторые систематические тенденции, исходя из которых я уже выбираю софт.

Во-первых, мне кажется надо выбрать библиотеку для интерфейсов. ОДНУ!.
И выбирать софт исходя из поддержки этого самого интерфейса.

Я взял GTK.

Почему ?
- Потому что она нативна для *nix-систем.
- Кросплатформенна. Если кому-то это понадобится.
- Достаточно развита.
- Под него УЖЕ написано куча хорошего софта.
- ...А почему бы и нет ?))

Единственный, наверное, объективный минус - возможно не так красиво.
Но пардонте, всё-таки unix не совсем предназначен для десктопа ))
И желание использовать unix на десктопе - это некоторый энтузиазм, и, даже, преданность.
//на этом холиварно-опасную тему закрываем. выбрали и всё. колхоз - дело добровольное.

Во-вторых, раз у нас настояшая unix-like система, будем придерживаться идеологии unix: одна задача - одна программа. И программы будут меньше -> значит и быстрее, и система будет стабильнее.

В-третьих, выбирать из соотношения производительность/функциональность.
Всё-таки, машины сейчас быстрые. Если какая-то программа слишком уж минималистична - выберем другую.

На этом вводная закончена.
Итак.

Операционная система - NetBSD.
Графический сервер - X.org.
Оконный менеджер - IceWM.

Сетевые программы:
- Opera (хоть и линуксовый порт), Firefox. #браузеры
- rdesktop. #RDP-клиент, консольный. GUI к нему тащит кучу софта.
- rtorrent. # торрент-клиент, консольный. аналог - ktorrent. но тоже тащит кучу
- PidGin. # ICQ-клиент. но не только. куча протоколов.
- Claws-Mail, Sylpheed. # почтовые клиенты. я выбрал клауса. но они - родственники))

Multimedia программы:
- GXine. #мощный видео-плеер.
- xmms. #музыкальный плеер.

Просмотровщики:
- GQView. #просмотровщик картинок.
- Xpdf. #читалка для pdf-файлов.

Редакторы текста:
- LebreOffice ( ? )
- Abiword ( ? )
- MEdit ( ? )
- SciTE ( ? )

Системно/периферийные:
- XSane.
- Печать.
- Сеть.
- Носители.
- Форматы.

Продолжение следует..

Обновлено: 13.05.2014 - 07:14

настройка wifi на netbsd


Автор: admin от 12 мая 2014
  • 0

Настройка wi-fi на NetBSD.



upd.

Итак, есть у нас точка доступа - какой-нибудь wi-fi-роутер.
Задача - подключиться к нему из под NetBSD.

Под рукой - NetBSD/i386, ver. 6.1.3.
сетевуха - ath0.
ssid - xnet.
passw - password. Для варианта с шифрованием.

1. Вариант - без шифрования.



Если сеть открытая - то подключиться к wifi из netbsd очень легко.
Одной командой:


ifconfig ath0 ssid xnet -nwkey -bssid mode 11g -mediaopt adhoc up


всё. wi-fi настроен.

Дальше, сетевые настройки можно получить, например, DHCP-клиентом:


dhclient ath0



Можно написать сриптик, напр., wifi-share.sh, такого содержания:


ifconfig ath0 ssid mx-net -nwkey -bssid mode 11g -mediaopt adhoc up &
dhclient ath0 &



и запускать по необходимости.

2. Вариант - с шифрованием.



Оговорюсь, что использовать будем WPA2/AES.

С шифрованием стандартными средствами NetBSD подключиться к wi-fi не получится.
Для этого воспользуемся wpa_supplicant.

wpa_supplicant - это набор для обеспечения работы беспроводных протоколов IEEE 802.1X, WPA, WPA2 и EAP, состоящего из приложения wpa_supplicant для подключения к беспроводной сети в роли клиента и фонового процесса hostapd для обеспечения работы точки доступа и сервера аутентификации, включающего такие компоненты как WPA Authenticator, клиент/сервер аутентификации RADIUS, сервер EAP. Исходные тексты проекта распространяются под лицензией BSD.

Установим:


pkg_add http://ftp.netbsd.org/pub/pkgsrc/packages/NetBSD/i386/6.1.3/All/wpa_supplicant-2.0nb1.tgz



Далее, надо настроить wpa_supplicant.conf
Который должен находиться по /etc
Но его там не будет ))) По крайней мере в NetBSD.
Создаем ручками.

Вот содержимое (рабочий мой конфиг, изменены только ssid сети и пароль):



ctrl_interface=/var/run/wpa_supplicant
ctrl_interface_group=wheel

network={
# nazvanie seti
ssid="xnet"
# protokol WPA2
proto=RSN WPA
#ispolzuem preshared keys
key_mgmt=WPA-PSK
#algoritm - AES
pairwise=CCMP TKIP
group=CCMP TKIP
psk="password"
}



В этом примере используется протокол WPA2 и алгоритм AES.
По каждому параметру есть описание, разобраться не сложно.

Теперь, как подключиться?
Например, такой командой:



wpa_supplicant -c /etc/wpa_supplicant.conf -i ath0 &



Символ амперсанда & - чтобы запускать в фоне. Иначе терминал будет ждать завершения команды.
И будет недоступна.

Ну и сетевые настройки получить DHCP-клиентом:


dhclient ath0



Я у себя написал скриптик ab.sh (AutoBoot.sh) и запускаю после загрузки системы:



# RU locale
setxkbmap -model pc105 -layout us,ru -variant ,winkeys -option grp:ctrl_shift_toggle -option grp_led:scroll &
xxkb &
# connection ti wi-fi
rm -r /var/run/wpa_supplicant
wpa_supplicant -c /etc/wpa_supplicant.conf -i ath0 &
dhclient ath0



setxbmap - настраивает раскладку и ввод.
xxkb - индикатор раскладки.
rm -r - при неправильном завершении, иногда, приходится удалять хвосты от wi-fi.
wpa-supplicant - создает подключение к wi-fi.
dhclient - получает сетевые настройки.

Последний штрих - в /etc/rc.conf добавляем:
wpa_supplicant=YES

Всё. И никаких изменений самой системы.
Красота!

Более подробно (с примерами) можно почитать, например, здесь:

Обновлено: 25.02.2016 - 07:07

 Последние новости
   
Последнии комментарии
установка Anti Bot Question mod на phpbb 2.0.x
Автор admin (18.08.2014)
Johnd819,
glad if the information has helped you. ...
установка Anti Bot Question mod на phpbb 2.0.x
Автор Johnd819 (14.08.2014)
I went over this site and I conceive you have a lo...
установка Anti Bot Question mod на phpbb 2.0.x
Автор admin (07.08.2014)
Johnc738,

always welcome)
установка Anti Bot Question mod на phpbb 2.0.x
Автор Pharmk386 (02.08.2014)
Very nice site!
установка Anti Bot Question mod на phpbb 2.0.x
Автор Johnc738 (01.08.2014)
I am truly thankful to the holder of this website ...
установка Anti Bot Question mod на phpbb 2.0.x
Автор ThomasGlix (23.03.2014)
Привет, как дела?
flash player certificate authentication failed
Автор BB (14.02.2014)
Спасибо
Календарь
« Июль 2017 »
Пн Вт Ср Чт Пт Сб Вс
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
FreeServer.su foottop