- Omnibus rebus | Борис Бикбов - https://boris.bikbov.ru -

Бесплатные программы для статистического анализа данных

Наряду с коммерческими статистическими пакетами существует довольно большое число полностью бесплатных статистических программ и приложений. При этом ряд бесплатных программ не только не уступает, но и превосходит по функциональности коммерческие приложения. Приведу перечень основных бесплатных программ для статистической обработки данных.

ξ R [1] – безусловно, наиболее мощный бесплатный программный инструмент с невероятно широким набором библиотек. R 2013 году R стал самым широко используемым в научной литературе пакетом для статистического анализа. С R может быть довольно непривычно работать на начальном этапе, поскольку пользователь должен разобраться в том, как подключать библиотеки, как выполнять и сохранять процедуры, а также из-за отсутствия привычного графического интерфейса. Но эти трудности с лихвой компенсируются многочисленными руководствами по работе с R, а графический интерфейс может быть установлен при помощи пакета Rcmdr [2] или коммерческих расширений R. Существует большое число сайтов с примерами на R, одним из наиболее известных англоязычных является R-bloggers [3], а ссылки на русскоязычные ресурсы по R собраны в колонке “Полезные ресурсы” блога Сергея Мастицкого [4].

ξ EpiInfo [5]бесплатный статистический пакет, разработка которого поддерживается Центром по контролю за заболеваниями США. Основной особенностью является возможность не только проводить статанализ, но и создавать опросники и формы для ввода данных (включая создание форм для сбора информации в Интернет). Последняя версия также поддерживает интеграцию с ГуглКартами и визуализацию картографической информации. Довольно существенным ограничением для больших массивов данных может быть использование в качестве базы данных формата Microsoft Access.

ξ OpenEpi [6] – набор статистических функций, позволяющий быстро применить относительно простые и часто используемые статистические тесты. OpenEpi можно использовать в он-лайн режиме на сайте разработчика, либо установить себе на компьютер. Плюсом пакета является набор функций для расчета статистической мощности, численности групп, генерации случайных чисел, а также возможность расчета статистической значимости на основании групповых статистик, что бывает полезно при оценке статей.

ξ PSPP [7] – по внешнему виду и функциональности очень напоминает SPSS (собственно, и название пакета является зеркальным отражением), при этом полностью бесплатен.

ξ SOFA [8]позволяет выполнять основные статистические тесты, но не дает возможности проводить регресионный анализ. Одной из отличительных особенностей пакета является быстрое создание различных типовых графиков и не требующих форматирования суммирующих таблиц, а также возможность выполнять пользовательские скрипты на Питоне.

ξ SEER-Stat [9] – ориентированный на применение в онкологии бесплатный статистический пакет, разработка которого поддерживается Институтом Онкологии США. В программном пакете много функций по расчету заболеваемости, выживаемости и летальности (включая стандартизованные по возрасту показатели).

ξ WINPEPI [10] – программа для анализа эпидемиологических данных. Подробное описание функциональности находится здесь [11]. Этот же автор создал еще ряд программ [12] для применения в эпидемиологии.

ξ Statistical Analysis for Genetic Epidemiology [13] – программа для статистического анализа для генетиков и эпидемиологов, которая содержит множество функций для получения описательной статистики, проверки данных, количественной оценки наследственности признака или заболевания, оценки наиболее вероятного возраста начала заболевания, выявления закономерностей встречаемости отдельных аллелей или однонуклеотидных изменений, и другие возможности.

Наряду с этими существует еще около 30 бесплатных программ для статистической обработки данных, которые имеют разную функциональность и “заточены” под разные цели. Их расширенный перечень (правда без подробного описания) можно найти в Википедии [14] и на сайте Andrea Corsini [15]. Там же есть и сравнение реализованных функций в некоторых программных продуктах [16], что может определить выбор программы при необходимости использования “продвинутых” статистических методов.