11.2 Описательная статистика и визуализация данных

Вкладка Explore с опцией Summary обеспечивает различные варианты вывода выборочных описательных статистик:

Опция Distribution управляет выводом различных комбинаций стандартных графиков R: диаграмм размахов, ядерных и кумулятивных функций распределения, мозаичных диаграмм и проч. Отображаемые переменные и их пары можно легко выбрать из списка:

Поскольку ранее показатель “Завтра дождь” (RainTomorrow) был установлен как отклик, данные на диаграммах разбиваются по его категориям. В частности, из диаграммы слева видно, что вероятность выпадения дождя на следующий день сопряжена с повышенной минимальной дневной температурой (MinTemp). Также вполне понятно, что перед дождем наблюдается пониженная солнечная активность (Sunshine):

Вероятно, специалистам будут полезны кумулятивная функция распределения “Скорости порывов ветра” (WindGustSpeed) и мозаичная диаграмма “Изменения направления ветра” (WindGustDir) в зависимости от вероятности предстоящего дождя RainTomorrow:

Аналогично можно выполнить анализ главных компонент (Principial Component) или оценить тесноту корреляционных связей по Пирсону, Кендаллу или Спирмену (Correlation), представив их в виде матрицы коэффициентов или корреляционной дендрограммы:

Применить прекрасный графический пакет GGobi для построения графиков взаимодействия переменных (Interactive) нам не удалось, т.к. в ходе инсталляции куда-то запропастился модуль rggobi.dll.

Вкладка Test позволяет выполнить разнообразные тесты для проверки статистических гипотез относительно двух выборок (или двух переменных из таблицы данных):

  • отличаются ли выборочные распределения по критерию Колмогорова-Смирнова или критерию знаковых рангов Уилкоксона?;
  • различаются ли положения средних занчений по \(t\)-критерию или сумме рангов Уилкоксона-Манна-Уитни?;
  • различны ли их дисперсии по \(F\)-критерию?
  • коррелируют ли две выборки по значению коэффициента Пирсона.

Вкладка Transform включает вполне полный джентльменский набор функций обслуживания и преобразования данных: нормализации, шкалирования, логарифмирования, деления на интервалы (binning), модификации категорий факторов, заполнения пропущенных значений, удаления лишних переменных и др.

Наконец, вкладка Log содержит полный перечень команд R, выполненных на интерактивном уровне, что позволяет скопировать фрагмент скрипта в командную консоль R, внести, например, исправления в детали графика и повторить его вывод в измененном формате.