11.2 Описательная статистика и визуализация данных
Вкладка Explore
с опцией Summary
обеспечивает различные варианты вывода выборочных описательных статистик:
Опция Distribution
управляет выводом различных комбинаций стандартных графиков R: диаграмм размахов, ядерных и кумулятивных функций распределения, мозаичных диаграмм и проч. Отображаемые переменные и их пары можно легко выбрать из списка:
Поскольку ранее показатель “Завтра дождь” (RainTomorrow
) был установлен как отклик, данные на диаграммах разбиваются по его категориям. В частности, из диаграммы слева видно, что вероятность выпадения дождя на следующий день сопряжена с повышенной минимальной дневной температурой (MinTemp
). Также вполне понятно, что перед дождем наблюдается пониженная солнечная активность (Sunshine
):
Вероятно, специалистам будут полезны кумулятивная функция распределения “Скорости порывов ветра” (WindGustSpeed
) и мозаичная диаграмма “Изменения направления ветра” (WindGustDir
) в зависимости от вероятности предстоящего дождя RainTomorrow
:
Аналогично можно выполнить анализ главных компонент (Principial Component
) или оценить тесноту корреляционных связей по Пирсону, Кендаллу или Спирмену (Correlation
), представив их в виде матрицы коэффициентов или корреляционной дендрограммы:
Применить прекрасный графический пакет GGobi
для построения графиков взаимодействия переменных (Interactive
) нам не удалось, т.к. в ходе инсталляции куда-то запропастился модуль rggobi.dll
.
Вкладка Test
позволяет выполнить разнообразные тесты для проверки статистических гипотез относительно двух выборок (или двух переменных из таблицы данных):
- отличаются ли выборочные распределения по критерию Колмогорова-Смирнова или критерию знаковых рангов Уилкоксона?;
- различаются ли положения средних занчений по \(t\)-критерию или сумме рангов Уилкоксона-Манна-Уитни?;
- различны ли их дисперсии по \(F\)-критерию?
- коррелируют ли две выборки по значению коэффициента Пирсона.
Вкладка Transform
включает вполне полный джентльменский набор функций обслуживания и преобразования данных: нормализации, шкалирования, логарифмирования, деления на интервалы (binning
), модификации категорий факторов, заполнения пропущенных значений, удаления лишних переменных и др.
Наконец, вкладка Log
содержит полный перечень команд R, выполненных на интерактивном уровне, что позволяет скопировать фрагмент скрипта в командную консоль R, внести, например, исправления в детали графика и повторить его вывод в измененном формате.