ГЛАВА 11 rattle
: графический интерфейс R для реализации алгоритмов Data Mining
11.1 Начало работы с пакетом rattle
Читатель, вероятно, помнит, что удобным средством освоения вычислений в R для начинающего пользователя является R Commander
. Аналогичный платформо-независимый графический интерфейс c кнопками и меню, позволяющий выполнять целый набор алгоритмов Data Mining, реализован в пакете rattle
(Williams, 2009, 2011). С помощью этого пакета можно реализовать многие поцедуры обработки данных, не прибегая к предварительному заучиванию функций на командном языке.
Установить пакет rattle
, как и любые другие расширения в R, можно командой
install.packages("rattle")
В процессе инсталляции загружается графическая динамическая библиотека RGtk2.dll
, а также необходимые для работы rattle
пакеты cairoDevice
и XML
.
Интерактивная среда запускается командой rattle()
.
Вы можете приступить к работе, загрузив необходимый набор данных, или продолжить сеанс анализа, открыв файл проекта с сохраненной историей Ваших действий:
На приведенном рисунке загружена таблица weather из пакета rattle
, содержащая данные наблюдений за погодой на метеорологической станции в г. Канберра, Австралия (24 переменных разного типа в 366 строках).
Таблицы данных (вкладка Data
) могут загружаться в среду rattle
из следующих источников:
- из произвольного текстового файла с разделителями типа
.csv
(Spreadsheet
), илиARFF
(Attribute-Relation File Format); - через программный интерфейс доступа к базам данным
ODBC
(Open Database Connectivity), а также через буфер обмена, из Web, SPSS-файлов и проч.; - из бинарных или обыкновенных файлов
.RData
, а также к наборам данных любых установленных пакетов (R dataset
,RData File
,Library
).
Для тестирования моделей исходные данные могут быть разделены на обучающую, проверочную и экзаменационную последовательности (на рисунке это соотношение составляет 75/15/15 процентов и может быть изменено в любом соотношении).
Список переменных выводится в нижней части окна и можно определить их роль в дальнейших действиях: они могут быть предикторами, откликом (Target
), а также соответствовать весам (Weight
), так называемым “переменным риска” (Risk
), или игнорироваться (Ignore
).