ГЛАВА 11 rattle: графический интерфейс R для реализации алгоритмов Data Mining

11.1 Начало работы с пакетом rattle

Читатель, вероятно, помнит, что удобным средством освоения вычислений в R для начинающего пользователя является R Commander. Аналогичный платформо-независимый графический интерфейс c кнопками и меню, позволяющий выполнять целый набор алгоритмов Data Mining, реализован в пакете rattle (Williams, 2009, 2011). С помощью этого пакета можно реализовать многие поцедуры обработки данных, не прибегая к предварительному заучиванию функций на командном языке.

Установить пакет rattle, как и любые другие расширения в R, можно командой

install.packages("rattle")

В процессе инсталляции загружается графическая динамическая библиотека RGtk2.dll, а также необходимые для работы rattle пакеты cairoDevice и XML.

Интерактивная среда запускается командой rattle().

Вы можете приступить к работе, загрузив необходимый набор данных, или продолжить сеанс анализа, открыв файл проекта с сохраненной историей Ваших действий:

На приведенном рисунке загружена таблица weather из пакета rattle, содержащая данные наблюдений за погодой на метеорологической станции в г. Канберра, Австралия (24 переменных разного типа в 366 строках).

Таблицы данных (вкладка Data) могут загружаться в среду rattle из следующих источников:

  • из произвольного текстового файла с разделителями типа .csv (Spreadsheet), или ARFF (Attribute-Relation File Format);
  • через программный интерфейс доступа к базам данным ODBC (Open Database Connectivity), а также через буфер обмена, из Web, SPSS-файлов и проч.;
  • из бинарных или обыкновенных файлов .RData, а также к наборам данных любых установленных пакетов (R dataset, RData File, Library).

Для тестирования моделей исходные данные могут быть разделены на обучающую, проверочную и экзаменационную последовательности (на рисунке это соотношение составляет 75/15/15 процентов и может быть изменено в любом соотношении).

Список переменных выводится в нижней части окна и можно определить их роль в дальнейших действиях: они могут быть предикторами, откликом (Target), а также соответствовать весам (Weight), так называемым “переменным риска” (Risk), или игнорироваться (Ignore).