Кроме того, отсутствует адекватное статистическое и программное обеспечение анализа динамики качественных показателей, который особенно актуален в связи с проводимыми в последнее время лонгитюдными обследованиями.
Эти соображения легли в основу развития некоторых методов и создания Системы анализа нечисловой информации (САНИ).
Система анализа нечисловой информации предназначена для обработки данных, измеренных в разнородных шкалах: номинальной, порядковой, интервальной и количественной. В первую очередь она ориентирована на социально-экономические задачи, но может использоваться в биологии, медицине, других областях, где приходится иметь дело с нечисловой информацией.
САНИ реализована на совместимых с IBM персональных компьютерах и требует около 1 МБайта памяти на жестком диске. Она предполагает лишь элементарное знакомство пользователя с ПК. Работа осуществляется в диалоговом режиме с помощью иерархического меню или непосредственно нажатием определенных комбинаций клавиш.
Система позволяет одновременно обрабатывать до 320 признаков (вопросов); число объектов (респондентов) не должно превосходить 32000 для категоризованного признака и 8000 – для числового. Однако приведенные ограничения, имеют чисто технический характер, и допустимый объем данных зависит от используемого метода и типа компьютера.
В любой момент доступны: справка об используемом методе со ссылкой на литературу или разъяснение сложившейся ситуации; справки обо всех активных переменных, содержащие информацию, полученную от пользователя при первом вводе, и некоторые результаты проделанного анализа; данные об объектах (соответствующие значения переменных). Результаты анализа выводятся на экран и могут быть распечатаны или скопированы в файл для последующего включения в отчет.
Функциональное наполнение. Методы, используемые САНИ, распадаются на три группы. Первая — реализует возможности базы данных, вторая – объединяет средства предварительного анализа, позволяющие сформировать гипотезы о структуре данных, выявить «выбросы». При этом эффективно применяются графические возможности современной вычислительной техники. Методы, входящие в третью группу, используют вероятностные предположения о природе данных и позволяют проверять различные гипотезы. Особое внимание уделено анализу нечисловых признаков, изменяющихся во времени.
Работа с данными. Они могут быть введены вручную, импортированы из прямоугольных таблиц «объект-признак» или «признак-объект» в кодах ASCII или из общего статистического пакета SYSTAT. Имеется возможность экспортировать данные в виде таблиц ASCII или в системном формате SYSTAT.
В системе «САНИ» каждому признаку соответствует справка, содержащая сведения о шкале, в которой он измерен, код и число пропущенных значений, имена и частоты категорий, историю создания и комментарии пользователя. Кроме того, в справке хранятся некоторые результаты предыдущей обработки: имена независимых и тесно связанных с данной переменных. Они предостерегают исследователя от мало осмысленных шагов, например от использования независимых переменных в анализе соответствий.
Имеется возможность получать подвыборки: отбирать или удалять объекты с фиксированной комбинацией значений переменных. Можно создавать новые переменные в виде фиксированных комбинаций значений имеющихся переменных, агрегированием категорий, разбиением количественных переменных на интервалы, всевозможными комбинациями двух переменных (для снижения размерности). Все преобразования фиксируются в справках. Мощный редактор позволяет вводить и проверять данные вручную, а также изменять имя, комментарий, шкалу и значения переменных [1, c. 2].