1. Количественная оценка внутреннего качества основного измерения в анализе соответствия и анализе соответствия такси (arXiv)

Автор : Вартан Чулакян

Резюме: Коллинз (2002, 2011) поднял ряд вопросов, касающихся анализа соответствия (CA), таких как: качественная информация на карте CA по сравнению с количественной информацией в соответствующей таблице непредвиденных обстоятельств; интерпретация карты CA сложна, и ее связь с \% инерции (дисперсии) объяснена. Мы решаем эти проблемы, рассматривая CA и CA такси (TCA) как пошаговое разложение Хотеллинга/Таккера матрицы взаимной ковариации категорий строк и столбцов на четыре квадранта. Содержание этого эссе: Во-первых, мы рассмотрим понятие качества/количества в многомерном анализе данных, как это обсуждалось Бензекри, который основывал свои размышления на Аристотеле. Во-вторых, мы показываем важность раскрытия взаимосвязанных концепций структуры зависимости/гетерогенности в таблице непредвиденных обстоятельств; и для их изображения нужны две карты. В-третьих, мы различаем внутреннее и внешнее качество основного измерения; внутреннее качество основано на знаках остатков в четырех квадрантах, следовательно, на интерпретируемости. Кроме того, мы предоставляем количественные оценки внутреннего качества и используем их для раскрытия структуры, в частности, в разреженных таблицах непредвиденных обстоятельств. Наконец, мы подчеркиваем важность просмотра остаточных значений кросс-ковариации на каждой итерации.

2. Анализ разреженных соответствий для таблиц непредвиденных обстоятельств (arXiv)

Автор: Жуйпин Лю, Ндейе Ньянг, Гилберт Сапорта, Хуэйвен Ван.

Аннотация: с момента введения лассо в регрессию в неконтролируемом контексте были разработаны различные разреженные методы, такие как разреженный анализ основных компонентов (s-PCA), разреженный канонический корреляционный анализ (s-CCA) и разреженное разложение по сингулярным числам (s-SVD). ). Эти разреженные методы сочетают в себе выбор функций и уменьшение размеров. Одним из преимуществ s-PCA является упрощение интерпретации (псевдо) основных компонентов, поскольку каждый из них выражается как линейная комбинация небольшого числа переменных. Недостатки заключаются, с одной стороны, в сложности выбора числа ненулевых коэффициентов при отсутствии четко установленного критерия, а с другой стороны, в потере ортогональности компонентов и/или нагрузок. В этой статье мы предлагаем разреженные варианты анализа соответствия (CA) для больших таблиц непредвиденных обстоятельств, таких как матрицы документов-терминов, используемые при анализе текста, вместе с pPMD, методом дедеации, полученным из прогнозируемой дефляции в s-PCA. Мы используем тот факт, что CA представляет собой двухвзвешенный PCA (для строк и столбцов) или взвешенный SVD, а также канонический корреляционный анализ индикаторных переменных. Применение s-CCA или s-SVD позволяет уменьшить веса как строк, так и столбцов. Пользователь может настроить уровень разреженности строк и столбцов и оптимизировать его в соответствии с некоторым критерием и даже решить, что для строк (или столбцов) разреженность не требуется, ослабив одно ограничение разреженности. Последнее эквивалентно применению s-PCA к матрицам профилей строк (или столбцов).