Нелинейный метод главных компонент

Главные многообразия для визуализации и анализа данных

А. Горбань, Б. Кегль, Д. Вунш, А. Зиновьев (ред.), Шпрингер, 2007.

Первая в мировой научной литературе монография, посвященная методу главных многообразий.
Подготовлена международным коллективом авторов. Редакторы:

Description: Description: Description: Description: Description: Description: Description: Description: Description: GorbanPCA

Description: Description: Description: Description: Description: Description: Description: Description: Description: KeglHome

Description: Description: Description: Description: Description: Description: Description: Description: Description: WunschSm

Description: Description: Description: Description: Description: Description: Description: Description: Description: zinovyev

Александр Горбань

Alexander Gorban

Homepage

Балаж Кегль

Balazs Kegl

Homepage

Дональд Вунш

Donald Wunsch

Homepage

Андрей Зиновьев

Andrei Zinovyev

Homepage

A. Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.), Principal Manifolds for Data Visualisation and Dimension Reduction, LNCSE 58, Springer, Berlin – Heidelberg – New York, 2007. (ISBN 978-3-540-73749-0) Книгу читать и скачивать ЗДЕСЬ

Дополнительный материал:

!) Вечная классика:

A) Статья К. Пирсона, в которой был предложен метод главных компонент. Pearson, K. 1901. On lines and planes of closest fit to systems of points in space. Philosophical Magazine 2:559-572. Читать и скачивать ЗДЕСЬ

Б) Статья Сильвестра, в которой создан математический аппарат метода главных компонент за 12 лет до статьи Пирсона. Sylvester, J.J., On the reduction of a bilinear quantic of the nth order to the form of a sum of n products by a double orthogonal substitution, Messenger of Mathematics, 19 (1889), 42-46. Читать и скачивать ЗДЕСЬ

1) Книга «Главные многообразия для визуализации и анализа данных» опирается на лекции и доклады, прочитанные на Международном Семинаре «Главные многообразия для картографии данных и сокращения описания», Университет г. Лестера, Англия, 24-25 августа 2006 (Workshop «Principal manifolds for data cartography and dimension reduction», August 24-26, 2006, Leicester University, UK). Программа семинара и отдельные презентации ЗДЕСЬ.

2) С этой работы началось изучение главных многообразий. Диссертация T. Хасти: Trevor Hastie, Principal Curves and Surfaces, Ph.D Dissertation, Stanford Linear Accelerator Center, Stanford University, Stanford, California, US, November 1984. Читать и скачивать ЗДЕСЬ

3) Диссертация Б. Кегля (с программным обеспечением): B. Kégl, "Principal curves: learning, design, and applications," Ph. D. Thesis, Concordia University, Canada, 1999. Читать и скачивать ЗДЕСЬ

4) Книга (с программным обеспечением): А. Ю. Зиновьев, Визуализация многомерных данных, Красноярск, Изд. КГТУ, 2000. Читать и скачивать ЗДЕСЬ

5) Итеративные упругие карты измеряют активность генов в микроансамблях. Máx Chacón, Marcos Lévano, Héctor Allende, and Hans Nowak, Detection of Gene Expressions in Microarrays by Applying Iteratively Elastic Neural Net, In: B. Beliczynski et al. (Eds.), Lecture Notes in Computer Science, # 4432, Springer-Verlag Berlin Heidelberg 2007 pp. 355 – 363. «This paper proposes the use of Gorban’s Elastic Neural Net in an iterative way to find patterns of expressed genes…» Читать и скачивать ЗДЕСЬ

6) Сколько главных компонент нужно оставлять при моделировании? Этот вопрос не имеет однозначного ответа, и существует множество эвристических подходов. Свежий обзор многих из них с интересными синтетическими и реальными примерами в статье: Richard Cangelosi, Alain Goriely, Component retention in principal component analysis with application to cDNA microarray data, Biology Direct 2007, 2:2. ЗДЕСЬ

7) Открытие закономерностей в медицинских данных с помощью визуализации. Jacek Dryl, Halina Kwasnicka, Urszula Markowska-Kaczmar,Rafal Matkowski, Paweł Mikołajczyk, Jacek Tomasiak, Discovering Dependencies in Medical Data by Visualisation. Читать и скачивать ЗДЕСЬ

8) Линейный и нелинейный метод главных компонент в политологии. Картографирование данных рейтингов «Политического Атласа Современности»: рейтинги 192 стран мира: уровень жизни, международное влияние, угрозы, государственность и демократия. Методология анализа, Картографирование данных, Визуализация данных. На данном сайте представлены материалы независимого анализа данных рейтингов Политического Атласа Современности, с применением методов картографирования и визуализации данных, основанных на линейном и нелинейном методе главных компонент. Создана специальная ГИС – геоинформационная система и атлас карт данных. Презентация: Политический атлас мира – анализ статических и динамических данных по 192 странам мира за 1989-2005 годы; доклад А.Ю. Зиновьева в Брюсселе, 2008 г. Дополнительная информация по методам визуализации, использованным при подготовке атласа, включая инструкции и учебные презентации.

9) Главные графы и многообразия. Доступное введение в теорию «главных объектов» для аппроксимации данных: от главных компонент и «главных точек» (K средних) до главных многообразий, графов и топологических грамматик. Глава в книге: A. N. Gorban, A. Y. Zinovyev, Principal Graphs and Manifolds, Chapter 2 in: Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Emilio Soria Olivas et al. (eds), IGI Global, Hershey, PA, USA, 2009, pp. 28-59 Alexander Gorban and Andrei Zinovyev, Principal Graphs and Manifolds, http://arxiv.org/abs/0809.0490

New! 10) Главные графы и многообразия в практических приложениях: от молекулярной биологии до динамических систем. Дано введение в методы нелинейного моделирования данных с помощью упругих графов и многообразий и представлено несколько примеров приложений: из сравнительной политологии, молекулярной биологии, анализа нелинейных динамических моделей и др. Показаны преимущества, которые дает нелинейная аппроксимация данных. A. N. Gorban, A. Zinovyev. Principal manifolds and graphs in practice: from molecular biology to dynamical systems International Journal of Neural Systems, Vol. 20, No. 3 (2010) 219–232

11) Обзор методов сокращения размерности. Предлагается классификация методов сокращения размерности и описаны базовые техники: метод главных компонент, главных кривых, преследования проекции, топография данных и другие. Miguel Á. Carreira-Perpiñán, A Review of Dimension Reduction Techniques, Technical Report CS-96-09, Dept. of Computer Science, University of Sheffield, January 27, 1997.

12) Нейронный газ и его применения для анализа временных рядов. T.M. Martines, S.G. Berkovich, K.J. Schulten, 'Neural-gas' network for vector quantization and its application to time-series prediction - IEEE Transactions on Neural Networks, V.4, #4, 1993.

13) Статья Д. Вунша с учеником: R. Xu and D. Wunsch, Computational Intelligence in Clustering Algorithms, With Applications, In: Armin Iske & J. Levesley (Eds.), Algorithms for Approximation. Proceedings of the 5^th International Conference, Chester, July 2005 Springer, (2007) Читать и скачивать ЗДЕСЬ

14) Диссертация А.А. Питенко: Нейросетевой анализ в геоинформационных системах. Красноярск, 2000. Читать и скачивать ЗДЕСЬ

15) Диссертация А.А. Россиева: Итерационное моделирование неполных данных с помощью многообразий малой размерности, Красноярск, 2000. Читать и скачивать ЗДЕСЬ

16) Поиск нелинейных главных компонент с помощью самоорганизующихся карт Кохонена. Ralf Der, Ulrich Steinmetz, Gerd Balzuweit, Gerrit Schüürmann, Nonlinear Principal Component Analysis (1998). Читать и скачивать ЗДЕСЬ

17) Описание алгоритма “ISOMAP”: Joshua B. Tenenbaum, Vin de Silva, John C. Langford, A Global Geometric Framework for Nonlinear Dimensionality Reduction, Science Vol 290, 22 December 2000, 2319-2323. Читать и скачивать ЗДЕСЬ

18) Метод «Локально линейного погружения» («Locally Linear Embedding»): Sam T. Roweis and Lawrence K. Saul, Nonlinear Dimensionality Reduction by Locally Linear Embedding, Science Vol 290, 22 December 2000, 2323-2326. Читать и скачивать ЗДЕСЬ

19) Еще одна формулировка метода главных компонент, позволяющая эффективно обрабатывать большие уклонения и удобная для задач классификации. Koren Y., Carmel L., Robust linear dimensionality reduction, IEEE Transactions on Visualisation and Computer Graphics, 10 (4) (2004), 459—470. ЗДЕСЬ (стоит, впрочем, заметить, что этот метод обсуждался ещё в книге Зиновьева, и может также быть найден и в более ранних работах).

20) Что это такое – размерность облака данных? Одна из первых попыток дать серьезный математический ответ на этот вопрос. Vladimir Pestov, Intrinsic dimension of a dataset: what properties does one expect? Proceedings of International Joint Conference on Neural Networks, Orlando, Florida, USA, August 12-17, 2007. Читать и скачивать ЗДЕСЬ

21) Zhenyue Zhang and Hongyuan Zha, Principal Manifolds and Nonlinear Dimension Reduction via Local Tangent Space Alignment, Читать и скачивать ЗДЕСЬ

22) Концепция ориентированных «главных точек» Деликадо служит одним из мостов между нелинейными главными компонентами и локальными главными компонентами. Delicado P., Another Look at Principal Curves and Surfaces, Journal of Multivariate Analysis, Volume 77, Number 1, April 2001 , pp. 84-116. Читать и скачивать ЗДЕСЬ

23) Ефимов В.М., Галактионов Ю.К., Шушпанова Н.Ф., Анализ и прогноз временных рядов методом главных компонент. – Новосибирск: Наука. Сиб. отд-ние, 1988. – 70с. Небольшая книга с описанием базового алгоритма и примерами анализа (ряды урожайности, динамика численности и т.п.). Читать и скачивать: PDF в двух частях (PDF, Часть 1 ~ 1.6M), (PDF, Часть 2 ~ 2.2M), или DjVu (вся КНИГА ~3.6M). Админ сайта благодарен В.М. Ефимову за присланные для публикации файлы и ссылки.

24) Главные компоненты временных рядов: результатом применения метода является разложение временного ряда на простые компоненты: медленные тренды, сезонные и другие периодические или колебательные составляющие, а также шумовые компоненты. Книга под редакцией Д.Л.Данилова и А.А.Жиглявского, Санкт-Петербургский университет, 1997.

25) Эффект группового стресса и Корреляционная адаптометрия: Сайт о том, как размерность облака данных становится важнейшим показателем адаптированности. От геометрии данных к экологической физиологии: http://adaptometry.narod.ru/

26) Ядерный метод главных компонент: сначала увеличиваем размерность с помощью нелинейных функций, потом уменьшаем ее с помощью анализа главных компонент. Bernhard Scholkopf, Alexander Smola, Klaus-Robert Muller, Kernel Principal Component Analysis, Advances in Kernel Methods-Support Vector Learning, 1999. ЗДЕСЬ

27) Ядерный метод главных компонент для анализа и синтеза нелинейных моделей активных форм. C. J. Twining and C. J. Taylor, Kernel Principal Component Analysis and the Construction of Non-Linear Active Shape Models, Proceedings of BMVC20001, 2001. ЗДЕСЬ

28) Нелинейный анализ главных компонент для данных с шумом. William W. Hsieh, Nonlinear principal component analysis of noisy data, Neural Networks, Volume 20, Issue 4 (May 2007), Pages: 434-443. ЗДЕСЬ

29) Построение главных многообразий с помощью разреженных сеток. Полезные приемы, экономящие вычислительные ресурсы. Chr. Feuersänger,M. Griebel, Principal Manifold Learning by Sparse Grids. Institute for Numerical Simulation of the Rheinische Friedrich-Wilhelms-Universität Bonn. INS Preprint No. 0801, April 2008. ЗДЕСЬ

30) Сборник статей «Методы нейроинформатики» / Под. Ред. А.Н. Горбаня, 1998 Читать и скачивать ЗДЕСЬ

31) Собственное ортогональное разложение в анализе турбулентных потоков (или «Истинное ортогональное разложение»). Очередной раз метод главных компонент был переоткрыт в 1967 году (Lumley, J. L., The structure of inhomogeneous turbulence. In Atmospheric Turbulence and Wave Propagation, ed. A. M. Yaglom, V. I. Tatarski, pp. 166—178. Moscow: Nauka, 1967. (Атмосферная турбулентность и распространение радиоволн. Труды Международного коллоквиума. Москва, 15—22 июня 1965 г. Под ред. А. М. Яглома и В. И. Татарского. М.: Наука, 1967, 374 стр. с илл. и карт. (АН СССР. Междувед. геофиз. ком. Ин-т физики атмосферы). Яглом объяснил им, что были до них и другие, но всей истории не рассказал.. Сейчас этот метод очень популярен в динамике распределенных систем под названием «Proper Orthogonal Decomposition» (POD). Один из основных обзоров ведущих ученых: Berkooz G, Holmes Ph., and. Lumley J. L, The proper orthogonal decomposition in the analysis of turbulent flows, Annu. Rev. Fluid Mech. 25 (1993), 539—575.

32) Из практики картографии данных: Шитиков В.К., Розенберг Г.С., Костина Н.В. Методы синтетического картографирования территории (на примере эколого-информационной системы «REGION-VOLGABAS») // Количественные методы экологии и гидробиологии (Сборник научных трудов, посвященный памяти А.И. Баканова). Отв. Ред. Чл.-корр. РАН Г.С. Розенберг. – Тольятти: СамНЦ РАН, 2005. – С. 167-227. Читать и скачивать ЗДЕСЬ Дальнейшая информация – на сайте, посвященном проблемам "системной экологии": http://www.ievbran.ru/kiril/

33) Книга: Е.М.Миркес, Нейрокомпьютер. Проект стандарта – Новосибирск: Наука, 1998.
“К настоящему моменту накоплено большое число различных «правил обучения» и архитектур нейронных сетей, способов оценивать и интерпретировать их работу, приемов использования нейронных сетей для решения прикладных задач. Эти правила, архитектуры, системы оценки и интерпретации, приемы использования и другие интеллектуальные находки существуют в виде «зоопарка» сетей. Каждая сеть из зоопарка имеет свою архитектуру, правило обучения и решает конкретный набор задач. Мы предлагаем систематизировать «зоопарк». Для этого полезен такой подход: каждая нейронная сеть из зоопарка должна быть представлена как реализованная на идеальном нейрокомпьютере, имеющем заданную структуру…” Читать и скачивать ЗДЕСЬ

34) Диссертация Т. А. Вашко, Дублирование информации как средство повышения устойчивости нейросетевых решений, Красноярск, 2001. Метод дублирования информации «по Вашко» позволяет достичь компромисса между минимизацией описания и устойчивостью результатов. Читать ЗДЕСЬ (html); скачивать ЗДЕСЬ (pdf ~1.5M)

35) Сколько данных нужно для факторного анализа? Всегда ли верна наивная точка зрения: чем больше данных – тем лучше? Интересную попытку ответить на эти вопросы содержит статья: Jean Boivin, Serena Ng, Are more data always better for factor analysis? Journal of Econometrics 132 (2006) 169–194 Читать и скачивать ЗДЕСЬ

36) За пределами независимых компонент: деревья и кластеры. Представлено обобщение метода независимых компонент, в котором данные аппроксимируются древовидной структурой. Francis R. Bach, Michael I. Jordan, Beyond Independent Components: Trees and Clusters, Journal of Machine Learning Research 4 (2003) 1205-1233. ЗДЕСЬ

37) Введен и исследовани адаптивный граф соседства - полезный промежуточный объект при восстановлении многообразия по выборке лежащих на нем точек: Joachim Giesen, Uli Wagner, Shape Dimension and Intrinsic Metric from Samples of Manifolds, In: Proceedings of the nineteenth annual symposium on Computational geometry, San Diego, California, USA, Published by ACM (Association for Computing Machinery), 2003, New York, NY, 329-337. Читать и скачивать ЗДЕСЬ

38) Топологические грамматики для аппроксимации данных. Представлен метод топологических грамматик для аппроксимации данных древовидными континуумами и их произведениями. A.N. Gorban, N.R. Sumner, A.Y. Zinovyev, Topological grammars for data approximation, Applied Mathematics Letters 20 (2007) 382–386. ЗДЕСЬ

39) Диссертация И.Ф.М. Свенсена, Обобщенное топографическое отображение (картирование), Johan Fredrik Markus Svensen, Generative Topographic Mapping (GTM), Aston University, 1998. Построены нелинейные модели скрытых переменных для моделирования непрерывных распределений вероятности малой размерности, погруженных в пространства высокой размерности. Это новая форма нелинейного метода главных компонент, существенно отличающаяся от карт Кохонена. Важное приложение этого метода – визуализация многомерных данных. Читать и скачивать ЗДЕСЬ (pdf ~1.7M)

40) С. А. Шумский, Избранные лекции по Нейрокомпьютингу. Адаптированные отрывки из полного курса – А.А. Ежов С.А. Шумский «Нейрокомпьютинг и его приложения в экономике», вышедшего в издательстве МИФИ в 1998 году. Прекрасный вводный курс с основными формулами и актуальными примерами (чего стоят разделы: «Расположение на карте банков с отозванной лицензией» или «Рейтинги ценных бумаг»), но без библиографии. Читать и скачивать ЗДЕСЬ

41) С.А. Терехов, Технологические аспекты обучения нейросетевых машин, Лекция для VIII Всероссийской научно-технической конференции “Нейроинформатика -2006”. В лекции представлен очерк эффективных методов практических вычислений в задачах обучения нейросетевых и других статистических моделей. Рассматриваются как особенности часто встречающихся информационных задач, так и алгоритмический “инструментарий”. Значительное внимание уделено намечающейся стандартизации в области обучающихся вычислительных машин. Читать и скачивать ЗДЕСЬ Дальнейшая информация и различные лекции – на сайтах http://neurolectures.narod.ru/ , http://alife.narod.ru

42) Статья: C.С. Замай, В.А. Охонин, О.Э. Якубайлик, Нейронные сети и ГИС (Нейронные сети: новое измерение в ГИС), 2004. Читать и скачивать ЗДЕСЬ. English translation HERE.

43) ХЕМОМЕТРИКА – важнейшая современная область приложения линейного и нелинейного метода главных компонент, источник новых задач и идей. Уникальная обзорная статья: О. Е. Родионова, А. Л. Померанцев, Хемометрика в аналитической химии. Проанализированы итоги развития хемометрики за последние 20 лет, обсуждены тенденции и перспективы ее роста. Читать и скачивать ЗДЕСЬ Дальнейшая информация – на сайте http://www.chemometrics.ru/

44) Главные компоненты и факторный анализ – учебный сайт ЗДЕСЬ

45) Важная статья: A.J. Smola, R.C. Williamson, S. Mika, B. Scholkopf, Regularized Principal Manifolds, In: P. Fischer and H.U. Simon (Eds.): EuroCOLT'99, LNAI 1572, pp. 214-229, Springer, 1999. Читать и скачивать ЗДЕСЬ

46) Лекция: PCA, Clustering and Classification, By H. Bjørn Nielsen (strongly inspired by Agnieszka S. Juncker). Читать и скачивать ЗДЕСЬ

47) Лекция о методе главных компонент: Родионова Оксана Евгеньевна «Проекционные методы. Основные понятия и примеры» Rodionovapca.ppt

48) Адаптивный метод главных компонент для очистки изображений. Muresan, D.D., Parks, T.W. Adaptive principal components and image denoising, in: Image Processing, 2003. ICIP 2003. Proceedings. 2003 International Conference on Image Processing, 14-17 Sept. 2003, V. 1, pp. I-101-104.

New! 49) Java-апплет Е.М. Миркес «Метод главных компонент и самоорганизующиеся карты» (E.M. Mirkes, Principal Component Analysis and Self-Organizing Maps: applet. University of Leicester, 2011). Своболно распространяемая программа с моделями метода главных компонент, самоорганизуюшихся карт (SOM) и растущих самоорганизующихся карт (Growing Self-Organized Maps, GSOM). Дано детальное описание алгоритмов (англ.), приведены тьюториалы и некоторые публикации. Идеально подходит для выполнения небольших студенческих исследовательских работ по сравнению различных алгоритмов аппроксимации данных. Часть выпускаемого по главам онлайн курса А.Н. Горбаня (A.N. Gorban) по анализу данных. Другие опубликованные части: Методы кластер анализа, k-means и k-medoids (E.M. Mirkes, K-means and K-medoids applet. University of Leicester, 2011); Методы классификации, k ближайших соседей и метод потенциальной энергии (E.M. Mirkes, KNN and Potential Energy: applet. University of Leicester, 2011)

New! 50) Java-апплет Е.М. Миркес «Метод N ближайших соседей и потенциальная энергия» (E.M. Mirkes, KNN and Potential Energy: applet. University of Leicester, 2011). Свободно распространяемая программа с одним из самых популярных методов классификации и с простым оригинальным методом потенциальной энергии. Идеально подходит для выполнения небольших студенческих исследовательских работ по сравнению различных алгоритмов аппроксимации данных. Часть выпускаемого по главам онлайн курса А.Н. Горбаня (A.N. Gorban) по анализу данных. Другие опубликованные части: Методы кластер анализа, k-means и k-medoids (E.M. Mirkes, K-means and K-medoids applet. University of Leicester, 2011), «Метод главных компонент и самоорганизующиеся карты» (E.M. Mirkes, Principal Component Analysis and Self-Organizing Maps: applet, University of Leicester, 2011)

Контакт: Админ, pca@narod.ru

in Encyclopaedia