Нелинейный метод
главных компонент
Главные многообразия для
визуализации и анализа данных
А. Горбань, Б. Кегль, Д. Вунш, А. Зиновьев (ред.),
Шпрингер, 2007.
Первая в мировой научной литературе монография,
посвященная методу главных многообразий.
Подготовлена международным коллективом авторов. Редакторы:
|
|
|
|
|
|
Александр Горбань Alexander Gorban |
Балаж Кегль Balazs Kegl |
Дональд Вунш Donald Wunsch |
Андрей Зиновьев Andrei Zinovyev |
A. Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.), Principal
Manifolds for Data Visualisation and Dimension Reduction,
LNCSE 58, Springer, Berlin – Heidelberg – New York, 2007. (ISBN
978-3-540-73749-0) Книгу читать и скачивать ЗДЕСЬ
Дополнительный материал:
!) Вечная классика:
A) Статья К. Пирсона, в которой был предложен метод
главных компонент. Pearson,
K. 1901. On lines and planes of closest fit to systems of points in
space. Philosophical Magazine 2:559-572. Читать и скачивать ЗДЕСЬ
Б) Статья
Сильвестра, в которой создан математический аппарат метода главных компонент за
12 лет до статьи Пирсона. Sylvester,
J.J., On the reduction of a bilinear quantic of the nth order to the
form of a sum of n products by a double orthogonal substitution,
Messenger of Mathematics, 19 (1889), 42-46. Читать и скачивать ЗДЕСЬ
1) Книга «Главные многообразия для визуализации и анализа
данных» опирается на лекции и доклады, прочитанные на Международном Семинаре
«Главные многообразия для картографии данных и сокращения описания»,
Университет г. Лестера, Англия, 24-25 августа 2006 (Workshop «Principal manifolds for data cartography and dimension reduction», August 24-26, 2006, Leicester University, UK). Программа семинара и отдельные презентации ЗДЕСЬ.
2) С этой работы началось изучение главных многообразий.
Диссертация T. Хасти: Trevor Hastie, Principal Curves and Surfaces, Ph.D Dissertation, Stanford Linear Accelerator Center, Stanford University, Stanford, California, US, November 1984. Читать и
скачивать ЗДЕСЬ
3) Диссертация Б. Кегля (с программным обеспечением): B. Kégl, "Principal curves: learning, design, and applications," Ph. D. Thesis,
5) Итеративные упругие карты измеряют активность генов в микроансамблях. Máx Chacón, Marcos
Lévano, Héctor Allende, and Hans Nowak, Detection
of Gene Expressions in Microarrays by Applying Iteratively
Elastic Neural Net,
In: B. Beliczynski et al. (Eds.), Lecture
Notes in Computer Science, # 4432,
Springer-Verlag Berlin Heidelberg 2007 pp. 355 – 363. «This paper
proposes the use of Gorban’s Elastic Neural Net in an iterative way to find
patterns of expressed genes…» Читать
и скачивать ЗДЕСЬ
6) Сколько
главных компонент нужно оставлять при моделировании? Этот вопрос не имеет
однозначного ответа, и существует множество эвристических подходов. Свежий
обзор многих из них с интересными синтетическими и реальными примерами в
статье: Richard
Cangelosi, Alain Goriely, Component retention in
principal component analysis with application to cDNA microarray data,
Biology Direct
2007, 2:2. ЗДЕСЬ
7)
Открытие закономерностей в медицинских данных с помощью визуализации. Jacek Dryl, Halina Kwasnicka, Urszula Markowska-Kaczmar, Rafal Matkowski, Paweł Mikołajczyk, Jacek Tomasiak, Discovering Dependencies in Medical Data by Visualisation. Читать и скачивать ЗДЕСЬ
New! 8) Собственные функции оператора Лапласа на графах
для снижения размерности. Одно из мощных нелинейных обобщений методаглавных
компонент. Mikhail Belkin, Partha Niyogi, Laplacian Eigenmaps for Dimensionality Reduction and Data Representation, Neural Computation, June 2003, Vol. 15, No. 6, Pages 1373-1396. One of the central problems in machine learning and
pattern recognition is to develop appropriate representations for complex data.
We consider the problem of constructing a representation for data lying on a
low-dimensional manifold embedded in a high-dimensional space. Drawing on the
correspondence between the graph Laplacian, the Laplace Beltrami operator on
the manifold, and the connections to the heat equation, we propose a
geometrically motivated algorithm for
representing the high-dimensional data. The algorithm provides a
computationally efficient approach to nonlinear dimensionality reduction that
has locality-preserving properties and a natural connection to clustering. Some
potential applications and illustrative examples are discussed.
New! 10) Главные
графы и многообразия. Доступное введение в теорию «главных объектов» для аппроксимации
данных: от главных компонент и «главных точек» (K средних) до главных
многообразий, графов и топологических грамматик. Глава в книге: A.
N. Gorban, A. Y. Zinovyev, Principal Graphs and Manifolds, Chapter 2 in:
Handbook of Research on Machine Learning Applications and Trends:
Algorithms, Methods, and Techniques, Emilio Soria Olivas et al. (eds),
IGI Global, Hershey, PA, USA,
2009, pp. 28-59 Alexander Gorban and
Andrei Zinovyev, Principal
Graphs and Manifolds, http://arxiv.org/abs/0809.0490
New! 11) Главные графы и многообразия в практических приложениях:
от молекулярной биологии до динамических систем. Дано введение в методы
нелинейного моделирования данных с помощью упругих графов и многообразий и
представлено несколько примеров приложений: из сравнительной политологии,
молекулярной биологии, анализа нелинейных динамических моделей и др. Показаны
преимущества, которые дает нелинейная аппроксимация данных. A. N. Gorban, A. Zinovyev. Principal manifolds and graphs in practice: from molecular
biology to dynamical systems International Journal of Neural Systems, Vol. 20,
No. 3 (2010) 219–232
12) Обзор методов
сокращения размерности. Предлагается классификация методов сокращения
размерности и описаны базовые техники: метод главных компонент, главных кривых,
преследования проекции, топография данных и другие. Miguel Á. Carreira-Perpiñán, A Review of
Dimension Reduction Techniques, Technical
Report CS-96-09, Dept. of Computer Science, University of Sheffield, January 27, 1997.
13) Нейронный газ и его применения для анализа
временных рядов. T.M. Martines, S.G. Berkovich, K.J. Schulten, 'Neural-gas' network for vector quantization and its application
to time-series prediction - IEEE Transactions on Neural
Networks, V.4, #4, 1993.
14) Статья Д. Вунша с учеником: R. Xu and D.
Wunsch, Computational Intelligence in Clustering
Algorithms, With Applications, In: Armin Iske & J. Levesley (Eds.), Algorithms
for Approximation. Proceedings of the 5th International Conference,
15) Диссертация А.А. Питенко: Нейросетевой анализ в
геоинформационных системах. Красноярск, 2000. Читать и скачивать ЗДЕСЬ
16) Диссертация А.А. Россиева: Итерационное моделирование
неполных данных с помощью многообразий малой размерности, Красноярск, 2000.
Читать
и скачивать ЗДЕСЬ
17)
Поиск нелинейных главных компонент с помощью самоорганизующихся карт Кохонена. Ralf Der, Ulrich
Steinmetz, Gerd Balzuweit, Gerrit Schüürmann, Nonlinear Principal Component Analysis (1998). Читать и скачивать ЗДЕСЬ
18)
Описание алгоритма “ISOMAP”: Joshua B. Tenenbaum, Vin de Silva, John C. Langford, A Global Geometric Framework for Nonlinear Dimensionality Reduction, Science Vol 290, 22 December 2000, 2319-2323. Читать и скачивать ЗДЕСЬ
19)
Метод «Локально линейного погружения» («Locally Linear Embedding»): Sam T. Roweis and
20)
Еще одна формулировка метода главных компонент, позволяющая эффективно
обрабатывать большие уклонения и удобная для задач классификации. Koren Y., Carmel L., Robust linear dimensionality reduction, IEEE Transactions on Visualisation and Computer Graphics, 10 (4) (2004), 459—470. ЗДЕСЬ
(стоит, впрочем, заметить,
что этот метод обсуждался ещё в книге Зиновьева, и может
также быть найден и в более ранних работах).
21)
Что это такое – размерность облака данных? Одна из первых попыток дать
серьезный математический ответ на этот вопрос. Vladimir Pestov, Intrinsic dimension of a dataset: what properties does one expect? Proceedings of
International Joint Conference on Neural Networks, Orlando, Florida, USA,
August 12-17, 2007. Читать и скачивать ЗДЕСЬ
22) Zhenyue Zhang and Hongyuan Zha, Principal Manifolds and Nonlinear Dimension Reduction via Local Tangent Space Alignment, Читать и скачивать ЗДЕСЬ
23)
Концепция ориентированных «главных точек» Деликадо служит одним из мостов между
нелинейными главными компонентами и локальными главными компонентами. Delicado
P., Another Look at Principal Curves and
Surfaces, Journal
of Multivariate Analysis, Volume 77, Number 1, April 2001 , pp. 84-116. Читать и скачивать ЗДЕСЬ
26) Эффект группового стресса и Корреляционная адаптометрия: Сайт о том, как размерность облака данных становится важнейшим
показателем адаптированности. От геометрии
данных к экологической физиологии: http://adaptometry.narod.ru/
27) Ядерный метод главных компонент: сначала увеличиваем
размерность с помощью нелинейных функций, потом уменьшаем ее
с помощью анализа главных компонент. Bernhard Scholkopf, Alexander Smola, Klaus-Robert Muller, Kernel
Principal Component Analysis, Advances in Kernel Methods-Support Vector
Learning, 1999. ЗДЕСЬ
28)
Ядерный метод главных компонент для анализа и синтеза нелинейных моделей
активных форм. C. J. Twining and C. J. Taylor, Kernel
Principal Component Analysis and the Construction of Non-Linear Active Shape
Models, Proceedings
of BMVC20001, 2001. ЗДЕСЬ
29) Нелинейный анализ главных компонент для данных с шумом. William W. Hsieh, Nonlinear principal component analysis of noisy data, Neural Networks, Volume 20, Issue 4 (May 2007), Pages: 434-443. ЗДЕСЬ
30)
Построение главных многообразий с помощью разреженных сеток. Полезные
приемы, экономящие вычислительные ресурсы. Chr. Feuersänger,M.
Griebel, Principal Manifold Learning by Sparse Grids. Institute
for Numerical Simulation of the Rheinische
Friedrich-Wilhelms-Universität Bonn. INS
Preprint No. 0801, April 2008. ЗДЕСЬ
31)
Сборник статей «Методы нейроинформатики» / Под. Ред. А.Н. Горбаня, 1998 Читать и скачивать ЗДЕСЬ
32)
Собственное ортогональное разложение в анализе турбулентных потоков (или
«Истинное ортогональное разложение»). Очередной раз метод главных компонент был
переоткрыт в 1967 году (Lumley, J. L., The structure of inhomogeneous
turbulence. In Atmospheric
Turbulence and Wave Propagation, ed. A. M. Yaglom, V. I. Tatarski, pp. 166—178.
Moscow: Nauka,
1967. (Атмосферная турбулентность и распространение радиоволн. Труды
Международного коллоквиума. Москва, 15—22 июня 1965 г. Под ред. А. М. Яглома и
В. И. Татарского. М.: Наука, 1967, 374 стр. с илл. и карт. (АН СССР. Междувед.
геофиз. ком. Ин-т физики атмосферы).
Яглом объяснил им, что были до них и другие, но всей истории не
рассказал.. Сейчас этот метод очень популярен в динамике распределенных систем
под названием «Proper Orthogonal
Decomposition» (POD). Один из основных обзоров
ведущих ученых: Berkooz G, Holmes Ph., and. Lumley J. L, The proper
orthogonal decomposition in the analysis of turbulent flows, Annu. Rev. Fluid Mech.
25 (1993), 539—575.
33)
Из практики картографии данных: Шитиков В.К., Розенберг Г.С., Костина Н.В. Методы
синтетического картографирования территории (на примере эколого-информационной
системы «REGION-VOLGABAS») //
Количественные методы экологии и гидробиологии (Сборник научных трудов,
посвященный памяти А.И. Баканова). Отв. Ред. Чл.-корр. РАН Г.С. Розенберг. – Тольятти:
СамНЦ РАН, 2005. – С. 167-227. Читать и скачивать ЗДЕСЬ Дальнейшая информация – на сайте, посвященном проблемам
"системной экологии": http://www.ievbran.ru/kiril/
35)
Диссертация Т. А. Вашко, Дублирование информации как средство повышения
устойчивости нейросетевых решений, Красноярск, 2001. Метод дублирования информации
«по Вашко» позволяет достичь компромисса между минимизацией описания и
устойчивостью результатов. Читать ЗДЕСЬ (html); скачивать
ЗДЕСЬ (pdf ~1.5M)
36) Сколько данных нужно для факторного анализа?
Всегда ли верна наивная точка зрения: чем больше данных – тем лучше? Интересную
попытку ответить на эти вопросы содержит статья: Jean Boivin,
Serena Ng, Are more data always better for factor analysis? Journal of
Econometrics 132 (2006) 169–194 Читать и скачивать ЗДЕСЬ
37) За пределами независимых
компонент: деревья и кластеры.
Представлено обобщение метода независимых компонент, в котором данные
аппроксимируются древовидной структурой. Francis R. Bach, Michael I. Jordan, Beyond
Independent Components: Trees and Clusters, Journal of Machine Learning
Research 4 (2003) 1205-1233. ЗДЕСЬ
38)
Введен и исследовани адаптивный граф соседства - полезный промежуточный объект при
восстановлении многообразия по выборке лежащих на нем точек: Joachim Giesen, Uli Wagner, Shape Dimension and Intrinsic Metric from Samples of Manifolds, In: Proceedings of the nineteenth annual symposium on Computational geometry, San Diego, California, USA, Published by ACM (Association for Computing Machinery), 2003, New York, NY, 329-337. Читать и скачивать ЗДЕСЬ
39) Топологические грамматики для
аппроксимации данных. Представлен метод
топологических грамматик для аппроксимации данных древовидными континуумами и
их произведениями. A.N. Gorban, N.R. Sumner, A.Y.
Zinovyev, Topological grammars for data
approximation, Applied Mathematics Letters 20 (2007)
382–386. ЗДЕСЬ
40) Диссертация И.Ф.М.
Свенсена, Обобщенное
топографическое отображение (картирование), Johan Fredrik Markus Svensen, Generative Topographic Mapping (GTM), Aston University, 1998. Построены нелинейные модели скрытых
переменных для моделирования непрерывных распределений вероятности малой
размерности, погруженных в пространства высокой размерности. Это новая форма
нелинейного метода главных компонент, существенно отличающаяся от карт
Кохонена. Важное приложение этого метода – визуализация многомерных данных. Читать и скачивать ЗДЕСЬ (pdf ~1.7M)
41)
С. А. Шумский, Избранные лекции по Нейрокомпьютингу.
Адаптированные отрывки из полного курса – А.А. Ежов С.А. Шумский «Нейрокомпьютинг
и его приложения в экономике», вышедшего в издательстве МИФИ в 1998 году.
Прекрасный вводный курс с основными формулами и актуальными примерами (чего
стоят разделы: «Расположение на карте банков с отозванной лицензией» или
«Рейтинги ценных бумаг»), но без библиографии. Читать и скачивать ЗДЕСЬ
42) С.А. Терехов, Технологические аспекты обучения
нейросетевых машин, Лекция для VIII
Всероссийской научно-технической конференции “Нейроинформатика -2006”. В лекции
представлен очерк эффективных методов практических вычислений в задачах
обучения нейросетевых и других статистических моделей. Рассматриваются как
особенности часто встречающихся информационных задач, так и алгоритмический
“инструментарий”. Значительное внимание уделено намечающейся стандартизации в
области обучающихся вычислительных машин. Читать и скачивать ЗДЕСЬ Дальнейшая информация и
различные лекции – на сайтах http://neurolectures.narod.ru/
, http://alife.narod.ru
43) Статья: C.С.
Замай, В.А. Охонин, О.Э. Якубайлик, Нейронные сети и ГИС (Нейронные сети:
новое измерение в ГИС), 2004. Читать и скачивать ЗДЕСЬ. English translation HERE.
44)
ХЕМОМЕТРИКА – важнейшая современная область приложения линейного и нелинейного
метода главных компонент, источник новых
задач и идей. Уникальная обзорная статья: О. Е. Родионова, А. Л. Померанцев, Хемометрика
в аналитической химии. Проанализированы итоги развития хемометрики за
последние 20 лет, обсуждены тенденции и перспективы ее роста. Читать и скачивать ЗДЕСЬ Дальнейшая
информация – на сайте http://www.chemometrics.ru/
45) Главные компоненты и факторный анализ –
учебный сайт ЗДЕСЬ
46)
Важная статья: A.J. Smola, R.C. Williamson, S. Mika, B. Scholkopf,
Regularized Principal Manifolds,
In:
P. Fischer and H.U. Simon (Eds.): EuroCOLT'99, LNAI 1572, pp. 214-229, Springer,
1999. Читать и
скачивать ЗДЕСЬ
47) Лекция: PCA, Clustering and Classification, By H. Bjørn Nielsen (strongly inspired by Agnieszka
S. Juncker). Читать
и скачивать ЗДЕСЬ
48) Лекция о методе главных
компонент: Родионова Оксана Евгеньевна «Проекционные методы. Основные
понятия и примеры» Rodionovapca.ppt
49) Адаптивный метод главных
компонент для очистки изображений. Muresan,
D.D., Parks, T.W. Adaptive principal components and image denoising, in: Image Processing,
2003. ICIP 2003. Proceedings. 2003 International Conference on Image Processing, 14-17 Sept. 2003, V.
1, pp. I-101-104.
Контакт: Админ, pca@narod.ru