Ferreira M. M. C., “Multivariate QSAR”. Caxambu, MG, Brazil, 11-16/11/2001: 1º Simpósio Brasileiro em Química Medicinal, QSAR e Modelagem Molecular: Novas Estratégias em Planejamento Racional de Fármacos [1st Brazilian Symposium on Medicinal Chemistry, QSAR and Molecular Modeling: New Approaches in Drug Design]. Chairperson oral presentation of the section (brief review). Section: Multivariate QSAR.
Multivariate QSAR
Márcia M. C. Ferreira
Instituto de Química, Universidade Estadual de Campinas, CP 6154, 13083-970 Campinas - SP, Brazil
Abstract.
In this work, the chemometric techniques most frequently
used in QSAR (quantitative structure-activity relationships) studies are
reviewed. They are introduces in chronological order, beginning with Hansch
analysis and the exploratory data analysis methods of principal components
and hierarchical clustering (PCA and HCA). Principal component regression
and partial least squares regression methods (PCR and PLS) are discussed,
followed by the pattern recognition methods (KNN and SIMCA). Different
applications are presented to illustrate these chemometric techniques.
The methodology used for regression in 3D-QSAR is presented (unfolding
PLS). Finally, the higher order method called Multilinear PLS, already
used in analytical chemistry but not yet explored by the QSAR community,
is introduced. This method maintains the multiway structure of the data
and has several advantages over bilinear PLS including speed in calculation,
simplicity and stability, since the number of parameters to be estimated
can be greatly reduced.
Keywords.
Chemometrics; Principal Component Analysis; Partial Least
Squares; SIMCA; KNN.
Português
Resumo.
Neste trabalho, são apresentadas as técnicas
usuais de quimiometria em estudos de relações quantitativas
estrutura-atividade biológica (QSAR). Elas são introduzidas
em ordem cronológica, iniciando pela análise de Hansch, e
os métodos de análise exploratória de componentes
principais e agrupamento hierárquico (PCA e HCA). Os métodos
de regressão que usam a análise de componentes principais
como fundamento (PCR e PLS) são apresentados a sequir. São
introduzidos
também os dois métodos de reconhecimento de padrões
usados para classificação (KNN e SIMCA). Diferentes aplicações
são usadas para ilustrar os diferentes métodos quimiométricos.
É feito então um resumo da metodologia de regressão
usada em QSAR-3D. Finalmente é apresentada uma nova metodologia,
denominada PLS multilinear, já utilizada em química analítica,
mas não explorada ainda pela comunidade de QSAR. Este método
de regressão mantém a estrutura de ordem superior dos dados
em lugar do desdobramento utilizado em QSAR-3D e apresenta vantagens computacionais,
maior estabilidade e simplicidade do modelo, uma vez que o número
de parâmetros calculados é bastante reduzido.
Palavras-chave.
Quimiometria; Análise de Componentes Principais;
Quadrados Mínimos Parciais; SIMCA; KNN.