Kiralj R., Ferreira M. M. C., "Basic Validation Procedures for Regression
Models in QSAR and QSPR Studies: Theory and Applications",
J. Braz.
Chem. Soc., 20(4), 770-787 (2009). [This
is an invited article to celebrate the 20th anniversary of The Journal
of the Brazilian Chemical Society: Special Issue "JBCS 20 years".]
[Article]
Abstract.
Four QSAR and QSPR data sets were selected from the literature and
used to build regression models with 75, 56, 50 and 15 training samples.
The models were validated by leave-one-out crossvalidation, leave-N-out
crossvalidation (LNO), external validation, y-randomization and
bootstrapping. Validations have shown that the size of the training sets
is the crucial factor in determining model performance, which deteriorates
as the data set becomes smaller. Models from very small data sets suffer
from the impossibility of being thoroughly validated, failure and atypical
behavior in certain validations (chance correlation, lack of robustness
to resampling and LNO), regardless of good performance in leave-one-out
crossvalidation, fitting and even in external validation. A simple determination
of the critical N in LNO has been introduced by using the limit
of 0.1 for oscillations in Q2, quantified
as the variation range in single LNO and two standard deviations in multiple
LNO. It has been demonstrated that it is sufficient to perform 10 - 25
y-randomization
and bootstrap runs for a typical model validation. The bootstrap schemes
based on hierarchical cluster analysis give more reliable and reasonable
results than bootstraps relying only on randomization of the complete data
set. Data quality in terms of statistical significance of descriptor -
y
relationships is the second important factor for model performance. Variable
selection that does not eliminate insignificant descriptor - y relationships
may lead to situations in which they are not detected during model validation,
especially when dealing with large data sets.
Keywords.
Leave-one-out Crossvalidation; Leave-N-out Crossvalidation;
y-Randomization;
External Validation; Bootstrapping.
Keywords Plus.
Resumo.
Quatro conjuntos de dados de QSAR e QSPR foram selecionados da literatura
e os modelos de regressão foram construídos com 75, 56, 50
e 15 amostras no conjunto de treinamento. Estes modelos foram validados
por meio de validação cruzada excluindo uma amostra de cada
vez, validação cruzada excluindo N amostras de cada
vez (LNO), validação externa, randomização
do vetor y e validação bootstrap. Os resultados
das validações mostraram que o tamanho do conjunto de treinamento
é o fator principal para o bom desempenho de um modelo, uma vez
que este piora para os conjuntos de dados pequenos. Modelos oriundos de
conjuntos de dados muito pequenos não podem ser testados em toda
a sua extensão. Além disto, eles podem falhar e apresentar
comportamento atípico em alguns dos testes de validação
(como, por exemplo, correlações espúrias, falta de
robustez na reamostragem e na validação cruzada), mesmo tendo
apresentado um bom desempenho na validação cruzada excluindo
uma amostra, no ajuste e até na validação externa.
Uma maneira simples de determinar do valor crítico de N em
LNO foi introduzida, usando o valor limite de 0,1 para oscilações
em Q2 (faixa de variações
em único LNO e dois desvios padrões em LNO múltiplo).
Foi mostrado que 10 - 25 ciclos de randomização de y
ou de bootstrapping são suficientes para uma validação
típica. O uso do método bootstrap baseado na análise
de agrupamentos por métodos hierárquicos fornece resultados
mais confiáveis e razoáveis do que aqueles baseados somente
na randomização do conjunto de dados completo. A qualidade
de dados em termos de significância estatística das relações
descritor - y é o segundo fator mais importante para o desempenho
do modelo. Uma seleção de variáveis em que as relações
insignificantes não foram eliminadas pode conduzir a situações
nas quais elas não serão detectadas durante o processo de
validação do modelo, especialmente quando o conjunto de dados
for grande.
Palavras-chave.
Validação Cruzada Excluindo Uma Amostra Por Vez; Validação
Cruzada Excluindo N Amostras de Cada Vez; Validação
Externa; Randomização do Vetor y; Bootstrap.