Borges E. G., Silva S. L. F., Ferreira M. M. C., "Estudo QSAR da Toxidez Basal e Aguda em Poluentes Aquáticos com Metodologia de Regressão Multivariada" ["QSAR Study of Basal and Acute Toxicity in Aquatic Pollutants By Multivariate Regression Methodology"]. Poços de Caldas, MG, 25-28/05/1999: 22a Reunião Anual da Sociedade Brasileira de Química: O Papel da Química na Solução dos Problemas Brasileiro [22nd Annual Meeting of the Brazilian Chemical Society - The Role of Chemistry in Solving Brazilian Problems], Livro de Resumos [Book of Abstracts], 1 (1999) MD-029. Poster MD-029.
MD-029
ESTUDO
QSAR DA TOXIDEZ BASAL E AGUDA EM POLUENTES
AQUATIOCOS
COM METODOLOGIA DE REGRESSÃO
MULTIVARIADA
Edilson
Grünheidt Borges (PG), Silvia L. F. Silva (PG), Márcia M. C.
Ferreira (PQ).
Dep.
Físico Química, Instituto de Química-UNICAMP
Palavras-chave:
toxidez aquática, rede neural, métodos semi-empíricos
1. Introdução
Muitos
dos métodos para estimativa do efeito de concentração
de poluentes
no meio ambiente são exemplos de aplicações
de QSAR (Relações Quantitativas
de Estrutura-Atividade). Estes
modelos de QSAR fornecem
correlações
estatísticas entre o efeito
de concentração (atividade) de
um conjunto de
compostos e um ou mais descritores
físico-químicos ou estruturais (estrutura)
destes compostos. Para que um modelo de
QSAR seja válido é necessário que
os compostos considerados tenham
um modo de ação comum ou ao
menos
similar.
Em geral
a toxicologia aquática considera dois grandes grupos de poluentes
que possuem modos de ação
similares: narcosis polares e narcosis
apolares,
Grande parte dos poluentes aquáticos pode
ser considerada da classe 1 (narcosis
apolares), a classe 2 (narcosis
polares) é mais tóxica e fazem parte dela fenóis,
anilinas e espécies polares similares.
Tem
sido mostrado que para ambas as classes a toxidez aquática,
medida
como LC50, pode
ser adequadamente modelada usando QSAR baseado em
log
Kow (Coeficiente de partição octanol/água).
Neste
trabalho o conjunto de dados consta de 172 compostos
diferentes,
sendo 50 narcosis apolares e 122 narcosis
polares. Desde que a diferença entre
as classes é a natureza polar da classe
2, ou mais especificamente a capacidade
de formar pontes de hidrogênio, os
descritores moleculares foram escolhidos de
maneira a incluir indicadores
quantitativos da capacidade das moléculas
de
formar pontes de hidrogênio. Os parâmetros
químicos quânticos utilizados foram:
energia de HOMO, energia de LUMO, eletronegatividade,
dureza, momento de
dipolo, polarizabilidade, área superficial molecular,
volume molecular, carga sobre
o hidrogênio mais positivo (Q+) e carga sobre o
átomo mais negativo (Q-)1.
O conjunto
de dados foi exaustivamente analisado. Para
construir um
modelo QSAR foram
utilizadas Redes Neurais (RN)
e Regressão por
Componentes Principais (PCR). Para classificação
quanto à classe de toxidez
relativa aos compostos foram utilizados métodos
de treinamento de RN, Vizinho
mais próximo (KNN), agrupamento
hierárquico de blocos (HCA), análise por
componentes principais (PCA) e SIMCA.
____________________
1Henk J.M. Verhaar; Eñaut Urrestarazu
Ramos; Joop I.M. Hermens; Journal of
Chemometrics, vol. 10, p. 149-162 (1996).
2. Métodos
Para
obter uma RN quantitativa foi obtida utilizado o programa PSDD2.
A
rede foi treinada com 11 neurônios na primeira
camada, 24 neurônios na segunda,
e apenas um na terceira
Para
PCR foi utilizado o programa
MATLABTM3. Os dados
foram
autoescalados para PCR com o método de validação
cruzada "deixe um de fora".
O número de PCs considerado foi 7 para realização
do modelo final.
Para
reproduzir os padrões de toxidez em relação às
classes de narcosis foi
treinada um rede no PSDD com 2 neurônios
na terceira camada, 24 na segunda
camada, e 11 na primeira.
A análise
exploratória dos dados por PCA, KNN, HCA e SIMCA
foram
obtidas com o programa PIROUETTETM.
3. Resultados e Conclusões
O modelo
de classificação com RN foi capaz de classificar
corretamente
98,8% dos compostos em um dos dois grupos
possíveis no teste de validação
cruzada. Os demais modelos de classificação
não tiveram resultados tão bons.
O modelo
obtido com Rede Neural quantitativa ajustou e previu melhor os
resultados que o modelo PCR obtidos para estes dados.
Os resultados do modelo
PCR foram bons, porém inferiores aos já
publicados anteriormente com modelo
PLS.
Os
resultados obtidos com os diferentes métodos
de regressão foram
comparados com os
publicados anteriormente através do
coeficiente de
correlação, obtido na regressão
linear entre os valores experimentais e os valores
previstos pelos modelos. Estes valores são mostrados
na Tabela 1.
________________________________________________________________
Tabela 1: Valores de parâmetros para comparação
entre os modelos testados
________________________________________________________________
Modelo Q2 Desvio estimado
RN 0,957 0,367
PLS-4VLs
0,920
0,343
________________________________________________________________
O modelo
com treinamento de Rede Neural tem um desempenho superior,
com um custo computacional muitas vezes
superior. No entanto, o tempo de
processamento necessário ao
treinamento de uma Rede Neural é viável
em
computadores tipo PC, não constituindo este um
limitante para sua utilização.
FAPESP,
CNPq
____________________
2Ichikawa, H.; "QCPE 615. PSDD: Perceptron-type
Neural Network Simulator";
Hoshi College of Pharmacy, 2-4-41 Ebara, Shinagawa, Tokyo
142, Japan.
3Wise, B.M.; Gallagher, N.B.;
"PLS_Toolbox Version 1.5"; Eigenvector
Technologies
MD-029
QSAR
STUDY OF ACTUE AND BASAL TOXICITY IN AQUATIC
POLLUTANTS
BY MULTIVARIATE REGRESSION
METHODOLOGY
Edilson
Grünheidt Borges (PG), Silvia L. F. Silva (PG), Márcia M. C.
Ferreira (PQ).
Dep.
Físico Química, Instituto de Química-UNICAMP
Key-words:
aquatic toxicity, neural network, semi-empirical methods
1. Introduction
Many
methods for estimation of the effect of pollutants in environment
are
examples of QSAR (Quantitative Structure-Activity
Relationships) applications.
These QSAR models are based on statistical
correlations between the pollutant
concentration effects (activity) of a set
of compounds and one or more physico-
chemical or structural (structure)
descriptors of these compounds. To build a
reliable QSAR model, it is necessary that
the studied compounds have the same
or at least similar mode of action.
In general,
aquatic toxicity studies two large groups of pollutants that
have
similar mode of action: polar
narcosis and non-polar narcosis. Many aquatic
pollutants can be considered
to belong to class 1 (non-polar narcosis),
whilst
class 2 (polar narcosis) is more toxic
and includes phenols, anilines and similar
polar species.
It has
been shown that measurements as LC50
for the both classes of
aquatic toxicity can be
successfully modeled by QSAR based
on logKow
(octanol/water partition coefficient).
The
data set in this work consists of 172 compounds, from which
50 are
non-polar and 122 are polar narcosis.
Since the difference between the two
classes is the polar character
of the class 2 i.e. hydrogen bonding
capacity,
molecular descriptors were selected
in sucha way to include quantitative indices
that described the hydrogen bonding
power of the molecules. The quantum
chemical parameters were: HOMO
energy, LUMO energy, electronegativity,
hardness, dipole moment,
polarizability, molecular surface area,
molecular
volume, the most positive hydrogen charge
(Q+) and the most negative atomic
charge (Q-)1.
The
data set was analyzed extensively.
Neural Networks (NN) and
Principal Component Regression (PCR) were
used to construct QSAR models.
NN training methods, K-th
Nearest Neighbor (KNN), Hierarchical
Cluster
Analysis (HCA) and SIMCA were
the methods used for classification of the
compounds with respect to toxicity classes.
____________________
1Henk J.M. Verhaar; Eñaut Urrestarazu
Ramos; Joop I.M. Hermens; Journal of
Chemometrics, vol. 10, p. 149-162 (1996).
2. Methods
PSDD
program2 was used to obtained quantitative
NN. The network was
trained with 11 neurons in the first layer, 24 in the
second and only one in the third
layer.
MATLABTM3
was used for PCR. The data were autoscaled for this purpose
and leave-one-out cross-validation was applied. The number
of used PCs was 7 in
the construction of the final model.
To reproduce
the toxicity standards related to the narcosis classes, a network
with 2 neurons in the third layer, 24 in
the second and 11 in the third layer, was
trained in the PSDD.
Exploratory
data analysis using PCA, KNN, HCA and SIMCA was carried
out by the program PIROUETTETM.
3. Results and Conclusions
The
classification model with NN was able to
classify correctly 98.8%
compounds in one from two possible groups in the cross-validation
test. The other
classification models did not produce so good results.
The
model obtained by quantitative Neural Network had
better fitting and
prediction than that on from the PCR
model for the same data set. The results
of the PCR model were good, but still inferior
to those in the literature as obtained
by a PLS model.
The
results obtained by different regression methods were
compared with
the published ones in terms of correlation coefficient
related to the linear regression
between the experimental and predicted values. These
values are shown in Table 1.
________________________________________________________________
Table 1: Values of the parameters for comparison
of the tested models
________________________________________________________________
Model Q2 Standard deviation
RN 0.957 0.367
PLS-4VLs
0.920
0.343
________________________________________________________________
The
model with Neural Network training has the best predictability,
with
much higher computational costs.
However, the time that is necessary
for
training of a Neural Network can
be realized in current PC computers,
not
making the time as a limiting factor for the training.
FAPESP,
CNPq
____________________
2Ichikawa, H.; "QCPE 615. PSDD: Perceptron-type
Neural Network Simulator";
Hoshi College of Pharmacy, 2-4-41 Ebara, Shinagawa, Tokyo
142, Japan.
3Wise, B.M.; Gallagher, N.B.;
"PLS_Toolbox Version 1.5"; Eigenvector
Technologies