47.

Borges E. G., Silva S. L. F., Ferreira M. M. C., "Estudo QSAR da Toxidez Basal e Aguda em Poluentes Aquáticos com Metodologia de Regressão Multivariada" ["QSAR Study of Basal and Acute Toxicity in Aquatic Pollutants By Multivariate Regression Methodology"]. Poços de Caldas, MG, 25-28/05/1999: 22a Reunião Anual da Sociedade Brasileira de Química: O Papel da Química na Solução dos Problemas Brasileiro [22nd Annual Meeting of the Brazilian Chemical Society - The Role of Chemistry in Solving Brazilian Problems], Livro de Resumos [Book of Abstracts], 1 (1999) MD-029. Poster MD-029.



Português

MD-029

ESTUDO QSAR DA TOXIDEZ BASAL E AGUDA EM POLUENTES
AQUATIOCOS COM METODOLOGIA DE REGRESSÃO
MULTIVARIADA
 
 

Edilson Grünheidt Borges (PG), Silvia L. F. Silva (PG), Márcia M. C. Ferreira (PQ).
Dep. Físico Química, Instituto de Química-UNICAMP
Palavras-chave: toxidez aquática, rede neural, métodos semi-empíricos
 

1. Introdução

         Muitos dos métodos para estimativa do efeito de concentração de poluentes
no meio ambiente são exemplos de aplicações  de QSAR  (Relações  Quantitativas
de  Estrutura-Atividade).    Estes    modelos   de   QSAR   fornecem   correlações
estatísticas   entre  o  efeito  de  concentração  (atividade)   de   um   conjunto  de
compostos e um ou  mais  descritores  físico-químicos  ou  estruturais  (estrutura)
destes compostos.   Para que um modelo de  QSAR  seja  válido é necessário que
os  compostos  considerados  tenham  um  modo  de  ação  comum  ou ao menos
similar.
         Em geral  a toxicologia aquática considera dois grandes grupos de poluentes
que possuem  modos  de  ação  similares:   narcosis  polares  e  narcosis  apolares,
Grande parte dos poluentes aquáticos pode  ser considerada da classe 1  (narcosis
apolares),   a classe 2  (narcosis  polares)  é mais tóxica e fazem parte  dela fenóis,
anilinas  e espécies polares  similares.
         Tem sido mostrado que para ambas as classes  a  toxidez aquática,  medida
como LC50,  pode ser adequadamente modelada usando  QSAR  baseado  em  log
Kow (Coeficiente de partição octanol/água).
         Neste trabalho o conjunto de dados  consta  de  172  compostos  diferentes,
sendo 50 narcosis apolares e  122  narcosis polares.   Desde que a diferença entre
as classes  é  a natureza polar da classe 2,  ou mais especificamente  a capacidade
de formar pontes de hidrogênio,  os  descritores moleculares foram escolhidos  de
maneira  a   incluir   indicadores  quantitativos  da  capacidade  das  moléculas  de
formar pontes de hidrogênio. Os parâmetros químicos quânticos utilizados  foram:
energia de HOMO,  energia de LUMO,  eletronegatividade,  dureza, momento de
dipolo, polarizabilidade, área superficial molecular, volume molecular, carga sobre
o hidrogênio mais positivo (Q+) e carga sobre o átomo mais negativo (Q-)1.
         O conjunto  de  dados  foi  exaustivamente  analisado.  Para  construir  um
modelo   QSAR   foram    utilizadas   Redes  Neurais   (RN)   e   Regressão   por
Componentes Principais (PCR).  Para  classificação quanto  à  classe  de  toxidez
relativa  aos compostos foram utilizados métodos de treinamento de RN,  Vizinho
mais próximo  (KNN),  agrupamento  hierárquico de blocos  (HCA),  análise  por
componentes principais (PCA) e SIMCA.

____________________
1Henk J.M. Verhaar; Eñaut Urrestarazu Ramos; Joop I.M. Hermens; Journal of
Chemometrics, vol. 10, p. 149-162 (1996).
 
 

2. Métodos

         Para obter uma RN quantitativa foi obtida utilizado o programa  PSDD2. A
rede foi treinada com 11 neurônios na primeira camada, 24 neurônios na segunda,
e apenas um na terceira
         Para  PCR  foi  utilizado  o   programa   MATLABTM3.   Os  dados  foram
autoescalados para PCR com o método de validação cruzada "deixe um de fora".
O número de PCs considerado foi 7 para realização do modelo final.
         Para reproduzir os padrões de toxidez em relação às classes de narcosis foi
treinada um rede no  PSDD com 2 neurônios na terceira camada,  24 na segunda
camada, e 11 na primeira.
         A análise exploratória dos dados por PCA, KNN,  HCA  e  SIMCA  foram
obtidas com o programa PIROUETTETM.
 
 

3. Resultados e Conclusões

         O modelo de classificação com  RN  foi capaz de  classificar  corretamente
98,8% dos compostos em um dos dois  grupos  possíveis  no  teste  de  validação
cruzada. Os demais modelos de classificação não tiveram resultados tão bons.
         O modelo obtido com  Rede Neural quantitativa ajustou e previu melhor os
resultados que o modelo PCR obtidos para estes dados.  Os resultados do modelo
PCR foram bons,  porém inferiores aos já  publicados anteriormente com modelo
PLS.
         Os  resultados  obtidos  com  os  diferentes  métodos  de  regressão  foram
comparados   com   os   publicados  anteriormente   através   do   coeficiente   de
correlação,  obtido na regressão linear entre os valores experimentais e os valores
previstos pelos modelos. Estes valores são mostrados na Tabela 1.

________________________________________________________________

Tabela 1: Valores de parâmetros para comparação entre os modelos testados
________________________________________________________________

Modelo                         Q2                                  Desvio estimado

RN                               0,957                              0,367

PLS-4VLs                     0,920                              0,343
________________________________________________________________
 

         O modelo com treinamento de Rede Neural tem um desempenho superior,
com um custo computacional  muitas  vezes  superior.  No entanto,  o  tempo de
processamento  necessário  ao  treinamento  de  uma  Rede Neural  é  viável  em
computadores tipo PC, não constituindo este um limitante para sua utilização.

FAPESP, CNPq
 
 
 

____________________
2Ichikawa, H.; "QCPE 615. PSDD: Perceptron-type Neural Network Simulator";
Hoshi College of Pharmacy, 2-4-41 Ebara, Shinagawa, Tokyo 142, Japan.
3Wise, B.M.;  Gallagher,  N.B.;  "PLS_Toolbox  Version  1.5";   Eigenvector
Technologies



English

MD-029

QSAR STUDY OF ACTUE AND BASAL TOXICITY IN AQUATIC
POLLUTANTS BY MULTIVARIATE REGRESSION
METHODOLOGY
 
 

Edilson Grünheidt Borges (PG), Silvia L. F. Silva (PG), Márcia M. C. Ferreira (PQ).
Dep. Físico Química, Instituto de Química-UNICAMP
Key-words: aquatic toxicity, neural network, semi-empirical methods
 

1. Introduction

         Many methods for estimation of the effect of pollutants in environment  are
examples  of  QSAR  (Quantitative Structure-Activity  Relationships)  applications.
These  QSAR  models are based  on statistical correlations between  the  pollutant
concentration effects  (activity)  of a set of  compounds and one or more  physico-
chemical  or  structural  (structure)  descriptors of  these compounds.  To  build  a
reliable QSAR model,  it is necessary  that the studied  compounds  have the same
or at least similar mode of action.
         In general,  aquatic toxicity studies two large groups  of  pollutants that have
similar  mode  of  action:  polar  narcosis  and  non-polar  narcosis.  Many  aquatic
pollutants  can  be  considered  to  belong to  class  1  (non-polar  narcosis), whilst
class 2  (polar narcosis)  is  more toxic and includes phenols,  anilines  and  similar
polar species.
         It has been shown  that  measurements  as  LC50  for  the  both  classes  of
aquatic   toxicity   can  be successfully  modeled   by  QSAR  based  on  logKow
(octanol/water partition coefficient).
         The data set in this work consists of 172  compounds,  from which  50  are
non-polar and 122  are  polar  narcosis.   Since  the  difference  between  the  two
classes  is  the  polar  character  of  the  class  2  i.e.  hydrogen  bonding  capacity,
molecular descriptors  were  selected  in  sucha way to include quantitative indices
that  described  the  hydrogen  bonding  power  of  the  molecules.  The  quantum
chemical  parameters  were:  HOMO  energy,  LUMO  energy,   electronegativity,
hardness,   dipole  moment,   polarizability,   molecular  surface  area,   molecular
volume,  the most positive hydrogen charge  (Q+)  and  the  most negative atomic
charge  (Q-)1.
         The  data  set   was   analyzed   extensively.  Neural  Networks  (NN)  and
Principal Component Regression  (PCR)  were  used to construct  QSAR  models.
NN  training methods,   K-th   Nearest  Neighbor  (KNN),   Hierarchical   Cluster
Analysis  (HCA)  and  SIMCA  were the methods used  for  classification  of  the
compounds with respect to toxicity classes.

____________________
1Henk J.M. Verhaar; Eñaut Urrestarazu Ramos; Joop I.M. Hermens; Journal of
Chemometrics, vol. 10, p. 149-162 (1996).
 
 

2. Methods

         PSDD program2 was used to  obtained quantitative  NN.  The   network  was
trained with 11 neurons in the first layer, 24 in the second and only one in  the third
layer.
         MATLABTM3 was used for PCR. The data were autoscaled for this  purpose
and leave-one-out cross-validation was applied. The number of  used PCs was 7  in
the construction of the final model.
         To reproduce the toxicity standards related to the narcosis classes, a network
with 2 neurons in the third layer,  24  in the second and  11  in the third layer,  was
trained in the PSDD.
         Exploratory data analysis using PCA, KNN, HCA and  SIMCA  was  carried
out by the program PIROUETTETM.
 
 

3. Results and Conclusions

         The  classification  model with  NN  was  able  to  classify  correctly  98.8%
compounds in one from two possible groups in the cross-validation test. The other
classification models did not produce so good results.
         The model obtained  by  quantitative  Neural Network  had better fitting and
prediction than that on from  the  PCR  model  for the same data set.   The  results
of the PCR model were good,  but still inferior to those in the literature as obtained
by a PLS model.
         The results  obtained  by different  regression methods were compared  with
the published ones in terms of correlation coefficient related to the linear regression
between the experimental and predicted values. These values are shown in Table 1.

________________________________________________________________

Table 1: Values of the parameters for comparison of the tested models
________________________________________________________________

Model                          Q2                                  Standard deviation

RN                               0.957                              0.367

PLS-4VLs                     0.920                              0.343
________________________________________________________________
 

         The  model with Neural Network training  has  the best predictability,  with
much  higher  computational costs.   However,   the  time  that  is  necessary  for
training  of  a  Neural Network can  be realized  in  current  PC  computers,   not
making the time as a limiting factor for the training.

FAPESP, CNPq
 
 
 

____________________
2Ichikawa, H.; "QCPE 615. PSDD: Perceptron-type Neural Network Simulator";
Hoshi College of Pharmacy, 2-4-41 Ebara, Shinagawa, Tokyo 142, Japan.
3Wise, B.M.;  Gallagher,  N.B.;  "PLS_Toolbox  Version  1.5";   Eigenvector
Technologies