Classificação espectral de PAHs via deep learning informado pela física.
Nome: GEOVANI VICTOR SOARES DA SILVA
Data de publicação: 19/03/2026
Resumo: A identificação de Hidrocarbonetos Policíclicos Aromáticos (PAHs) em ambientes astrofísicos depende da comparação entre espectros teóricos calculados por Teoria do Funcional da Densidade (DFT) e observações experimentais no infravermelho. Contudo, a aproximação harmônica empregada nos cálculos DFT negligencia efeitos anarmônicos, como deslocamentos
não uniformes de frequência, Ressonâncias de Fermi e bandas de combinação, gerando um deslocamento de domínio que compromete a generalização de modelos de aprendizado profundo treinados exclusivamente em dados teóricos. Esta dissertação propõe e valida uma estratégia de Aumento de Dados Guiado por Espectroscopia (SGDA), baseada na simulação estocástica de artefatos físicos, para superar essa limitação sem a necessidade de cálculos anarmônicos custosos. A metodologia fundamenta-se em três pilares: (i) a otimização da resolução espectral, fixada em uma Largura à Meia Altura (FWHM) de 6,0 cm1, que maximiza a separabilidade geométrica entre classes químicas; (ii) um fluxo de transformações informadas pela física, incluindo distorção elástica do eixo de frequência, inserção de picos sintéticos e mascaramento de bandas, formalizado algoritmicamente para garantir reprodutibilidade; e (iii) uma Rede Neural Convolucional Unidimensional (1D-CNN) baseada na arquitetura Inception, adaptada para a extração multiescala de características espectrais. O modelo foi treinado em 10.775 espectros teóricos da NASA
Ames PAH IR Spectroscopic Database (PAHdb) e avaliado em 84 espectros experimentais de isolamento em matriz. A estratégia Informada pela Física alcançou um F1-Score ponderado de 0,826 no conjunto de teste experimental, superando significativamente a linha de base harmônica (0,567) e a abordagem de aumento linear de Bjerrum (0,558). Análises de
interpretabilidade via Grad-CAM demonstraram que a rede baseia suas decisões em regiões espectrais quimicamente coerentes: os ombros da banda de estiramento C–H ( 3050 cm1) para PAHs neutros, os modos de deformação do esqueleto (1100–1600 cm1) para PANHs e a supressão de sinal em altas frequências (> 1700 cm1) para espécies iônicas. A análise via t-SNE confirmou que o modelo reduz a distância entre os domínios teórico e experimental no espaço latente, com reduções de até 36% na distância de centroide para a classe PAH Cátion. Os resultados validam a hipótese de que a incorporação de conhecimento físico
no treinamento de redes neurais constitui uma estratégia eficaz de adaptação de domínio para a espectroscopia computacional, abrindo perspectivas para a análise automatizada de dados observacionais do Telescópio Espacial James Webb (JWST).
