Separação de estrelas-galáxias usando algoritmos de machine learning aplicados aos dados preliminares do survey MINIJPAS.
Nome: PEDRO OTAVIO SOUZA BAQUI
Tipo: Tese de doutorado
Data de publicação: 08/05/2020
Orientador:
Nome | Papel |
---|---|
VALERIO MARRA | Orientador |
Banca:
Nome | Papel |
---|---|
DAVI CABRAL RODRIGUES | Examinador Interno |
JÚLIO CÉSAR FABRIS | Examinador Interno |
LUCIANO CASARINI | Coorientador |
LUIS RAUL WEBER ABRAMO | Examinador Externo |
MIGUEL BOAVISTA QUARTIN | Examinador Externo |
Páginas
Resumo: Futuros levantamentos em astronomia/astrofísicas como o J-PAS, SDSS e LSST produzirão conjuntos de dados enormes chegando à uma taxa de 150 TB por dia. Portanto, novas ferramentas para processamento dessa quantidade de dados devem ser empregadas. De preferência que nos forneçam uma resposta quase que em tempo real, de forma eficiente e
precisa. Cenário ideal para a aplicação de métodos de Machine Learning. Neste trabalho, analisamos dados do Pathfinder miniJPAS Survey, que observou ~1deg2 sobre o campo AEGIS com 56 filtros de banda estreita e 4 filtros de banda larga ugri. Aqui, discutiremos a classificação de fontes observadas pelo miniJPAS em objetos compactos e estendidos,
uma etapa necessária para os estudos científicos subsequentes. Assumimos em primeira aproximação estrelas como objetos compactos e galáxias com o extendidos. Nosso objetivo é desenvolver um classificador de Machine Learning(ML) complementar às ferramentas tradicionais baseadas em outras modelagem. Em particular, nosso objetivo é construir um catálogo de valor agregado com nossas melhores classificações. Para treinar e testar nossos classificadores, cruzamos o conjunto de dados do miniJPAS com os dados SDSS e HSC-SSP, cuja classificação assumimos confiável dentro dos intervalos 15 < r < 21 e 18:5 < r < 23:5, respectivamente. Treinamos e testamos 6 algoritmos de ML diferentes nos dois catálogos com correspondência cruzada: K-Vizinhos mais Próximos (KNN), Árvores de Decisão (DT), Floresta Aleatória (RF), Redes Neurais Artificiais (ANN), Árvores Extremamente Randomizadas (ERT) e Ensemble Learning (Ensemble). Como entrada para os algoritmos ML, usamos 60 magnitudes associadas a cada banda fotométrica, com e sem os parâmetros morfológicos. Concluímos que, de acordo com a classificação SDSS, o algoritmo Ensemble apresenta melhor desempenho, obtendo AUC = 0:9992 (área sob a curva ROC) e MSE = 0:009 (erro quadrático médio). Ao se trabalhar com magnitudes mais fracas usando a classificação de HSC-SSP, o algoritmo Ensemble alcança o melhor desempenho, obtendo AUC = 0:9744 e MSE = 0:0370. Os últimos resultados são obtidos usando bandas fotométricas juntamente a parâmetros morfológicos. Os algoritmos de ML podem competir com classificadores tradicionais de estrela-galáxia, potencialmente superando o último em magnitudes mais fracas (r ≥󠄀 21). Por fim construímos um catálogo para a faixa 15 ≤ r ≤ 23:5 utilizando máquinas treinadas a partir da fusão de rótulos entre os surveys SDSS e HSC-SSP.