Abstract:
Ce projet vise à développer un outil d'interprétation automatique des spectres infrarouges pour
diverses molécules organiques, traditionnellement analysées via des méthodes qui requièrent
une expertise significative. Une base de données comprenant les spectres infrarouges de 1540
molécules différentes a été utilisée. Ces données sont traitées via un script Python qui extrait
les informations pertinentes dans des fichiers Excel. Utilisant les notations SMILES et SMART,
le script génère un ensemble de données constitué de variables X, représentant les longueurs
d'onde et leur transmittances correspondants, et de variables Y, indiquant l'absence ou la
présence de fonctions chimiques spécifiques pour chaque molécule.
Un second script Python, exécuté dans Jupyter, a servi à développer un réseau de neurones
artificiels. Ce réseau traite les données préalablement collectées afin de créer un modèle capable
d'apprendre à partir de ces données et de généraliser à de nouvelles données non observées
auparavant. Les résultats obtenus incluent des tableaux de performances basés sur cinq critères,
le "rappel" étant jugé le plus crucial, ainsi que divers graphiques, tels que des courbes ROC et
des matrices de confusion.
L'analyse des résultats a permis d'évaluer les performances de 111 fonctions au total. Parmi
celles-ci, 49 fonctions ont démontré des performances très satisfaisantes. Plus précisément,
83,6% de ces fonctions ont obtenu une précision supérieure à 0,8 ce qui est considéré comme
excellent. Notamment, 31,7% d'entre elles ont même dépassé 0,9, De plus, 16,32% des
fonctions ont atteint une précision se situant entre 0,7 et 0,8, ce qui est jugé comme bon. En
basant sur ces dernier, l'interface du logiciel, ainsi que sa structure, ont été élaborées avec Visual
Studio 2019.
Le taux des fonctions bien appris par réseaux de neurones artificiels est considéré comme très
encourageant, les échecs restants étant principalement attribués au faible nombre de modalités
disponibles pour certaines fonctions. Aussi le logiciel InterSpec.Ai a été testé avec succès sur
des molécules non incluses dans le jeu de données initial
En conclusion, ce système, confirmant l'efficacité de l'outil développé pour faciliter
l'interprétation des spectres infrarouges, répondant ainsi pleinement à l'objectif initial du projet. This project aims to develop an automated tool for interpreting infrared spectra for various
organic molecules, traditionally analyzed using methods that require significant expertise. A
database containing the infrared spectra of 1540 different molecules was used. This data is
processed via a Python script that extracts the relevant information into Excel files. Using
SMILES and SMART notations, the script generates a dataset consisting of X variables,
representing the wavelengths and their corresponding transmittances, and Y variables,
indicating the absence or presence of specific chemical functions for each molecule.
A second Python script, executed in Jupyter, was used to develop an artificial neural network.
This network processes the previously collected data to create a model capable of learning from
this data and generalizing to new, previously unobserved data. The results obtained include
performance tables based on five criteria, with "recall" being deemed the most crucial, as well
as various graphs, such as ROC curves and confusion matrices.
The analysis of the results made it possible to evaluate the performances of 111 functions in
total. Among these, 49 functions demonstrated very satisfactory performances. More precisely,
83.6% of these functions obtained a precision greater than 0.8, which is considered excellent.
Notably, 31.7% of them even exceeded 0.9. Additionally, 16.32% of the functions achieved a
precision between 0.7 and 0.8, which is considered good. Based on these results, the software
interface and structure were developed using Visual Studio 2019.
The rate of functions well-learned by the ANN is considered very encouraging, with the
remaining failures mainly attributed to the low number of modalities available for certain
functions. The InterSpec.Ai software was also successfully tested on molecules not included in
the initial dataset.
In conclusion, this system, confirming the effectiveness of the developed tool for facilitating
the interpretation of infrared spectra, fully meets the initial objective of the project.