Visual Question Answering using Deep Learning
Loading...
Files
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université de bouira AKLI MOHAND OULHADJ
Abstract
Le Visual Question Answering (VQA) dans le domaine de l’intelligence artificielle (IA)
intègre la vision par ordinateur et le traitement du langage naturel pour développer des
systèmes capables de répondre à des questions basées sur du contenu visuel. Les pro
grès rapides de la recherche en IA ont considérablement élargi la complexité et la variété
des données disponibles pour l’entraînement des modèles VQA. Ce volume croissant de
données visuelles et la nature diverse des questions posées nécessitent des techniques so
phistiquées pour atteindre des performances élevées. Les systèmes VQA ont un potentiel
immense dans les applications réelles telles que l’assistance aux personnes malvoyantes,
l’amélioration de l’interaction homme-machine et l’amélioration du support client au
tomatisé. Cependant, développer des systèmes VQA efficaces reste un défi en raison
de la nécessité d’une compréhension et d’une intégration précises des informations vi
suelles et textuelles. Les architectures basées sur les transformateurs, avec leurs mécan
ismes d’attention, ont révolutionné le traitement du langage naturel et font désormais des
avancées significatives dans la vision par ordinateur. Ces modèles excellent à capturer les
dépendances et les relations au sein des données, ce qui les rend bien adaptés aux tâches
nécessitant une compréhension des images et du texte.
Description
Keywords
Citation
SCIENCE EXACTE