Visual Question Answering using Deep Learning

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Université de bouira AKLI MOHAND OULHADJ

Abstract

Le Visual Question Answering (VQA) dans le domaine de l’intelligence artificielle (IA) intègre la vision par ordinateur et le traitement du langage naturel pour développer des systèmes capables de répondre à des questions basées sur du contenu visuel. Les pro grès rapides de la recherche en IA ont considérablement élargi la complexité et la variété des données disponibles pour l’entraînement des modèles VQA. Ce volume croissant de données visuelles et la nature diverse des questions posées nécessitent des techniques so phistiquées pour atteindre des performances élevées. Les systèmes VQA ont un potentiel immense dans les applications réelles telles que l’assistance aux personnes malvoyantes, l’amélioration de l’interaction homme-machine et l’amélioration du support client au tomatisé. Cependant, développer des systèmes VQA efficaces reste un défi en raison de la nécessité d’une compréhension et d’une intégration précises des informations vi suelles et textuelles. Les architectures basées sur les transformateurs, avec leurs mécan ismes d’attention, ont révolutionné le traitement du langage naturel et font désormais des avancées significatives dans la vision par ordinateur. Ces modèles excellent à capturer les dépendances et les relations au sein des données, ce qui les rend bien adaptés aux tâches nécessitant une compréhension des images et du texte.

Description

Keywords

Citation

SCIENCE EXACTE

Collections

Endorsement

Review

Supplemented By

Referenced By