Multimodal Learning atau Pembelajaran Multimodal berkaitan dengan kombinasi kelima indra kita, seperti pendengaran, penglihatan, penciuman, rasa dan sentuhan pada saat yang bersamaan. Pembelajaran Multimodal sendiri bertujuan untuk menerapkan gagasan penggunaan data yang berbeda secara bersamaan ke bidang AI.
Gambar merupakan sumber informasi visual yang penting dalam Pembelajaran Multimodal. Video juga menjadi sumber data multimodal yang kuat, di mana menggabungkan informasi visual dan audio. Perpaduan modalitas visual dan audio ini memungkinkan mesin memahami pemandangan dan peristiwa dengan lebih baik.
Pembelajaran Multimodal diterapkan dalam banyak cara dan beragam di banyak bidang kecerdasan buatan. Salah satu kasus penggunaan utama adalah pengenalan dan pemahaman adegan. Dengan menggabungkan informasi visual, audio, dan video, analisis dan interpretasi pemandangan kompleks dapat dilakukan dengan lebih presisi dan detail. Contohnya seperti mendeteksi dan melacak objek bergerak dalam video, seperti orang dalam rekaman CCTV. Kombinasi informasi visual dan audio membantu mendeteksi secara otomatis kejadian mencurigakan seperti perilaku agresif, intrusi, atau situasi darurat pada gambar kamera keamanan.
Bidang penerapan Pembelajaran Multimodal lainnya adalah penerjemahan. Secara khusus, pendekatan ini memungkinkan ucapan dan gambar diterjemahkan secara bersamaan selama presentasi lisan disertai dengan slide visual. Hal tersebut memfasilitasi pemahaman untuk audiens multibahasa. Ada juga generator teks untuk gambar berdasarkan Pembelajaran Multimodal, di mana hal ini sangat berguna bagi orang-orang dengan gangguan penglihatan atau untuk mengotomatisasi proses subtitle. Berkat antarmuka percakapan berdasarkan Pembelajaran Multimodal, asisten virtual dapat berinteraksi dengan pengguna menggunakan suara, teks, dan gambar.