
那么,機(jī)器是否也能夠像人類一樣,同時(shí)處理和學(xué)習(xí)多種模態(tài)的信息呢?這就是多模態(tài)人工智能(multimodal AI)的研究目標(biāo)。多模態(tài)人工智能是人工智能的一個(gè)子領(lǐng)域,它旨在開發(fā)能夠同時(shí)處理和學(xué)習(xí)圖像、文本、音頻等多種模態(tài)數(shù)據(jù)的模型。多模態(tài)人工智能有助于提升機(jī)器對(duì)人類世界的理解和生成能力,從而實(shí)現(xiàn)更自然、更流暢、更高效的人機(jī)交互。
多模態(tài)人工智能的核心技術(shù)之一是多模態(tài)預(yù)訓(xùn)練大模型(multimodal pre-trained large model)。這種模型利用海量的無(wú)標(biāo)注或弱標(biāo)注數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),從而學(xué)習(xí)到不同模態(tài)數(shù)據(jù)之間的共性和關(guān)聯(lián)性,并形成一個(gè)統(tǒng)一的知識(shí)表示空間。在這個(gè)空間中,不同模態(tài)的數(shù)據(jù)可以相互轉(zhuǎn)換和生成,比如從圖像生成文本描述,或者從文本生成語(yǔ)音播報(bào)。這種模型可以有效地降低對(duì)數(shù)據(jù)標(biāo)注的依賴性,同時(shí)提高對(duì)不同場(chǎng)景和任務(wù)的泛化性。
近年來(lái),隨著計(jì)算資源和數(shù)據(jù)規(guī)模的增長(zhǎng),多模態(tài)預(yù)訓(xùn)練大模型取得了令人矚目的進(jìn)展。國(guó)內(nèi)外的研究機(jī)構(gòu)和企業(yè)紛紛推出了各自的多模態(tài)大模型,并在各種應(yīng)用場(chǎng)景中展示了其強(qiáng)大的性能和潛力。例如:
中國(guó)科學(xué)院自動(dòng)化研究所發(fā)布了“紫東太初”跨模態(tài)通用人工智能平臺(tái)1,該平臺(tái)以三模態(tài)(視覺-文本-語(yǔ)音)預(yù)訓(xùn)練大模型為核心,可支撐全場(chǎng)景AI應(yīng)用。該平臺(tái)首次實(shí)現(xiàn)了“以圖生音”和“以音生圖”的功能,對(duì)視頻配音、語(yǔ)音播報(bào)、標(biāo)題摘要、海報(bào)創(chuàng)作等多元媒體業(yè)務(wù)場(chǎng)景提供了技術(shù)支撐。
阿里達(dá)摩院發(fā)布了萬(wàn)億參數(shù)AI大模型M62,該模型是國(guó)內(nèi)首個(gè)實(shí)現(xiàn)商業(yè)化落地的多模態(tài)大模型。M6已經(jīng)作為AI助理設(shè)計(jì)師正式上崗阿里新制造平臺(tái)犀牛智造2,通過結(jié)合潮流趨勢(shì)進(jìn)行快速設(shè)計(jì)、試穿效果模擬,有望大幅縮短快時(shí)尚新款服飾設(shè)計(jì)周期。
谷歌推出了CLIP和DALL-E兩個(gè)多模態(tài)大模型,分別實(shí)現(xiàn)了從圖像到文本和從文本到圖像的轉(zhuǎn)換和生成。CLIP可以根據(jù)文本提示從海量圖像中檢索出最相關(guān)的圖像,或者給出圖像的文本描述。DALL-E可以根據(jù)任意的文本輸入生成逼真的圖像,甚至可以創(chuàng)造出一些不存在的事物,比如“一個(gè)穿著西裝的鱷梨”或者“一個(gè)長(zhǎng)著貓耳朵的蛋糕”。
這些多模態(tài)大模型不僅展示了機(jī)器對(duì)多種模態(tài)數(shù)據(jù)的理解和生成能力,也體現(xiàn)了機(jī)器具有一定的認(rèn)知和創(chuàng)造能力。這些能力是通向通用人工智能(AGI)的重要步驟,也是人工智能領(lǐng)域的前沿探索。多模態(tài)人工智能的未來(lái)必將風(fēng)光無(wú)限,讓我們拭目以待!