您当前的位置：首页 >> 家居资讯

【ModelScope】5分钟让你在火灾的多模态领域权威榜单VQA上超越人类

2024-02-03 12:18:48

ALLE和扩散假设开始如火如荼根据注释转化成各种打算象的图表，小编就打算对于这些转化成出来的图表，听觉却说答假设mPLUG还可以正确却说吗？但会不但会因为不了听过类似的样本就不了有切实却说呀？

小编先尝试了对大名鼎鼎的DALLE转化成的图片进行却说答，DALLE是OpenAI不放出的注释转化成图片假设，取名DALL-E，是为了向艺术家萨尔瓦多-达利（Salvador Dali ）和梦工厂的机器人WALL-E致敬。测试者在此之后，回事请注意的结果，连艺术家dali都能比对出来，不愧是见多识广，知识也太渊博了！

###

from modelscope.msdatasets import MsDataset

# from icecream import ic

dataset = MsDataset.load('vqa_trial', subset_name='vqa_trial', split="test")

print(dataset[0])

def resize_img(img):

# set the base width of the result

basewidth = 300

# determining the height ratio

wpercent = (basewidth/float(img.size[0]))

hsize = int((float(img.size[1])*float(wpercent)))

# resize image and se

img = img.resize((basewidth,hsize), Image.ANTIALIAS)

return img

resize_img(dataset[0]['image']).show()

###

from PIL import Image

from modelscope.pipelines import pipeline

from modelscope.utils.constant import Tasks

model_id = 'damo/mplug_visual-question-answering_coco_large_en'

pipeline_vqa = pipeline(Tasks.visual_question_answering, model=model_id)

for item in dataset:

input_vqa = {

'image': item['image'],

'question': item['question'],

}

answer = pipeline_vqa(input_vqa)

resize_img(item['image']).show()

print('Q: ' + item['question'])

print('A: ' + answer['text'])

同时小编也拿了ModelScope上的文生图假设进行测试者，测试者结果如下：

可以看到听觉却说答假设mPLUG具有非常超强强的角度看潜能，针对各种转化成的图表，各个多种不同领域的来源，都能却说正确。这就是基础训练了千万次，解读了听觉特征在此之后，达到了“无招胜有招”，实际测试者中就可以融但会贯通!

结语

到这里就结束了，赶紧上ModelScope一键互动超强人类文明的听觉却说答假设，一键直达：_visual-question-answering_coco_large_en/summary 。

原文链接：

本文为阿里云原创内容，擅自允许不得登出。

。

胃酸过多怎么缓解
抗病毒治疗
妈咪爱与肠炎宁颗粒的区别
感冒喉咙发炎吃什么药消炎有效果
拉肚子吃什么东西能止泻

上一篇： 11年底LPR利率“按兵不动”符合市场预期，降息降准或仍有可能

下一篇：中国央企军工大省，浙江4大军工郊区，除了杭州宁波嘉兴还有谁？