白癜风不能吃的食物 https://m.yiyuan.99.com.cn/bjzkbdfyy/a/265494/6氪获悉,「Tiamat」已于日前完成近千万美元A轮融资,由老股东DCM和绿洲资本联合领投,远识资本担任独家财务顾问。本轮融资额将用于继续打磨产品和自研大模型,拓展商业化能力等。数月前,「Tiamat」已经获得由DCM独家领投的数百万美元天使轮融资。
6氪曾报道过的「Tiamat」是一家国内AI图像生成技术服务商,成立于年。其自研的MorpherVLM是国内首个基于概念融合范式提出的近百亿级跨模态生成模型,通过异构的视觉编码-解码网络结构,并引入基于用户反馈的强化学习(RLHF)和细粒度的提示-隐变量对齐技术,提高了模型对图像多尺度信息的建模能力,在用户Prompt输入的理解能力方面也实现了进步。
图片来源:Tiamat
去年夏天,AIArt一跃成为了热度最高的新兴技术,在设计、绘画等专业化领域的影响力不亚于如今ChatGPT带来的全民狂欢。
AIGC的结构性机会下,“不追逐风口,但等到了风口”是技术型创业者和资本最愿意看到的拥抱创新的方式。而在时间差方面,「Tiamat」从年开始进行模型训练,以自研并自主训练底层模型的方式,始终与海外技术节点、开源社区等保持着同频。
“我们拼命地想告诉大家,这件事情很快就会成为风口。”
「Tiamat」创始人青柑告诉6氪,去年上半年融资的时候,他们还需要花很多精力去教育市场,解释什么是AI生成,什么是多模态,为什么要做图像。彼时,距离StableDiffusion、MidJourney这些引领着行业革新的产品上线还有几个月左右的时间。
而作为国内AI生成图像领域的第一批团队,「Tiamat」如今也成为了为数不多成功融资并实现了商业化的技术服务商。
为此,6氪对话了「Tiamat」创始人青柑和联合创始人Eric,从「Tiamat」自研大模型和商业化的阶段性成果出发,探讨AIGC未来在国内市场的应用可行性。
6氪:从大模型出发,AI绘画和以ChatGPT为代表的对话式AI有哪些差异?
青柑:AIGC中的不同赛道其实会有很多细节上的差异。首先,是这些模型涉及的是单一模态还是多模态。我们的模型打通的是多个模态,体现在用户可以用文本去指导生成的图像,或者也可以用一张草图得到新的生成结果。而ChatGPT作为聚焦在文本领域的理解和生成模型,它只有文字这一个模态。但与此同时,它的参数非常多,需要花大量的时间和数据去清洗有害信息,所以实际上花费的时间精力和算力是远大于我们AIArt领域的。从一个比较直观的感受切入,如果文本出现了一些逻辑上的错误或对话上的失真,用户可以很快地感受到,而不像对于图片的细微瑕疵可能会有更好的包容度。
我们现在正在做的「Tiamat」文本到图像模型,大概是数十亿参数,这个量级实际上要比ChatGPT文本模型的参数量要低将近倍左右。换算成他们当年发展的话,大概是在GPT1-2之间。所以,虽然都叫大模型,其实数据和参数量级还是有很大区别的。在此基础上,对于我们来说,不停地把模型的参数量级进行扩张并不是最重要的指标。
Eric:除了模态和输入种类上的区别之外,生成的任务是另一个可供参考的维度。我们在谈论AI的时候其实有很多解释空间,比如人脸识别、大数据文本分析等,他们更多地在于理解数据。但回归到AIGC领域,更多的则是在理解的基础上生成。ChatGPT首先能够做到很好地理解你的输入内容,并调用潜藏在自己参数里的知识,对人类的输入作出反应。在这一方面我们可以与ChatGPT做一个类比。我们会用多个不同的网络把用户的输入放到一个对AI来说比较自然的空间里,再从这个空间中去找到合适的解答。这与以往生成理解类的AI是不太一样的。
图片来源:Tiamat
6氪:那么对于AI生成图像来说,更重要的指标有哪些?
青柑:更重要的指标在于能不能在垂直领域有更好的精准性和可控性,能不能更好地让图像展现出人类理想的构图、或者一致性的角色等等。除此之外,我们自研的考虑也来自如何能让研发的成本结构更加精益和可控。从这一点来说,创业公司也会有更多机会。刚才提到,图像文本多模态生成的领域参数量级更低,在标注数据和训练上的成本也可以有效压缩。整个图像类的AIGC创新更加