科技日报记者 罗云鹏
图象回复复兴范畴持久存于一个两难困境:寻求高质量往往耗时长,而寻求高效率则不免丧失细节精度。怎样把一张老照片修复患上又快又好?
近日,中国科学院深圳进步前辈技能研究院发布HYPIR图象回复复兴年夜模子。它由该院进步前辈计较与数字工程研究所研究员董超团队研发,为图象回复复兴技能的现实运用提供了更高效的解决方案,更为影视修复、文化传承与掩护等范畴带来新的可能。
传统要领中,基在预练习扩散模子的回复复兴技能显著晋升了图象回复复兴效果,但存于计较繁杂度高、推理速率慢、练习资源耗损年夜以和天生成果可控性不足等问题。这些成为限定图象回复复兴技能成长的瓶颈。
2024年,董超团队研发出智能画质加强年夜模子SUPIR。它能将低质量的图象恢复到靠近原始状况的高清图象,有用修复多种退化类型的图象。
HYPIR作为SUPIR的进级版,舍弃了迭代式扩散模子练习,改用单步的匹敌天生模子练习方式,将原本的算法速率晋升了数倍。同时,HYPIR采用更新的文生图基模子进一步晋升算法效果,实现8K级另外细节天生,于天生图象的不变性及可控性方面远超SUPIR年夜模子。
“以往的图象回复复兴往往包括扩散模子蒸馏等历程。HYPIR则不需要依靠这些步调,回复复兴要领越发简朴。它于练习及推理速率方面较传统要领晋升了一个数目级以上,且机能更优。”董超先容。
试验数据显示,于单张图象处置惩罚器上,HYPIR仅需1.7秒便可完成一张1024×1024分辩率图象的回复复兴。
除了了于高分辩率图象修复范畴体现精彩,HYPIR于文字保真、理解能力、用户节制矫捷性等方面均揭示出了优秀机能。
于文字保真方面,传统基在扩散模子的要领常致使回复复兴的文字恍惚或者扭曲,缺少切确性,HYPIR则能使回复复兴的文字连结高保真度及清楚度。不管是简朴的标识还有是繁杂的文档,HYPIR都能精准还有原其原始形态,让图象中的文字清楚可读。
值患上一提的是,HYPIR还有具有凸起的天然语言理解能力,可精准捕获及理解用户的输入指令,于图象回复复兴历程中正确反应用户用意。
此外,用户可以按照需求矫捷调治天生与回复复兴的比例,或者邃密节制图象细节水平,得到切合自身偏好的成果。这类用户友爱的设计使HYPIR不仅合用在专业范畴,也能满意平凡用户的需求。
董超先容,今朝HYPIR年夜模子已经乐成部署在AI视觉平台——明犀科技平台,其开源代码及模子已经上传至GitHub。团队已经与深圳市南山区档案馆互助对于部门馆藏照片举行修复,将来将进一步推进模子财产化。
-OB电竞·(中国)