摘要:為了充分利用非配對(duì)數(shù)據(jù)進(jìn)行圖像翻譯、減少網(wǎng)絡(luò)參數(shù)和提高訓(xùn)練速度,采用條件生成對(duì)抗的監(jiān)督訓(xùn)練與循環(huán)一致性生成對(duì)抗的無(wú)監(jiān)督訓(xùn)練相結(jié)合的方法,設(shè)計(jì)了基于方向條件對(duì)偶的生成網(wǎng)絡(luò),同時(shí)采用 Patch 結(jié)構(gòu)的判別器輸出多維判別結(jié)果,結(jié)合感知損失和同一損失與循環(huán)一致?lián)p失,設(shè)計(jì)了更有效的損失函數(shù)。通過在相同數(shù)據(jù)集上與 CycleGAN 進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證了所提網(wǎng)絡(luò)在非配對(duì)圖像翻譯任務(wù)上,網(wǎng)絡(luò)參數(shù)減少 34%,生成圖像的 PSNR 值平均提升 4.9%,SSIM 值平均提升 6.3%,并且有效提升了訓(xùn)練速度和重建圖像的質(zhì)量。
關(guān)鍵詞:圖像翻譯;條件對(duì)偶;CycleGAN;循環(huán)一致?lián)p失;無(wú)監(jiān)督學(xué)習(xí)
李錫超; 李念 電子設(shè)計(jì)工程 2022-01-05
生成對(duì)抗網(wǎng)絡(luò)[1 (] Generative Adversarial Network, GAN)已延伸到圖像、視頻、自然語(yǔ)言[2] 、語(yǔ)音[3] 等領(lǐng)域。GAN 直接進(jìn)行采樣學(xué)習(xí)分布規(guī)律,使得生成數(shù)據(jù)可以逼近真實(shí)數(shù)據(jù)。由于 GAN 生成數(shù)據(jù)沒有針對(duì)性的指導(dǎo)和約束條件,因此原始 GAN 生成的圖像是隨機(jī)的。條件生成對(duì)抗網(wǎng)絡(luò)[4 (] Conditions GAN, CGAN)在原始 GAN 的基礎(chǔ)上加入了對(duì)生成器的約束條件,使得生成的數(shù)據(jù)變得可控。
圖像翻譯指在圖像源域和目標(biāo)域建立映射關(guān)系,在保留源域內(nèi)容的情況下,將圖像轉(zhuǎn)換成目標(biāo)圖像的風(fēng)格而不改變?cè)从驁D像的內(nèi)容。CGAN 解決了圖像生成的約束問題,為后來的各種圖像翻譯網(wǎng)絡(luò)提供了思路。配對(duì)的圖像翻譯網(wǎng)絡(luò) Pix2pix[5] 是一種基于 CGAN 的有監(jiān)督模型,利用配對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,使圖像翻譯的質(zhì)量和穩(wěn)定性都得到了大幅提升。循環(huán)一致性對(duì)抗生成網(wǎng)絡(luò)[6 (] Cycle-Consistent GAN,CycleGAN)是基于機(jī)器翻譯中對(duì)偶的思想[7] ,將非配對(duì)的訓(xùn)練數(shù)據(jù)用于圖像翻譯,取得了不錯(cuò)的效果,這很大程度上解決了圖像翻譯中配對(duì)數(shù)據(jù)獲取困難的問題。但 CycleGAN 存在收斂慢、參數(shù)量大的問題。
針對(duì)配對(duì)數(shù)據(jù)獲取困難,且現(xiàn)有非配對(duì)方法訓(xùn)練緩慢、參數(shù)量大的問題,該文基于 CycleGAN 中構(gòu)建對(duì)偶任務(wù)的思想和 CGAN 的條件約束思想,設(shè)計(jì)了新的基于方向條件非對(duì)稱的生成網(wǎng)絡(luò)和條件對(duì)偶任務(wù),同時(shí)引入同一映射損失[8] 用以約束圖像內(nèi)容,引入感知損失[9] 保證圖像主體細(xì)節(jié)在變換前后的穩(wěn)定性。在與 CycleGAN 的對(duì)比實(shí)驗(yàn)中,生成和重建圖像質(zhì)量以及訓(xùn)練速度都有所提升,采用了非對(duì)稱設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),使得網(wǎng)絡(luò)參數(shù)大幅減少。
1 相關(guān)工作 1.1 對(duì)偶學(xué)習(xí)
對(duì)偶學(xué)習(xí)(Dual Learning)是一種半監(jiān)督[10] 的學(xué)習(xí)方式,它通過對(duì)稱的兩個(gè)學(xué)習(xí)任務(wù)互相反饋,可以從未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)。能夠有效利用中間過程產(chǎn)生的偽標(biāo)簽,甚至在某種程度上可以把對(duì)偶學(xué)習(xí)看作是在把未標(biāo)注的數(shù)據(jù)當(dāng)作標(biāo)簽數(shù)據(jù)使用。因此對(duì)偶學(xué)習(xí)可以有效利用未標(biāo)注的數(shù)據(jù),使得對(duì)沒有標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練成為可能。對(duì)偶學(xué)習(xí)最初用于有效利用機(jī)器翻譯中的單語(yǔ) 數(shù) 據(jù) ,顯 著 降 低 對(duì) 平 行 雙 語(yǔ) 數(shù) 據(jù) 的 要 求 。 CycleGAN 和 DualGAN[11] 將對(duì)偶學(xué)習(xí)應(yīng)用到圖像翻譯領(lǐng)域。循環(huán)一致性的思想基于對(duì)偶,被應(yīng)用于不同領(lǐng)域,如在視覺跟蹤中加強(qiáng)前后一致性,在機(jī)器翻譯中通過反向翻譯驗(yàn)證結(jié)果并進(jìn)行無(wú)監(jiān)督機(jī)器翻譯。
1.2 生成對(duì)抗網(wǎng)絡(luò)
GAN 通過零和博弈的對(duì)抗過程來生成模型,在網(wǎng)絡(luò)中同時(shí)訓(xùn)練兩個(gè)模型:一個(gè)是用來捕獲數(shù)據(jù)分布的生成模型,另一個(gè)是用來判別數(shù)據(jù)來自訓(xùn)練數(shù)據(jù)還是生成數(shù)據(jù)的判斷模型。在競(jìng)爭(zhēng)對(duì)抗過程中,生成模型不是為了訓(xùn)練得到與特定圖像的最小距離,而是為了騙過判別模型,這使得模型能夠以無(wú)監(jiān)督的方式學(xué)習(xí)。
CGAN 擴(kuò)展了 GAN,使得生成對(duì)抗網(wǎng)絡(luò)能夠根據(jù)一些額外的條件信息(比如類別標(biāo)簽)來調(diào)整生成器和判別器,使得定向圖像生成和圖像轉(zhuǎn)換成為可能。Pix2pix 基于 CGAN 進(jìn)行一系列改進(jìn),拋棄了傳統(tǒng)算法[12] 手工建模、需要大量專家知識(shí)和設(shè)計(jì)復(fù)雜的損失函數(shù),提出了一個(gè)用于解決各類圖像翻譯問題的統(tǒng)一框架。
1.3 非配對(duì)的圖像翻譯方法
Pix2pix 要求數(shù)據(jù)必須是有標(biāo)簽的配對(duì)輸入,現(xiàn)實(shí)碰到的數(shù)據(jù)更多是非配對(duì)、沒有標(biāo)簽的,這使得非配對(duì)圖像翻譯沒有辦法開展。CycleGAN 基于對(duì)偶學(xué)習(xí)的思想,通過循環(huán)一致性損失和對(duì)偶網(wǎng)絡(luò)保持圖像結(jié)構(gòu)的前后一致,實(shí)現(xiàn)了從非配對(duì)的圖像中學(xué)習(xí)映射。
2 基于方向矩陣的循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)
2.1 基于條件的對(duì)偶學(xué)習(xí)網(wǎng)絡(luò)
CycleGAN 形成一組對(duì)偶學(xué)習(xí)關(guān)系需要兩組相同且對(duì)稱的生成器和判別器。結(jié)合 CGAN 對(duì)于圖像生成具有方向性和指導(dǎo)性的特性,文中提出基于方向向量的條件對(duì)偶學(xué)習(xí)結(jié)構(gòu),如圖 1所示。
在改進(jìn)的對(duì)偶學(xué)習(xí)任務(wù)中,a 和 b 為方向條件(向量),用來指導(dǎo)在生成器中圖像翻譯生成的方向;共用參數(shù)的生成器 G 取代 CycleGAN 中對(duì)稱的生成器。其中,Y 和 X 可以表示為在方向條件 a 和 b 下由生成器 G 生成的圖像:Y= G(x,a),X= G(y,b) 。同時(shí)兩個(gè)判別器 DX 和 DY 對(duì)兩組映射生成的圖像和源域圖像進(jìn)行對(duì)抗判別。方向矩陣 a 和 b 作為生成器 G 的條件輸入,對(duì)輸入的源域圖像 x 或 y 在生成方向上起到指導(dǎo)作用,構(gòu)成新的非對(duì)稱對(duì)偶學(xué)習(xí)任務(wù)。通過控制和改變方向向量,達(dá)到對(duì)在同一個(gè)生成器上就能控制圖像翻譯生成的目的,同時(shí)改進(jìn)的對(duì)偶結(jié)構(gòu)相比 CycleGAN 更加精簡(jiǎn)。
2.2 生成器網(wǎng)絡(luò)結(jié)構(gòu) 2.2.1 生成器結(jié)構(gòu)
生成器主要結(jié)構(gòu)如圖 2 所示,包括編碼器、轉(zhuǎn)換器、解碼器。其中編碼器用于提取源域圖像的特征,轉(zhuǎn)換器用于完成風(fēng)格特征的轉(zhuǎn)換,解碼器用于生成轉(zhuǎn)換之后的圖像,使其具有源域的內(nèi)容和目標(biāo)域的風(fēng)格。生成器網(wǎng)絡(luò)使用了 U 型結(jié)構(gòu),將 ResNet[13] 中跳 層 連 接 的 殘 差 結(jié) 構(gòu) 改 為 更 靈 活 的 殘 差 模 塊(Residule_block)。改進(jìn)的生成器結(jié)構(gòu)如圖 3 所示。對(duì)于 256×256 分辨率的圖像,編碼器部分采用多層卷積層+實(shí)例正則化+ReLU 激活函數(shù),獲取源域圖像特征編碼;轉(zhuǎn)換器部分使用 9 個(gè)殘差模塊,特征層跳躍連接,可以較好地結(jié)合前一層的特征,完成圖像風(fēng)格從源域到目標(biāo)域的翻譯;解碼器部分利用反卷積層從高維度特征向量中還原出低級(jí)特征,使生成圖像的風(fēng)格更接近目標(biāo)域風(fēng)格。
經(jīng)過編碼、轉(zhuǎn)碼和解碼過程之后生成的圖像在損失函數(shù)的約束下就可以在理論上完成圖像風(fēng)格從源域到目標(biāo)域的遷移。
2.2.2 實(shí)例正則化
圖像翻譯中的生成結(jié)果主要依賴于某個(gè)圖像實(shí)例,而一般的批量正則化(Batch Normalization)則是對(duì)每個(gè)批次的圖像進(jìn)行標(biāo)準(zhǔn)化,更注重?cái)?shù)據(jù)分布的一致,所以批量正則化不適合圖像翻譯中對(duì)生成圖像 進(jìn) 行 標(biāo) 準(zhǔn) 化 。 在 圖 像 翻 譯 中 使 用 實(shí) 例 正 則 化(Instance Normalization)不僅可以加快模型收斂速度,而且可以使每個(gè)圖像實(shí)例保持相互獨(dú)立。因此,在生成網(wǎng)絡(luò)的標(biāo)準(zhǔn)化過程中該文采用了實(shí)例正則化。
2.3 判別器網(wǎng)絡(luò)
判別器的網(wǎng)絡(luò)結(jié)構(gòu)如圖 4 所示。它用來區(qū)分輸入的樣本來自真實(shí)數(shù)據(jù)還是生成器生成的數(shù)據(jù),其判別作用會(huì)激勵(lì)生成器生成更加接近目標(biāo)域的數(shù)據(jù)。在具體結(jié)構(gòu)設(shè)計(jì)上,卷積網(wǎng)絡(luò)的輸出特征參考 PatchGAN[6] 結(jié)構(gòu),源域圖像經(jīng)過 5 次卷積和實(shí)例正則化,最終得到一個(gè) 32×32×1 的輸出特征向量,而不是將一維輸出作為分類依據(jù)。特征向量的每一個(gè)維度,代表源域圖像中的一個(gè)感受野,保證了生成圖像和源域圖像的語(yǔ)義相似性。
2.4 循環(huán)一致性對(duì)抗網(wǎng)絡(luò) 2.4.1 對(duì)抗損失
GAN 一般由生成模型和判別模型組成,生成模型的目的是學(xué)習(xí)數(shù)據(jù)的分布規(guī)律,生成逼近真實(shí)數(shù)據(jù)的圖像;判別模型盡可能區(qū)分給定的圖像是否來自真實(shí)數(shù)據(jù)。在不斷地對(duì)抗訓(xùn)練中,兩個(gè)模型的能力都會(huì)變強(qiáng),最終達(dá)到穩(wěn)態(tài)平衡。在原始 GAN 中,需要優(yōu)化的目標(biāo)函數(shù)如式(1)所示: min G max D V(D,G) = Ex~pdata(x)[log(D(x))] + Ez~pz(z)[log(1 - D(G(z)))] (1)為學(xué)習(xí)數(shù)據(jù) pdata(x) ,定義了一個(gè)先驗(yàn)輸入噪聲變量 pz(z) ,然后將數(shù)據(jù)空間映射表示為 G(z) ,其中 G 為生成模型。定義了判別模型 D ,其中 D(x) 表示 x 來自真實(shí)數(shù)據(jù)而不是由生成模型生成的數(shù)據(jù)的概率。在這個(gè)目標(biāo)函數(shù)中,先優(yōu)化 D 再優(yōu)化 G ,拆解之后如下: 1)優(yōu)化判別模型 D,目標(biāo)函數(shù)表示如式(2)所示: max D V(D,G) = Ex~pdata(x)[log(D(x))] + Ez~pZ(z)[log(1 - D(G(z)))] (2)優(yōu)化判別模型 D 時(shí)與生成模型無(wú)關(guān)。根據(jù)函數(shù)變化規(guī)律,在優(yōu)化過程中,上式第一項(xiàng)中的 x 來自真實(shí)樣本的判別結(jié)果的概率 D(x) 越接近于 1 越好;對(duì)于來自生成模型從噪聲 z 中生成的假樣本 G(z) ,需要使優(yōu)化的判別結(jié)果 D(G(z)) 越接近于 0越好。
2)優(yōu)化生成模型 G,目標(biāo)函數(shù)表示如式(3)所示:min G V(D,G) = Ez~pz(z)[log(1 - D(G(z)))] (3)優(yōu)化生成模型時(shí),與真實(shí)樣本 x 無(wú)關(guān)。這時(shí)只有來自噪聲 z 生成的假樣本 G(z) ,生成器的優(yōu)化目標(biāo)是使假樣本 G(z) 的判別結(jié)果的概率 D(G(z)) 越接近于 1 越好。如此,為了使總的優(yōu)化目標(biāo)的損失函數(shù)表達(dá)一致,故表示為 1 - D(G(z)) 的形式,這樣就成了開始表示形式的目標(biāo)函數(shù)了。
對(duì)于文中提出的基于條件矩陣 a 和 b 的循環(huán)一致 性 對(duì) 抗 生 成 模 型 來 說 ,生 成 模 型 可 以 表 示 為 Y= G(x|a) 和 X= G(y|b) 。 按 照 對(duì) 抗 生 成 損 失 的 思想,使判別模型最大化,生成模型最小化。對(duì)于 x → y 映射的對(duì)抗損失函數(shù)如式(4)所示: LGAN1 = Ey~pdata(y)[log(DY (y))] + Ex~pdata(x) ■ ■ ■ ■ log(1 - DY (G(x|a))) (4)對(duì)于 y → x 映射的對(duì)抗損失函數(shù)如式(5)所示: LGAN2 = Ex~pdata(x)[log(DX(x))] + Ey~pdata(y) ■ ■ | ■ ■ log | ■ ■ | ■ ■ 1 - D | X ■ ■ ■ ■ G(y|b) (5)
2.4.2 循環(huán)一致性損失
對(duì)抗訓(xùn)練能夠從理論上學(xué)習(xí)到生成器 G 的映射,產(chǎn)生與目標(biāo)域相同分布的輸出。但在非配對(duì)數(shù)據(jù)訓(xùn)練中,當(dāng)網(wǎng)絡(luò)容量足夠大的時(shí)候,會(huì)將相同的圖像映射到目標(biāo)域中任意隨機(jī)的圖像上,其中任何一個(gè)學(xué)習(xí)都可以產(chǎn)生與目標(biāo)分布匹配的輸出。因此,僅使用對(duì)抗損失,不能保證學(xué)習(xí)的函數(shù)能將單個(gè)的輸入 xi 映射到期望的輸出 yi 。為了進(jìn)一步減少可能的映射空間,映射函數(shù)必須是循環(huán)一致的。對(duì)于源域 X 中的每一張圖像 x ,圖像經(jīng)過循環(huán)轉(zhuǎn)換網(wǎng)絡(luò)之 后 ,可 以 還 原 出 源 域 圖 像 x 。 將 x → G(x|a) → G(G(x|a)|b) ≈ x 稱 為 循 環(huán) 一 致 性 。 同 樣 的 ,有 y → G(y|b) → G■ ■ ■ ■ G(y|b) |a ≈ y。因此定義了循環(huán)一致性損失,如式(6)所示: Lcycle = Ex~pdata(x) ■ ■ | ■ ■ | ‖ ‖ ‖ ‖ ‖ G ‖ (G(x|a)|b) - x + Ey~pdata(y) ■ ■ | ■ ■ | ‖ ‖ ‖ ‖ ‖ G ‖ ■ ■ ■ ■ G(y|b) |a - y (6)循環(huán)一致性損失能夠保證輸入和生成的輸出為一對(duì)一的映射關(guān)系。
重建的圖像與輸入的圖像匹配的映射關(guān)系如圖 5所示。
2.4.3 同一映射損失和感知損失
由于不同數(shù)據(jù)集上對(duì)于圖像翻譯的要求不同,僅依賴對(duì)抗損失和循環(huán)一致?lián)p失,不足以滿足圖像翻譯的要求,因此加入同一映射損失用以約束在原圖上的改動(dòng)。對(duì)于生成器 G(x|a) 定義如式(7)所示: Liml(Gx → y) = Ey~pdata(x)‖Gx → y(x) - y ‖1 + Ex~pdata(x)‖Gy → x(y) - x‖1 (7)文獻(xiàn)[8]利用感知損失來增強(qiáng)圖像細(xì)節(jié),故引入感知損失 Lpl ,使生成的圖像在映射出目標(biāo)域風(fēng)格的同時(shí)保留細(xì)節(jié),不產(chǎn)生模糊。感知損失定義如式(8)所示: Lpl = 1 DHW ■ ■ | | | ■ ■ | | | ‖ φ(Gx → y(x)) - φ(y)‖ 2 2 +‖ φ(Gy → x(y)) - φ(x)‖ 2 2 (8)其中,φ 為特征提取函數(shù),一般使用 VGG16或者 VGG19 來提取。 D、W 和 H 分別表示特征的深度、寬度和高度。文中使用了 VGG16 預(yù)訓(xùn)練模型的深度特征向量計(jì)算感知損失,各部分系數(shù)比例如式(9)所示: Lpl = Lpl(block1conv1) + 2 × Lpl(block2conv1) +5 × Lpl(block5conv1) (9)這樣整個(gè)網(wǎng)絡(luò)的損失函數(shù)如式(10)所示: L = LGAN1 + LGAN2 + Lcycle + Liml + Lpl (10)
3 實(shí)驗(yàn)結(jié)果與分析 3.1 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置
為驗(yàn)證改進(jìn)網(wǎng)絡(luò)能否在非配對(duì)數(shù)據(jù)上完成圖像翻譯的任務(wù),以及為對(duì)比改進(jìn)網(wǎng)絡(luò)與基準(zhǔn) CycleGAN 網(wǎng)絡(luò)的性能,選擇相同數(shù)據(jù)集分別進(jìn)行 300 次迭代訓(xùn)練。這里使用的人像風(fēng)格數(shù)據(jù)為 Face2Sketch(以下簡(jiǎn)稱 F2S),數(shù)據(jù)集樣本如圖 6 所示。為了構(gòu)造逼真的人臉數(shù)據(jù)集,通過混合網(wǎng)絡(luò)爬蟲獲取的證件照,基于 StyleGAN[14] 生 成 脫 敏 數(shù) 據(jù) ,并 進(jìn) 行 對(duì) 齊 和 使 用PortraitNet[15] 去除背景(如圖 6 第 1 行)。非配對(duì)的黑白人像風(fēng)格數(shù)據(jù)由 APDrawingGAN[16] 生成(如圖 6 第 2 行)。形成的訓(xùn)練數(shù)據(jù)包含 2 000 張彩色脫敏證件圖片和 2 000張非配對(duì)關(guān)系的人像風(fēng)格圖片。
3.2 實(shí)驗(yàn)結(jié)果
分別用 CycleGAN、該文方法但僅使用對(duì)抗損失+循環(huán)一致性損失(以下簡(jiǎn)稱該文方法(1))、該文改進(jìn)的方法結(jié)合感知損失和同一損失并對(duì)參數(shù)進(jìn)行調(diào)整(以下簡(jiǎn)稱該文方法(2)),進(jìn)行圖像翻譯和重建實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖 7 所示。其中,第一行為分別用 3 種方法進(jìn)行圖像翻譯生成的實(shí)驗(yàn)結(jié)果;第三行為由生成圖像進(jìn)行重建的結(jié)果。
從實(shí)驗(yàn)結(jié)果對(duì)比可以發(fā)現(xiàn),在同樣的實(shí)驗(yàn)條件下,采用 CycleGAN 和該文方法(1)的細(xì)節(jié)表現(xiàn)較差(生成人像眼睛模糊、背景顏色失真)。該文方法(2)可以更好地完成從源域到目標(biāo)風(fēng)格域的轉(zhuǎn)換,同時(shí)能夠在重建源域時(shí)生成相似度更高、圖像質(zhì)量更高的重建結(jié)果。
為了量化具體的提升,在相同實(shí)驗(yàn)條件下,進(jìn)行了 300 次迭代。使用 SSIM(結(jié)構(gòu)相似性)和 PSNR(圖像信噪比)圖像質(zhì)量指標(biāo)進(jìn)行評(píng)價(jià)。比較結(jié)果如表 1 所示,其中 a→b為翻譯生成結(jié)果,b→a為重建結(jié)果。
該文改進(jìn)網(wǎng)絡(luò)對(duì)比 CycleGAN,3 種方法的生成損失收斂對(duì)比如圖 8 所示,該文方法(2)下降速度更快,最終平穩(wěn)值更小,表明對(duì)應(yīng)網(wǎng)絡(luò)的方法速度越快生成質(zhì)量越好。
文中所提方法在進(jìn)行圖像翻譯時(shí),與 CycleGAN 方法相比,在 Inception Score 獲得更高得分。同樣進(jìn)行 300 次 迭 代 ,計(jì) 算 衡 量 圖 像 清 晰 度 的 Inception Score結(jié)果,該文方法(1)可以在 F2S數(shù)據(jù)上獲得更高的得分。并且由于設(shè)計(jì)了非對(duì)稱結(jié)構(gòu)的生成器,可以在不同方向條件下共享網(wǎng)絡(luò)參數(shù),因此網(wǎng)路參數(shù)由 CycleGAN 的約 112 M 減少為約 74 M,參數(shù)量下降 34%。3 種方法的 Inception Score 和網(wǎng)絡(luò)參數(shù)量對(duì)比如表2所示。
4 結(jié) 論
該文研究了圖像翻譯的發(fā)展,針對(duì)現(xiàn)有非配對(duì)圖像翻譯方法 CycleGAN 進(jìn)行改進(jìn),在圖像生成的編碼和解碼過程中使用基于方向條件的方法代替原有的循環(huán)對(duì)偶網(wǎng)絡(luò),減少了 36%的參數(shù)量,降低了計(jì)算量;設(shè)計(jì)了共享參數(shù)的非對(duì)稱生成器,通過添加感知損失和同一性損失,提高了圖像生成質(zhì)量,獲得了更加相似的重建結(jié)果。實(shí)驗(yàn)表明,所提網(wǎng)絡(luò)能夠加快生成器的訓(xùn)練速度,獲得了更小的穩(wěn)定收斂,圖像翻譯結(jié)果保留更多的細(xì)節(jié),重建結(jié)果與源域圖像具有更高的相似度。和 CycleGAN 相比,文中提出的改進(jìn)網(wǎng)絡(luò)在相同數(shù)據(jù)集上的表現(xiàn)更好,在 SSIM、PSNR 和 Inception Score 上獲得了更好的評(píng)估參數(shù),觀察結(jié)果表明,也獲得了更好的圖像質(zhì)量。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >