เมตริกการประเมินคุณภาพการบีบอัดภาพ: PSNR, SSIM และมาตรฐานการประเมิน
การประเมินคุณภาพการบีบอัดภาพอย่างมีประสิทธิภาพจำเป็นต้องเข้าใจเมตริกเชิงวัตถุประสงค์ที่ใช้วัดความถูกต้องของภาพและความผิดเพี้ยนที่เกิดจากอัลกอริทึมการบีบอัด คู่มือนี้ครอบคลุมวิธีการประเมินคุณภาพ เช่น PSNR, SSIM และมาตรฐานการประเมินอื่น ๆ สำหรับการวัดประสิทธิภาพการบีบอัดของไฟล์ JPEG, PNG, WebP และ GIF
ความเข้าใจเกี่ยวกับการประเมินคุณภาพของภาพ
การประเมินคุณภาพของภาพในระบบการบีบอัดมีวัตถุประสงค์สำคัญหลายประการ: การปรับแต่งพารามิเตอร์การบีบอัด การเปรียบเทียบประสิทธิภาพของอัลกอริทึม และการรับประกันความยอมรับทางสายตาสำหรับผู้ใช้ปลายทาง เมตริกคุณภาพให้ค่าการวัดเชิงปริมาณที่สอดคล้องกับการรับรู้ทางสายตามนุษย์ และช่วยให้สามารถสร้างเวิร์กโฟลว์การประเมินอัตโนมัติ
การประเมินคุณภาพเชิงวัตถุประสงค์ vs เชิงอัตวิสัย
แนวทางการประเมินคุณภาพแบ่งออกเป็น 2 ประเภทหลัก:
เมตริกคุณภาพเชิงวัตถุประสงค์:
- การคำนวณทางคณิตศาสตร์จากความแตกต่างของพิกเซล
- การประเมินอัตโนมัติเหมาะสำหรับการทดสอบขนาดใหญ่
- ผลลัพธ์ที่สม่ำเสมอไม่ขึ้นกับความแปรปรวนของมนุษย์
- ประสิทธิภาพการคำนวณสำหรับแอปพลิเคชันเรียลไทม์
- มาตรฐานเปรียบเทียบสำหรับการเปรียบเทียบประสิทธิภาพ
การประเมินคุณภาพเชิงอัตวิสัย:
- การศึกษากับผู้สังเกตการณ์มนุษย์ในสภาวะควบคุม
- คะแนนเฉลี่ยความคิดเห็น (MOS) จากการประเมินของผู้ใช้
- ความแม่นยำในการรับรู้ที่สะท้อนประสบการณ์ผู้ใช้จริง
- กระบวนการที่ใช้เวลานานต้องการผู้ประเมินหลายคน
- มาตรฐานทองคำสำหรับการตรวจสอบความถูกต้องของการประเมินคุณภาพ
ข้อกำหนดสำหรับการประเมินคุณภาพ
การประเมินคุณภาพการบีบอัดที่มีประสิทธิภาพต้องมีข้อกำหนดสำคัญหลายประการ:
ความเกี่ยวข้องกับการรับรู้:
- สอดคล้องกับการมองเห็นของมนุษย์เพื่อผลลัพธ์ที่มีความหมาย
- การประเมินที่คำนึงถึงเนื้อหาโดยพิจารณาคุณลักษณะของภาพ
- คำนึงถึงเงื่อนไขการแสดงผลเช่นหน้าจอและระยะทาง
- ปัจจัยทางวัฒนธรรมและประชากรศาสตร์ที่มีผลต่อการรับรู้
ความเหมาะสมทางเทคนิค:
- ความสามารถในการคำนวณสำหรับขนาดการใช้งานที่แตกต่างกัน
- ความง่ายในการนำไปใช้ในแพลตฟอร์มต่าง ๆ
- การมาตรฐานพารามิเตอร์เพื่อการประเมินที่สม่ำเสมอ
- การบูรณาการกับเวิร์กโฟลว์การบีบอัด
อัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงสุด (PSNR)
PSNR เป็นเมตริกคุณภาพเชิงวัตถุประสงค์ที่ใช้กันมากที่สุดสำหรับการประเมินการบีบอัดภาพ โดยวัดความถูกต้องของสัญญาณผ่านค่าเฉลี่ยกำลังสองของความผิดพลาด (MSE)
พื้นฐานทางคณิตศาสตร์ของ PSNR
การคำนวณ PSNR ใช้สูตรทางคณิตศาสตร์มาตรฐาน:
ค่าเฉลี่ยกำลังสองของความผิดพลาด (MSE):
MSE = (1/MN) * Σ Σ [I(i,j) - K(i,j)]²
อัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงสุด:
PSNR = 10 * log₁₀(MAX²/MSE)
โดยที่:
- I(i,j) = ค่าพิกเซลของภาพต้นฉบับ
- K(i,j) = ค่าพิกเซลของภาพที่ถูกบีบอัด
- MAX = ค่าสูงสุดของพิกเซล (255 สำหรับภาพ 8 บิต)
- M, N = ขนาดของภาพ
คุณสมบัติและข้อจำกัดของ PSNR
ข้อดีของ PSNR:
- คำนวณง่ายใช้ทรัพยากรน้อย
- ใช้ได้กับทุกฟอร์แมตภาพ
- มาตรฐานเปรียบเทียบที่ยอมรับกันสำหรับการเปรียบเทียบคุณภาพ
- ความสอดคล้องทางคณิตศาสตร์สำหรับการประเมินอัลกอริทึมที่เชื่อถือได้
ข้อจำกัดของ PSNR:
- ความสัมพันธ์กับการรับรู้ต่ำสำหรับความผิดเพี้ยนบางประเภท
- ไม่ขึ้นกับเนื้อหาไม่พิจารณาคุณลักษณะของภาพ
- สมมติฐานความสม่ำเสมอเชิงพื้นที่ไม่สะท้อนความไวของสายตามนุษย์
- ความไวต่อช่วงไดนามิกมีผลต่อความแม่นยำของการวัด
การใช้ PSNR ในการประเมินการบีบอัด
การใช้ PSNR ในทางปฏิบัติสำหรับการประเมินคุณภาพการบีบอัด:
เกณฑ์คุณภาพ:
- PSNR > 40 dB: คุณภาพยอดเยี่ยม ไม่มีอาร์ติแฟกต์ที่มองเห็นได้
- PSNR 30-40 dB: คุณภาพดี เหมาะสมสำหรับการใช้งานส่วนใหญ่
- PSNR 20-30 dB: คุณภาพปานกลาง มีอาร์ติแฟกต์ที่มองเห็นได้แต่ยอมรับได้
- PSNR < 20 dB: คุณภาพต่ำ เสื่อมโทรมทางสายตาอย่างมีนัยสำคัญ
ข้อควรพิจารณาตามฟอร์แมต:
- การบีบอัด JPEG: PSNR สัมพันธ์กับอาร์ติแฟกต์บล็อกได้ดี
- การบีบอัด PNG: การประเมินแบบไม่สูญเสียให้ค่า PSNR เป็นอนันต์
- การบีบอัด WebP: ความสัมพันธ์แตกต่างกันขึ้นกับโหมดการเข้ารหัส
- การบีบอัด GIF: การควอนไทซ์พาเลตมีผลต่อการแปลความหมาย PSNR
ดัชนีความคล้ายคลึงเชิงโครงสร้าง (SSIM)
SSIM ให้การประเมินคุณภาพที่ขับเคลื่อนด้วยการรับรู้โดยวัดการคงอยู่ของข้อมูลเชิงโครงสร้างแทนความแตกต่างของพิกเซล
กรอบทางคณิตศาสตร์ของ SSIM
การคำนวณ SSIM ประกอบด้วย 3 องค์ประกอบการเปรียบเทียบ:
การเปรียบเทียบความสว่าง:
l(x,y) = (2μₓμᵧ + c₁)/(μₓ² + μᵧ² + c₁)
การเปรียบเทียบคอนทราสต์:
c(x,y) = (2σₓσᵧ + c₂)/(σₓ² + σᵧ² + c₂)
การเปรียบเทียบโครงสร้าง:
s(x,y) = (σₓᵧ + c₃)/(σₓσᵧ + c₃)
SSIM รวม:
SSIM(x,y) = l(x,y) * c(x,y) * s(x,y)
โดยที่:
- μₓ, μᵧ = ค่าเฉลี่ยเฉพาะที่
- σₓ, σᵧ = ส่วนเบี่ยงเบนมาตรฐานเฉพาะที่
- σₓᵧ = ความแปรปรวนร่วมเฉพาะที่
- c₁, c₂, c₃ = ค่าคงที่เพื่อความเสถียร
ข้อดีด้านการรับรู้ของ SSIM
ข้อดีของ SSIM เมื่อเทียบกับ PSNR:
การจำลองระบบการมองเห็นของมนุษย์:
- ความไวต่อความสว่างสะท้อนการรับรู้ความสว่าง
- การมาสก์คอนทราสต์คำนึงถึงลักษณะการมองเห็นเชิงพื้นที่
- การคงอยู่ของโครงสร้างเน้นการจดจำรูปแบบ
- การวิเคราะห์เฉพาะที่คำนึงถึงบริบทเชิงพื้นที่
ความสัมพันธ์กับการรับรู้:
- ความสัมพันธ์ที่ดีกว่ากับคะแนนคุณภาพเชิงอัตวิสัย
- การประเมินที่คำนึงถึงเนื้อหาปรับให้เหมาะกับลักษณะของภาพ
- ความไวต่อประเภทความผิดเพี้ยนสำหรับการตรวจจับอาร์ติแฟกต์ที่หลากหลาย
- ประสิทธิภาพที่แข็งแกร่งสำหรับเนื้อหาภาพที่หลากหลาย
SSIM หลายสเกล (MS-SSIM)
MS-SSIM ขยายการประเมิน SSIMพื้นฐานด้วยการวิเคราะห์หลายสเกล:
การแยกสเกล:
- วิเคราะห์ที่ความละเอียดต้นฉบับเพื่อประเมินรายละเอียด
- ลดขนาดอย่างต่อเนื่องด้วยการกรองแบบ Gaussian
- ประเมินในหลายสเกลสำหรับความถี่เชิงพื้นที่ที่แตกต่างกัน
- รวมค่า SSIM ตามสเกลแบบถ่วงน้ำหนัก
ข้อดีของ MS-SSIM:
- ความสัมพันธ์ที่ดีกว่ากับการรับรู้ของมนุษย์
- การประเมินที่ไม่ขึ้นกับสเกลไม่ขึ้นกับระยะทางการรับชม
- ความไวที่เพิ่มขึ้นต่ออาร์ติแฟกต์ประเภทต่าง ๆ
- การประเมินที่แข็งแกร่งสำหรับเนื้อหาที่หลากหลาย
ความซื่อสัตย์ของข้อมูลภาพ (VIF)
VIF เป็นเมตริกคุณภาพขั้นสูงที่อิงตามทฤษฎีข้อมูลและการจำลองระบบการมองเห็นของมนุษย์
พื้นฐานทางทฤษฎีของ VIF
การคำนวณ VIF อิงตามข้อมูลร่วมระหว่างภาพอ้างอิงและภาพที่ผิดเพี้ยน:
การสกัดข้อมูล:
- การแยกคลื่นเวฟเล็ตสำหรับการวิเคราะห์หลายสเกล
- สถิติของฉากธรรมชาติสำหรับการจำลองเนื้อหาภาพ
- การกรองโดยระบบการมองเห็นของมนุษย์เพื่อความเกี่ยวข้องกับการรับรู้
- การวัดการสูญเสียข้อมูลผ่านข้อมูลร่วม
สูตร VIF:
VIF = Σ I(Cⁿ; Fⁿ|sⁿ) / Σ I(Cⁿ; Eⁿ|sⁿ)
โดยที่:
- I = ข้อมูลร่วม
- Cⁿ = ค่าสัมประสิทธิ์ของภาพอ้างอิง
- Fⁿ = ค่าสัมประสิทธิ์ของภาพที่ผิดเพี้ยน
- Eⁿ = ภาพอ้างอิงในระบบการมองเห็น
- sⁿ = สถิติของฉาก
คุณสมบัติด้านประสิทธิภาพของ VIF
ข้อดีของ VIF:
- ความสัมพันธ์กับการรับรู้ที่ยอดเยี่ยมกับการประเมินเชิงอัตวิสัย
- การปรับให้เข้ากับเนื้อหาโดยอิงตามสถิติของภาพธรรมชาติ
- ความทนทานต่ออาร์ติแฟกต์สำหรับความผิดเพี้ยนหลายประเภท
- พื้นฐานทางทฤษฎีในทฤษฎีข้อมูล
ข้อจำกัดของ VIF:
- ความซับซ้อนในการคำนวณสูงจำกัดการใช้งานเรียลไทม์
- ความซับซ้อนในการนำไปใช้ต้องการอัลกอริทึมเฉพาะทาง
- มาตรฐานจำกัดเมื่อเทียบกับPSNRและSSIM
- ความไวต่อพารามิเตอร์มีผลต่อความสอดคล้องของการวัด
ดัชนีความคล้ายคลึงของคุณลักษณะ (FSIM)
FSIM ใช้การตรวจจับคุณลักษณะสำหรับการประเมินคุณภาพที่ขับเคลื่อนด้วยการรับรู้โดยอิงตามความสอดคล้องของเฟสและความแรงของกราเดียนต์
วิธีการคำนวณ FSIM
การสกัดคุณลักษณะ:
- คำนวณความสอดคล้องของเฟสเพื่อระบุคุณลักษณะเชิงโครงสร้าง
- คำนวณความแรงของกราเดียนต์เพื่อวัดข้อมูลขอบ
- สร้างแผนที่คุณลักษณะโดยรวมคุณลักษณะเชิงโครงสร้างและขอบ
- คำนวณความคล้ายคลึงผ่านการเปรียบเทียบแบบถ่วงน้ำหนักด้วยคุณลักษณะ
สูตร FSIM:
FSIM = Σ SL(x) * PCm(x) / Σ PCm(x)
โดยที่:
- SL(x) = ความคล้ายคลึงในพื้นที่
- PCm(x) = ความสอดคล้องของเฟสสูงสุด
- x = ตำแหน่งเชิงพื้นที่
ข้อดีของการใช้ FSIM
คุณสมบัติของ FSIM:
- การประเมินตามคุณลักษณะเน้นองค์ประกอบภาพที่สำคัญ
- ความซับซ้อนในการคำนวณต่ำกว่า VIF
- ความสัมพันธ์กับการรับรู้ที่ดีกับการตัดสินของมนุษย์
- ประสิทธิภาพที่แข็งแกร่งสำหรับเนื้อหาหลากหลาย
ข้อควรพิจารณาด้านคุณภาพเฉพาะสำหรับการบีบอัด
การประเมินคุณภาพ JPEG
การประเมินการบีบอัด JPEGต้องคำนึงถึงข้อควรพิจารณาเฉพาะ:
ประเภทของอาร์ติแฟกต์:
- อาร์ติแฟกต์บล็อกจากการควอนไทซ์ DCT
- ริงกิ้งรอบขอบที่มีคอนทราสต์สูง
- การไหลของสีจากการซับแซมปลิงโครมา
- สัญญาณรบกวนแบบยุงในบริเวณที่มีลวดลาย
การปรับคุณภาพให้เหมาะสม:
- ความสัมพันธ์ของ PSNRกับความรุนแรงของบล็อก
- ความไวของ SSIMต่อความผิดเพี้ยนเชิงโครงสร้าง
- เมตริกการรับรู้สำหรับการประเมินอาร์ติแฟกต์เฉพาะ
- การประเมินที่ปรับให้เหมาะกับประเภทของภาพ