Тренды > Алгоритмы сжатия
Сжатие фото с помощью ИИ
Разработчики WaveOne впервые представили кодек на основе искусственного интеллекта. Он показывает, что ИИ сжимает изображения лучше всех других способов.
Сегодня на смену громоздким вычислительным алгоритмам приходят нейронные сети, способные находить информацию в ворохе необработанных данных. Революционным в этой технологии, действующей под кодовым названием «искусственный интеллект», является то, что с помощью нее решаются задачи, которые стандартные программы не способны осилить или же выполняют не в полной мере. Широкие перспективы применения искусственного интеллекта открываются даже в такой сфере, как сжатие изображений и видео. Двое специалистов, разработавших искусственные нейронные сети для Facebook (соцсеть признана в РФ экстремистской и запрещена), наглядно демонстрируют возможности искусственного интеллекта в своем стартапе WaveOne.
Технологии сжатия
Обычно производимая кодировщиком процедура сжатия изображения состоит из трех этапов: в процессе трансформации пиксельные данные (цвет, яркость) преобразуются в частоты, описывающие изменение соседних пикселей. Низкие частоты описывают поверхность, высокие частоты — края и контуры. В процессе квантования частоты укорачиваются, что, собственно, приводит к потере качества. После этого вновь вычисленные данные упаковываются — этот процесс представляет собой характерную для изображений форму сжатия. Искусство сжатия состоит в том, чтобы посредством квантования обрезать частоты изображения так, чтобы видимых потерь было как можно меньше. Поскольку при высоких частотах человеческий глаз слабее воспринимает разницу в картинке, кодеровщики квантуют области высоких частот сильнее, чем области низких.
Такие методики сжатия, как технически устаревший JPEG или более современный WebP компании Google, разделяют изображение на блоки размером 8х8 пикселей. Затем производится квантование блоков соответственно их частоте. При сильном сжатии это означает, что у многих блоков останется только одно значение цвета или яркости. Большая часть изображения при этом выглядит «сжатой» (см. справа вверху). Технология JPEG 2000, напротив, использует вейвлет-преобразование (или интегральное преобразование), при котором фильтруются не вышеуказанные блоки, а высокие и низкие частоты из полного изображения, после чего соответствующим образом производится квантование. Из-за этого при сильном сжатии картинка размывается: контуры и края пропадают, так как остаются только участки с низкими частотами.