Рис. 9.25. Несжатое изображение (слева, 720x576 пикселов, примерно 1.2 Мбайт) и то же самое изображение, сжатое JPEG со 100-кратным уровнем сжатия (справа).
Вы не сможете увидеть в цифровой записи тех деталей, которые изначально позволяла увидеть телекамера. Это представляется слишком общим и банальным утверждением, но мне часто приходилось встречать специалистов индустрии безопасности, которые пытались разглядеть автомобильный номер на цифровой записи, тогда как телекамера уже изначально не позволила бы его увидеть. Существует очевидное и очень простое правило, цифровая запись никогда не окажется лучше, чем оригинальный сигнал телекамеры.
Имеет смысл вложить средства в покупку качественных телекамер и объективов. В качественной телекамере имеется ПЗС- или КМОП-матрица высокого разрешения, хорошее соотношение сигнал/шум, широкий динамический диапазон, низкая чувствительность и хороший объектив. Основываясь на практике, следует заметить, что при использовании аналоговых телекамер для цифровой записи их соотношение сигнал/шум имеет первостепенное значение для оцифрованного изображения. Разрешение тоже важно, но соотношение сигнал/шум будет, вероятно, даже важнее по той простой причине, что при слишком сильных шумах алгоритмы сжатия изображения имеют тенденцию их увеличивать, принимая их за мелкие детали. Поэтому если у телекамеры низкое соотношение сигнал/шум (то есть изображение содержит много шумов), то после сжатия изображение будет выглядеть значительно хуже, чем до него. Проще говоря, чем лучше соотношение сигнал/шум (от 50 дБ и выше), тем выше качество у оцифрованного видеосигнала.
Качество оцифрованного видеосигнала, если при этом использовалась рекомендация ITU-601, будет примерно таким же, как у исходного аналогового видеосигнала.
После того как качественный аналоговый видеосигнал будет оцифрован согласно рекомендации ITU-601, качество цифрового видеосигнала будет почти таким же, как у исходного аналогового видеосигнала (при условии, что мы оцифровываем полный кадр). Затем на стадии сжатия происходит дальнейшее снижение качества изображения. Поэтому сжатие является фактором, ограничивающим разрешение.
Здесь следует сделать важное замечание о том, что не следует смешивать такие понятия, как количество пикселов и потеря разрешения в результате сжатия. Когда мы используем полнокадровый ввод и последующее сжатие видео, количество пикселов остается постоянным, допустим 720x576 пикселов, но артефакты сжатия могут снизить разрешение. Поэтому мы и говорим, что сжатие изображения является дополнительным фактором, ограничивающим разрешение.
Дискретное косинусное преобразование как основа
Одним из наиболее частых преобразований двумерных изображений является дискретное косинусное преобразование (Discrete Cosine Transformation, DCT). Оно лежит в основе почти всех стандартов сжатия, которые применяются в видеонаблюдении, за исключением Wavelet и JPEG-2000. Таким образом, все стандарты JPEG, MPEG и семейство Н.26х используют DCT-преобразование в той или иной форме. Поэтому мы скажем о нем несколько слов.
DCT-преобразование основано на преобразовании Фурье. Преобразование Фурье представляет собой очень хороший метод анализа сигналов в частотной области. Единственная проблема заключается в том, что оно всегда строится на предположении о периодичности и бесконечной протяженности сигналов во временной области. В действительности это не так, и поэтому в 60-е годы было предложено альтернативное преобразование Фурье, так называемое быстрое преобразование Фурье (БПФ). Дискретное косинусное преобразование базируется на БПФ.
Итак, как работает дискретное косинусное преобразование? Пространственная избыточность присутствует во всех видеофрагментах и в видеонаблюдении, и в вещательном телевидении, и в других сферах. Если на изображении (в телевизионном поле) имеется объект, то большинство его пикселов будут иметь достаточно сходные значения. В этом и заключается избыточность изображения, то есть можно уменьшить количество информации для каждого пиксела, дав среднее значение для целой области пикселов. Крупные объекты имеют низкие пространственные частоты, а мелкие объекты — высокие пространственные частоты. Цифровое видео способно передавать весь спектр пространственных частот, но после анализа остаются только те частоты, которые нужно передать, поэтому при сжатии важным шагом является анализ пространственных частот изображения.
На рис. 9.26 показано, как работает двумерное DCT-преобразование. Изображение разбивается на блоки 8x8 пикселов. DCT-преобразование конвертирует блок значений пикселов в набор коэффициентов косинусных функций с возрастающими частотами. Коэффициенты отражают присутствие тех или иных пространственных частот. На иллюстрации показаны блоки пикселов, которые получаются из каждого коэффициента. Верхний левый коэффициент представляет среднюю яркость блока, и, таким образом, является средним арифметическим значением всех пикселов, его также называют DC-коэффициентом. Справа налево коэффициенты представляют увеличивающуюся горизонтальную пространственную частоту. Сверху вниз коэффициенты представляют увеличивающуюся вертикальную пространственную частоту. Само по себе DCT-преобразование не производит никакого сжатия информации, то есть не устраняет избыточность. На самом деле полная информация о коэффициентах займет больше места, чем информация об исходных пикселах.
Рис. 9.26. Принципы дискретного косинусного преобразования
DCT-преобразование конвертирует значения пикселов в удобную для обнаружения избыточности форму. Поскольку не все пространственные частоты присутствуют одновременно, то в результате DCT-преобразования на выходе мы получим набор коэффициентов, где будут присутствовать значимые коэффициенты, но очень многие будут иметь значения, близкие к нулю или нуль. Если коэффициент равен нулю, то неважно, присутствует ли он или нет. Если же мы отбрасываем коэффициент, близкий к нулю, то это равносильно добавлению той же пространственной частоты к изображению, но противоположной фазы. Решение отбросить коэффициент основывается на том, насколько визуально заметен будет этот небольшой нежелательный сигнал, и определяется уровнем сжатия. Если коэффициент нельзя отбросить, то сжатие также возможно за счет уменьшения количества битов, используемых для его кодирования. Визуально это выглядит так, как будто в изображении появилось немного шума. Типичным нежелательным артефактом DCT-преобразования является блочность изображения при высоких уровнях сжатия. Это связано с тем, что DCT-преобразование проводится на блоках 8x8 пикселов.
Рис. 9.27. Зигзагообразное сканирование при обратном DCT-преобразовании
Читателям следует знать, что Wavelet-сжатие отличается от JPEG-сжатия тем, что Wavelet-сжатие обрабатывает все изображение, а не блоки 8x8, поэтому артефакты сжатия проявляются не в блочности изображения, а скорее как его затуманивание. Сжатия на основе DCT- и Wavelet-преобразований подразумевают потерю данных, поэтому они называются сжатием с потерями. Основная задача заключается в нахождении оптимального компромисса между высоким уровнем сжатия и качеством изображения без особо заметных потерь.
Рис. 9.28. Увеличенный в два раза фрагмент изображения при JPEG-сжатии в 100 раз
Рис. 9.29. Увеличенный в два раза фрагмент изображения при Wavelet-сжатии в 100 раз
Различные стандарты сжатия, используемые в системах видеонаблюдения
В системах видеонаблюдения используются различные стандарты сжатия изображения и видеоизображения. Возможно, здесь их больше, чем в любой другой индустрии. Например, в цифровой фотографии чаще всего используется сжатие JPEG, когда необходимо экономить пространство, доступное для хранения снимков. В вещательном телевидении доминирует стандарт MPEG-2, тогда как в компьютерной индустрии и в Интернете приобрел популярность MPEG-4.
В разнообразной продукции систем видеонаблюдения используются почти все стандарты сжатия. Для того чтобы правильно их понимать, необходимо разделить все стандарты на две основные категории, о чем мы уже говорили ранее: сжатие, которое применяется к отдельным изображениям, назовем сжатием изображения и сжатие, применяемое к видеопотоку, назовем сжатием видеоизображения. Стандарты, использующие сжатие изображения, работают с отдельными изображениями, тогда как стандарты, использующие сжатие видеоизображения, расценивают время как важную переменную при уменьшении избыточности видеопотока.