9. Цифровое видеонаблюдение
9. Цифровое видеонаблюдение
До сих пор большинство обсуждаемых в этой книге вопросов относилось к аналоговым видеосигналам. Большинство современных систем видеонаблюдения по-прежнему используют аналоговые телекамеры, хотя все большее число производителей предлагают сетевые телекамеры, которые предназначены для передачи видео по компьютерным сетям. Всего несколько лет назад к тем немногим компонентам систем видеонаблюдения, которые работали с цифровым видео, относились устройства видеопамяти, видеоквадраторы, видеомультиплексоры, внутренние схемы телекамер с цифровой обработкой видеосигналов (Digital Video Processing — DSP). Но ситуация изменилась.
Сейчас мы с уверенностью можем сказать, что в большинстве современных систем видеонаблюдения, хотя они по-прежнему работают с аналоговыми телекамерами, используются цифровые видеорегистраторы для наблюдения и долгосрочного хранения записей. Качество телекамеры всегда остается отправной точкой, от которой мы отсчитываем качество системы видеонаблюдения, но теперь равным образом стали важны и качество записанного цифрового изображения, и качество обработки этого изображения.
В период между настоящим и первым изданиями этой книги (с 1996 года по 2005 год) произошли революционные сдвиги в таких сферах, как телевидение, мультимедийные приложения, фотография и видеонаблюдение. Основная часть новых разработок связана с цифровой технологией. Одним из локомотивов подлинного бума в индустрии видеонаблюдения стал переход к цифровой обработке, передаче и хранению видеоинформации. Этот «локомотив» набрал ход только недавно, что и послужило причиной выхода полностью нового издания этой книги, где мы подробно обсудим вопросы, связанные с цифровыми и сетевыми технологиями и сжатием изображения.
Всего лишь несколько лет назад стоимость производительной цифровой электроники, способной обрабатывать видео в режиме реального времени, была слишком высокой и экономически неоправданной. Но в настоящее время с постоянным увеличением производительности и скорости микросхем памяти, процессоров и жестких дисков происходит постоянное уменьшение их стоимости.
Таким образом, цифровая обработка видеосигналов оказалась не только возможной и более доступной, но фактически стала единственной альтернативой при обработке большого количества качественных видеосигналов.
Цифровое видео проникло в индустрию вещательного телевидения в начале 1990-х годов. Подобно любой новой технологии, на первых порах использовалось очень редко и стоило дорого. Сегодня мы говорим о цифровом видео как о новом стандарте, который пришел на смену аналоговому телевидению почти 50-летней давности. Существует два варианта: телевидение стандартной четкости (SDTV, Standard Definition), у которого соотношение сторон 4:3 и привычное качество, и телевидение высокой четкости (HDTV, High Definition) с соотношением сторон 16:9 и примерно в 5 раз большим количеством пикселов. Во многих странах мира уже ведется телевизионное вещание в цифровой форме, обычно в том и другом формате (SDTV и HDTV). Неудивительно, что большинство потребителей предпочитают стандарт HDTV, у которого выше разрешение и соотношение сторон, характерное для широкоформатного экрана кинотеатра, но так как в видеонаблюдении мы имеем дело со стандартным разрешением, то в этой мы рассмотрим все основные вопросы, связанные с цифровым видео стандартного разрешения с соотношением сторон 4:3.
Цифровые видеорегистраторы (DVR) и сетевые телекамеры стали причиной нового роста в индустрии видеонаблюдения, источником больших прибылей и новых идей решений в разработке интеллектуальных систем видеонаблюдения. Они сделали очень зыбкой и практически невидимой ту границу, которая отделяет компьютеры, сетевые и информационные технологии от видеонаблюдения.
Преимущества цифрового видеонаблюдения
По определению аналоговые сигналы могут иметь любое значение в заданном диапазоне. Примером такового аналогового сигнала может служить как аудиосигнал, так и видеосигнал. Как мы знаем, заданным диапазоном для аналогового видеосигнала является интервал от 0 вольт, что соответствует черному, до 0.7 вольт, что соответствует белому.
Как уже говорилось ранее, большинство телекамер, используемых сейчас в видеонаблюдении, формируют аналоговые сигналы. Однако основная проблема, с которой мы сталкиваемся при работе с аналоговыми сигналами, заключается в том, что в них возникает и накапливается шум, и, как читатели, вероятно, знают из собственного опыта, в реальных условиях от этого шума избавиться невозможно. Он накапливается на каждом этапе формирования, передачи и обработки видеосигнала.
Возникая еще в матрице и электронике телекамеры на начальном этапе формирования сигнала, шум увеличивается как при передаче (в кабеле), так и на завершающем этапе (в видеомониторах и устройствах записи и т. д.). Чем длиннее путь видеосигнала, тем больше шума мы получим в конце этого пути.
Именно в этом проявляется существенное отличие цифрового сигнала. Так, одним из наиболее принципиальных различий между аналоговым и цифровым сигналом, кроме непосредственно формы, является иммунитет к шумам. Цифровой сигнал в электронной форме также подвержен воздействию шума, как и аналоговый. Но цифровые сигналы могут иметь только два значения: нуль и единицу. Шум будет воздействовать на сигнал только в том случае, если его величина достигнет уровней, которые могут превзойти помехоустойчивость цифровых схем, определяющих равенство сигнала нулю или единице. Это означает, что цифровые сигналы допускают аккумуляцию шума до невообразимого уровня по сравнению с аналоговыми видеосигналами, поэтому мы говорим, что цифровые сигналы фактически имеют иммунитет к шумам. (Можно также отметить, что уровням «нуль» и «единица» в цифровых электронных устройствах соответствуют режимы отсечки или насыщения активных элементов, а в этих режимах усиление наводок невозможно. Прим. ред.)
В конечном итоге, это дает более протяженные расстояния для передачи, высокую помехозащищенность и отсутствие деградации сигнала, то есть более высокое качество изображения.
Другое важное преимущество цифрового видеосигнала — это возможность цифровой обработки и хранения информации. Под этим подразумевается улучшение изображения, его сжатие, различные коррекции и т. д. Крайне существенным является то, что копия и оригинал ничем не отличаются по качеству изображения. Сколько бы копий цифрового изображения мы ни делали (1,2 или 10), качество всегда будет оставаться таким же, как у оригинала. И последним (не по степени важности) преимуществом цифрового видео является возможность проверки подлинности копии. Эта функция часто называется нанесением «водяных знаков» (water-mark) и позволяет защитить информацию, записанную в цифровой форме от подделки, что крайне важно для индустрии видеонаблюдения.
Рис. 9.2. Представление цифрового видеосигнала
Цифровые видеорегистраторы (DVR)
В настоящее время в видеонаблюдении эпоха записи на видеокассеты практически завершилась. Пять лет назад при подготовке предыдущего издания книги, видеомагнитофоны еще встречались в большом количестве, а цифровые видеорегистраторы только начинали появляться. Сейчас они поменялись местами. Но какие реальные преимущества дают в видеонаблюдении цифровые видеорегистраторы по сравнению с видеомагнитофонами?
Во-первых, видеомагнитофоны с аналоговым методом хранения информации не позволяют быстро найти нужную запись от нужной телекамеры, исключение составляет относительно быстрый поиск по тревогам, который имеется во многих TL-видеомагнитофонах. Так как видеомагнитофоны хранят информацию в аналоговом виде, то ее дальнейшая обработка практически невозможна. Запись видеомагнитофона всегда имеет более низкое качество, чем у исходного видеосигнала.
Первоначально были попытки внедрить цифровую запись в видеонаблюдении на цифровых кассетах формата DAT. Несмотря на то, что информация записывалась в цифровом виде, доступ к ней по-прежнему осуществлялся последовательно, что не так эффективно, как при произвольном доступе к информации жесткого диска. Кроме того, жесткие диски имеют значительно более высокую скорость передачи данных и большую емкость, чем у других доступных устройств хранения. При этом можно записывать видео с качеством выше, чем S-VHS, используя соответствующие алгоритмы сжатия. Еще несколько лет назад существовала проблема длительности записи на жесткие диски, но это уже осталось в прошлом. Сейчас широко распространены жесткие диски объемом 300 Гбайт, а цифровые видеорегистраторы с объемом внутреннего дискового пространства 1200 Гбайт (1.2 Тбайт) перестали быть редкостью.
Хранение многих недель записи от нескольких телекамер перестало быть проблемой. Современные жесткие диски теперь имеют малое время доступа и при использовании хорошего алгоритма сжатия теперь на одном жестком диске можно хранить и воспроизводить в режиме реального времени (то есть с частотой обновления кадров «живого» видео) записи от нескольких телекамер одновременно.
Стоимость жестких дисков ежедневно снижается. Читателям, вероятно, интересно будет узнать, что когда шла работа над предыдущим изданием этой книги, появился первый жесткий диск формата 3.5 дюйма с емкостью 30 Гбайт. Теперь в 2005 году за ту же самую цену мы можем купить жесткий диск с десятикратной емкостью. В связи с возросшим значением жестких дисков для современной системы видеонаблюдения, эту главу мы завершим обсуждением их наиболее важных технических параметров.
Суммарное время записи, то есть сколько дней или неделей записи может храниться на жестком диске определенной емкости (например, 300 Гбайт) зависит от типа сжатия и качества исходного изображения. Также очень важным фактором будет вид записи: постоянная запись или запись по детектору движения. Запись по детектору движения стала очень популярной в видеонаблюдении, так как она позволяет увеличить время записи как минимум в 2–3 раза (это очень сильно будет зависеть от качества самого детектора движения). Конечно, можно увеличивать и емкость дискового пространства цифрового видеорегистратора, но при этом нужно не забывать и о повышении отказоустойчивости, что может быть уже изначальным требованием заказчика.
Когда мы имеем дело с таким количеством переменных, невозможно дать однозначный ответ. Но, поскольку я знаю, что одним из первых вопросов многих клиентов бывает вопрос о том, сколько дней записи можно будет хранить, то чтобы вам немного помочь, на нашем веб-сайте (www.cctvlabs.com) я разместил две таблицы, позволяющие автоматически рассчитывать время записи.
Все сказанное выше приводит нас к различным размышлениям о том, что мы должны учитывать при выборе алгоритма сжатия, накопителей и их скорости передачи информации. Поэтому нам нужно понимать теорию обработки и сжатия цифрового видео. В следующей части главы мы постараемся объяснить основы.
Рис. 9.3. Цифровые видеорегистраторы
Стандарты и стандартизация
Существует несколько международных организаций, которые занимаются разработкой стандартов для цифрового видео. Более всего известен Международный телекоммуникационный союз ITU (International Telecommunication Union), который является агентством ООН, специализирующимся в сфере телекоммуникаций. Подразделение ITU-T является его постоянным органом. Оно занимается изучением технических и текущих вопросов, а также вопросов, связанных с тарификацией, и выпускает рекомендации, нацеленные на международную стандартизацию. Международная ассамблея стандартизации телекоммуникаций WTSA (World Telecommunication Standardization Assembly) собирается раз в четыре года и определяет темы для изучения рабочими группами ITU-T, которые, в свою очередь, готовят рекомендации по этим темам. Утверждение рекомендаций ITU-T подробно описано в Резолюции 1 WTSA. В некоторых сферах, которые попадают в поле зрения ITU-T, необходимые стандарты разрабатываются совместно с другими организациями, такими, как ISO и IEC.
Международная организация по стандартизации ISO (International Organization for Standardization) и Международная электротехническая комиссия IEC (International Electrotechnical Commission) являются основой специализированной системы международной стандартизации. Национальные институты, члены ISO и IEC, участвуют в разработке международных стандартов через технические комитеты ISO и IEC.
Эти технические комитеты создаются для работы над определенными техническими вопросами и имеют свою специализацию. Комитеты ISO и IEC сотрудничают в сфере взаимных интересов. Другие международные организации, правительственные и неправительственные организации, связанные с ISO и IEC, тоже принимают участие в разработке стандартов. В сфере информационных технологий ISO и IEC организовали совместный комитет ISO/IEC JTC1. Предварительные стандарты, разработанные техническим комитетом, передаются для голосования в национальные институты для голосования. Для утверждения стандарта в качестве международного необходимо одобрение не менее 75 % организаций, имеющих право голоса.
Некоторые рекомендации, такие, как новый стандарт Н.264, были подготовлены совместно группами ITU-T SG16 Q.6, которая известна как VCEG (Video Coding Experts Group), и ISO/IEC JTC1/SC29/WG11, которая также называется MPEG (Moving Picture Experts Group). Группа VCEG была сформирована в 1997 году для поддержки уже существовавших стандартов ITU-T кодирования видео и для разработки новых стандартов для применения в широкой сфере коммуникационных и некоммуникационных приложений.
Группа MPEG (экспертная группа по вопросам движущегося изображения) была образована в 1988 году с целью разработки стандартов кодирования аудио и видео для различных сфер применения, таких, как хранение, распространение и передача цифровой информации.
Следует отдельно оговорить и то, что хотя в видеонаблюдении мы используем видеосигнал и будем говорить о сжатии движущихся изображений, нашло применение и сжатие отдельных неподвижных изображении. Поэтому, чтобы подчеркнуть разницу между этими двумя видами сжатия, мы будем говорить о сжатии видеоизображения (подвижного) и сжатии изображения (неподвижного). (Однозначной терминологии в русском языке не существует. Можно говорить о сжатии изображения и сжатии видеопотока. Прим. ред.)
Алгоритмы сжатия видеоизображения используют три измерения: горизонтальное, вертикальное и временное. Поэтому такой вид сжатия часто называют еще временным и межкадровым. Типичным примером алгоритмов с межкадровым сжатием являются MPEG-1, MPEG-2, MPEG-4, H.263 и Н.264.
Алгоритмы сжатия изображения используют только два измерения: горизонтальное и вертикальное.
Типичными его представителями будут JPEG и Wavelet (JPEG-2000).
В видеонаблюдении нам очень часто приходится сталкиваться со сложной задачей выбора оптимального алгоритма сжатия для какой-либо конкретной задачи. Запомните, простого и однозначного решения этой задачи не существует. Очень часто многое зависит от того, насколько хорошо мы понимаем различия между различными алгоритмами сжатия, но еще важнее знать, для чего нужна система видеонаблюдения.
Если цифровая система видеонаблюдения должна обеспечивать безопасность кассира в банке или раздающего карты в казино, то необходимы высокие скорости записи и отображения. Очень часто будет предпочтительна скорость «живого» видео (25 кадров в секунду для PAL и 30 — для NTSC), хотя в некоторых случаях будет достаточно и 10 кадров в секунду. Скорость записи и отображения теоретически можно снизить еще больше, но это не будет практичным решением. В данном случае тестирование поможет вам выбрать оптимальное решение.
В качестве другого примера приведем типичную задачу записи повседневной активности людей. Например, люди входят и выходят из фойе здания. В данном случае высокая скорость записи только увеличит объем архива, что снизит общую эффективность системы видеонаблюдения, так как архивные записи еще кому-то впоследствии потребуется просмотреть и проанализировать. Повседневную человеческую деятельность достаточно записывать со скоростью 2 кадра в секунду (хотя можно и повысить скорость), при условии что качество изображения достаточно высоко, а уровень сжатия низок. Что мы увидим в записи и насколько высок будет уровень детализации, зависит от угла обзора объектива, но если на изображении можно разглядеть лицо человека при высокой скорости записи, то это можно будет сделать и при скорости записи 2 кадра в секунду.
Еще одной важной технологией записи, которую применяют в видеонаблюдении, является запись с мультиплексированием. В современном цифровом видеонаблюдении мы во многом копируем то, что было сделано во времена аналоговой записи с использованием видеомультиплексоров и видеомагнитофонов. В настоящее время типичный цифровой видеорегистратор, используемый в видеонаблюдении, на самом деле представляет собой устройство, в котором объединены функции видеомультиплексора и видеомагнитофона с цифровой записью. В таких устройствах удобнее применять сжатие изображения, а не сжатие видеоизображения, так как цифровой видеорегистратор будет сжимать телевизионные кадры или поля как отдельные изображения, от какой бы телекамеры ни пришло то или иное изображение. Некоторые возразят, что серьезным недостатком алгоритмов сжатия изображения, которые используются в цифровых видеорегистраторах с мультиплексированием, будет достаточно большой размер одного изображения (обычно при хорошем качестве одно сжатое телевизионное поле занимает примерно 30–60 килобайт). Но преимуществом таких алгоритмов сжатия изображения оказывается то, что каждое изображение будет независимым от других, то есть оно само по себе содержит достаточно информации, чтобы его можно реконструировать, не пользуясь предшествующими или последующими кадрами записи. Юридически в некоторых случаях такие алгоритмы сжатия изображения будут предпочтительнее по причине независимости отдельных кадров записи. Это, конечно, не означает, что сжатие видеоизображения не позволит использовать запись в суде, а только подчеркивает тот факт, что алгоритмы сжатия видеоизображения реконструируют нужный кадр на основе предшествующих или последующих кадров записи. При использовании алгоритмов сжатия изображения мы можем иметь значительно более низкую скорость записи, чем 25 кадров в секунду (29.97 кадров в секунду для NTSC), что позволяет экономить пространство жесткого диска. А в сочетании с записью по детектору движения, которая имеется в большинстве цифровых видеорегистраторов с записью с мультиплексированием, это превращает DVR в очень мощную замену традиционной комбинации видеомультиплексора и видеомагнитофона. Поэтому на один цифровой видеорегистратор сейчас можно записывать без перезаписи несколько телекамер со скоростью нескольких кадров в секунду в течение многих дней, недель и даже месяцев. Об этом можно было только мечтать еще 5-10 лет назад.
Когда мы хотим достичь максимально возможного качества с максимально возможной скоростью записи в цифровых видеорегистраторах, лучше всего подходит межкадровое сжатие, поскольку оно эксплуатирует межкадровую избыточность видеопотока. Впрочем, для достижения максимальной эффективности требуется продолжительный по времени видеосигнал от одной телекамеры. Другим достоинством алгоритмов сжатия видеоизображения является то, что поддержка записи звука в них включена изначально. Алгоритмы с межкадровым сжатием используют предсказание движения (не путать с детектированием движения), что делает движение более плавным при воспроизведении. Кстати, именно поэтому такие алгоритмы и не используются при записи с мультиплексированием.
Более того, если в цифровом видеорегистраторе есть несколько видеовходов и межкадровое сжатие, то скорее всего по каждому входу он записывает на жесткий диск независимые видеопотоки.
Еще одна важная особенность, напрямую связанная с межкадровым сжатием, заключается в появлении задержки (отставания), которая хорошо заметна в таких стандартах сжатия, как MPEG-1 и MPEG-2. Это непосредственно связано с принципами, реализованными в межкадровом сжатии, где избыточность видеосигнала сокращается при сравнении кодируемого кадра с предшествующим и последующим, что требует буферизации и вызывает задержку при кодировании и декодировании. Этот эффект более всего заметен в стандарте MPEG-2, где высокое качество изображения достигается при высокой скорости передачи данных (обычно более 4 Мбит/с), что вызывает задержку от половины до одной секунды. В вещательном телевидении или при просмотре фильма на DVD такая задержка видеосигнала не будет существенной, но она может стать серьезной проблемой в видеонаблюдении, когда нужно управлять поворотной камерой, сигнал которой кодируется для передачи по сети. Впрочем, снизив скорость передачи данных и уменьшив размер структуры GOP (group of pictures), можно добиться приемлемой задержки в 200 миллисекунд и даже меньше с незначительным ухудшением качества изображения.
Рис. 9.4. Один и тот же фотоснимок с различным разрешением: 50x50, 100x100 и 200x200 пикселов
Стандарты сжатия видеоизображения, которые используют низкую скорость передачи данных и предназначены для видеоконференций (то есть предусматривают двустороннюю передачу видеопотоков), такие, как Н.263 и MPEG-4 имеют значительно меньшую задержку, хотя качество изображения тоже снижается.
За последнее десятилетие технологии обработки и сжатия изображения эволюционировали очень быстро и значительно. Хотя в большинстве случаев MPEG-2 доминирует в индустрии вещательного телевидения и DVD, не исключено, что новые и более эффективные стандарты сжатия со временем его вытеснят. К момену написания этой книги самым новым и наиболее перспективным стандартом сжатия видеоизображеия считался Н.264 (на базе MPEG-4 v.10, также известный как кодек AVC, advanced video codec), a самым новым и перспективным стандартом сжатия изображения был JPEG-2000 (на базе Wavelet-сжатия). Впрочем, будущее покажет, так ли это на самом деле.
Теперь перечислим стандарты сжатия, которые используются или могут быть использованы в ближайшeм будущем в видеонаблюдении. Более подробно мы их рассмотрим далее в этой главе.
— JPEG и Motion-JPEG (сжатие изображения)
— JPEG-2000 /Wavelet и Motion JPEG-2000 (сжатие изображения)
— MPEG-1 (сжатие видеоизображения, используется скорость передачи данных 1–3 Мбит/с)
— MPEG-2 (сжатие видеоизображения, используется скорость передачи данных 1-30 Мбит/с)
— MPEG-4 (сжатие видеоизображения, используется еще меньшая скорость передачи данных 9.6 кбит/с-1.5 Мбит/с)
— MPEG-7 (новая концепция, имеющая функции интеллектуального поиска объектов)
— MPEG-21 (самая новая концепция, обещающая большую степень интеграции возможностей семейства MPEG)
— Н.261 (сжатие видеоизображения, один из первых и самых старых стандартов, предназначен для видеоконференций, использует скорости передачи, кратные 64 кбит/c, характерные для ISDN)
— Н.263 (улучшенный Н.261, использует еще меньшие скорости передачи данных)
— Н.264/AVC (новый и прогрессивный стандарт сжатия видеоизображения с широкой областью применения)
— Другие (собственные и гибридные реализации)
Рис. 9.5. Аналого-цифровое преобразование начинается с дискретизации и квантования аналогового видеосигнала
Существуют и другие, гибридные виды сжатия, которые сочетают особенности сжатия изображения и сжатия видеоизображения. Например, сжатие типа Motion Wavelet или Multi-Layer JPEG и другие собственные разработки компаний-производителей.
Преимущества аппаратной компрессии очевидны: скорость сжатия постоянна и не зависит от загруженности центрального процессора другими задачами (передача по сети, резервное копирование данных и т. д.).
Впрочем, общеизвестно, что программная компрессия позволяет легко и быстро модифицировать устройства записи и добавлять новые функции, так как она зависит только от программного кода, который можно легко обновить.
ITU-601: Объединяя NTSC и PAL
Прежде чем перейти к обработке или хранению сигнала в цифровом формате, осуществляется его аналого-цифровое преобразование. Оно может производиться в сетевой телекамере или в цифровом видеорегистраторе. На этом этапе происходит дискретизация и квантование аналогового сигнала (преобразование в дискретную форму). Частота дискретизации и количество уровней квантования зависят от качества и быстродействия электроники и определяют разрешение (качество) оцифрованного изображения и частоту регенерации цифровой кадровой памяти. В данной связи необходимо понимать, что, несмотря на большой выбор вариантов дискретизации и квантования при аналого-цифровом преобразовании, был разработан телевизионный стандарт оцифровки и большая часть продукции, используемой в видеонаблюдении, соответствует ему.
Рекомендация ITU-R BT.601 определяет оцифровку аналогового видеосигнала, состоящего из яркостной компоненты Y красной цветоразностной компоненты и синей цветоразностной компоненты, с базовой частотой дискретизации 3.375 МГц, которая будет общей как для PAL, так и для NTSC. Яркостная компонента оцифровывается с четырехкратной базовой частотой дискретизации (то есть 3.375 х 4 = 13.5 МГц), а цветоразностные компоненты оцифровываются с двукратным увеличением базовой частоты дискретизации (то есть 6.75 МГц). Таким образом, этот формат оцифровки известен как 4:2:2. Существуют и другие форматы оцифровки, такие, как 4:1:1 и 4:4:4, но формат 4:2:2 является одним из наиболее распространенных в видеонаблюдении.
Если мы сейчас вспомним количество строк в кадре и количество кадров в секунду для стандарта, то, перемножив 625 строк в кадре на 25 кадров в секунду, получим 15625 строк в секунду. Теперь частоту дискретизации 13.5 МГц (то есть 13500000 раз в секунду) разделим на полученное значение, что даст нам 864 отсчета для каждой строки. Таково качество дискретизации видеосигнала PAL согласно рекомендациям ITU-601C частотой дискретизации 13.5 МГц. Поскольку длительность строки PAL составляет 64 мкс, то 864 отсчета, которые приходятся на строку, разбивают этот период времени на очень малые интервалы (см. рис. 9.6).
Рис. 9.6. Частота дискретизации, рекомендованная ITU-601
Следует отметить, что 864 отсчета в строке включают в себя и импульсы синхронизации.
Для стандарта NTSC с 525 строками и частотой обновления 59.94 Гц (именно 59.94, а не 60) мы получаем 525 х 29.97 Гц = 15734.25 строк в секунду. Разделив 13.5 МГц на 15734.25 Гц, получим 858 отсчетов на одну строку, которые опять будут включать в себя импульсы синхронизации.
Рис. 9.7. Дискретизация сигнала
Итак, подводя итоги, еще раз отметим, что, согласно рекомендации ITU-601, для дискретизации яркостного сигнала в стандарте PAL используется 864 отсчета на одну строку, а в стандарте NTSC — 858 отсчетов на строку. В обоих случаях используется частота 13.5 МГц.
Из изложенных выше фактов следует очень важный вывод: ITU-R BT.601 представляет собой первую международную рекомендацию, которая пытается объединить в рамках общей цифровой концепции дискретизации два несовместимых аналоговых композитных телевизионных стандарта (NTSC с 525/59.94 и PAL с 625/50). Основным достижением этой рекомендации стал выбор общей частоты дискретизации 13.5 МГц, которая одинакова для обоих стандартов.
Из 864 отсчетов для PAL и 858 отсчетов для NTSC в обоих случаях на активные строки без синхроимпульсов приходится по 720 отсчетов. Это максимальное горизонтальное разрешение видеосигнала, оцифрованного согласно рекомендации ITU-601. Термин «разрешение» здесь используется в более широком значении, чем в аналоговом телевидении, где разрешение выражено в ТВ-линиях, но об этом мы поговорим подробнее далее.
Некоторые из вас могут задать вопрос: «Почему именно 720 отсчетов, а не больше или меньше?» Это связано с тем, что 720 без остатка делится на 8 (то есть, 23), что очень удобно для большинства стандартов сжатия, использующих дискретное косинусное преобразование (JPEG, MPEG, серия стандартов Н), где изображение разбивается на блоки 8x8 пикселов.
Рис. 9.8. Количество пикселов в кадре, согласно рекомендации ITU-601
Очень часто приходится сталкиваться с такой ситуацией, что цифровое оборудование «отрезает» по 8 отсчетов слева и справа активной строки, в которой после этого остается 704 пиксела вместо 720. Это сделано для того, чтобы более устойчиво обрабатывать нестабильные сигналы от различных телекамер.
Вертикальная дискретизация, согласно рекомендации ITU-601, равна количеству активных строк, которых приходится 288 на одно телевизионное поле (или 576 для полного телевизионного кадра) в PAL и 240 на одно телевизионное поле (или 480 для полного телевизионного кадра) в NTSC.
Таким образом, оцифрованный согласно рекомендации ITU-601 телевизионный кадр имеет формат 720x576 пикселов для PAL и 720x480 пикселов для NTSC.
Это показывает, что рекомендация ITU-601 учитывает чересстрочную развертку, что позволяет во многих цифровых видеорегистраторах выбрать режим записи полями или кадрами.
Наблюдательный читатель, вероятно, уже заметил в приведенных выше числах некоторое несоответствие, которое иногда сбивает с толку, когда речь идет о цифровом видео. Эта неточность касается соотношения сторон в телевидении стандартной четкости и в изображениях, получаемых при оцифровке согласно рекомендации ITU-601. Как мы знаем, все видеомониторы в системах видеонаблюдения имеют соотношение сторон 4:3 = 1.33, но соотношение сторон по рекомендации ITU-601 для кадра PAL будет 720:576 =1.25, а для кадра NTSC 720:480 = 1.5. Это приводит к появлению т. н. «неквадратных» пикселов в обоих телевизионных стандартах. В стандарте PAL пикселы сжимаются по горизонтали, и поэтому для отображения на мониторе с соотношением сторон 4:3 кадр необходимо растянуть. В стандарте NTSC пикселы необходимо растягивать уже по вертикали перед выводом на монитор, так как они были сжаты по вертикали. Это растяжение пикселов выполняется на последнем этапе декодирования изображения перед его отображением. Это может показаться необязательным, но, тем не менее, именно растяжение пикселов позволяет сделать декодирующую электронику более универсальной и дешевой, так как она используется как для PAL, так и для NTSC.
Рис. 9.9. Пример испытательной таблицы, оцифрованной согласно рекомендации ITU-601. Обратите внимание на горизонтальное сжатие для PAL (слева), и как оно пропадает при аналоговом выводе (справа).
Разрешение изображения, оцифрованного согласно рекомендации ITU-601
Согласно теории Найквиста, непрерывный аналоговый сигнал может быть реконструирован без потери информации из отдельных частей, если частота дискретизации не менее чем в два раза выше самой высокочастотной составляющей спектра сигнала. Когда в сигнале появляются высокочастотные паразитные составляющие, то они приводят к наложению спектров (наподобие муара, эффект алиасинга, aliasing), поэтому они крайне нежелательны. Чтобы избавиться от паразитных высоких частот, сигнал нужно пропустить через фильтр низких частот, который отсечет все частоты, выше максимальной, которая равна половине частоты дискретизации. Идеального фильтра низких частот на практике не существует, поэтому отсекание частот будет происходить немного ниже, чем требуется теорией. Это имеет прямое отношение к количеству горизонтальных элементов (пикселов), которые сможет обрабатывать цифровая система.
В идеальных условиях, если не производится дополнительная фильтрация сигнала, то, имея частоту Найквиста 6.75 МГц (то есть частота дискретизации составит 13.5 МГц), 720 пикселов в активной строке будут эквивалентны горизонтальному разрешению 3/4x720=540 ТВ-линий, как это определено в аналоговом телевидении.
Впрочем, рекомендация ITU-601 определяет и отсекание частот до 5.75 МГц за счет работы дополнительного фильтра защиты от наложения спектров (anti-aliasing and reconstruction filter), что уменьшает горизонтальное разрешение аналогового яркостного сигнала до 449 ТВ-линий для PAL и 455 ТВ-линий для NTSC.
Дальнейшее уменьшение разрешения связано уже со сжатием изображения, поэтому мы можем сказать, что на практике ни один оцифрованный видеосигнал в видеонаблюдении не может иметь разрешение выше, чем примерно 450 ТВ-линий. Теперь становится очевидным, что выбор такого алгоритма сжатия, который дает минимальные потери качества, является предметом первостепенной важности. Но это требование противоречит необходимости очень длительной записи, которая достигается за счет повышения уровня сжатия. Различные стандарты сжатия мы тоже рассмотрим в этой главе, но сейчас необходимо подчеркнуть, что вышеприведенный предел горизонтального разрешения оцифрованного видеосигнала справедлив еще до того, как будет осуществлено сжатие изображения.
Глаз человека менее чувствителен к цветовому разрешению, поэтому в видеонаблюдении формат оцифровки 4:2:2 мы считаем как вполне приемлемый, где дискретизация цветоразностных сигналов осуществляется с частотой 6.75МГц (вдвое меньше, чем частота дискретизации яркостного сигнала). Это дает 432 пиксела для PAL и 429 пикселов для NTSC в одной строке (включая импульсы синхронизации). Таким образом, в одной оцифрованной активной строке умещается 360 цветоразностных красных отсчетов и 360 цветоразностных синих отсчетов для обоих телевизионных стандартов.
Рис. 9.10. Разница между полным кадром 720x576 пикселов (иллюстрация слева) и изображением формата CIF (360x288) будет достаточно велика, а иногда будет заключаться в том, что вы сможете или не сможете распознать автомобильный номер. В качестве примера сказанному внимательно посмотрите на фотографию (машина справа).
В идеальных условиях, когда частота Найквиста будет равна 3.375 МГц, 360 отсчетов в активной строке будут эквивалентны 3/4x360=270 ТВ-линиям. Рекомендация ITU-601 определяет и отсекание частот до 2.75 МГц за счет работы дополнительного фильтра защиты от наложения спектров, что уменьшает горизонтальное разрешение аналоговых цветоразностных сигналов до 215 ТВ-линий для PAL и 218 ТВ-линий для NTSC.
Все изложенное выше и в особенности данные об оцифровке яркостного сигнала позволяет нам прийти к очень важному заключению относительно разрешения оцифрованного видео. Сразу отметим, что наш вывод касается только рекомендации ITU-601, а, как уже было сказано выше, большинство цифрового оборудования, которое используется в видеонаблюдении, придерживается этой рекомендации.
При записи на цифровые видеорегистраторы, совместимые с рекомендацией ITU-601, мы не получим никакого преимущества от телекамер с разрешением выше 450 ТВ-линий.
Нечто похожее уже наблюдалось в истории видеонаблюдения, когда использовались телекамеры высокого разрешения (например, 460 ТВ-линий) для записи на видеомагнитофоны VHS, у которых разрешение ограничено было 240 ТВ-линиями из-за фильтра низких частот. Конечно, разница в случае с цифровыми видеорегистраторами не будет такой существенной, так как относительно недавно некоторые производители заявили о выпуске цветных телекамер с разрешением 520 ТВ-линий. На практике это для нас означает, что мы не увидим никакой разницы от телекамеры с 460 ТВ-линиями и 480 ТВ-линиями или даже 520 ТВ-линиями горизонтального разрешения при записи цветного изображения на цифровой видеорегистратор (даже самого лучшего качества), соответствующий рекомендации ITU-601. Следует уделить больше внимания выбору телекамеры с лучшим отношением сигнал/шум, меньшим смазыванием или лучшим динамическим диапазоном, чем ориентироваться на небольшие отличия в горизонтальной разрешающей способности, которые все равно никто не сможет увидеть. Но если система предназначена только для наблюдения с использованием высококачественных видеомониторов, у которых разрешение превышает 500 ТВ-линий, такая небольшая разница в разрешении может оказаться полезной. Впрочем, это потребует подключения раздельного видеосигнала Y/C вместо композитного видеосигнала, что очень редко используется в видеонаблюдении, иначе разница будет практически незаметной.
Конечно, никто не может предсказать, с чем мы столкнемся в будущем, но уже сейчас с уверенностью можно сказать, что рано или поздно в видеонаблюдении появятся телекамеры высокого разрешения и соответствующие им рекомендации по оцифровке. Однако, пока этого не произошло, нам необходимо помнить о всех ограничениях, с которыми нам приходится сталкиваться, и компромиссах, которые заложены в цифровых системах видеонаблюдения.
Все, что было изложено выше, справедливо для горизонтального разрешения, но теперь настало время поговорить о вертикальном разрешении. Для некоторых цифровых систем видеонаблюдения вертикальное разрешение будет не менее важно, чем горизонтальное, особенно в тех случаях, когда необходимо распознать лицо или номерной знак автомобиля на расстоянии.
Рис. 9.11. ITU- 601 рекомендует несколько форматов оцифровки, из которых в видеонаблюдении широко распространен формат 4:2:2.
Рис. 9.12. Если частота дискретизации слишком низка, то видеосигнал будет реконструирован неверно
Рис. 9.13. Слева: ТВ-поле; В центре: Эффект чересстрочной «гребенки»; Справа: Работа алгоритма деинтерлейсинга. Обратите внимание на зубчатые контуры автомобиля на иллюстрации слева, где была использована запись полями, и на качество тех же контуров на иллюстрациях в центре и справа, где использовалась запись кадрами.
В рекомендации ITU-601 выбрано 8-битное квантование, что дает нам 256 уровней квантования(28 = 256). Этот выбор очень практичен с инженерной точки зрения: ни одна электронно-лучевая трубка не в состоянии передать более 250 оттенков серого, поэтому не имеет смысла квантовать видеосигнал большим количеством уровней. Значение 256 выбрано потому, что оно является степенью двойки, а в мире цифровых устройств, как мы знаем, все представлено нулями и единицами (то есть, в двоичной системе счисления).
Имея дело с рекомендацией ITU-601, мы должны быть готовы к появлению новых подводных камней. Как было в случае с частотой дискретизации 13.5 МГц, которая учитывала весь видеосигнал, включая синхроимпульсы, ITU-601 рекомендует использовать 8-битный диапазон уровней квантования для представления всех вертикальных деталей видеосигнала. В данном случае мы можем расценивать время как горизонтальные детали, так как оно имеет дело со строками, которые разворачиваются на мониторе по горизонтали.
Таким образом, ITU-601 предлагает из 256 доступных уровней квантования 8-битного диапазона значения 0 и 255 использовать для синхронизации, а значения от 1 до 254 — для видео. Яркостный уровень черного задается значением 16 (двоичное значение 00010000), а уровню белого присваивается значение 235 (двоичное значение 11101011). Значение 128 зарезервировано для определения цветного или черно-белого видеосигнала.
Рис. 9.14. Сравнение полнокадрового формата с форматом CIF
Как уже было сказано выше, количество пикселов по вертикали в ТВ-кадре PAL будет 576, тогда как для NTSC это будет 480, что соответствует количеству активных строк в этих телевизионных стандартах. Необходимо напомнить читателям, что аналоговые телекамеры в видеонаблюдении генерируют видеосигнал с чересстрочной разверткой (50 полей в секунду или 29.97 полей в секунду). Кадр при чересстрочной развертке состоит из двух телевизионных полей, смещенных во времени относительно друг друга (на 1/50 секунды для PAL и 1/29.97 секунды для NTSC). Поэтому в оцифрованном видеофрагменте с движущимися объектами может проявляться эффект чересстрочной «гребенки» при записи полными кадрами. Это нормальный телевизионный эффект, возникающий как следствие чересстрочной развертки. Это даже не ошибка оцифровки, как иногда считают. При этом возникает ощущение, что движущиеся объекты размываются в направлении движения, и, чем быстрее движется объект, тем сильнее будет заметен этот эффект.
Существуют специальные алгоритмы обработки цифрового изображения, которые позволяют минимизировать или полностью исключить этот эффект. Это называется деинтерлейсингом (de-interlacing). Такая функция присутствует в различных графических редакторах, таких, как Photoshop или Photopaint, но ее имеют и некоторые цифровые видеорегистраторы.
Рис. 9.15. Полный кадр, записанный цифровым видеорегистратором с использованием Wavelet-сжатия
Рис. 9.16. Полный кадр, записанный цифровым видеорегистратором с использованием сжатия MPEG-2
При записи в полнокадровом режиме, в отличие от записи полями, вертикальное разрешение повышается в два раза, что делает края объектов более плавными и позволяет видеть больше деталей (см. примеры на иллюстрациях). Когда запись ведется кадрами, но телевизионные поля записываются и обрабатываются раздельно, то при отображении такого фрагмента на экран выводятся поочередно четные и нечетные поля, что вызывает ощущение «прыгающего» вверх и вниз изображения, так как четные и нечетные поля смещены относительно друг друга по вертикали на одну строку. На самом деле это вполне естественный эффект, обусловленный чересстрочной разверткой, а не ошибка при воспроизведении, как иногда считают. (Такой режим отображения производители зачастую пытаются выдать за собственную уникальную разработку. Будьте внимательны, на российском рынке он фигурирует под разными названиями (режим «казино», ускоренная запись, запись 50 к/с и т. д. Прим. ред.), но никаких особых преимуществ не предоставляет и никакой дополнительной информации, помимо той, что содержалась в видеосигнале, тоже не дает. При желании его можно получить самостоятельно, имея в наличии программу для обработки и редактирования видео.) Отметим, что раздельная запись и обработка четных и нечетных телевизионных полей приводит к значительному увеличению размера архива.
Рис. 9.17. Разница между телевизионным полем (слева) и полным кадром (справа)
Возможно, читатели уже задаются вопросом, как можно нормально отображать оцифрованное видео, записанное полями (720x288 для PAL или 720x240 для NTSC), на экране или при экспорте изображения.
Ответ прост. Это достигается дублированием каждой строки. (Это не всегда так, потому что существует несколько алгоритмов интерполяции недостающих строк. Эти алгоритмы отличаются визуальным качеством и ресурсоемкостью. Впрочем, нужно помнить, что никакая интерполяция не сможет повысить реальную детализацию изображения и дать нам новую информацию. Прим. ред.) Такой способ приводит еще к одному заметному эффекту, который выражается в появлении зубчатых границ на изображении.
Глаз человека более чувствителен к разрешению по горизонтали, чем в вертикальном направлении, и, вероятно, поэтому большинство производителей цифровых видеорегистраторов предпочитают запись полями. Впрочем, в некоторых случаях вертикальное разрешение для нас оказывается важным, и тогда следует вести запись полными кадрами. А в некоторых цифровых видеорегистраторах возможна только запись полями, что ограничивает нас в выборе.
Рис. 9.18. Изображение, на котором зафиксирован реальный похититель, экспортированное в формате BMP, (слева) и детализация полного кадра (вверху) и формата CIF (внизу).
Вышеописанный эффект чересстрочной «гребенки» проявляется в основном при использовании сжатия изображения JPEG или Wavelet, то есть без межкадрового сжатия когда телевизионные поля обрабатываются как отдельные статичные изображения.
Однако, если применяется сжатие видеоизображения, то есть присутствует межкадровое сжатие, (например, семейство MPEG и Н.26х), то эффект чересстрочной «гребенки» частично компенсируется в процессе вычисления векторов предсказания движения и будет не так сильно заметен.
Все наши рассуждения до сих пор были применимы к так называемому полнокадровому разрешению. Но существуют стандарты сжатия изображения, которые используют в 4 раза меньшее количество пикселов (то есть 352x288 или 352x240 пикселов), чем содержится в полном кадре. Такой формат кадра обычно называется CIF (Общий формат обмена видеоданными, Common Interchange Format) и, как правило, используется стандартами сжатия MPEG-1 и Н.261. Это делается для того, чтобы уменьшить поток данных до приемлемого для видеоконференций уровня, который сопоставим по качеству изображения с VHS. Когда речь идет о разрешении систем видеонаблюдения, использующих сжатие MPEG-1, Н.261 с форматом кадра CIF, все вышеприведенные вычисления будут применимы и в этом случае, но их нужно будет разделить пополам. Таким образом, эквивалентным аналоговым разрешением для формата CIF будет примерно 220 ТВ-линий. Формат CIF содержит в четыре раза меньше пикселов, чем полный кадр в рекомендации ITU-601 (в два раза меньше пикселов по вертикали и по горизонтали). Для многих областей применения качества CIF будет вполне достаточно, а скорость обновления кадров при записи и передаче возрастает. Это будет особенно полезно при организации видеоконференций, для которых изначально и создавался этот формат. Разрешение формата CIF до сжатия сопоставимо с разрешением аналогового видео VHS (240 ТВ-линий). Это необходимо учитывать при проектировании систем видеонаблюдения, где требуется распознавание лица и автомобильных номеров. Иногда формат полного кадра ITU-601 называют 4CIF, подчеркивая, что количество пикселов здесь в четыре раза больше, чем в формате CIF. Также существует и формат QCIF (Quarter CIF), в котором содержится в четыре раза меньше пикселов, чем в формате CIF (то есть 176x144 пиксела).
Рис. 9.19. Сегодня на рынке присутствует огромное количество цифровых видеорегистраторов