https://scientificrussia.ru/data/auto/material/big-preview-ris_1-004.jpg

Что скрыто в файлах формата JPEG?

by

Ученые Сибирского федерального университета предложили метод стеганоанализа файлов формата JPEG, в основу которого заложена модель поведения иммунной системы. Повышение точности распознавания скрытого содержания способствует противодействию противоправной передачи данных и вносит весомый вклад в сферу защиты информации.  

Стеганоаналитические системы предлагают сегодня различные методы для распознавания информации, скрытой в мультимедиаобъектах:   аудио-, видеозаписях, цифровых изображениях. Подчас такие объекты могут содержать в себе сообщения запрещенного характера (например, экстремистского, криминального), поэтому с целью предотвращения преступных действий с использованием средств стеганографии (т.е. средств, используемых для сокрытия факта передачи сообщения) или для защиты конфиденциальных данных особенно важно изучение и развитие методов стеганоанализа.

В этой связи специалисты находят возможные варианты построения векторов характеристик и подходящие классификаторы для решения стеганоаналитических задач. Так, красноярские ученые разработали метод стеганоанализа для файлов формата JPEG и спроектировали модель искусственной иммунной системы. Точность обнаружения скрытой информации в стеганоконтейнерах-изображениях доказана экспериментальными данными.

Базовые элементы искусственных иммунных систем (ИИС) создаются по аналогии с иммунной системой человека. Такие ИИС способны к самообучению, инициализации и детектированию большого объема скрытой информации. Подобные математические алгоритмы удовлетворяют требованиям точности обнаружения и демонстрируют соответствующую степень надежности.

https://scientificrussia.ru/data/shared/Farberovich/2020/01.2020/3/ShniperovA_300x500.jpg
На фото – Шниперов Алексей Николаевич – кандидат технических наук, доцент кафедры прикладной математики и компьютерной безопасности Сибирского федерального университета

Алексей Николаевич Шниперов, курирующий данное исследование и  другие работы в рамках смежных проектов в области стеганографии и стеганоанализа, кандидат технических наук, доцент кафедры прикладной математики и компьютерной безопасности Сибирского федерального университета (г. Красноярск)  и соавтор, аспирантка СФУ, инженер отдела сопровождения аппаратных комплексов защиты информации управления информационной безопасности филиала «Макрорегион Восточная Сибирь» ООО ИК «СИБИНТЕК» Александра Владимировна Прокофьева – предоставили развернутую информацию  о предмете исследования, в частности,  о методах стеганоанализа, в том числе и о методах построения искусственных иммунных систем, способных декодировать скрытую информацию в цифровом изображении.

Итоговые результаты были апробированы красноярскими учеными на Международной конференции, проходившей в г. Сочи (SIN 2019: The 12th International Conference on Security of Information and Networks Sochi Russia September, 2019), а теперь готовится к выходу в печать статья в рецензируемом отечественном издании «Вопросы кибербезопасности».

«Мы занимаемся различными проблемами стеганографии уже порядка десяти лет, разрабатывая и исследуя способы скрытой передачи информации, а также способы защиты авторских (и иных) прав посредством стеганографических цифровых водяных знаков. Однако, понимая, насколько уже остро стоит проблема выявления скрытых каналов передачи (распространения) информации, а также высокую потенциальную потребность в таких разработках у вендоров специализированного программного обеспечения для защиты информации, несколько лет назад мы начали отдельный вектор исследований в данной области. Данная работа является лишь ее началом, в котором получены первые интересные и значимые результаты, и она будет продолжена и далее», – отметил Алексей Шниперов.

 Специалисты СФУ разработали авторский метод стеганоанализа статичных изображений JPEG, основанного на использовании искусственных иммунных систем. 

 В чем состоит этот метод, каковы его базовые принципы и главная функция Алексей Шниперов  подробно разъяснил:

«В настоящий момент уже можно смело говорить, что стеганоанализ – это наука о выявлении скрытых каналов передачи (распространения) информации в некотором потоке данных. Кроме того, стеганоанализ – это довольно объёмный раздел такой области знаний, как стеганография. В последние два десятилетия произошел достаточно стремительный рост объёма информации, циркулирующего в интернете, что обусловлено как развитием широкополосных каналов связи, так и развитием различных информационных технологий, включая интернациональные социальные сервисы. Среди всего этого объёма весьма значительную долю составляет медиаконтент, трафик которого превосходит все «осязаемые» размеры, а фильтровать его становится всё труднее и труднее. Одной из задач такой фильтрации является автоматическое обнаружение медиаконтента, который в себе несёт некоторый скрытый поток данных, который в большинстве случаев невозможно обнаружить человеком. Так, цифровая фотография прекрасного заката для любого человека, который ее просматривает, так и останется ею, даже если в ней содержится скрытая, методами стеганографии, информация. Даже по основным характеристикам изображения оно не будет чем-то «выделяться» из статистики похожих фотографий.  Это является весьма серьёзной проблемой, как в задачах борьбы с утечками конфиденциальной информации в компаниях, так и в общегосударственных задачах по борьбе с экстремизмом и терроризмом. Особенно это проблема обострена потому, что даже в открытых источниках можно найти сотни различных способов встраивания скрытой информации только лишь для одних цифровых изображений, а также соответствующее алгоритмическое или программное обеспечение. Кроме того, ежегодно исследователи предлагают всё новые и новые подходы.

Таким образом, в целом, несмотря на то, что задача стеганоанализа определена весьма конкретно, ее условия, как правило, определены лишь рамочно, т.к. алгоритм встраивания скрытой информации априори считается неизвестным. Соответственно, для решения этой задачи необходимо реализовывать подход, в основе которого лежал бы эвристический принцип обнаружения, основанный, в том числе, на механизмах самообучения. Одним из таких подходов является применение искусственных иммунных систем. Искусственная иммунная система является некоторой упрощённой моделью иммунной системы, которая есть у позвоночных животных, и работает по схожему принципу. Иммунная система (если говорить крайне упрощенно) формирует антитела к различным чужеродным патогенам, позволяя нивелировать их вред для организма.

Вопросами создания и применения искусственных иммунных систем активно занимаются с начала XXI века. Уже несколько лет мы также ведем научную работу в данном векторе исследования, разрабатывая подход к эвристическому стеганоанализу (выявления наличия скрытой информации) в медифайлах одного из самых распространённых форматов изображений – JPEG. Разрабатываемая нами искусственная иммунная система призвана «пропускать» через себя огромный поток изображений и находить в нём те (давать иммунный ответ), которые потенциально могут содержать скрытую информацию (вероятность этого высока)».

На выявление факта присутствия скрытой информации в цифровом изображении, повышение точности декодирования, а следовательно,  эффективности противодействия скрытым каналам передачи данных направлены  многие современные методы стеганоанализа, каждый из которых  включает  в себя свой набор параметров и  способов оценки».

Алексей Шниперов отметил достоинства метода стеганоанализа, предложенного им с коллегой, которые выгодно отличают его от других работ, представленных  в этом направлении:

 «Во-первых, сам подход к стеганоанализу изображений с использованием искусственных иммунных систем является сравнительно новым, нам удалось найти всего несколько релевантных работ последних лет в данной области, исследования по которым ведутся за рубежом. 

Во-вторых, в предлагаемом нами методе используется собственный подход к устранению первичного иммунодефицита у системы, который базируется на ее предварительном обучении посредством набора различных изображений, в каждое из которых был внедрен различный объём скрытой информации. Мы выбрали несколько наиболее эффективных (с точки зрения стеганографии) алгоритмов внедрения.  Посредством данного обучения у искусственной иммунной системы формируется первичный набор эффективных антител.

В-третьих, нами был предложен алгоритм репродукции антител, для последующего самообучения искусственной иммунной системы, который, в ходе ряда экспериментов, доказал свою потенциальную эффективность».

Прежде всего, выбирая среди известных методов стеганоанализа (различают сигнатурные, статистические и эвристические), Шниперов и Прокофьева остановились на последнем (эвристическом) виде как наиболее универсальном и перспективном для применения в своем исследовании. Так, перед учеными встает задача бинарной классификации. В чем она заключается?

«Постановка задачи бинарной (двоичной) классификации, в принципе, очень простая. Есть некоторое исходное множество каких-то объектов и некоторый класс объектов заданного типа. Нужно ответить на простой вопрос, принадлежит ли данному классу объект, который выбран из исходного множества? В зависимости от решаемой конкретной задачи, этот ответ может либо однозначный, в случае, когда нам удаётся однозначно проверить все ключевые особенности исходного объекта, когда нам это сделать не удаётся. Жизненный пример очень простой, – рамка для ручной клади в аэропорту, жесткая коробка у пассажира и задача по определению возможности взять эту коробку в самолет. Коробка либо входит в эту рамку (взять можно, логическая 1), либо нет (логический 0)», – прокомментировал Алексей Шниперов.

Почему возникает трудность детектирования скрытой вложенной информации в изображении?

По словам ученого, «условия для решения задачи стеганоанализа изображений лишь рамочные, т.к., во-первых, невозможно достоверно предсказать алгоритм, который будет использоваться для встраивания скрытой информации, а во-вторых самих изображений существует практически необъятное множество (как с точки зрения контента, так и с точки зрения технических аспектов: цветовой палитры, степени сжатия, размеров и т.п.). В этом и состоит трудность детектирования. Другими словами, у нас нет ни жесткой коробки фиксированного размера, ни конкретной рамки для проверки».

Итак, красноярские специалисты сформировали научно-техническая задачу – разработать свой подход к построению обучаемой искусственной иммунной системы (ИИС), которая сможет распознать скрытую информацию в изображениях формата JPEG.  При этом ИИС – это некая система, способная отличить некий пустой («свой») контейнер-изображение от заполненного («чужеродного»).

Чтобы получить вектор характеристик изображения, специалисты вводят дополнительные преобразования изображения (калибровку). При этом квадратное изображение представлено вектором, состоящим из 36 значений, а прямоугольное изображение – вектором из 54 значений.  Каким образом это происходит? 

Инженер филиала «Макрорегион Восточная Сибирь» ООО ИК «СИБИНТЕК» Александра Прокофьева объясняет:

«Введение функции калибровки изображения позволило существенно снизить влияние сжатия JPEG исходного изображения (ведь мы работаем с изначально сжатыми изображениями) и потенциально возможного наличия в нем скрытого вложения на коэффициенты дискретного косинусного преобразования (ДКП-коэффициенты) в изображении, и тем самым получить некое инвариантное отражение статистических свойств изображения, так, если бы оно являлось пустым стеганоконтейнером (т.е. не содержало в себе скрытого вложения).

Поскольку каждую компоненту итогового вектора характеристик изображения мы находим как разность соответствующих компонент векторов откалиброванного и исходного изображений, это позволяет снизить зависимость точности бинарной классификации от обучающей выборки изображений. 

Для получения вектора характеристик изначально к исходному и откалиброванному изображениям итеративно применяется вейвлет-преобразование Хаара. Причём осуществляется это для каждого цветового канала RGB модели (применение вейвлет-преобразования для синего канала изображено на  Рис.1).

https://scientificrussia.ru/data/shared/Farberovich/2020/01.2020/3/ris_1.jpg
Рисунок 1. Схема итеративного применения вейвлет-преобразования изображения
https://scientificrussia.ru/data/shared/Farberovich/2020/01.2020/3/ProkofevaA.jpg
На фото – Прокофьева Александра Владимировна -– инженер отдела сопровождения аппаратных комплексов защиты информации управления информационной безопасности филиала «Макрорегион Восточная Сибирь» ООО ИК «СИБИНТЕК»

Количество итераций вейвлет-преобразования прямо пропорционально размеру изображения. Одна итерация вейвлет-преобразования уменьшает размерность матрицы коэффициентов вдвое (в нашем случае на вход подается матрица ДКП-коэффициентов изображения), пока для квадратных изображений на последней итерации не получим матрицу размером 2×2, а для прямоугольных с горизонтальной ориентацией – 2×3, а с вертикальной ориентацией – 3×2 соответственно.

На выходе вейвлет-преобразования получаем четыре группы коэффициентов, используем для составления вектора только трёх из них: группы, в которых содержится информация о горизонтальных, вертикальных и диагональных линиях, содержащихся в изображении. Такие группы коэффициентов мы получаем для каждого цветового канала изображения модели RGB. Перемножив значения размерности матрицы на 3 цвета цветовой модели RGB и на 3 группы коэффициентов, получаем число 36 для квадратного изображения и 54 – для прямоугольного».

Авторы строят схему алгоритма искусственной иммунной сети, в которой собственные клетки ИИС  –  пустые стеганоконтейнеры, чужеродные (антигены) – заполненные. Получение первоначального набора антител производится аналогично процессу вакцинации: из обучающей выборки выделяются только те изображения, в которые была заранее скрыта информация различными методами стеганографии, тем самым, в ИИС вводится такой набор антигенов, которым искусственная иммунная система будет впоследствии сопротивляться. Создается два набора антител: это числа 36 для квадратного изображения и 54 – для прямоугольного. Затем происходит взаимодействие между антителами и антигенами, которое описывается  с помощью k-мерного пространства.

Александра Прокофьева дает детальное описание этой схемы и  говорит об  используемых подходах: «Искусственная иммунная система представляет собой некоторую упрощённую модель иммунной системы живых организмов. Применительно к задаче стеганоанализа собственными клетками искусственной иммунной системы являются пустые стеганоконтейнеры (изображения, которые не содержат скрытого вложения), а антигенами – заполненные контейнеры (изображения, содержащие скрытое вложение на Рис.2).

https://scientificrussia.ru/data/shared/Farberovich/2020/01.2020/3/ris_2.jpg
Рисунок 2. Схематичное представление функции детектирования стеганоконтейнера искусственной иммунной системой

В качестве первоначального набора антител мы используем набор антигенов из обучающей выборки. Данный подход аналогичен вакцинации людей, позволяющей научить иммунную систему сопротивляться антигенам без развития болезни.

Иммунная система, как и нервная система, способна совершенствовать знания об окружающем мире. Существуют следующие подходы к обучению искусственной иммунной системы.

Первый подход – теория клонального отбора, которая основывается на том факте, что антитела, способные распознать чужеродный антиген, размножаются пропорционально степени их распознавания: чем лучше распознавание антигена, тем больше клонов будет сгенерировано (клонирование  применяется перед операцией мутации и заключается в создании дубликатов исходных элементов в памяти.) В течение процесса репродукции клоны подвергаются мутации – (случайному изменению значений части элементов антитела), которая позволяет им иметь более высокое соответствие к распознаваемому антигену. Обучение при таком подходе обеспечивается увеличением относительного размера популяции тех антител, которые доказали свою ценность при распознавании представленного антигена (наглядное представление теории клонального отбора приведено на Рис. 3):

https://scientificrussia.ru/data/shared/Farberovich/2020/01.2020/3/ris_3.jpg
Рисунок 3. Схематичное представления процесса клонального отбора (антигены – множество заполненных стеганоконтейнеров, антитела – элементы искусственной иммунной системы, способные детектировать антиген)

Вторым подходом является теория отрицательного отбора. Основной принцип алгоритма отрицательного отбора заключается в том, что отбираются и уничтожаются такие антитела, которые борются с собственными клетками. У живых организмов, когда такие антитела не уничтожаются, возникает аутоиммунная реакция, вызывающая повреждение и воспаление тканей организма. В искусственных иммунных системах все точно так же: если такие антитела не уничтожать, становится очень высоким значение ошибки второго рода.

Таким образом, для построения искусственной иммунной системы, применимой к задаче стеганоанализа изображений, необходимо использовать сочетание этих двух подходов. В нашем методе они применяются последовательно: отрицательный отбор – при инициализации, а клональный – при обучении искусственной иммунной системы (Рис. 4)».

https://scientificrussia.ru/data/shared/Farberovich/2020/01.2020/3/ris_4.jpg
Рисунок 4. Общая схема реализуемого метода

Итак, обучение иммунной системы основывается на теории клонального отбора. По словам Александры Прокофьевой, «оно обеспечивается увеличением относительного размера популяции тех антител, которые доказали свою ценность при распознавании. В ходе экспериментов были апробированы несколько вариантов мутаций (небольших случайных изменений векторов антител, позволяющих достичь более высокого соответствия к распознаваемому антигену), в том числе случайные незначительные (в пределах от 0,001 до 0,01) изменения компонент векторов антител, перестановки элементов в векторах в пределах только одного из блоков коэффициентов при неизменности остальных.  Последний вариант – сильно упрощенный аналог того, как происходят мутации антител в иммунной системе живых организмов. В ходе экспериментов лучшие результаты показал вариант мутаций, основанный на перестановках компонент векторов антител в пределах одного блока коэффициентов, поскольку в данном случае достигается наименьшее число ложных срабатываний. Клональный отбор производится итерационно, поскольку одиночные изменения антител незначительно влияют на свойства системы. Следовательно, с увеличением числа поколений (итераций клонального отбора) повышается точность определения неизвестных системе антигенов».

Не наблюдалось ли сбоя или ошибки в работе алгоритма?

«Здесь хотелось бы отметить, что найти то состояние, те входные данные (способы мутации, первоначальный набор антител), при которых искусственная иммунная система была бы стабильной и способной противостоять чужеродным организмам, оказалось достаточно непросто. Сбой в работе алгоритмов наблюдался до тех пор, пока мы не приняли решения использовать теорию клонального отбора на этапе обучения и не нашли эффективный способ мутации антител, после чего уже алгоритм стал стабильным и эффективным, – отвечает Алексей Шниперов.

Помимо этого, специалисты обнаружили проблему продолжительности времени обучения искусственной иммунной системы.

По замечанию Шниперова, «эффективность предлагаемой иммунной системы весьма напрямую также зависит и от объёма эффективных антител в ней, способных детектировать изображения, в которых тем или иным методом внедрена скрытая информация. В свою очередь процесс репродукции антител является вычислительно затратным. Причём рост объёма вычислений имеет весьма нелинейный характер. В настоящий момент мы занимаемся вопросами оптимизации разработанных алгоритмов, а также их новыми реализациями для использования в гетерогенных вычислительных системах (с использованием вычислительных возможностей современных графических процессоров). Успешная их реализация позволит нам на несколько порядков увеличить производительность как процесса репродукции антител, так и процесса обучения».

Какова оценка эффективности и точности метода на практике и где вы рекомендуете его применять?

«Для оценки эффективности работы предложенного метода была подготовлена база, состоящая из 7,5 тысяч цветных изображений формата JPEG различного размера: от 1024 х 512 до 4800 х 4888 пикселей. Эти изображения были поделены на две равные группы: обучающую и тестовую выборки, первая половина каждой из групп оставалась неизменной и образовывала собой множество пустых стеганоконтейнеров (изображений, не имеющие в себе скрытой информации). Над второй половиной производилось встраивание скрытого сообщения с помощью инструментов стеганографии Steghide, OutGuess и F5, которые являются наиболее популярными, достаточно стойкими и используют неформатные методы сокрытия информации в статических изображениях,

поясняет Александра Прокофьева и характеризует результаты проделанной работы,

Предложенный нами метод можно оценить как достаточно эффективный для выявления факта скрытой передачи информации посредством изображений формата JPEG. Точность детектирования изображений с внедрённой скрытой информацией составляет около 75-80%, а точность обратного детектирования (изображений без скрытой информации в них) близка к 70% (зависимость точности от числа поколений клонального отбора приведена на графиках на Рис. 5):

https://scientificrussia.ru/data/shared/Farberovich/2020/01.2020/3/ris_5__1_.jpg
Рисунок 5. Зависимость точности классификации от числа поколений мутации для а) – заполненных стеганоконтейнеров; б) – пустых стеганоконтейнеров для алгоритмов OutGuess, Steghide и F5

Мы можем наблюдать, что с большим количеством поколений мутаций точность обнаружения изображений с внедрённой скрытой информацией возрастает, но одновременно с этим и увеличивается величина ошибки второго рода. Это связано с тем, что при мутации каждого антитела весьма трудно предугадать, какие изображения (из множества всех существующих в мире изображений), неизвестные на данный момент нашей системе, попадут в его окрестность».

По мнению руководителя проекта Алексея Шниперова, «полученные результаты сравнимы и достаточно конкурентоспособны с другими эвристическими методами стеганоанализа изображений формата JPEG, предлагаемые исследователями. Особенно это ярко выражено в скорости проверки наличия скрытого вложения в изображении обученной иммунной системой. Она значительно выше, чем у многих других методов, и составляет всего 0,3-0,5 секунды (это при тестировании на типовом офисном ноутбуке). Это обстоятельство позволит, в том числе, решать задачу массовой (поточной) проверки изображений на наличие в них скрытого содержимого. Такая задача является весьма актуальной у вендоров, которые занимаются разработкой программно-технических решений для защиты информации».

Таким образом, алгоритмическое и программное обеспечение - разработанные красноярскими учеными-стеганоаналитиками –  реализуют модель искусственной иммунной системы, способной к непрерывному самообучению, позволяющей выявлять факт скрытой передачи информации посредством обычных изображений распространённого формата JPEG. Уже на этапе первичного обучения и тестирования разработка подтвердила свои высокие характеристики и претендует на достоверность результатов анализа.