Ученые-исследователи создали методику для извлечения звуков из изображений, снятых на камеру смартфона. Роликовые затворы (CMOS), линзы стабилизации (OIS) и автофокусировки (AF) на камерах издают собственные звуки. Они создают отдельный оптико-акустический канал, через который можно считывать информацию с высокой четкостью. Даже если объектов нет в поле зрения камеры.
С применением специальных методов обработки указанного канала, по полученной акустической информации можно различить даже нескольких говорящих и их пол, а также разобрать произносимые слова.
Для более точного определения информации, которую передавали говорящие в ходе эксперимента, исследователи прибегли к помощи искусственного интеллекта. Они пытались смоделировать ситуацию, в которой мошенники пользуются установленными на телефоне жертвы вредоносными приложениями, но не имеют доступа к микрофону устройства. Выяснилось, что при использовании камеры злоумышленник все же может различить речь людей и воспользоваться ею как инструментом для дальнейшего машинного обучения.
Для своего эксперимента ученые использовали данные из 10 000 образцов речи, в которых произносились разные слова. В сборе образцов участвовали популярные модели смартфонов (Google Pixel, Samsung Galaxy и Apple iPhone). Алгоритм удалось настроить для выполнения нескольких разных задач, а точность распознавания речи составила 80-99%.
В результате исследований удалось выяснить, что утечка информации таким способом более всего вероятна на дорогих смартфонах с хорошими камерами и сложными оптическими механизмами. Примитивные модели камер сильно ограничивают возможности распознавания и определения речи. При этом большую роль в этих процессах играет удаленность от говорящих. Ученые полагают, что при должной подготовке оптико-акустический побочный канал может использоваться для более разнообразных и сложных атак.
Защитить пользователей от подобных угроз можно за счёт повышения частоты срабатывания затвора камеры. Производители устройств могут реализовать это на аппаратном или программном уровне. Однако, будут ли компании заниматься перенастройкой моделей, находящихся в производстве, и повлияет ли это на работу камер, неизвестно.
С применением специальных методов обработки указанного канала, по полученной акустической информации можно различить даже нескольких говорящих и их пол, а также разобрать произносимые слова.
Для более точного определения информации, которую передавали говорящие в ходе эксперимента, исследователи прибегли к помощи искусственного интеллекта. Они пытались смоделировать ситуацию, в которой мошенники пользуются установленными на телефоне жертвы вредоносными приложениями, но не имеют доступа к микрофону устройства. Выяснилось, что при использовании камеры злоумышленник все же может различить речь людей и воспользоваться ею как инструментом для дальнейшего машинного обучения.
Для своего эксперимента ученые использовали данные из 10 000 образцов речи, в которых произносились разные слова. В сборе образцов участвовали популярные модели смартфонов (Google Pixel, Samsung Galaxy и Apple iPhone). Алгоритм удалось настроить для выполнения нескольких разных задач, а точность распознавания речи составила 80-99%.
В результате исследований удалось выяснить, что утечка информации таким способом более всего вероятна на дорогих смартфонах с хорошими камерами и сложными оптическими механизмами. Примитивные модели камер сильно ограничивают возможности распознавания и определения речи. При этом большую роль в этих процессах играет удаленность от говорящих. Ученые полагают, что при должной подготовке оптико-акустический побочный канал может использоваться для более разнообразных и сложных атак.
Защитить пользователей от подобных угроз можно за счёт повышения частоты срабатывания затвора камеры. Производители устройств могут реализовать это на аппаратном или программном уровне. Однако, будут ли компании заниматься перенастройкой моделей, находящихся в производстве, и повлияет ли это на работу камер, неизвестно.
Комментарий