Simovits

Avlyssning – med bilder och ljud

Introduktion

Avlyssning och ”överhörning” är ett välkänt hot inom vår bransch (informationssäkerhet). När konfidentiell information behöver delas eller diskuteras används vi förståss oss ofta samtal. En vanlig typ av intern styrning kring just samtal rörande konfidentiell information kan lyda något liknande: “Konfidentiell information får enbart yttras i företagets lokaler, samt i ett avskilt utrymme där överhörning ej är möjlig”.

Dagens blogg ska försöka svara på huruvida detta är tillräckligt. Om vi eliminerar läckage av ljud, kan vi vara säkra på att det som sägs i ett rum förblir konfidentiellt?

Här kommer jag att bortse från dolda mikrofoner i mötesrum, och istället beskriva tre former av “sidokanal-attacker” mot samtal, där man nyttjar ljus och bild för att återskapa vad som sagts i ett rum.

Attackmetod 1 – Lasermikrofon

Hur det fungerar

An laserstråle riktas mot en reflektiv yta i (eller i anslutning till) ett rum där ett samtal föregår, vanligtvis ett fönster i rummet. Eftersom ljud är vibrationer i luften (ljudvågor) , kommer ytan som laserstrålen reflekteras mot att vibrera i samklang med luften. Dessa små vibrationer, omöjliga att observera med mänskliga ögat, kommer att påverka den reflekterade laserstrålen. Dessa små små skillnader i reflektionen kan mätas och användas för att återskapa ljudvågorna. Dee vill säga, genom att mäta hur den reflekterade lasern förändras, kan samtalet återskapas. [1]

Begränsningar av metoden

En av de viktigaste begränsningarna av denna metod är att en lasermikrofon kräver en obruten linje till den reflektiva ytan. Detta innebär att enbart rum med fönstret kan angripas, samt att störningar mellan rummet, lasern, och detektorn, som regn, dimma, avgaser, osv, kan störa signalen.

En annan begränsning är att användningen av lasermikrofoner kan upptäckas, även om det kan vara svårt. För att minimera risken för upptäckt används ofta en infraröd laser, som inte är synligt för mänskliga ögon. 

Proof of concept

Principiellt är detta en relativt enkel metod, så pass enkel att jag bestämde mig för att sätta ihop ett lek-exempel av tekniken. Allt som behövs är en blank yta som kan vibrera (aluminium-folie), en fototransistor, en laserpekare, och en mikrofon.

Första steget är att byta ut själva mikrofonen mot en fototransistor, så att när denna kopplas in i en dator tar den emot mätdata av ljus som skiner på fototransistorn, istället för ljud som passerar genom mikrofonen.

Efter att antal misslyckade försök testade jag med en annan mikrofon som grund. Denna gång fungerade det bättre.

Sätt upp aluminium-folien så att laserstrålen reflekteras i den, och sedan skiner på fototransistor.

Nu är uppsättningen redo att testas. Kan vi spela in ljud med en laser? Detta gjordes här genom att spela musik i samma rummet som aluminium-folien, samt spela in ”ljus-signalen” från ”fototransisitor-mikrofonen”, här via programmet Audacity.

Resultatet, ett brusigt med urskiljbart ljudspår:

Detta är alltså vad som kan skapas med en enkel fototransistor, en laserpekare, och en gammal mikrofon, för ett sammanlagt värde under 100 kr. Föreställ er vad som är möjligt med dedikerad utrustning såsom en stark IR-laser med ställning/sikte, en känsligare mottagare, samt dedikerad mjukvara för att analysera den insamlade mätdatan.  

Skyddsåtgärder

För att skydda sig mot lasermikrofoner kan fönster i mötesrum förses med ljusdiffuserande fönsterfilm för att för det svårt att reflektera en laserstråle. En enklare och mer heltäckande åtgärd är att placera mötesrum för konfidentiella samtal i delar av lokalen där det inte finns fönster.

Attackmetod 2 – Återskapa ljud från video

Hur det fungerar

En annan möjlighet att återskapa ljud från vibrationer i ett rum är från en direkt videoinspelning av ett objekt i rummet. Men, eftersom mänskliga samtal rör sig inom frekvensområdet 300 – 3000 Hz, medan de flesta kameror spelar in bilder i 24 – 60 Hz (eller fps, frames per second) behövs speciella höghastighetskameror för detta, samma typ som används för att spela in slow-motion. En inspelning med en höghastighetskamera som fångar de små vibrationer som uppstår i ett föremål på grund av ljudvågor kan användas för att rekonstruera ljudet som gav upphov till vibrationerna. [2]

Begränsningar

Vibrationerna som skapas i föremål från typiska ljudnivåer vid samtal är små. Mycket små. Storleksordningen 0,000001 m, vilket är mycket mindre än en typisk pixel på en kamerasensor. Av den anledningen behövs inte bara en snabb kamera, utan även en kamera med hög upplösning, klar sikt till målet, och avancerat processande av insamlad data. Genom att kombinera många pixlar på kanten av ett vibrerande föremål kan sub-pixel rörelser identifieras, och omtolkas till ljud. Tekniken och förutsättningarna som behövs för att lyckas utföra denna attack är inte triviala att åstakomma, och denna teknik är därför i dagsläget mer teoretisk än praktisk. Men utvecklingen av tekniken går ständigt framåt. Bättre och billigare höghastighetskameror och snabbare och träffsäkrare analys av data gör det troligt att denna teknik kommer att bli mer praktisk inom en snar framtid.  

En fördel mot lasermikrofon är att det är omöjligt att upptäcka användningen av denna metod, eftersom metoden enbart förlitar sig på att passivt inhämta information.

Motåtgärder

Likt skydd mot lasermikrofon är det absolut säkraste sättet att skydda sig att belägga mötesrum för konfidentiell information i rum utan fönster.

Attackmetod 3 – Läppläsning

Hur det fungerar

Läppavläsning är förmågan att förstå samtal genom att observera talarens ansikte (läppar, ansikte, tunga, osv), och härleda vilka ljud och därmed ord som talas. Denna metodik har praktiserats i århundraden, framförallt av döva och hörselskadade, men har även nyttjats som verktyg för hemlig ”avlyssning”. På senare år har automatiserad läppavläsning med hjälp av AI-verktyg utvecklats. En video av en talare analyseras av verktyget, som återskapar en text med de ord som sagts. Denna typ av verktyg är idag lätt att komma över, finns tillgängligt både som öppen källkod [3, 4], och som applikation direkt i browsern [5].

Begränsningar

Utöver de mer uppenbara begränsningarna, som kravet på videoupptagning av ansiktet på talaren, lider denna teknik även av brister i dess träffsäkerhet. Bristande kvalitet på videoupptagning (upplösning, skärpa, ljusförhållande, talare som rör sig, objekt framför munnen) leder till bristande kvalitet på återskapat tal. 

Motåtgärder

När man befinner sig i utrymmen där det finns risk att ens ansikte antingen observeras direkt, eller spelas in, kan man motverka läppläsning genom att dölja munnen när man pratar. Håll en hand framför munnen, eller vänd ansiktet bort från fönster och kameror. 

Slutsats

Avlyssning med ljus och bild är ett hot som lätt och ofta förbises, men som kan leda till läckage av konfidentiell information. Tack och lov finns det både enkla och effektiva skyddsåtgärder för att minska risken att drabbas. För att skydda mot avlyssning med ljus och bild kan du vidta följande åtgärder:

  1. Belägg mötesrum för mycket konfidentiella samtal i rum utan fönster. Detta kommer effektivt att omöjliggöra de tekniker som beskrivits i denna blogg.
  2. Där mötesrum med fönster är nödvändigt, använd ljusdiffuserande fönsterfilm på hela rutorna, se exempel nedan. Detta ger ett bra skydd mot teknik 2 och 3, samt försvårar för teknik 1 (men omöjliggör den inte helt).

Referenser

[1] https://en.wikipedia.org/wiki/Laser_microphone

[2] https://people.csail.mit.edu/mrub/PhDThesis/

[3] https://github.com/yochaiye/LipVoicer

[4] https://github.com/deepconvolution/LipNet

[5] https://www.readtheirlips.com/