1. Tietojen peittämisen käsite
Tietojen peittäminen tunnetaan myös nimellä data masking. Se on tekninen menetelmä arkaluonteisten tietojen, kuten matkapuhelinnumeron, pankkikortin numeron ja muiden tietojen, muuntamiseksi, muokkaamiseksi tai peittämiseksi, kun olemme antaneet peittämissäännöt ja -käytännöt. Tätä tekniikkaa käytetään ensisijaisesti estämään arkaluonteisten tietojen suora käyttö epäluotettavissa ympäristöissä.
Tietojen peittämisen periaate: Tietojen peittämisen tulisi säilyttää alkuperäiset datan ominaisuudet, liiketoimintasäännöt ja datan relevanssi sen varmistamiseksi, että peittäminen ei vaikuta myöhempään kehitykseen, testaukseen ja data-analyysiin. Varmista datan johdonmukaisuus ja validiteetti ennen peittämistä ja sen jälkeen.
2. Tietojen peittämisen luokittelu
Tietojen peittäminen voidaan jakaa staattiseen tietojen peittämiseen (SDM) ja dynaamiseen tietojen peittämiseen (DDM).
Staattinen datan peittäminen (SDM)Staattisen datan peittäminen edellyttää uuden ei-tuotantoympäristötietokannan luomista eristämiseksi tuotantoympäristöstä. Arkaluontoiset tiedot poimitaan tuotantotietokannasta ja tallennetaan sitten ei-tuotantotietokantaan. Tällä tavoin herkistetyt tiedot eristetään tuotantoympäristöstä, mikä vastaa liiketoiminnan tarpeisiin ja varmistaa tuotantodatan turvallisuuden.
Dynaaminen datan peittäminen (DDM)Sitä käytetään yleensä tuotantoympäristössä arkaluonteisten tietojen reaaliaikaiseen herkkyyden vähentämiseen. Joskus samojen arkaluonteisten tietojen lukemiseen eri tilanteissa tarvitaan eri peitotasoja. Esimerkiksi eri roolit ja käyttöoikeudet voivat toteuttaa erilaisia peittojärjestelmiä.
Tietojen raportointi ja datatuotteiden peittämissovellus
Tällaisia skenaarioita ovat pääasiassa sisäiset datan seurantatuotteet tai mainostaulut, ulkoisten palveluiden datatuotteet ja data-analyysiin perustuvat raportit, kuten liiketoimintaraportit ja projektikatsaukset.
3. Tietojen peittämisratkaisu
Yleisiä tietojen peittämismenetelmiä ovat mm. mitätöinti, satunnaisarvo, tietojen korvaaminen, symmetrinen salaus, keskiarvo, siirtymä ja pyöristäminen.
MitätöintiMitätöinnillä tarkoitetaan arkaluonteisten tietojen salaamista, katkaisemista tai piilottamista. Tämä menetelmä korvaa yleensä todelliset tiedot erikoissymboleilla (kuten *). Toiminto on yksinkertainen, mutta käyttäjät eivät voi tietää alkuperäisten tietojen muotoa, mikä voi vaikuttaa myöhempiin datasovelluksiin.
Satunnainen arvoSatunnaisarvo viittaa arkaluonteisten tietojen satunnaiseen korvaamiseen (numerot korvaavat numerot, kirjaimet korvaavat kirjaimet ja merkit korvaavat merkit). Tämä peittomenetelmä varmistaa arkaluonteisten tietojen muodon jossain määrin ja helpottaa tietojen myöhempää käyttöä. Peittosanakirjoja voidaan tarvita joillekin merkityksellisille sanoille, kuten ihmisten ja paikkojen nimille.
Tietojen korvaaminenDatan korvaaminen on samanlaista kuin null- ja satunnaisten arvojen maskaus, paitsi että erikoismerkkien tai satunnaisten arvojen sijaan maskausdata korvataan tietyllä arvolla.
Symmetrinen salausSymmetrinen salaus on erityinen, palautuva peittomenetelmä. Se salaa arkaluonteisia tietoja salausavainten ja -algoritmien avulla. Salatun tekstin muoto on yhdenmukainen alkuperäisten tietojen kanssa loogisissa säännöissä.
KeskimäärinKeskiarvomenetelmää käytetään usein tilastollisissa tilanteissa. Numeerisille tiedoille lasketaan ensin niiden keskiarvo ja sitten herkistetyt arvot jaetaan satunnaisesti keskiarvon ympärille, jolloin datan summa pysyy vakiona.
Siirtymä ja pyöristysTämä menetelmä muuttaa digitaalista dataa satunnaisella siirtymällä. Pyöristys varmistaa alueen likimääräisen aitouden ja säilyttää samalla datan turvallisuuden, joka on lähempänä todellista dataa kuin aiemmissa järjestelmissä. Tällä menetelmällä on suuri merkitys suurten tietomäärien analysoinnissa.
Suositeltu malli "ML-NPB-5660"tietojen peittämistä varten
4. Yleisesti käytetyt datan peittämistekniikat
(1). Tilastolliset tekniikat
Tiedon näytteenotto ja tiedon yhdistäminen
- Tiedon otanta: Alkuperäisen tietojoukon analysointi ja arviointi valitsemalla siitä edustava osajoukko on tärkeä menetelmä anonymisointitekniikoiden tehokkuuden parantamiseksi.
- Tiedon yhdistäminen: Mikrodatan ominaisuuksiin sovellettuna tilastollisten tekniikoiden (kuten summaaminen, laskenta, keskiarvon laskeminen, maksimi- ja minimiarvot) kokoelmana tulos edustaa kaikkia alkuperäisen tietojoukon tietueita.
(2). Kryptografia
Kryptografia on yleinen menetelmä herkkyyden vähentämiseksi tai herkkyyden vähentämisen tehostamiseksi. Erilaiset salausalgoritmit voivat saavuttaa erilaisia herkkyyden vähentämisvaikutuksia.
- Deterministinen salaus: Ei-satunnainen symmetrinen salaus. Se käsittelee yleensä tunnistetietoja ja voi tarvittaessa purkaa salauksen ja palauttaa salatun tekstin alkuperäiseen tunnisteeseen, mutta avain on suojattava asianmukaisesti.
- Peruuttamaton salaus: Hajautusfunktiota käytetään datan käsittelyyn, ja sitä käytetään yleensä tunnistetietojen käsittelyyn. Sitä ei voida purkaa suoraan, ja vastaavuussuhde on tallennettava. Lisäksi hajautusfunktion ominaisuuden vuoksi voi esiintyä datan törmäyksiä.
- Homomorfinen salaus: Käytetään salatekstistä homomorfista algoritmia. Sen ominaispiirteenä on, että salatekstisen toiminnan tulos on sama kuin selkotekstisen toiminnan tulos salauksen purkamisen jälkeen. Siksi sitä käytetään yleisesti numeeristen kenttien käsittelyyn, mutta suorituskykyyn liittyvistä syistä sitä ei käytetä laajalti.
(3). Järjestelmäteknologia
Estotekniikka poistaa tai suojaa tietoja, jotka eivät täytä yksityisyyden suojaa koskevia vaatimuksia, mutta ei julkaise niitä.
- Peitto: viittaa yleisimpään menetelmään attribuutin arvon peittämiseksi, kuten vastustajan numeron tai henkilökortin merkitsemiseen tähdellä tai osoitteen katkaisemiseen.
- Paikallinen estäminen: viittaa tiettyjen ominaisuusarvojen (sarakkeiden) poistamiseen, jolloin poistetaan ei-välttämättömät tietokentät;
- Tietueiden piilottaminen: viittaa tiettyjen tietueiden (rivien) poistamiseen, eli ei-välttämättömien datatietueiden poistamiseen.
(4). Salanimiteknologia
Pseudomanning on anonymisointitekniikka, jossa suora tunniste (tai muu arkaluonteinen tunniste) korvataan pseudonyymillä. Pseudonymitekniikat luovat yksilölliset tunnisteet jokaiselle yksittäiselle tiedonsaannille suorien tai arkaluonteisten tunnisteiden sijaan.
- Se voi luoda satunnaisia arvoja itsenäisesti vastaamaan alkuperäistä tunnusta, tallentaa vastaavuustaulukon ja hallita tarkasti pääsyä vastaavuustaulukkoon.
- Voit käyttää salausta myös salanimien luomiseen, mutta sinun on säilytettävä salausavain asianmukaisesti;
Tätä teknologiaa käytetään laajalti, kun dataa käyttää useita itsenäisiä käyttäjiä, kuten OpenID avoimen alustan skenaariossa, jossa eri kehittäjät hankkivat samalle käyttäjälle eri OpenID:t.
(5). Yleistystekniikat
Yleistystekniikalla tarkoitetaan anonymisointitekniikkaa, joka vähentää valittujen ominaisuuksien rakeisuutta tietojoukossa ja tarjoaa yleisemmän ja abstraktimman kuvauksen tiedoista. Yleistystekniikka on helppo ottaa käyttöön ja se voi suojata tietuetason tietojen aitoutta. Sitä käytetään yleisesti datatuotteissa tai dataraporteissa.
- Pyöristäminen: tarkoittaa pyöristysperusteen valitsemista valitulle ominaisuudelle, kuten ylöspäin tai alaspäin tapahtuvaa forensista, jolloin saadaan tulokset 100, 500, 1 000 ja 10 000.
- Ylimmän ja alimman tason koodaustekniikat: Korvaa kynnyksen ylä- (tai alapuolella) olevat arvot kynnyksellä, joka edustaa ylintä (tai alinta) tasoa, jolloin saadaan tulos "X:n yläpuolella" tai "X:n alapuolella".
(6). Satunnaistamistekniikat
Eräänlaisena anonymisointitekniikkana satunnaistamisteknologia viittaa attribuutin arvon muokkaamiseen satunnaistamisen avulla siten, että satunnaistamisen jälkeinen arvo eroaa alkuperäisestä todellisesta arvosta. Tämä prosessi heikentää hyökkääjän kykyä johtaa attribuutin arvoa saman datatietueen muista attribuuttiarvoista, mutta vaikuttaa tuloksena olevan datan aitouteen, mikä on yleistä tuotantotestitiedoissa.
Julkaisun aika: 27.9.2022