logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Biomedical Engineering - Informatica Medica

Completed notes of the course

Complete course

ELEMENTI DI INFORMATICA MEDICA L’informatica medica è quel settore interdisciplinare che studia e persegue l’uso efficace di dati, informazioni e conoscenza biomedica per rispondere a domande scientifiche, per risolvere problemi e per prendere decisioni e ha come ultimo scopo quello di migliorare la salute degli esseri umani. L’informatica medica è all’intersezione tra ingegneria dell’informazione e medicina. Si occupa delle risorse, dei dispositivi e dei metodi necessari ad ottimizzare l’acquisizione, la memorizzazione, il recupero e l’utilizzo dell’informazione nei sistemi sanitari e nelle scienze biomediche. Informatica medica: aree di ricerca e applicazione:  informatica clinica : valuta e potenzia i processi clinici; sviluppa, implementa e migliora i sistemi di supporto alla decisione medica;  informatica per la sanità pubblica : informatica per la sanità, la sorveglianza, la prevenzione;  bioinformatica traslazionale : trasforma dati biomedici e genomici in medi cina proattiva, predittiva, preventiva e partecipatoria.  altre applicazioni riferibili all’informatica ( elaborazione di immagini ). Dato : valore che non ha un significato finché non è contestualizzato e quindi diventa informazione, e finché non viene analizzato e diventa conoscenza, quindi qualcosa di utilizzabile per migliorare la salute e il sistema sanitario. 1. GLI STUDI CLINICI Gli studi clinici si suddividono in: Studi sperimentali : il ricercatore controlla e somministra l’esposizione al trattamento studiato , dunque è il ricercatore a creare il dato su cui avviene lo studio. Garantiscono un miglior controllo sullo studio quindi sono preferibili e sono tanto migliori quanto più i soggetti sono random . Il trial può essere con o senza randomizzazione . La randomizzazione è bloccata nel momento in cui cerchiamo di avere gruppi della stessa grandezza e parliamo di randomizzazione a gruppi quando è più efficace dal punto di vista della randomizzazione gestir e gruppi di soggetti anziché di singoli individui. Studi osservazionali : l’esposizione non è assegnata dai ricercatori ; i soggetti sono già stati trattati e la loro condizione non è controllata dal ricercatore, che si limita a raccogliere i dati ed individ ua quali soggetti sono di interesse per lo studio e quali no. Si suddividono in studi analitici e descrittivi:  Studi descrittivi : non esiste un gruppo di controllo , cioè i soggetti non vengono comparati tra loro; le conclusioni che si possono trarre sono meno forti e si limitano a descrivere le caratteristiche, la frequenza, la storia naturale e i possibili fattori dominanti di una condizione.  Studi analitici : c’è un gruppo di controllo e i due gruppi vengono confrontati tra loro . Si distinguono in:  studio cross -sectional (trasversale ): lo studio acquisisce informazioni sull’esposizione e sul risultato nello stesso momento ; questo tipo di studio fornisce un’istantanea della popolazione malata e sana ad un istante temporale. Una debolezza degli studi trasversali è la mancanza di chiarezza nella sequenza temporale: l’esposizione precede il risultato? Questi studi sono anche chiamati studi di frequenza o di prevalenza , vengono fatti per esaminare la presenza o l’assenza di una patologia e la presenza o l’ assenza di un’esposizione ad un certo tempo. = l focus è la prevalenza, non l’incidenza. Si valuta la numerosità dei soggetti con una certa condizione e la numerosità dei soggetti esposti ma non abbiamo un’informazione dinamica.  studi o di coorte : se lo studio inizia con l’esposizione , allora è chiamato studio di coorte. I ricercatori identificano un gruppo di soggetti con l’esposizione (fattore di rischio , farmaco, dieta… ) di interesse e un gruppo senza. I ricercatori seguono i due gruppi nel tempo per verificare gli effetti . Gli studi di coorte possono essere prospettici (si studia anche l’esposizione al fattore , si registrano i dati man mano ), retrospettivi (si segue l’evoluzione nel tempo dopo che l’esposizione è già avvenuta , si studiano dati ra ccolti in precedenza ) o ambi -direzionali (sia retrospettivi che prospettici) . Si o sserva la condizione del paziente a partire dall’esposizione al fattore fino al suo risultato. Si studia la relazione che c’è tra l’esposizione al fattore che si sta studiando e l’effetto che questo ha sul paziente. I gruppi che vengono confrontati sono suddivisi in base all’esposizione o alla non esposizione al fattore studiato.  studi caso -controllo : Partendo da un effetto, per esempio una patologia, questo tipo di studio risale indietro nel tempo per cercare un’esposizione che potrebbe essere correlata all’effetto. Sono particolarmente utili per gli effetti che richiedono lunghi periodi di tempo per svilupparsi, casi esemplari sono le patologia cardiovascolari e i tumori. Un fattore cruciale di questo tipo di studi è la scelta di un appropriato gruppo di controllo. È il p rocedimento inverso allo studio di coorte. Un gruppo di soggetti è interessato dalla condizione, l’altro no, e cerco di ricostruire il fattore a cui è associato l’outcome . I due gruppi che vengono confrontati non vengono stabiliti in base all’esposizione ma in base ai sintomi che presentano . Studi clinici:  Sperimentali  Osservazionali:  Descrittivi  Analitici:  studi di coorte  studi caso -controllo  studi cross -sezione La randomizzazione dei soggetti studiati rende uno studio clinico più attendibile . Si dice randomizzazione a doppio ceppo quando il ricercatore non sa se il soggetto appartiene alla categoria che viene sottoposta al trattamento studiato o se non è stato trattato. Lo studio osservazionale randomizzato è ritenuto il gold standard per effettuare uno studio clinico. Una volta che i ricer catori hanno assegnato i partecipanti ai gruppi di trattamento, gli studi non randomizzati sono portati avanti e analizzati in modo simile agli studi di coorte. L’elemento caratteristico degli studi controllati randomizzati è che l’assegnazione dei parteci panti all’esposizione è casuale.  stratified randomization , which controls for the effect of important factors by helping to ensure that each factor is equally distributed across treatment groups;  blocked or restricted randomization , which ensures roughly equal -sized treatment groups at the end of patient recruitment;  cluster randomization , whereby we randomly allocate a group of individuals to a treatment (può essere più facile associare gruppi ai trattamenti, anziché i singoli soggetti ). Phases of a clin ical trial  biochemical and pharmacological research;  animal studies;  phase I: estimate toxicity rates using few hea lthy or sick subjects;  phase II: determines whether a therapy has potentialities (numero ristretto di soggetti );  phase III: large randomized controlled, possibly blinded, experiments;  phase IV: a controlled trial of an approved treatment with long -ter m follow -up of safety and efficacy (farmaco -vigilanza ). Misura degli effetti (output) La relazione tra numeratore e denominatore separa i rapporti in due gruppi: quelli in cui il numeratore è incluso nel denominatore (proporzioni e tassi) e quelli in cui non lo è (rapporto). Tasso = misura la frequenza di un evento in una popolazione, di solito in un intervallo di tempo. Il numeratore (i sog getti in cui si manifesta l’effetto) deve essere contenuto nel denominatore (i soggetti a rischio di sviluppare l’effetto) (es. incidenza) . Proporzione = è spesso usato come sinonimo di tasso, ma non ha una componente temporale (es prevalenza). Prevalenza = percentuale di una particolare popolazione che risulta affetta da una patologia. Si ricava come rapporto tra numero di soggetti affetti e numero totale di persone nello studio. Solitamente è espressa come frazione, percentuale o come numero di casi ogni 10000 o 100000 persone. (es. la prevalenza dell’epilessia è di 6.8 casi su 1000 persone) Incidenza = misura della probabilità di insorgenza di una specifica patologia in un a popolazione in un determinato intervallo di tempo. (es. l’incidenza di tutte le crisi epilettiche spontanee corretta per l’età del Minnesota è di 61 su 100000 persone all’anno) [Lo studio cross -sectional permette di calcolare la prevalenza ma non l’incidenza perché acquisisce dati un preciso istante tempo rale . L’incidenza fornisce informazioni sul rischio di sviluppare una patologia, la prevalenza indica quanto quella patologia è diffusa. ] Outcome = effetto dell’esposizione Follow -up = pazienti osservati durante lo studio Misure di associazione Rischio Relativo (RR): è il rapporto tra la frequenza dell’effetto negli esposti diviso per la frequenza dell’effetto nei non esposti. Se tale rapporto è vicino ad 1 non c’è un’evidenza quantitativa di associazione tra esposizione e contrazione. Quando è inferior e a 0,5 o superiore a 2 si possono trarre conclusioni significative sulla dipendenza o non dipendenza di esposizione al fattore studiato e contrazione della patologia : �� = ������������������� �������������� ��������������� ����������������� ������������������� �������������� �������� ��� ����������������� . Odds e Odds Ratio (OR): Il rapporto tra odds (odds ratio) è la misura di associazione comunemente usata negli studi caso -controllo. Si ottiene come odds della condizione di interesse nel gruppo degli esposti diviso per l’odds della condizione di interesse nel gruppo dei non esposti. Odds ratio >1 indica un maggiore rischio associato con l’esposizione. Al contrario, un rapporto inferiore a 1 suggerisce un effetto protettivo dell’esposizione. ���� = � �− � Studi caso -controllo : �� = ���� ������������ �������� ������������������� ���� ������������ �������� ����������������������������� Analisi d i sopravvivenza Nello studio della sopravvivenza si ordinano i pazienti studiati in base al tempo di sopravvivenza ; convenzionalmente si rappresenta con un pallino pieno il soggetto che ha raggiunto l’ evento critico (endpoint , es. morte) e con un pallino vuoto i soggetti di cui non è stato possibile continuare l’osservazione (perché usciti dal follow -up). I dati di ques ti ultimi soggetti sono detti dati troncati (censored ) e vengono comunque utilizzati, nonostante non si sappia se e quando hanno raggiunto l’evento critico. = dati dei soggetti censored vengono contrassegnati spesso anche con un +. =l numero dei soggetti a rischio viene decrementato sia per soggetti che vanno incontro a decesso sia che escono dal follow -up. The flow of patients recruited to a typical prospective clinical trial involving patient accrual and observation over time is illustrated in the figure. In a clinical study a question of central interest is: what is the probability that patients will survive a certain length of time? We define :  �1 = probabillty of surviving for at least one day after treatment;  �2 = conditional probabil ity of surviving the second day after having survived the first day;  etc… In general, the probabil ity of survival to time t is �(�)= ��× ��× … × ��. To calculate S(t) we need to estimate each of �������. We then use �� as the number of patients alive at the start of the interval and therefore at risk of death during that short interv al afterwards. We denote the number of patients dying in the short time interval just after t as ��. The number of patients survivin g the interval is therefore (��− ��). ��= (��− ��) �� �� = 1 at times when there are no critical events. La singola probabilità rappresenta la probabilità che il soggetto sopravviva nel periodo considerato, ad esempio sia ancora vivo dopo 2 mesi, dopo 3 mesi, ecc.. �������������������� à= 1− ����������� ���������������������� ������������� ��� ������������ ���������������� ������ ����������������������� � ��������� ℎ������� = 1− � � Thus the value of S(t), the overall probabil ity of survival to time t, changes only at times (days) on which at least one person dies. The “number at risk” is defined as the number of patients who are known to be alive at that time -point and therefore have not yet died nor been censored before the time -point. We can rewrite the equation �(�)= �1× �2× … × �� as �(�)= (�− �� ��)(�− �� ��)… (�− �� ��) or more briefly as �(�)= ∏ (�− �� ��) � . When t=0, S(0)=1, that is, all patients are assumed alive at time zero. Curva di Kaplan -Meier L’insieme di tutte le probabilità costituisce la curva della sopravvivenza relativa a quell’evento, detta anche curva di Kaplan -Meier , che è tipicamente una funzione a gradino . Sull’asse delle ordinate c’è la percentuale di sopravvivenza, mentre sulle asci sse il lasso di tempo corrispondente. La curva cambia solo quando si registra un evento critico in un paziente, anche se nel mezzo ci sono dei dati di pazienti censored , che vengono convenzionalmente rappresentati sul grafico da trattini verticali. Al di sotto della curva può anche essere aggiunta una linea numerata che rappresenta il numero di soggetti rimasti nei vari istanti di tempo considerati. L’uscita di tanti soggetti fa sì che l’affidabilità della stima diminuisca con l’aumentare del tempo, perché poggia su un numero di soggett i man mano eroso. Fail ure func tion In certain circumstances a graph of [1 -S(t)], rather than S(t), is plotted against t to give the cumulative death curve. This method of plotting is sometimes chosen if the outcome event is relatively rare or is of benefit to the patient (despite the name). È analiticamente speculare a S(t). Va lore mediano di sopravvivenza Un altro modo di rappresentare la sopravvivenza è il valore mediano di sopravvivenza, ovvero la mediana dei dati di sopravvivenza raccolti . Questo valore però non può essere calcolato correttamente analiticamente perché i valori tabulati sono sempre arrotondati. Il valore mediano si ricava allora dal grafico di Kaplan -Meier, intersecando la linea orizzontale a quota 0,50 di probabilità con il grafico . Il valore trovato sull’asse delle a scisse in corrispondenza dell’intersezione è il valore mediano. Studi di associazione genica: studi caso -controllo in genetica What are genetic diseases? Genetic diseases are caused by alterations in the genetic code contained in DNA which determine physical defects. La patologia monogenica in cui c’è uno specifico gene responsabile della patologia vede un’alterazione della sequenza del DNA che deve essere tradotta in proteina ; quest’alterazione fa sì che ci sia una sostituzione dell’amminoacido e la proteina non abbia più la stessa struttura/funzione : è il fenotipo patologico (es. anemia falciforme). Tuttavia non tutte le malattie sono monogeniche, quindi lo studio diventa complesso perché fattori già genetici sono tantissimi, ai quali si sovrappon gono i fattori ambientali. Gli studi caso -controllo sono usati molto per studiare la genetica e il fenotipo patologico di un certo fenomeno. Studieremo un design sperimentale in cui lo scopo è trovare la variante genetica che rappresenta un fattore di rischio per una patologia. Si confrontano due gruppi: i casi (cases ), affetti dalla patologia, e i controlli (controls), non affetti dalla patologia, e si controllano le varianti genetiche tra i due gruppi . È molto importante che i soggetti studiati siano interessati dalla stessa patologia in studio e non (anche) da un'altra, altrimenti i risultati trovati dal trial sono fallaci. È importante anche che l’etnia dei soggetti sia omogenea in modo che il genoma sia il più simile possibile e che le differenze genomiche individuate siano il più possibile relativo solo alla patologia studiata . Uno studio casi -controlli è più adatto a studiare le patologie rare proprio perché si reclutano soggetti interessati da questa condizione. Sarebbe poco efficac e organizzare uno studio clinico di coorte in cui si aspetta l’occorrenza di un evento raro. Dati SNP Esistono banche dati che mettono a disposizione l’info rmazione relativa a punti della sequenza del genoma umano che possono variare da individuo a i ndividuo e che possono essere quindi oggett o d’analisi negli studi casi controlli per studiare la predisposizione a una certa patologia, andando a confrontare un gruppo di soggetti con tal e patologia e un gruppo di soggetti di controllo. In questi due grupp i si andranno a valutare alterazioni nella sequenza nei punti chiamati polimorfismi a singolo nucleotide . I dati di SNP (Sing le Nucl eo thide Polymorphism) sono molto utilizzati negli studi genomici: viene studiata la posizione dei singoli nucleotidi (A -C-G-T) in tutto il genoma umano che possono variare e non hanno un nucleotide fisso; in particolare viene studiato quali posizioni questi nucleotidi occupano ricorrentemente nella sequenza genomica. Le tecnologie al giorno d’oggi consentono di aver dati su larga scala (big data ) riguardo alle sequenze dei nucleotidi nel genoma umano. Esiste un database (NCBI ) in cui sono salvate le informazioni ottenute sulle sequenze del genoma: esistono alcune posizioni fisse , occupate da un certo nucleotide in tutti gli individui , e posizioni variabili , che possono essere occupate da nucleotid i diversi in individui diversi; queste ultime rappresentano bene la variabilità genetica da un individuo all’altro . Nello studio che si conduce si cerca di capire quanti soggetti rispetto alla popolazione hanno un certo nucleotide nella posizione del genoma studiata . Questo tipo di procedimento si adopera soprattutto nello studio delle così dette patologie complesse , ovvero patologie che possono avere diversi fattori scatenanti (es. sindrome delle apnee notturne) . Lo studio di associazione caso -controllo è lo strumento più corretto per studiare queste malattie. Si studia la frequenza di un allele all’interno di una popolazione . Una singola variazione rispetto alla media del genoma ha in generale un basso effetto sul fenotipo, ma insieme ad altre variazioni può concorrere allo sviluppo della patologia. È importante quindi studiare la combinazione dei vari geni che possono scatenare la patologia se subiscono delle variazioni (patologi a complessa) . In questo grafico lo studio di associazione si colloca in quella zona perché si ha una patologia che dipende da vari fattori che singolarmente concorrono in misura limitata alla patologia . Nelle patologie complesse si considerano fattori di rischio che singolarmente hanno effetto limitato sulla patologia e sono relativamente comuni (asse x frequenza nella popolazione). Studi di associazione Genome -wide (GWAS) Si effettua uno studio del genere su tutto il genoma, campionato su diverse posizioni, al fine di valutare il contributo statistico della diverse varianti lungo il genoma . Lo studio di associazione genome -wide (di tipo caso -controllo) consiste nell’ avere a d isposizione un elevato numero di informazioni su diversi geni che concorrono alla malattia e confrontare tali dati per i due gruppi , quello affetto dalla malattia (cases) e quello non affetto (controls). Lo studio più approfondito che si può fare è quello che prende in considerazione l’intero genoma. Un buono studio genome -wide considera circa 500.000 posizioni sull’intero genoma. Tabella di contingenza I dati raccolti durante lo studio si p ossono ridurre ad una tabella con 2 righe e 3 colonne, detta tabel la di contingenza :  sulle 2 righe si rappresentano i due gruppi studiati, quelli affetti (cases) e quelli non affetti (controls) dalla patologia ;  nelle 3 colonne invece si rappresentano i 3 possibili genotipi : quelli che hanno entrambe le variabili di un tipo, quelli che hanno entrambi le variabili dell’altro tipo e quelli eterozigoti (AA, BB, AB) . Esempio: Genotipo AA Genotipo AB Genotipo BB Cases (n=488) 312 89 87 Controls (n=165) 55 54 56 Esistono diversi modi di costruire la tabella di contingenza: 1. a seconda che la patologia sia dominante o recessiva lo studio dei dati ottenuti è differente: nel caso dominante si distinguono i soggetti che non hanno alcuna copia dell’allele patologico e quelli che ne hanno almeno una ; nel caso recessivo invece distinguiamo i soggetti che hanno una o nessuna copia dell’allele patologico e quelli che le hanno entrambe ( modello dominante e modello recessivo ). Si ottengono allora tabelle di contingenza diverse, perché le suddivisioni dei soggetti studiati su lle righe della tabella cambia (cases e controls) ; 2. in alternativa si può costruire la tabella seguendo il modello moltiplicativo (allelico ), ovvero sommando il numero di alleli di un tipo (A) e dell’altro tipo (B) e considerando solo queste due colonne, anziché considerare i gruppi AA, AB, BB. Nel caso del modello moltiplicativo, nel calcolo del chi -quadro si segue lo stesso procedimento ma cambia il numero di gradi di libertà, poiché cambia il numero di colonne ; 3. esiste inoltre il modello additivo per cos truire la tabella di contingenza: si calcola la proporzione tra i cases e totalità dei soggetti per ogni genotipo e si valuta se esiste un trend tra queste tre proporzioni calcolate, dunque si crea un modello di regressione lineare e si valuta quanto le proporzioni trovate si discostano dalla retta tracciata. In questo caso si applica il test di Armitage in cui si va idealmente ad analizzare la proporzione dei casi sulla totalità dei soggetti per un genotipo, per l’altro, e per l’altro ancora. Testa l’ipo tesi nulla che non ci sia un trend, le tre proporzioni non identificano un trend (se calcolo la retta di regressione, è circa costante). Il test verifica che passando da un genotipo all’altro c’è un aumento o una riduzione del numero di casi sulla totalità dei soggetti. Per ottenere dei risultati dal nostro studio dobbiamo applicare un test del chi -quadrato sui dati riassunti nella tabella. �������= ∑ (�������− ������������)� ������������ � ������=� ������� = valore osservato (dato che compare nella tabella); ������� = valore atteso: (� ��� ����������������������� ��� ���� ������������������ )∙(� ��� �������������� ) � ��� ����������������������� . Si ottiene così il valore de l chi -quadro, che permette di calcolare la significatività , espressa in termini di p-value : se il valore del p-value è piccolo significa che la variabile studiata è significativa (i fenomeni studiati non sono casuali ma dipendenti), dunque il gene studiato può influire sulla patologia. Per determinare il p -value bisogna conoscere i gradi di libertà , che dipendon o dalla dimensione della tabella, che si calcolano come (#righe -1)*(#colonne -1). Problema del testing multiplo La significatività ottenuta con il test del chi -quadrato deve essere corretta per tenere conto del problema del testing multiplo , che prescinde dalla genetica e si presenta in tutti i test statistici. Per svolgere un’analisi su tutti il genoma si ripetono diversi test per ogni posizione che si vuole analizzare, per valutare se quella posizione è significativa per una certa patologia (se volgiamo analizzare 500.000 posizioni avremo 500.00 test e quindi 500.000 p -value). Ripetendo così tanti test e ottenendo così tanti p -value però si rischia di ottenere dei test significativi per caso, il cui risultato è dovuto semplicemente al fatto che ho ripetuto il test tante volte. Per ovviare a questo problema si peggiora il p -value , quindi lo si fa diventare più grande, per escludere la probabilità di avere dei falsi positivi . La correzione può anche far perdere la significatività del risultato trovato. Esist ono diversi modi di correggere il p -value, nell’ordine dalla più conservativa alla meno conservativa:  La correzione più famosa è quella di Bonferroni , che prevede di moltiplicare il p -value ottenuto per il numero dei test effettuati . p-value corrected = p-value nominal * n test . Il p-value corretto verrà confrontato con la soglia desiderata (di solito 0,05) . Questa correzione assume che i test siano tutti indipendenti. La correzione di Bonferroni è la più severa o conservativa, ma esistono anche altre correzioni meno drastiche, con le quali aumenta però la probabilità di ottenere dei falsi positivi .  Bonferroni step -down (Holm ): si ordinano i p -value dal più significativo (il più piccolo) al meno significativo e si moltiplicano nell’ordine per n, n -1, n-2, ecc.. (dove n rappresenta il numero di test effettuati). È simile alla Bonferroni ma meno stringente.  Westfall and Young : si opera una permutazione della tabella che racchiude tutti i singoli dati raccolti e si scambiano in modo random alcuni dei dati tra i due gruppi (controls e cases). Si operano delle permutazioni random numerose volte e per ogni volta si ricalcola poi il p -value. Per ogni dataset fittizio s i rivede l’esito degli stessi geni ordinati come sul dataset originale. Il valore della statis tica viene memorizzato e si va a confrontare il test successivo col precedente. Se l’ultimo ha dato un valore della statistica maggiore viene salvato, altrimenti si tiene il precedente. Nel momento in cui si compila la tabella, si può valutare in quanti da taset ciascun gene ha dato un valore statistico maggiore del nomina le. Alla fine si fa una proporzione tra tutti i p -value ottenuti dalle varie permutazioni e il p -value nominale: si ottiene così il p -value finale, che tiene conto del problema del testing multiplo . Il numero di dataset ottenuti con le permutazioni che risultano essere più significativi del test reale sarà il p -value corretto. Quando la proporzione è sotto la soglia convenzionale (0.05) , allora il p -value corretto sarà significativo. È una convenzione adatta laddove i test non sono indipendenti.  Benjamini and Hochberg (o correzione del false discovery rate ): si ordinano i p -value dal più significativo (il più piccolo) al meno signi ficativo e si moltiplica ciascuno per un coefficiente dato dal numero dei test fratto la posizione (k= n-i) del p -value, che vale k=1 per il primo p -value della lista e k=n per l’ultimo ( n/k ). Simile alla correzione Bonferroni step -down. È la meno stringente. Manhattan plot Grafico che mette in correlazione i valori dei p -value trovati con le posizioni occupate dai geni studiati (slip). In ascissa sono poste le posizioni dei geni mentre in ordinata i logaritmi negativi dei p-value corris pondenti ad ogni nucleotide studiato in quella posizione. Poiché la significatività è alta quando il p -value è piccolo si usa il logaritmo negativo per rappresentare in alto nucleotidi più significativi : - log 10(p-value) Database degli studi genome -wide Gli studi genome -wide sono tutti tabu lati e resi disponibili sul web, e sono consultabili per capire se ci sono informazioni relative ai geni per lo studio di una certa malattia. Esistono diverse piattaforme che contengono questo tipo di informazioni:  Cat alogo GWAS : le informazioni sono rappresentate come una sorta di atlante colorato in cui sono rappresentati tutti i cromosomi. Nel catalogo sono contenuti i risultati di tutti gli studi associativi rilevanti che sono stati condotti . Per ogni posizione del genoma viene segnalato se uno studio ha evidenziato una certa associazione tra la variabilità di quel gene ed una patologia ;  OMIM (Online Mendelian Inheritance in Men ): database più generale del catalogo GWAS, che contiene tutte le associazioni gene -malattia evidenziate dai vari studi condotti , in particolar modo per le patologie non complesse. Studi di associazione Phenome -wide (PhWAS) Studio di associazione che ribalta il punto di vista del genome -wide: si considera una singola variante genetica (anziché una moltitudine di posizioni) e si dividono i soggetti studiati in due gruppi, quelli che presentano quella variabile e quelli che non la presentano (anziché dividerli in base a chi presenta la patologia e chi no). Ciò che si ottiene in uscita sono le patologie che riguardano i vari soggetti, che potrebbero essere o non essere associate alla presenza della variante genetica studiata. “Phenome” sta infatti per fenotipo, poiché si studiano le diverse patologie collegate ad una certa variant e. È un approccio piuttosto recente che è reso possibile dalla disponibilità delle informazioni e dei dati raccolti su moltissimi soggetti in formato digitale (cartelle cliniche elettroniche). È reso possibile anche dall’utilizzo di vocabolari controllati (ICD) che permettono di catalogare meglio i fenotipi. Electronic health record (EHR) systems not only can improve healthcare, but also contain a vast repository of disease and treatment data that can be mined for genomic research. A key advantage of EHR -based genetic studies is that they allow for the collection of phenotype information as a byproduct of routine hea lthcare. Major efforts in E HR DNA biobanking are underway in a num ber of institution s. One of the major driving forces has been th e Nation al Human Genome Research Institute (NHGRI) -sponsored Electronic Medical Records and Genomics (eMERGE) network, which began in 2007, gathering several sites that perform genome -wide association studies.  opt -in model patients have given consent and permissio n to the investigators for recontact in the future if additional information is needed;  opt -out model patients have the opportunity to ‘‘opt out’’ of the DNA biobank by checking a box on the standard ‘‘Consent to Treatment’’ form signed as part of routine clinical care. A majority of patients (90%) do not check this box, indicating assent to the use of their DNA in the biobank. If the patient does not opt -out, blood that is scheduled to be discarded after routine laboratory testing is instead sent for DNA e xtraction, which is stored for potential future use. A major challenge is derivation of accurate collections of cases and controls for a given disease of interest, usually achieved through creation and validation of phenotype selection algorithms . Phenotype algorithms can be created multiple ways, depending on:  the rarity of the phenotype,  the capabilities of the EHR system,  the desired sample size of the study. Generally, phenotype algorithms are composed of several elements:  structured data such as laboratory values,  demographic data,  ICD9,  medication information,  NLP -derived data. The application of many phenotype selection logics can be thought of as partitioning individuals into four buckets : definite cases, possible cases, excluded, controls. L’algoritmo di selezione può essere testato rispetto a quanto farebbe un umano andando a interpretare manualmente le cartelle cliniche e come qualsiasi altro problema di classificazione può essere valutato in termini di accuratezza . La curva ROC dà conto della strategia di analisi in questione andando a variare un parametro della strategia stessa: il risultato dipende quindi dalla soglia che si sceglie nel test. Se la curva ROC si avvicina alla diagonale, significa che la classificazione è causal e. Più la curva è convessa, più la classificazione è accurata. Spesso viene dato il parametro AUC (Area Under Curve), cioè viene quantificato l’integrale dell’area sottesa sotto la curva come indicatore della bontà della classificazione. In una logica di screening, cioè laddove vogliamo trovare una condizione a uno stato precoce, è meglio avere una soglia che aumenta la sensibilità a capito della specificità. Biomarcatori Un biomarcatore è una molecola biologica (proteina, gene o altro) che permette di riconoscere una certa condizione, che può essere anche patologica. Non tutte le molecole o varianti genetiche SNP sono marcatori, ma solo quelle rilevanti per una determinata condizione. Si usano spesso le curve di Kaplan -Meier per valutare l’utilità di un marcatore nell’individuazione di una certa malattia. I biomarcatori si possono essere di diverso tipo:  diagnostici , se permettono di stabilire la presenza di una certa malattia ;  prognostici , se permettono di esprimersi sulla progno si, ovvero sull’eventuale progressione della condizione patologica ;  predittivi , se consentono di stabilire la strategia terapeutica più opportuna , cioè rendono conto della risposta a una terapia . Si dice invece target terapeutico una molecola biologica che si cerca di colpire con la terapia (es. farmacologica ). 2. INTEROPERABILITÀ L’interoperabilità è la capacità di scambiare e usufruire di dati in maniera efficiente. L’interoperabilità può essere di due tipi:  sintattica (o funzionale ): si riferisce alla struttura di una comunicazione ; vengono creati degli standard di comunicazione , che impongono delle regole su come strutturare i dati raccolti ;  semantica : si riferisce al significato di una comunicazione ed è garantita tramite l’uso di dizio nari e terminologie standard . Senza l’interoperabilità semantica è possibile scambiarsi informazioni ma non si garantisce che chi le riceve possa usarle o le abbia comprese correttamente. Alcuni esempi di standard di interoperabilità (che corrispondono cia scuno a un livello di interoperabilità, il primo alla sintattica e il secondo alla semantica) :  standard per la comunicazione : questi standard permettono lo scambio di messaggi e dati tra le varie strutture/servizi sanitari poiché hanno codificato (=standardizzato) il formato, la struttura e il tipo di dati che sono trasmessi in tali messaggi. Di questa categoria fanno parte lo standard HL7 usato per i messaggi legati alle procedure cliniche e amministrative e lo standard DICOM per le immagini diagn ostiche (radiologia, RMN, TAC, etc.);  terminologie standard : sono dei dizionari che forniscono codici associati in maniera univoca ai concetti clinici (come le malattie, le allergie, i trattamenti farmacologici e le diagnosi). Alcuni esempi di terminologie standard: SNOMED ( Systematized Nomenclature of Medicine) per termini clinici e l’=CD (=nternational Classification of Diseases ) per le malattie. Obiettivi dell’interoperabilità semantica:  evitare le ambiguità nell’interpretazione del significato di un messaggio tra due interlocutori;  discriminare concetti di significato differente: ad ogni singolo concetto è associato un solo possibile significato;  combinare due o più concetti distinti per la generazione di un altro concetto; ciò viene fatto attraverso l’uso di regole di composizione prefissate e standardizzate. Gli standard di comunicazione possono essere definiti in diversi modi:  metodo ad hoc : quando un gruppo di persone o organizzazioni si accordano in maniera informale su delle specifiche standard che si riferiscono ad un dominio applicativo specifico (es. DICOM);  metodo de facto : standard che si impone dalla pratica d’uso o dall’accettazione sul mercato (es. un singolo venditore controlla una porzione così massiccia di mercato che il suo prodotto diventa un market standard);  metodo de jure : standard che viene generato ed imposto da agenzie governative (es. in Italia l’Agenzia per l’=talia digi tale) ;  metodo del consenso : standard generato dal lavoro di un gruppo di esperti/organismi su base volontaria (es. HL7 per lo scambio di dati clinici). Organizzazioni principali che sviluppano e coordinano la generazione degli standard in sanità digitale:  International Standards Organisations (ISO ) il cui comitato tecnico (Technical Committee) numero 215 (TC/215) crea ed approva standard per la sanità digitale;  Comité Européen de Normalization (CEN – European Committee for Standardization) i l cui comitato tecnico 251 è un altro importante responsabile della creazione di standard per la comunicazione tra sistemi informati vi medici indipendenti e rappresenta l’Unione Europea ;  Ente Nazionale Italiano di Unificazione (UNI ) è un’associazione privata senza scopo di lucro riconosciuta dallo Stato e dall’Unione Europea che da quasi 100 anni elabora e pubblica norme tecniche volontarie – le norme UNI – in tutti i settori industriali, commerciali e del terziario. UN= rappresenta l’=talia presso le organizzazioni di no rmazione europea (CEN) e mondiale (ISO) e organizza la partecipazione delle delegazioni nazionali ai lavori di normazione sovranazionale. a) Interoperabilità semantica Linguaggio clinico Vengono usati dei termini specifici che hanno lo scopo di esprimere i concetti nel modo più controllato e preciso possibile. Si parla di vocabolario controllato , ovvero un insieme di termini che hanno ricevuto l’approvazione per l’uso in uno specifico dominio di applicazione o per una specifica esigenza di utilizzo . Tale vocabolario deve essere non ambiguo, ha dei termini vincolati ed è specifico per un certo ambito. È un elemento chiave per l’interoperabilità e risponde all’esigenza di sviluppare l’interoperabiltà semantica. Vi sono molte restrizioni e regole sull’utilizz o dei termini; per esprimere un certo concetto si devono usare termini specifici e non liberi come nel linguaggio naturale. Inoltre ha bisogno di un aggiornamento continuo per poter esprimere anche i nuovi concetti. Alcuni dei vocabolari controllati sono pre -coordinati , ovvero hanno delle combinazioni di termini predisposte e non consentono all’utente di combinare nuovi termini per esprimere un concetto più coordinato (ad esempio non si possono coordinare i termini “frattura” e “tibia” ma ci sarà già all’in terno del vocabolario la combinazione predisposta “frattura della tibia”). Ogni termine è catalogato e gli viene assegnato un codice alfanumerico. un concetto -> un codice -> una descrizione Un concetto singolo, detto anche concetto atomico o atomo, è associato ad un singolo codice. Un concetto composto (es. “severe headache”) può essere rappresentato nella terminologia secondo due modalità differenti che dipendono dal tipo di vocabolario utilizzato . Vocabolario pre -coordinato :  i singoli termini che ven gono utilizzati e combinati insieme per esprimere un dato concetto composto sono combinati nel momento stesso in cui viene generato il vocabolario ;  è un vocabolario statico ;  agli utenti non è richiesto di combinare per proprio conto i singoli termini per e sprimere un concetto composto. Vocabolario post -coordinato :  gli utenti devono per conto loro combinare i singoli termini e i relativi codici per definire ed esprimere un concetto composto;  è un vocabolario flessibile . ICD La classificazione internazionale delle malattie (ICD) è un sistema di classificazione che orgnanizza le malattie ed i traumatismi in gruppi sulla base di criteri definiti. Nel 1893, la Conferenza dell’=stituto internazionale di statistica, che ebbe luogo a Chicago, approvò la Class ificaz ione internazionale delle cause di morte e l’=talia avviò l’adozione di tale classificazione, per le statistiche di mortalità, a partire dal 1924. La Classificazione internazionale, sottoposta a periodiche revisioni, fu adottata anche per rilevare le cause di morbosità oltre che di mortalità. Non contiene i concetti che si riferiscono alle procedure mediche, tratta solo di malattie e traumatismi. Vi sono varie versioni dell’=CD (ad esempio =CD -10, ICD -9-CM, ecc…) . La versione CM contiene anche dei riferimenti alle terapie associate alle patologie e alle procedure di operazione. La classificazione ICD -9-CM (=ICD 9 Clinical Modification) è la versione della 9° revisione della classificazione =CD modificata e ampliata con l’introduzione degli intervent i e delle procedure diagnostiche e terapeutiche, ed è utilizzata per la codifica delle informazioni cliniche rilevate dalla Scheda di Dimissione Ospedaliera (SDO) e dai flussi informativi del Nuovo Sistema Informativo Sanitario (NSIS) che rilevano le infor mazioni sanitarie individuali riferite ai sistemi assistenziali distrettuali e domiciliari. La versione ICD -10 -CM contiene anche informazioni sulla lateralità e contiene un codice alfanumerico più complesso. Al momento, la classificazione ICD -10 è adottata in Italia per la codifica delle cause di morte nella rilevazione ISTAT sui decessi. La classificazione dei concetti nell’=CD è organizzata in 22 capitoli contrassegnati tramite dei codici alfanumerici. Il p rimo carattere del codice ICD è una lettera, a ogni lettera è associato uno specifico capitolo. Ogni capitolo è organizzato in categorie identificate con un codice. La International Classification of Diseases, 10th Revision, Clinical Modification (ICD -10 -CM) è la versione integrata da informazioni cliniche dell’=CD -10 e rappresenta un miglioramento rispetto all’=CD -10. In dettaglio, i miglioramenti più significativi sono:  l’aggiunta di informazioni relative agli eventi ambulatoriali;  una lista più ricca di codici riguardanti i traumatismi;  l’aggiunta di ulteriori caratteri nella codifica;  l’aggiunta del concetto di lateralità. SNOMED CT La Systematized Nomenclature of Medicine -Clinical Terms (SNOMED CT) è una terminologia medica sviluppata dal College of American Pathologists (CAP). Viene utilizzata soprattutto nel campo dell’ anatomia patologica . Contiene i termini relativi a tutte le discipline mediche, compresa la medicina veterinaria. In Italia viene prevalentemente usato dalla AP. Lo SNOMED CT contiene i concetti relativi alle diagnosi, disturbi, malattie, sintomi e procedure mediche . Permette di combinare insieme termini singoli ( lung + inflammation ) o specificare e aggiungere elementi qualitativi ad un concetto (severe, mild, sudden onset , etc). Contiene più di 365000 concetti, quasi un milione di descrizioni, circa 1.5 milioni di relazioni tr a concetti. Ogni concetto esprime uno ed un solo significato. Ad ogni concetto è associato un unico codice identificativo alfanumerico (identifier). Il codice identificativo permette di risalire in maniera univoca al concetto a cui si riferisce. Il campo descrizione (description) contiene la descrizione testuale associata al concetto ed è leggibile dall’operatore umano. Ad ogni concetto sono associate due tipologie di descrizioni:  Fully Specified Name (FSN, ce n’è uno solo per ogni concetto), è una descrizione unica e non ambigua del concetto;  sinonimi : ogni concetto ha un sinonimo detto |preferred| che è il termine preferito con cui quel concetto viene espresso dai medici . I concetti sono raggruppati secondo una gerarchia . La tabella mostra una parte della gerarchia presente nello SNOMED CT e degli esempi di quali concetti sono presenti i ciascuna gerarchia . Un singolo termine può essere figlio di termini diversi, appartenenti a gerarchie diverse. Le relazioni permettono di creare un legame logico tra un concetto ed un altro concetto. |is a | relationship : lega un concetto ad uno o più concetti di significato più generico. Le rela zioni | is a| servono per definire la posizione nella gerarchia tra i concetti. =l suo simbolo è ≡. Parents = concetti che stanno un livello più in alto nella gerarchia. Il concetto p legato ai suoi parents tramite la relazione | is a |. Gli attributi sono concetti attribuiti al concetto in esame in cui vengono specificati alcuni tipi di informazione: il tipo di processo patologico, la morfologia associata, il sito interessato, la causa. Altri tipi di relazioni presenti in SNOMED CT ed utilizzabili per descrivere il significato di un concetto sono: • place of finding • associated morphology • etiology • associatedwith • severity• finding • after its • course • followed by • causalagent • episodicity • due to • pathological process Parliamo di espressioni pre -coordinate quando un termine vede la composizione di due termini singoli (es | fracture of tibia |). In generale in SNOMED ci sono termini pre -coordinati che composti da termini singoli dando un concetto più articolato. LOINC “Logical Observations: Identifiers, Names and Codes ” ( LOINC ) è lo standard per lo scambio di dati relativi a risultati di laboratorio e osservazioni cliniche. Gene ontology Un altro vocabolario controllato dedicato alla nomenclatura dei geni e delle proteine è Gene Ontology (GO ), che contiene termini riguardanti 3 diversi aspetti della genomica:  funzion e molecolar e: th is describe s the biochemical activity of the entity such as whether it is a transcriptional factor, a transporter, or an enzyme ;  component e cellular e: th is provide s a localization of a gene product ;  process o biologic o: it refer s to a higher order process such as metabolism, protein translation, signal transduction , etc. Il vocabolario GO ha una struttura gerarchica : a partire dal termine più generale si diramano termini sempre più specializzati e dettagliati. Grazie a questa struttura gerarchica, quando si cerca un termine specifico si può risalire anche ai termini più generali connessi ad esso, per avere maggiori informazioni sul termine. A gene can be  present in any of the ontologies (MF / BP / CC);  a member of several GO terms. True path rule : if a gene is member of a term it is also member of the terms parents. b) Interoperabilità sintattica Vengono sviluppati degli standard non solo per quanto riguarda i termini, ma anche per quanto riguarda la loro diffusione. Vengono introdotti dei formati standard in cui racchiudere dati, pe r poterli scambiare in modo efficiente. Formato DICOM Lo standard DICOM ( Digital Imaging and COmmunication in Medicine ) è stato sviluppa to dalla National Electrical Manufacturers Association (NEMA) e dalla American College of Radiology (ACR) che ne mantengono il copyright. Alla generazione dello standard hanno anche contribuito altri enti/organizzazioni/società facenti parte della commissione dello standard DICOM. È stato ufficialment e introdotto nel 1993 . L’obiettivo del D=COM è permettere l’ interoperabilità sia tra le strumentazioni di imaging diagnostico che tra tali strumentazioni ed altri dispositivi (es stampanti, supporti di archivio digitale di immagini, supporti per la visualizzazione delle immagini, ecc. ) che sono tipicamente utilizz ati nei PACS (sezione dei sistemi informativi ospedalieri dedicata alla gestione delle immagini , Picture archiving and communication system ). In rosso sono evidenziati i principali servizi che sono scambiati tra i vari dispositivi. Lo standard si occupa di:  definire il formato dei file delle immagini diagnostiche (da qui deriva il termine imaging contenuto nel titolo dello standard);  definire i l protocollo di comunicazione/scambio di dati (cioè le immagini diagnostiche) tra i vari dispositivi (da qui deriva il termine communication contenuto nel titolo dello standard);  definire le modalità di visualizzazione dello studio di imaging diagnostico su diversi dispositivi ( es. per garantire che a prescindere dal dispositivo di visualizzazione utilizzato il contrasto e la luminosità effettiva siano sempre le medesime). Un singolo file DICOM contiene:  intestazione (header ) che contiene vari campi conte nenti informazioni riguardo il paziente, l’acquisizione, il dato, ecc. = primi 128 byte sono occupati da zeri, seguono poi i caratteri ‘D’, ‘=’, ‘C’, ‘M’. Ogni campo ha una specifica etichetta ( tag ): due numeri (gruppo – elemento) esadecimali da 4 cifre . I campi  hanno lunghezza variabile,  sono opzionali,  vanno letti sequenzialmente . I tag sono suddivisi in gruppi in base al tipo. Il gruppo è contraddistinto da un tag caratteristico che finisce in 0000. (es. 0010 0000 contiene informazioni per il gruppo patient info, 0028 0000 image shape , 0008 0000 institution name). Tutti i tag dello stesso gruppo hanno le prime 4 cifre in comune.  dato immagine ; anch’esso ha il suo tag corrispondente che è parte dell’ header . Ogni immagine è una matrice bidimensionale in cui ogni pi xel ha un valore che descrive l’intensità del pixel. Ogni immagine è salvata come un singolo file DICOM , ad esempio una TAC di 30 slices corrisponde a 30 file DICOM separati. Le varie slices della TAC sono numerate (tag: InstanceNumber) e messe insieme costituendo così una DICOM series . Ogni DICOM series è contrassegnata dal tag SeriesInstanceUID. Il DICOM study consiste nella collazione di tutte le DICOM series eseguite. Il DICOM study è identificato dal tag StudyInstanceUID. La successione di bit che porta l’informazione appartenente ad un singolo campo ha un’organizzazione specifica: prima c’è il tag , poi il campo VR (value representation , tells you the data type of the value , it’s an optional field ), poi la lunghezza del dato che segue ( VL , value length ) ed infine il dato effettivo (value field, where the actual value is stored ). Esistono anche versioni DICOM in cui il VR non viene esplicitato; in questo caso al tag segue subito la lunghezza del dato ed infine il dato vero e proprio. Come f accio a sapere se la codifica del file è explicit VR o implicit VR? È importante saperlo per leggere il file correttamente. Questa informazione è salvata nel tag (0002,0010), detto Transfer Syntax tag . (NB group 2 elements are always explicit ). Lo stesso campo mi dice anche se la codifica è little -endian o big -endian . Esistono diversi sistemi per la memorizzazione:  little -endian : memorizzazione che inizia dal byte meno significativo per finire col più significativo, è utilizzata dai processor i Intel;  big -endian : memorizzazione che inizia dal byte più significativo per finire col meno significativo, è stato scelto come ordine standard in molti protocolli utilizzati in Internet, viene perciò anche chiamato network byte order ;  middle -endian : ordi ne dei byte né crescente né decrescente . Formato EDF Formato semplice e flessibile per la memorizzazione e lo scambio dei segnali biomedici , ad esempio EEG e polisonnografia . Anche in questo formato c’è un header , che contiene informazioni sul paziente e su come è stato acquisito il file. Questo formato di file è organizzato in record , quindi i segnali non vengono salvati in modo continuo, ma istante per istante vengono salvati i relativi valori di ogni segnale. Per ricostruire il segnale bisogna trovare n ell’header l’informazione sulla durata di ciascun record e quanti campioni ci sono per ogni segnale all’interno di ciascun record. Formato HL7 HL7 è un formato ch e si occupa di rendere accessibili i dati da sistemi digitali diversi , con diverse interfacce per le periferiche. Permette lo scambio di dati all’interno dei sistemi informativi sanitari, permettendo alle diverse applicazioni di comunicare a prescindere dalle specifiche caratteristiche implementative. HL7 è il più diffuso standard per lo scambio di dati in sanità digitale. :L7 sta per “ Health Level 7 ”. =l 7 fa riferimento al settimo livello del modello ISO/OSI (=SO è l’ente che certifica gli standard a livello mondiale, mentre OSI sta per “Open S ystem Interconnection ”). =l modello ISO/OSI è uno standard che si divide in 7 livelli: i primi livelli fanno riferimento alle regole riguardanti la parte hardware fisica e d’implementazione, mentre i livelli più alti si occupano dei protocolli e delle funzioni che tali standard devono soddisfare. HL7 si basa su un formato di file molto semplice: un file di testo codificato tramite la tabella ASCII , delimitato da caratteri speciali, con dati a lunghezz a variabile e dipendenti dalla posizione (la struttura del messaggio è molto importante ed è il cuore del formato HL7). Si usa un semplice file di testo in modo che sia scrivibile ed accessibile da qualsiasi sistema digitale. Lo standard è basato sulla costruzione di messaggi , che vengono generati da eventi detti trigger : il sistema mittente trasmette un messa ggio al sistema ricevente, che invia un feedback dell’avvenuta ricezione del messaggio (ACK, acknowledgement ). A seconda del tipo di evento trigger, vengono inviati messaggi diversi (di tipo clinico, amministrativo, finanziario, logistica, ecc..) . I messaggi :L7 comunicano l’evento a tutti i sistemi che devono essere coinvolti nella risposta a tale evento. Contenuti oggetto dello scambio di dati:  ammissione/dimissione/trasferimento dei pazienti;  pianificazione delle attività sanitarie e dell’impiego d elle risorse: effettuazione di ordini;  comunicazione di dati sanitari;  gestione economica del ricovero;  aggiornamento dei master file;  gestione dei referti;  assistenza al paziente e richiesta di consulenze. Lo standard HL7 descrive in maniera dettagliata l a struttura del messaggio , che è composto da segmenti :  inizia con un segmento header (MS:) ed è identificato dal tipo e dall’evento trigger (es. l’evento di accettazione di un paziente è identificato dal tipo ADT e dall’evento A01;  i segmenti sono identifi cat i da un acronimo di tre lettere (segment identifier );  i segmenti possono essere di tipo obbligatorio, opzionale, ripetibile . Esempi: 1. Segmento PID : contiene informazioni demografiche sul paziente ; 2. Segmento NKI : contiene informazioni sui parenti più stretti del paziente ; 3. Segmento PVI : contiene informazioni sulla permanenza del paziente nella struttura ospedaliera . L’inizio di ogni segmento è segnato dall’acronimo corrispondente, mentre il carattere (carriage return , ASCII 13) segna la fine del segmento. Le informazioni contenute nei segmenti sono organizzate in campi in successione ordinata i campi possono essere di lunghezza variabile e di tipo diverso. I campi sono separati l’uno dall’altro dal carattere separatore | (ASCII 124). Ci sono altri caratteri che vengono usati come separatori: ^ viene usato come separatore all’interno di un campo (per separare ad esempio nome e cognome all’interno del campo dei dati del paziente). Il carattere & viene invece usato per separare ulteriori sotto -componenti. All’interno di un campo ci sono componenti di tipo diverso. M essaggi più utilizzati:  ACK – general acknowledgement;  ADT – Admit/discharge/transfer;  BAR – Add/change billing account;  DFT – detailed financial transaction;  MDM – medical document management;  MFN – maste r files notif