Obo Fonderia Bforex


Prospettiva Nature Biotechnology 25. 1251-1255 (2007) Pubblicato on line: 7 novembre 2007 doi: 10.1038nbt1346 La OBO Fonderia: evoluzione coordinata delle ontologie per sostenere l'integrazione dei dati biomediche Barry Smith 1. Michael Ashburner 2. Cornelius Rosse 3. Jonathan Bard 4. William Bug 5. Werner Ceusters 6. Louis J Goldberg 7. Karen Eilbeck 8. Amelia Irlanda 9. Christopher J Mungall 10. Il Consorzio OBI 11. Neocles Leontis 12. Philippe Rocca-Serra 9. Alan Ruttenberg 13. Susanna-Assunta Sansone 9 . Richard H Scheuermann 14. Nigam Shah 15. Patricia L Whetzel 16 amp Suzanna Lewis 10 Il valore di qualsiasi tipo di dati è notevolmente migliorata quando esiste in una forma che gli permette di essere integrato con altri dati. Un approccio per l'integrazione è attraverso l'annotazione di più corpi di dati utilizzando vocabolari o ontologie comuni controllata. Purtroppo, il successo stesso di questo approccio ha portato ad una proliferazione di ontologie, che a sua volta crea ostacoli all'integrazione. L'Open Biomedical ontologie (OBO) Consorzio sta perseguendo una strategia per superare questo problema. Esistenti ontologie OBO, tra cui il Gene Ontology, sono in fase di riforma coordinata, e le nuove ontologie vengono creati sulla base di un insieme di principi condivisi in evoluzione che governano lo sviluppo ontologia. Il risultato è una famiglia in espansione di ontologie progettata per l'interazione e logicamente ben formato e di incorporare accurate rappresentazioni di realtà biologica. Descriviamo questa iniziativa OBO fonderia e di fornire le linee guida per coloro che potrebbero desiderare di essere coinvolti. Introduzione Nella ricerca di ciò che è biologicamente e clinicamente significativo nei sciami di dati che vengono generati da oggi tecnologie high-throughput, una strategia comune prevede la creazione e l'analisi di annotazioni che collegano i dati principali per le espressioni di controllo, vocabolari strutturati, rendendo in tal modo i dati a disposizione per la ricerca e per l'elaborazione algoritmica 1. il maggior successo tale sforzo, misurata sia per numero di utenti e dalla portata tra le specie e granularità, è il Gene Ontology (GO) 2. esistono oltre 11 milioni di annotazioni relative prodotti genici descritti nel UniProt, Ensembl e altri database di termini del GO 3. di cui mezzo milione sono stati verificati manualmente curatori specializzati in diverse comunità del modello-organismo, sulla base dell'analisi dei risultati sperimentali riportati in 52.000 articoli di riviste scientifiche (ebi. ac. ukGOA). I dati relativi a circa 180.000 geni sono stati annotati manualmente in questo modo, uno sforzo in fase di raffinato e sistematizzato nell'ambito del Progetto Genoma di riferimento (US National Institutes of Health Nazionale Human Genome Research Institute concessione 2P41HG002273-07), che fornirà le annotazioni complete per GO sia il genoma umano e un insieme rappresentativo di genomi modello organismo a sostegno della ricerca sui sistemi molecolari preliminari che riguardano la salute umana. Dalla mappatura retrospettiva prospettica standardizzazione Il dominio della biologia molecolare è caratterizzata dalla disponibilità di grandi quantità di dati ben definiti che possono essere utilizzate senza limitazioni come input per l'elaborazione algoritmica. Nel dominio clinica, al contrario, solo quantità limitate di dati sono disponibili per scopi di ricerca, e questi sono costituiti ancora prevalentemente di testo in linguaggio naturale. Anche quando sono disponibili i dati clinici più sistematici, l'uso di schemi di codifica locali significa che questi dati non si accumulano in modi utili per la ricerca 4. Un approccio per risolvere questo problema è l'Unified Medical System Language (UMLS) 5. un compendio di alcuni 100 vocabolari source combinati attraverso un processo di mappatura retrospettiva sulla base dell'individuazione delle relazioni sinonimia tra termini costituenti. Il UMLS ha dato risultati molto utili per applicazioni quali l'indicizzazione e il recupero di documenti. Ma perché i vocabolari distinti non hanno un'architettura comune 6, 7. UMLS mappature non fondere le loro condizioni insieme in un singolo sistema di 8. Sempre, pertanto la necessità viene riconosciuta per strategie di normalizzazione prospettico progettato per contribuire al miglioramento progressivo e l'allineamento reciproco dei quadri utilizzati per la gestione, la descrizione e la pubblicazione di dati biomedici. Due prodotti cospicue di questa tendenza sono gli Stati Uniti National Cancer Institute Cancer Biomedical Informatics griglia (caBIG) del progetto 9 e HL7s informazioni di riferimento del modello (RIM) (hl7.org). caBIG cerca di integrare tutti i dati di ricerca sul cancro in un Cyberinfrastructure comune, standardizzando i modi in cui vengono acquisite tali dati, formattati, trattamento e magazzinaggio. Il HL7 RIM, allo stesso modo, offre uno standard per lo scambio, la gestione e l'integrazione di tutte le informazioni pertinenti alla sanità, dalla genomica clinici per la fatturazione ospedale. Tuttavia, perché sia ​​messa a fuoco caBIG e HL7 sulla questione meta-livello di come i dati e le informazioni dovrebbero essere rappresentate nei sistemi informatici e di messaggistica, si può sostenere che non riescono a rendere giustizia alla domanda a livello di oggetti del modo migliore per rappresentare la proteine, organismi, malattie o interazioni farmacologiche che sono di interesse primario nella ricerca biomedica 7, 10. Un esperimento di collaborazione per lo sviluppo dell'ontologia Nel 2001, Ashburner e Lewis ha avviato una strategia per affrontare la questione a livello di oggetto con la creazione di OBO, un organismo ombrello per gli sviluppatori di ontologie scienze della vita. OBO applica i principi fondamentali alla base del successo del GO, e cioè che ontologie aperta, ortogonali, un'istanza in una sintassi ben specificato e progettato per condividere uno spazio comune di identificatori 11. ontologie devono essere aperte, nel senso che essi e la corpi di dati descritti nei loro termini dovrebbero essere disponibili per l'uso, senza alcun vincolo o la licenza e in modo da essere applicabile ai nuovi scopi senza restrizioni. Sono anche ricettivo a modifiche come risultato di dibattito comunitario. Essi devono essere ortogonali al fine di garantire l'additività di annotazioni e di portare i benefici dello sviluppo modulare. Essi devono essere sintatticamente in buon ordine per supportare l'elaborazione algoritmica. E devono utilizzare un sistema comune di identificatori per consentire la compatibilità con le annotazioni legacy come le ontologie si evolvono. OBO comprende ora oltre 60 ontologie, e il suo ruolo come risorsa informativa un'ontologia è sostenuto dal Centro Nazionale NIH tabella di marcia per la biomedica Ontologia (NCBO) attraverso la sua BioPortal 12. Allo stesso tempo, gli sviluppatori di un sottoinsieme di ontologie OBO hanno avviato la OBO Fonderia, un esperimento di collaborazione basato sulla accettazione volontaria da parte dei suoi partecipanti di una serie in continua evoluzione di principi (disponibile presso obofoundry. org) che si estendono quelli del OBO originale richiedendo inoltre che ontologie (i) essere sviluppati in uno sforzo di collaborazione, (ii) utilizzare rapporti comuni che sono chiaramente definite, (iii) fornire procedure per reazioni degli utenti e per identificare versioni successive e (iv) un chiaramente delimitata oggetto (in modo che un'ontologia dedicato alla cella componenti, per esempio, non dovrebbe includere termini come database o intero). Una rappresentazione grafica della copertura delle ontologie Fonderia iniziali è previsto nella tabella 1. I progressi finora Dal momento che la OBO fonderia è stata fondata, ontologie come il GO e il Modello Foundational di Anatomia (FMA) 13 sono stati riformati e nuove ontologie create sulla base dei suoi principi 14, 15, 16. Forse ancora più importante, le ontologie hanno stato sepolto. Prima della OBO Fonderia esistevano almeno quattro ontologie cellula-tipo: uno da Bard, Rhee e Ashburner 17. altro da Kelso et al. 18. un terzo implicita all'interno del GO e il quarto un subontology all'interno della FMA. I primi tre ora formano un unico tipo cellulare ontology (CL) 19. che è essa stessa essere integrato con le rappresentazioni di tipo a cella contenuti all'interno del FMA. L'iniziativa fonderia serve anche per allineare gli sforzi di sviluppo dell'ontologia effettuate dalla comunità separate, per esempio nella ricerca su diversi organismi modello. Il potenziale di questo tipo di ricerca per ottenere risultati preziosi per la comprensione delle malattie umane si basa sulla nostra capacità di rendere affidabili confronti tra specie. Perché così tanti dati model-organismo è localizzato a strutture anatomiche, inferenze disegno sulla base di tali confronti è stata ostacolata dalla mancanza di coordinamento nello sviluppo dell'anatomia dell'ontologia tra le diverse comunità. Alcuni ontologie rappresentano la struttura, gli altri la funzione rappresentano, altri ancora rappresentano stadi di sviluppo, e alcuni disegnano sulle combinazioni di questi, in modi che chiudono le opportunità per il ragionamento automatico. La Fonderia ha creato una tabella di marcia per la risoluzione incrementale di questo problema attraverso l'avvio del Anatomia di riferimento Ontologia comune (Caro) 14. che sta fornendo le linee guida sia per le comunità modello-organismo con ontologie eredità di anatomia che desiderano avviare le riforme in direzione di compatibilità e per le comunità che desiderano costruire nuove ontologie da zero. CARO si basa sui tipi di primo livello delle FMA e serve come modello per la creazione dei pesci multi-specie, Ixodidae e Argasidae (tick), zanzariere e Xenopus anatomia ontologie, e anche come base per le riforme della Drosophila e anatomia zebrafish ontologie 19. L'ontologia per Biomediche Investigations (OBI) risponde alla necessità di vocabolari controllati per supportare l'integrazione dei dati sperimentali, la necessità originariamente identificato nel dominio trascrittomica dall'espressione Microarray Gene Society dati (MGED), che ha sviluppato il MGED Ontologia 20 come una risorsa di annotazione per i dati di microarray. In risposta al riconoscimento delle esigenze convergenti in settori quali proteine ​​e caratterizzazione metabolita, questo sforzo è stata ampliata per diventare quello che era inizialmente conosciuto come Fugo (Functional Genomics Investigation Ontology) 21. Fugo è stato ulteriormente ampliato nel 2006 per includere la ricerca clinica ed epidemiologica, l'imaging biomedico e una varietà di altri domini di sperimentazione per diventare ciò che è oggi OBI, un'ontologia progettato per servire la rappresentazione coordinata di progetti, protocolli, strumentazione, materiali, processi, dati e tipi di analisi in tutti i settori della ricerca biologica e biomedica. Venticinque gruppi sono ora impegnati nella costruzione OBI (obi. sfcommunity), e la disciplina fonderia ha dimostrato essenziale per il suo sviluppo distribuito. Diversamente dalla maggior parte ontologie OBO, che utilizzano il formato di file OBO e il software OBO-Edit associati favorito dal modello-organismo e altre comunità biologo, OBI utilizza il OWL-DL Web Ontology Language. La necessità di rendere OWL e OBO ontologie interoperabile ha scatenato la creazione di strumenti di conversione OBOx02013OWL bidirezionali 22 che integrano i dati annotati in termini di movimento e altre ontologie OBO con i corpi dei dati provenienti onstream nell'ambito del Semantic Web 23 un'iniziativa influente di sfruttare ontologie OWL per codificare le conoscenze nei sistemi informatici distribuiti 24. Tutti i modelli di buona pratica Ogni ontologia Fonderia forma una struttura teoria dei grafi, con i termini collegati da bordi che rappresentano le relazioni, come ISA o partof in affermazioni come la serotonina ISA ammine biogene o la proliferazione delle cellule cytokinesis partof. Poiché le relazioni in ontologie OBO sono stati inizialmente utilizzati in modi incoerenti 25. Relation OBO Ontology (RO) 26 è stato sviluppato per fornire le linee guida per i costruttori ontologia nella formulazione coerente di affermazioni relazionali. Queste linee guida sono già dimostrando usefulx02014for esempio, nella rappresentazione dei cambiamenti anatomici 27 e nel collegamento collezioni di immagini diverse di set di dati filogenetici 28. Altre aree in cui la fonderia sta fornendo linee guida comprendono le convenzioni di denominazione 29 e via Rappresentazioni 30. Il modello di buona pratica nella formulazione delle definizioni è FMA 13. una rappresentazione di tipi di entità anatomiche costruito intorno a due gerarchie backbone di Isa e PARTOF relazioni . Le FMA impone una regola secondo la quale tutte le definizioni assumono la forma genere-specie: una A DEF. un B che Cs dove B è il genitore isa di A e C sono marcatura che sottofamiglia di B che sono anche come differenziazione. Ad esempio, la cella def. una struttura anatomica che ha come contorno della superficie esterna di una membrana plasmatica def membrana plasmatica massimo collegato. un componente cellulare che ha come parti di un doppio strato fosfolipidi massime nella quale sono incorporate istanze di due o più tipi di proteine. Ancoraggio definizioni nella gerarchia isa in questo modo diminuisce il ruolo dell'opinione nel determinare dove termini devono essere collocati nella gerarchia, favorendo in tal modo la coerenza all'interno e tra ontologie e contribuendo a prevenire errori comuni 6, 7, 26. Per massimizzare coordinamento cross-ontology, termini composti devono essere costruite per quanto possibile su termini costituenti tratte da ontologie fonderia legata utilizzando espressioni relazionali dal RO 31. viene applicato Tale metodologia di prodotti incrociati, in uno dei progetti biologici guida il NCBO, per l'annotazione di Drosophila. zebrafish e alleli umani per i geni implicati nella malattia 12, 32. curatori specializzati associano questi alleli con descrizioni fenotipo formulati utilizzando termini tratti da più di un OBO Foundry ontologyx02014for esempio, che compongono la fenotipica Qualità Ontology (PATO) termine aumento della concentrazione con il sangue FMA termine e il glucosio ChEBI termine per rappresentare un aumento dei fenotipi di glucosio nel sangue. Tale creazione di termini attraverso la composizione esplicito evita i colli di bottiglia creati in cui, come per esempio nel mammiferi fenotipo Ontology, ogni nuovo termine deve essere approvato per l'inclusione nella ontologia prima che possa essere utilizzato nelle annotazioni. Ma l'approccio funziona solo se i termini risultanti sono inequivocabili, e qui la Fonderia aiuta a fornire il necessario rigore. Il principio di ortogonalità aiuta a ridurre la necessità di decisioni arbitrarie tra termini equivalenti apparentemente tratte da diverse ontologie, la fenotipico qualità ontologia PATO fornisce modelli per la formazione termine, ed il RO fornisce colla formalmente coerente per la combinazione 33. L'attuale campo di applicazione dell'iniziativa OBO fonderia è sintetizzata nella tabella 2. ontologie fonderia vengono creati e mantenuti da biologi con una conoscenza approfondita della scienza sottostante. Dove esperti di dominio controllano congiuntamente ontologia, dati e annotazioni (come nel caso della collaborazione GOUniprot), tutti e tre possono essere curata in tandem in modo da fornire un controllo di realtà in ogni fase del processo 34. Come risultati di esperimenti sono descritto nelle annotazioni, questo porta ad estensioni o correzioni di dell'ontologia, che a loro volta portano a una migliore annotazione 35. I risultati del lavoro Foundrys possono poi essere applicate da gruppi esterni come benchmarksx02014for esempio, per aiutare a identificare geni mutati a frequenze significative umana tumori o 36 per identificare i componenti cellulari coinvolti nella processazione dell'antigene 37 o, in generale, per raffinare i risultati altrimenti rumorose di testo e data-mining 38, 39, 40, 41. La OBO Fonderia applicata Neurofisiologia. Una dimostrazione dell'utilità della metodologia fonderia è fornita da lavori in corso per creare il database NeuronDB all'interno del progetto Senselab (senselab. med. yale. edu). NeuronDB comprende tre tipi di proprietà neuronale: conduttanze voltaggio-dipendenti, neurotrasmettitori e recettori dei neurotrasmettitori. Una rappresentazione iniziale di neurotrasmettitori definito una gerarchia ISA con le classi, come il recettore del neurotrasmettitore e sottoclassi, come il recettore GABA. In questa ontologia iniziale, recettori non sono stati definiti, e rigorosamente parlando non sarebbe noto, per esempio, se un recettore è una proteina o un complesso proteico. La Fonderia ha fornito una serie di principi e di almeno un compito che può essere valutata nel fare queste scelte: vale a dire, la portata di ogni ontologia deve essere chiaramente delimitato e (da ortogonalità) nessun termine dovrebbe apparire in più di una ontologia. Rivedere le ontologie esistenti, abbiamo scoperto che la funzione GO molecolare (GO MF) ontologia già classi come l'attività del recettore (GO: 0.004.872) e un numero di sottoclassi che hanno descritto le attività del recettore che sono stati di cui al NeuronDB. Abbiamo esaminato un centinaio di trenta classi di recettori risultanti. Dove esistevano, abbiamo riutilizzato classi MF dove non abbiamo creato sottoclassi di classi MF esistenti e presentato i risultati di andare per l'inclusione futuro. Organizzazione NeuronDB di interoperare in modo trasparente con GO ha fornito l'ulteriore vantaggio che possiamo ora trarre vantaggio di annotazioni andare per trovare le proteine ​​che corrispondono alle classi di recettori per la ricerca annotazioni ai termini MF. Questo è un modello di come i costruttori di piccole ontologia possono costruttivamente contribuire alla crescita delle risorse condivise e contemporaneamente a beneficio degli utenti dei propri ontologie. Neuroanatomia. A sostegno della ricerca sulle malattie neurodegenerative e le malattie neurologiche all'interno del Biomedical Informatics Research Network (BIRN) 42. la BIRN Ontology Task Force sta applicando i principi fonderia per rappresentare formalmente diversi domini di grandi dimensioni, tra cui (i) neuroanatomia 43. in cui le annotazioni devono catturare non solo sistemi strutturali di parthood e collegamento topologico ma anche parcellations cytoarchitectural come le regioni CA1, CA2 e CA3 dell'ippocampo, (ii) sistemi funzionali, come i circuiti gangliari basali di pianificazione motoria e memoria motoria e (iii) neurochimica (per esempio, di tronco cerebrale monoamine nuclei). I membri del BIRN Ontologia Task Force vedono la fonderia a fornire un quadro entro il quale questi assi distinti possono essere algoritmicamente combinati, e si stanno incorporando i risultati in Birns progetto NeuroImage atlasing e li utilizzano per integrare i dati di espressione microarray spazialmente mappati con risultati di imaging del mouse . Le informazioni minime biologiche e biomediche Investigations (MIBBI). Questa iniziativa rappresenta il primo nuovo sforzo standard che prende OBO e la OBO fonderia come il suo modello di comportamento 44. MIBBI fornisce risorse informative per promuovere il consolidamento delle tante liste di controllo prescrittivi che specificano gli elementi di base di metadati da includere nella relazione dei risultati in una varietà di sperimentazione domini 45. La proliferazione di tali liste di controllo minimi di informazione ha reso sempre più difficile ottenere una panoramica delle specifiche esistenti, inutilmente duplicare gli sforzi e creare problemi quando terzi tentano di utilizzare le informazioni descritte. Il portale MIBBI funziona in modo analogo a OBO e NBCO Bioportal come risorsa informativa aperta per tutte le iniziative che affrontano questi problemi MIBBI Fonderia favorisce lo sviluppo collaborativo e l'integrazione delle liste di controllo in moduli ortogonali 46. Come aderire Come OBO, il OBO Fonderia è una comunità aperta. Qualsiasi lavoro individuale o di gruppo nel campo della biomedicina che intendono aderire all'iniziativa è invitato a farlo, e tutti i forum di discussione (elencati obofoundry. org) sono aperti a tutti gli interessati senza restrizioni. Il primo passo consigliato è quello di unire una o più liste di distribuzione in aree salienti come un modo per acquisire familiarità con la metodologia di collaborazione Foundrys e identificare i membri con sovrapposizione competenza. Quelli con nuove risorse ontologia sono invitati a presentare loro per esame informale da parte dei membri esistenti questo sarà seguito da un periodo in cui si rivolge il rispetto dei principi fonderia, in particolare per quanto riguarda i potenziali conflitti in aree di sovrapposizione. L'adesione all'iniziativa fonderia scorre poi da un impegno di implementazione incrementale di questi principi che si evolvono nel tempo, con i coordinatori fonderia (attualmente Ashburner, Lewis, Mungall e Smith) che serve come analoghi di editori di riviste, per cui la divisione del lavoro che si traduce da ortogonalità aiuta a garantire che le decisioni di sviluppo sono fatte da singoli di ontologie autori. Con l'adesione all'iniziativa, di un'ontologia gli autori si impegnano a lavorare con gli altri membri per garantire che, per qualsiasi dominio particolare, vi è una convergenza su un unico ontologia. La critica, troppo, è il benvenuto: la Fonderia è un tentativo di applicare il metodo scientifico al compito di sviluppo dell'ontologia, e quindi accetta che nessuna risorsa potrà mai esistere in una forma che non può essere ulteriormente migliorata. Il nostro obiettivo a lungo termine è che i dati generati attraverso la ricerca biomedica dovrebbero formare un tutto unico, consistente, cumulativamente espansione e algoritmicamente trattabili. I nostri sforzi per realizzare questo obiettivo, che sono ancora molto in fase di lievitazione, riflettono un tentativo di percorrere la linea tra la flessibilità che è indispensabile per il progresso scientifico e l'istituzione di principi che è indispensabile per il coordinamento di successo. Ringraziamenti The Foundry sta ricevendo un finanziamento ad hoc, sotto le sovvenzioni BISC Gen e Consorzio Ontologia, MGED, NCBO e RNA ontologia. Siamo grati a tutte queste fonti, e anche al Progetto ACGT dell'Unione europea e alle Fondazioni Humboldt e Volkswagen. Riferimenti Yue, L. amp Reisdorf, W. C. Pathway e l'ontologia analisi: approcci emergenti di collegamento dati trascrittoma e endpoint clinici. Curr. Mol. Med. 5. 11.821.121 (2005). Consorzio Ontology Gene articolo PubMed Chemport. Il Gene Ontology (GO) del progetto nel 2006. Nucleic Acids Res. 34 (problema del database), D3228211D326 (2006). Articolo Camon, E. et al. Il Gene Ontology Annotazione (GOA) del progetto. Genome Res. 13. 6.628.211,672 mila (2003). Articolo PubMed ISI Chemport Kohane, I. S. et al. La costruzione di sistemi nazionali cartella clinica elettronica attraverso il World Wide Web. Marmellata. Med. Far sapere. Assoc. 3. 1.918.211,207 mila (1996). PubMed Chemport Bodenreider, O. Il sistema Unified Medical Language (UMLS): integrare la terminologia biomedica. Nucleic Acids Res. 32 (problema del database), D2678211D270 (2004). Articolo PubMed ISI Chemport Ceusters, W. Smith, B. Kumar, A. amp Dhaen, C. Gli errori di ontologie mediche: da dove vengono e come possono essere rilevati Stud. Technol Salute. Far sapere. 102. 1.458.211,164 mila (2004). PubMed Ceusters, W. Smith, B. amp Goldberg, L. Una analisi terminologica e ontologica del NCI Thesaurus. Metodi Inf. Med. 44. 4.988.211,507 mila (2005). PubMed Chemport Campbell, K. E. Oliver D. E. amp Shortliffe, E. H. La Unified Medical System Language. Verso un approccio collaborativo per risolvere i problemi terminologica. Marmellata. Med. Far sapere. Assoc. 5. 12.821.116 (1998). PubMed Chemport Buetow, K. H. Cyberinfrastructure: abilita una terza via nella ricerca biomedica. Scienza 308. 8.218.211,824 mila (2005). Articolo PubMed Chemport Smith, B. amp Ceusters, W. HL7 RIM: uno standard incoerente. Perno. Technol Salute. Far sapere. 124. 1.338.211,138 mila (2006). PubMed Ashburner, M. Mungall, C. J. amp Lewis, S. E. Ontologie per i biologi: un modello di comunità per l'annotazione di dati genomici. Cold Spring Harb. Simp. Quant. Biol. 68. 2.278.211,236 mila (2003). Articolo PubMed Chemport Rubin, D. L. et al. Centro Nazionale per la Biomedica Ontologia: progredire nella biomedicina attraverso l'organizzazione strutturata della conoscenza scientifica. OMICS 10. 1.858.211,198 mila (2006). Articolo PubMed Chemport Rosse, C. amp Mejino, J. L.F. Il modello Foundational di Anatomia ontologia. In anatomia ontologie per Bioinformatica (eds. Burger, A. et al.) (Springer, New York, nella stampa). Haendel, M. et al. CARO: Anatomia di riferimento Ontologia comune. In anatomia ontologie per Bioinformatica (eds. Burger, A. et al.) (Springer, New York, nella stampa). Leontis, N. B. et al. Il Consorzio Ontologia RNA: un invito aperto alla comunità RNA. RNA 12. 5.338.211,541 mila (2006). Articolo PubMed Chemport Natale, D. A. et al. Quadro per una ontologia proteina. BMC Bioinformatics online (sulla stampa). Bard, J. Rhee, S. Y. amp Ashburner, M. Un'ontologia per tipi di cellule. Genoma Biol. in linea 6. R21 (2005). Articolo Kelso, J. et al. EVOC: un vocabolario controllato per unificare dati di espressione genica. Genome Res. 13. 122.282.111.230 (2003). Articolo PubMed Chemport Mabee, P. M. et al. ontologie fenotipo: il ponte tra genomica e l'evoluzione. Tendenze Ecol. Evol. 22. 3.458.211,35 mille (2007). Articolo PubMed Whetzel, P. L. et al. Il MGED Ontologia: una risorsa per la descrizione semantica basata su esperimenti di microarray. Bioinformatica 22. 8.668.211,873 mila (2006). Articolo PubMed ISI Chemport Whetzel, P. L. et al. Sviluppo di Fugo: una ontologia per la genomica funzionale indagini. OMICS 10. 1.998.211,204 mila (2006). Articolo PubMed ISI Chemport Golbreic, C. et al. OBO e OWL: sfruttando le tecnologie del web semantico per le scienze della vita. In Atti 6 ° Internazionale Semantic Web Conference (ISWC 2007), (Springer, nella stampa). Brinkley, J. F. Detwiler, L. T. Gennari, J. H. Rosse, C. amp Suciu, D. Un quadro per l'utilizzo di ontologie di riferimento come base per il web semantico. Proc. AMIA caduta Simposio. 2006. 958211100. Lacy, L. W. Gufo: Rappresentare informazioni Uso del Ontology Language Web (Trafford Publishing, Victoria, BC, Canada, 2005). Smith, B. Koumlhler, J. amp Kumar, A. Sulla applicazione dei principi formali ai dati delle scienze della vita: un caso di studio nel Gene Ontology. L'integrazione dei dati nelle scienze della vita (DILS) Laboratorio 2004. 79821194. Smith, B. et al. Relazioni in ontologie biomediche. Genoma Biol. in linea 6. R46 (2005). Articolo Bittner, T. amp Goldberg, posizione L. J. spaziale e la sua rilevanza per inferenze terminologiche in bio-ontologie. BMC Bioinformatics 23. 167.482.111.682 (2007). Chemport Ramiacuterez, M. J. et al. Collegamento di immagini digitali a matrici di dati filogenetici utilizzando una ontologia morfologica. Syst. Biol. 56. 2.838.211,294 mila (2007). Articolo PubMed Schober, D. et al. Verso le convenzioni di denominazione per l'uso in vocabolario controllato e costruzione di ontologie. Bio-Ontologies Workshop. ISMBECCB, Vienna, il 20 luglio 2007. 87821190. Ruttenberg, A. Rees, J. amp Zucker, J. Che BioPAX comunica e come estendere OWL per aiutarlo. OWL: Esperienze e indicazioni Laboratorio GT Series ltowl-workshop. man. ac. ukacceptedLongsubmission26.pdf (2006). Hunter, L. amp Bada. M. Arricchimento di Obo ontologie. J. Biomed. Far sapere. 40. 3.008.211,315 mila (2007). Articolo PubMed Hill, d. p. Blake, J. A. Richardson, J. E. amp Ringwald, M. estensione e l'integrazione della Gene Ontology (GO): combinare vocabolari andare con vocabolari esterni. Genome Res. 12. 198.282.111.991 (2002). Articolo PubMed ISI Chemport Mungall, C. J. Obol: integrando lingua e significato in bio-ontologie. Comp. Funz. Genomica 5. 5.098.211,52 mille (2004). Articolo Chemport Camon, E. et al. Il Gene Ontology Annotazione (GOA) Database: condividere la conoscenza in UniProt con Gene Ontology. Nucleic Acids Res. 32 (problema del database), D2628211D266 (2004). Articolo PubMed ISI Chemport Blake, J. Hill, d. p. amp Smith, annotazioni B. Gene Ontology: cosa significano e da dove vengono. Bio-Ontologies Workshop. ISMBECCB, Vienna, il 20 luglio 2007. 79821182. Sjoblom, T. et al. Il consenso sequenze codificanti del seno umano e tumori colorettali. Scienza 314. 2.688.211,274 mila (2006). Articolo PubMed ISI Chemport Lee, J. A. et al. I componenti del percorso di elaborazione e presentazione dell'antigene rivelata da espressione genica microarray seguente antigene recettore delle cellule B (BCR) stimolazione. BMC Bioinformatics linea 7. 237 (2006). Articolo Rebholz-Schuhmann, D. Kirsch, H. amp Couto, F. fatti da text8212is text mining in grado di fornire PLoS Biol. in linea 3. e65 (2005). Articolo Witte, R. Kappler, T. amp Baker, C. J.O. disegno Ontologia per biomedica text mining. Nel Web Semantico: rivoluzionando Knowledge Discovery nelle scienze della vita (a cura di Baker C. J.O. amp Cheung, K.-H..) 2.818.211,313 mila (Springer, New York, 2007). Zhang, S. amp Bodenreider, O. Allineamento più ontologie anatomici attraverso un riferimento. Workshop internazionale sulla Ontology Corrispondenza (OM 2006) 1.938.211,197 mila (2006). Luo, F. et al. organizzazione modulare di reti di interazione proteina. Bioinformatica 23. 2.078.211,214 mila (2007). Articolo PubMed ISI Chemport Martone, M. E. Gupta, A. amp Ellisman, M. H. E-neuroscienze: sfide e trionfi a integrare i dati distribuiti da molecole di cervelli. Nat. Neurosci. 7. 4.678.211,472 mila (2004). Articolo PubMed ISI Chemport Fong, L. et al. Un ambiente conoscenza ontologia-driven per la neuroanatomia subcellulare. Esperienze OWL e indicazioni, 3 ° Workshop Internazionale. Innsbruck, Austria, Giugno 682.117, 2007 (in stampa). Taylor, C. F. et al. Promuovere obblighi di comunicazione minimi coerenti per le indagini biologiche e biomediche: il Progetto MIBBI. Nat. Biotechnol. (In stampa). Brazma, A. et al. Informazioni minime su un esperimento di microarray (MIAME) norme 8212toward per i dati di microarray. Nat. Genet. 29. 3.658.211,371 mila (2001). Articolo PubMed ISI Chemport Sansone, S. A. et al. Una strategia sfruttando sinergie: Reporting Struttura per ricerca biologica (RSBI) gruppo di lavoro. OMICS 10. 1.648.211,171 mila (2006). Articolo PubMed ISI Chemport Grenon, P. Smith, B. amp Goldberg, L. ontologia biodinamica: applicando BFO nel dominio biomedico. In ontologie in Medicina (ed. Pisanelli, D. M.) 20.821.138 (IOS, Amsterdam, 2004). Dipartimento di Filosofia e Stato di New York Center of Excellence in Bioinformatica e Scienze della Vita, Università di Buffalo, 701 Ellicott Street, Buffalo, New York 14203, USA. Dipartimento di Genetica, Università di Cambridge, Downing Street, Cambridge, CB2 3EH, Regno Unito. Dipartimento di struttura biologica, Box 357420, University of Washington, Seattle, Washington 98195, USA. Dipartimento di Scienze Biomediche, Università di Edimburgo, 1 George Square, Edimburgo EH8 9JZ, Scozia, Regno Unito. Dipartimento di Neurobiologia e Anatomia, Drexel University College of Medicine, 2900 regina Lane, Philadelphia, Pennsylvania 19129, Stati Uniti d'America. Dipartimento di Psichiatria e Stato di New York Center of Excellence in Bioinformatica e Scienze della Vita, Università di Buffalo, 701 Ellicott Street, Buffalo, New York 14203, USA. Dipartimento di Biologia orale e New York State Center of Excellence in Bioinformatica e Scienze della Vita, Università di Buffalo, 701 Ellicott Street, Buffalo, New York 14203, USA. Eccles Istituto di Genetica Umana, Università di Utah, 15 North 2030 Oriente, Salt Lake City, Utah 84112, USA. European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, CB10 1SD, Regno Unito. La vita Sciences Division, Lawrence Berkeley National Lab, 1 Ciclotrone Road, Berkeley, California 94720, Stati Uniti d'America. obi. sourceforgecommunityindex. php. Dipartimento di Chimica, Bowling Green State University, 212 Physical Sciences Laboratory Building, 1001 Oriente Wooster Street, Bowling Green, Ohio 43403, Stati Uniti d'America. Science Commons, co Massachusetts Institute of Technology Computer Science e Artificial Intelligence Laboratory, costruzione 32-386D, 32 Vassar Street, Cambridge, Massachusetts 02139, Stati Uniti d'America. Dipartimento di Patologia, Università del Texas Southwestern Medical Center, Harry Hines Boulevard Dallas, Texas 75390 Stati Uniti d'America. Stanford Informatica Medica, la Stanford University School of Medicine, 251 Campus Drive, Stanford, California 94305, Stati Uniti d'America. Center for Bioinformatics and Department of Genetics, University of Pennsylvania School of Medicine, 423 Guardian Drive, Philadelphia, Pennsylvania 19104, USA. MORE ARTICLES LIKE THIS These links to content published by Nature Research are automatically generated. Main navigation Extra navigationSurvey-based naming conventions for use in OBO Foundry ontology development Background A wide variety of ontologies relevant to the biological and medical domains are available through the OBO Foundry portal, and their number is growing rapidly. Integration of these ontologies, while requiring considerable effort, is extremely desirable. However, heterogeneities in format and style pose serious obstacles to such integration. In particular, inconsistencies in naming conventions can impair the readability and navigability of ontology class hierarchies, and hinder their alignment and integration. While other sources of diversity are tremendously complex and challenging, agreeing a set of common naming conventions is an achievable goal, particularly if those conventions are based on lessons drawn from pooled practical experience and surveys of community opinion. We summarize a review of existing naming conventions and highlight certain disadvantages with respect to general applicability in the biological domain. We also present the results of a survey carried out to establish which naming conventions are currently employed by OBO Foundry ontologies and to determine what their special requirements regarding the naming of entities might be. Lastly, we propose an initial set of typographic, syntactic and semantic conventions for labelling classes in OBO Foundry ontologies. Conclusion Adherence to common naming conventions is more than just a matter of aesthetics. Such conventions provide guidance to ontology creators, help developers avoid flaws and inaccuracies when editing, and especially when interlinking, ontologies. Common naming conventions will also assist consumers of ontologies to more readily understand what meanings were intended by the authors of ontologies used in annotating bodies of data. Background A wide variety of ontologies, controlled vocabularies, and other terminological artifacts relevant to the biological or medical domains are available through open access portals such as the Ontology Lookup Service (OLS) 1 , and the number of such artifacts is growing rapidly. One of the goals of the Open Biomedical Ontologies (OBO) Foundry initiative 2 is to facilitate integration among these diverse ontologies. However, such integration demands considerable effort and differences in format and style can only add obstacles to the execution of this task 3 . The heterogeneity within the set of existing ontologies derives from the use of diverse ontology engineering methodologies and is manifest in the adoption by different communities of Description Logic, Common Logic, or other formalisms. The spectrum of syntaxes used to express these formalisms, such as the Web Ontology Language (OWL) or the OBO format, and the commitment of individual communities to conceptualist or realism-based philosophical approaches are also contributing factors. Here we focus on issues of nomenclature 4 , and specifically on the naming conventions used for labeling classes in ontologies, which are an additional contributing factor to the problem of heterogeneity. Even in this relatively straightforward area, no conventions have achieved broad acceptance (see survey section below). The lack of naming conventions or their inconsistent usage can impair readability and navigation when viewing ontology class hierarchies. We believe that clear and explicit naming becomes of even greater importance when interlinking ontologies (for example via owl:import. obo dbxref and other referencing and mapping statements 5 , or when ontology engineers need to collaborate with external groups to align their ontologies and to ensure effective maintenance of modularity). While other sources of diversity are tremendously complex and challenging, it is our belief that establishing a set of naming conventions for the OBO Foundry is a tractable goal, particularly if those conventions are based on lessons drawn from pooled practical experience and targeted surveying. There is of course no shortage of initiatives for the development of specifications and standards tackling naming 6 9 . However, where naming conventions have been developed, widespread application has been hampered by several factors, most notably domain specificity, document inaccessibility and format dependency. A comprehensive survey of existing naming convention documents can be found at the dedicated OBO Foundry naming conventions website 10 . Domain specificity One significant obstacle to common adoption is that many of the proposed conventions are domain-specific and not generally extendible to other fields for example, the Human Genome Organization (HUGO) nomenclature 11 is restricted to gene names. Other conventions refer only to entities occurring within programming languages 12 or to the naming of natural language documents 13 . Document inaccessibility A second obstacle relates to poor documentation. A naming convention whose documentation is unclear, or is dispersed in multiple documents or document sections, artificially constrains its own chances of acceptance. This is the case with the BioPAX manual 14 , which is in addition overly tool-centric in that it addresses only Protg-OWL issues. Another deficiency is the commercial or semi-proprietary nature of conventions such as the International Organization for Standardization (ISO) standards 15 . Many of these proposed conventions also impair access through information overload, there being around forty ISO documents addressing naming issues alone. Other naming conventions are described only implicitly and via unintuitive search attributes, or are not available on-line, making access difficult. Format and implementation dependency Sometimes only certain naming issues are tackled by a naming convention usually those most germane to a particular format. The Gene Ontology (GO) Editorial Style Guide 16 for example, is of limited coverage and applicability, as it is embedded in an OBO-format specific document. The ANSIISO Z39.19-2005 Standard 8 is applicable only to terms organized in an is-a hierarchy without relations and therefore lacks proper conventions for representing ontological classes and properties in semantically complex ontologies. In the case of the Ontology Engineering and Patterns Task Force of the Semantic Web Best Practices and Deployment working group 17 , the guidelines are restricted to the OWL format and are dispersed throughout many documents and document sections. To overcome this diversity and fragmentation members of the OBO Foundry and of the Metabolomics Standards Initiative (MSI) ontology working group 18 have set up an infrastructure group that is attempting to: collect, review and compare existing naming conventions distill universally valid conventions that can be implemented in both the OWL and OBO formats, and conceivably also in other formats engage in discussion with other groups concerned with nomenclature standardization in order to establish a forum for coordinated advance create a single common guideline document to serve as a common resource for the OBO Foundry and associated initiatives. In this communication we present the preliminary results of a survey of the naming conventions applied by ontology groups listed under the OBO Foundry, together with an initial set of what we believe are robust conventions for formulation of terms in ontologies and a list of open issues that need to be resolved in the future. To determine the sources of heterogeneity in naming and to initiate a discussion among the ontology groups associated with the OBO Foundry, we carried out a survey. The goal was to allow us to: catalog the naming conventions that these groups currently apply learn about existing sets of documentation for the various naming conventions cataloged assess special requirements regarding the naming of entities in the context of various biological domains discover issues not yet addressed by our proposed conventions to determine future needs. The survey was conducted by contacting the custodians of the 66 OBO ontologies (as of November 2007) either by email or telephone. Each respondent then received a questionnaire that was divided into four parts, covering: 1. Ontology engineering process and level of awareness of the OBO Foundry Current practice in naming entities and documentation thereof Implementation of different name categories Questions on particular naming conventions The full questionnaire, the complete set of answers and the consolidated results are available from the OBO Foundry wiki 10 . For more information on the survey results and list of participants see the Additional file 1. SurveyResults. zip. Naming Conventions Our proposed set of naming conventions, founded on the survey results, is summarized in Table 1. In further discussions, we refer to the entities of which an ontology consists (in some circles these are called classes and relations) as its representational units 19 . A representational unit can be accompanied by one or more synonymous names of different categories. Any type of name that is chosen to be displayed in the hierarchy is called display name (called browser key in Protg). Where the form of that name is controlled by a set of explicit rules we refer to it as a formal name. To ensure that the conventions proposed here are expressed unambiguously we employ the following additional name categories, which we hope will also have general utility: The initial set of OBO Foundry naming conventions 1. Be clear and unambiguous 2.1 Use univocous names and avoid homonyms Names should have the same meaning on every occasion of use and refer to the same types of entities in reality. Homonyms, ambiguous terms that share the same spelling but have many different meanings, are to be avoided as part of editor-preferred names. Use terms with fewest possible amount of homonyms in building names protocol collection instead of protocol set for a plurality of protocols (store the latter as synonym), parameter adjustment instead of parameter setting for the act of setting parameters Increases precision in the interpreted meaning. Faster term recognition 2.2 Avoid conjunctions Words that are used to join other words, such as the logical connectives and and or should be avoided in names as they can introduce ambiguity and may hamper inference by causing excessive branching. The same applies to qualifiers such as in some cases In anatomic structure, system or substance it is not clear whether the adjective anatomic is restricted to structure or extends also to system and substance. In the first case the substances drug and chemical would be classified under this class, otherwise not. Increases precision in the interpreted meaning 2.3 Prefer singular nominal form Use singular names throughout. Where plurals need to be captured, e. g. when one instance of the plural class represents a plurality itself, consistently use explicit plural indicating postfixes as part of the class names, e. g. use aggregate, collective or population consistently, but only as applicable. pair of lungs, population instead of lungs, people collection Increases precision in the interpreted meaning, helps string matching 2.4 Use positive names Avoid use of negations in formulating names. Avoid complements and negative names like non-separation device because logically this will include everything in the universe that is not a separation device. The absence of a characteristic is not a concise differentiating criterion. Do not represent the absence of a characteristic (e. g. wing) as the presence of the non-existence of a characteristic, e. g. wing hasstatus absent. Avoid non-linear model Increases precision in the interpreted meaning editor-preferred name . A formal name used by the ontologys developers and adhering to their guidelines and naming conventions. Editor-preferred names are primarily constructed to aid those building and manipulating an ontology and should therefore be specified as the display name during ontology editing. The editor-preferred name for the Foundational Model of Anatomy (FMA) class FMA:3862 is Anterior interventricular branch of left coronary artery. user-preferred name . An informal name chosen to meet the expectations of an end user community. Usually this would be the name most frequently found in the literature of the relevant domains, which can inter alia serve as an intuitive, queryable attribute for end users searching for data sets in a repository. The user-preferred names from FMA for FMA:3862 is Left anterior descending branch of left coronary artery. short name . A very short name that is useful when displaying large, dense graphs (whose nodes are classes and whose edges are relations). A short name from FMA for FMA:3862 is the acronym LAD. Further types of names can be distinguished, such as lexical variant (including abbreviations and acronyms), phonetic variant and foreign language translation. The one rule that governs all these name categories is that they all must be exact synonyms. Since Protg and OBO Edit do not deal with external lexical formats in an integrated way, we recommend storing lexical variants in the ontology itself to make them immediately accessible e. g. when mapping ontologies and identifying homonyms. The lack of defined name categories in the available representation languages has been recognized by the Ontology Task Force of the W3C Semantic Web Health Care and Life Sciences Interest Group 7 and the lack of clear guidance on which kind of name the representation language idioms rdfs:label (OWL) and term name (OBO) should contain, has contributed significantly to the current heterogeneity in naming between ontologies. Our minimum recommendation is to assign an editor-preferred name, to which all of the naming conventions described in Table 1 should be applied, and one or more user-preferred names, which are less controlled and chosen to match end user expectations and usage frequency. The utility of having separate editor - and user-preferred names is exemplified by the response to question 4.1.2 in our survey by the developers of the Drosophila development ontology where they describe the balance they attempt to strike between making names explicit, keeping them concise and avoiding straying too far from community usage. Discussion Naming conventions for ontology engineering do not necessarily apply to other domains. For example, our recommendation 1.2 Use context independent names (see Table 1 ) will not make sense in the domain of database schemata or object-oriented programming. Terms from ontologies can be used in annotations outside the ontological context, whereas a java class is always situated in a class library hierarchy and embedded in code, providing its full context and therefore its name does not need to be fully explicit. However, general naming conventions such as 1. Be clear and unambiguous and 2. Be univocal can be applied in database schema generation, class naming in object oriented programming, natural language generation, even Wikipedia article naming. Formulation of universally applicable naming conventions in the bio-ontology space is no easy task due to the multidimensional complexity of the area, deriving not least from its intrinsically interdisciplinary character. Therefore, although we have carried out a comprehensive survey of existing naming convention documents in different domains 10 , we have deliberately confined ourselves here to considering the needs of the OBO Foundry community. Exceptions When conventions have been established their application may be non-trivial, not least because of the exceptions which different groups will want to make to given rules. In cases where the conventions cannot be strictly applied, common sense should be used. Here we describe some situations of this sort highlighted by our survey. Positive names (see 2.4 in Table 1 ) The responses to question 4.8.1 showed that most groups already try to avoid negative names and names containing expressions such as without or excluding yet nearly half of the survey respondents still found examples of negative names in their ontologies. It seems it can be difficult to decide when a term is negative e. g. unhealthy, immaterial anatomical entity, nonlinear transformation, inorganic and rotenone-insensitive. The difficulty in defining the criteria for negative indicates that the convention cannot be enforced strictly, but we hold that it is nonetheless a valuable guideline. Further, we recommend that explicit exclusions should not be made within names e. g. as in hydrolase activity, acting on carbon-nitrogen (but not peptide) bonds, in cyclic amides (GO:0016812). Word separator (see 3.3 in Table 1 ) We recommend the use of white space as separator in editor-preferred names. A consequence of the default behaviour of the Protg 3.x Editor is that it encourages the use of the rdf:ID field to capture class names. Since this field cant contain spaces, developers using Protg often use the underscore as a word separator. This can be cured by avoiding use of the rdf:ID field to record editor-preferred names and to use instead the rdfs:label field. Special character formatting and symbols (see 3.5 in Table 1 ) The survey revealed that ontologies dealing with chemicals and using the IUPAC nomenclature need to apply character formatting to their names for purposes of semantic disambiguation. In ChEBI for example the full chemical name is represented with unrestricted character formatting, for example: CHEBI 30666: bis tricarbonyl( 5 - cyclopentadienyl)molybdenum(Mo-Mo). Since character formatting is not supported by most ontology editors and languages, the groups involved often develop specific tools to meet their requirements. For this reason ChEBI and the Systems Biology ontology have developed front ends built on top of relational databases to manage their ontologies. Defined character transformation rules can be used to encode special formatting for example as has been done by the Biological Imaging Methods Ontology, which uses for superscripts and for subscripts. In general these should be avoided. Benefits and applications The application of common naming guidelines brings the following benefits: enhance communication between geographically dispersed developers simplify stand-alone ontology development and help in subsequent administration tasks simplify ontology networking e. g. importing and using classes from external ontologies or imported ontology modules increase the accessibility and exportability of terms, facilitating re-use and reducing redundant development. By increasing the robustness of ontology class names, a standard naming convention will: support the manual and automated integration (i. e. comparison, orthogonality-checking, alignment and mapping) of terminological artifacts facilitate access to ontologies through meta-tools such as the NCBO BioPortal by reducing the diversity with which these tools have to deal, thus reducing the burden on tool and ontology developers alike increase the robustness of context-based text mining for automatic term recognition and text annotation. The proposed set of conventions is currently being applied by the Ontology for Biomedical Investigation (OBI) project 20 and by the Proteomics Standards Initiative (PSI) 21 and MSI ontology working groups. An example that illustrates how syntactic normalization enhances readability and navigability of the OBI ontology class hierarchy can be found on the OBO Foundry wiki 10 . The usefulness of design principles in general and naming conventions in particular increases considerably when they are supported by ontology editing tools 22 . In particular, tools should check for compliance to such conventions and provide the functionality not only to enforce, but also to exploit, convention-based naming patterns. We are pleased to observe that implementations of such functionality have already begun to appear. For example, in the OBO Edit 2 tool 23 redundant class names are indicated and users can also define their own verification checks by specifying filters and error messages that will be displayed for each name that matches (or fails to match) the conventions defined. This verification system can serve as a framework upon which to build robust checks for conformity to naming conventions, either as a built-in OBO Edit module or as externally provided plug-ins (John Day-Richter personal communication). Also tools such as OBOL that use the lexical information in class names are already being applied to find inconsistencies within and between labels, and to aid ontology integration and ontology engineering in general through the methodology of cross-products 24 . Some aspects of what we propose here mirror features of so-called Constrained Natural Languages, CNL 25 . In particular, defined restrictions on the use of grammar and terminology can be found in CNL, and exploiting developments in this field could prove fruitful. However we must be careful not to be seen to be trying to impose too great a burden on ontology editors by attempting to require them to learn another full representation language. It is important to stress that having conventions for default names (using the editor-preferred name as display name) does not place restrictions on the use of less formal or colloquial names, which can and should still be captured as synonyms. Impact on GO As the longest established ontology in the OBO Foundry, GO has already invested effort in establishing its own naming conventions, having formerly suffered under many of the common pitfalls in naming described in this paper, for example, the use of catch-all terms such as unlocalized and molecular function unknown 26 . Some of the recommendations outlined here have been inherited from the GO community, which in turn will move to include this whole set of naming conventions into the GO style guide. The impact on GO will certainly be positive, especially where it is used in combination with other OBO Foundry ontologies. For example, GO is considering changing to the context-independent name cell nucleus (as already used in FMA), instead of nucleus to distinguish it from atomic nuclei in ChEBI. The avoidance of conjunctions in term names will decompose terms like actin polymerization andor depolymerization, and the restriction to positive names will prevent or lead to the refactoring of terms like non-eye photoreceptor cell development in GO. Open Issues The surveying process reported in this paper has been informative, and has provided evidence to support the various conventions presented herein. Furthermore, several responders explicitly stated that the questionnaire made them aware of issues which they had not thought of previously and in some cases went on to indicate other areas where they considered that conventions would be helpful, such as: A reference terminology that names the various kinds of representational units (e. g. illustrating the differences between type, class, term, concept and universal), thereby supporting unambiguous discussion of particular representational units 19 . Conventions for other representational units, such as the names of relations, instances and identifiers. For example, OBI uses the identifier convention group prefix underscore unique number (e. g. OBI0000016) whereas BFO simply uses a meaningful string (e. g. IndependentContinuant). In addition, relations do not have numeric identifiers, which should probably be changed as these representational units, like classes, undergo changes and updates. A formalism is needed for naming and marking administrative helper classes and metadata bins within ontologies. Until recently, non-ontological classes in OBI, such as unclassified (OBI200067), tobefixed (OBI334), ChEBIobjects (OBI336), PATOquality (OBI302), collectedrelations (OBI400132) could be found side-by-side with domain-level classes. These are now marked as helper classes by adding an underscore as prefix. Branch, module, file and namespace naming conventions should be investigated. This is also indicated by the recurring discussions on ontology naming conflicts on the OBO discussion mailing list. It needs to be investigated in how far certain conventions are dependent on the degree of formality of the representational artefact at hand. Conventions regulating name compositions 24 may only be applicable to semantically granular ontologies using relations, but not to taxonomies. Besides our universal conventions, specialized ones for certain ontological classes of high interest, usage and abundance should be collected and evaluated. Such classes referring to processes, instruments or organisations are also called Named Entities in the field of text mining. Although work on some of the above issues has already started, these open issues are of importance and will be tackled in a next round of guideline development by the OBO Foundry coordinators, in collaboration with the OBO Foundry ontology developers. Conclusion The effective and efficient description of scientific information is the ultimate goal of this work. Mature, consensus-based conventions to guide ontology development are a crucial requisite for the achievement of this goal. We have presented an initial set of naming conventions primarily (but certainly not exclusively) for use in OBO Foundry ontologies. The justifications for the conventions presented were founded on answers from ontology editor practitioners gathered by means of a survey carried out within the OBO Foundry community. The resulting set of conventions should be viewed as a primer, to be expanded and refined on the basis of input from practitioners. These conventions were discussed and approved by representatives of the OBO Foundry ontologies at the first OBO Foundry Summit meeting in July 2008 at the European Bioinformatics Institute (EBI), Cambridge, UK, funded by the UKs Biotechnology and Biological Sciences Research Council (BBE0250801) and the Elixir project elixir-europe. org. Further feedback will allow us to continue refining and ultimately to finalize this proposal at the second OBO Foundry Summit meeting in June 2009 at the EBI. As part of this iterative development process we will continue to engage with other efforts, particular those outside the OBO Foundry community such as the W3C Semantic Web Health Care and Life Sciences Interest Group and the Ontology Engineering and Patterns Task Force of the W3C Semantic Web Best Practices and Deployment working group. Expand Abbreviations (see 3.4 in Table 1 ) When an abbreviation or acronym becomes more commonly used in everyday language than its full name: for example LASER, then it should be used as the name, with its expanded name captured as a synonym. In other words, usage frequency can take precedence over the rule of acronym avoidance. Declarations Acknowledgements We kindly acknowledge the members of the OBO Foundry ontologies for their valuable contribution to the survey. In particular we thank Robert Stevens, Luisa Montecchi-Palazzi, Judith Blake and the members of the OBI working group for their comments and contributions in fruitful discussions. We also gratefully thank the ontology communities under OBO Foundry for contributing to the survey and the BBSRC (BBD5242831, BBE0250801), the EU Network of Excellence NuGO (NoE 503630), the EU Carcinogenomics (PL037712) to SAS and PRS for funding the activities of DS. BSs contribution to this work was supported by the NIH Roadmap for Medical Research, Grant 1 U 54 HG004028 (National Center for Biomedical Ontology). Electronic supplementary material 1285920082855MOESM1ESM. zip Additional file 1: Surveying naming conventions within OBO Foundry ontologies . This SurveyResults. zip is a webpage presenting the results of the naming conventions survey that was carried out within the OBO Foundry ontologies. It contains diagrams and tables illustrating the answers to the surveys questions, as well as the discussion of these results. (ZIP 244 KB) Authors contributions This work was largely informed by the requirements of the annotation projects lead by SAS and PRS, who coordinated this work. DS was the knowledge engineer who reviewed the existing conventions and with SAS, PRS, BS, SL, CM and JL designed the survey. WK, BS and PRS worked with DS in defining the appropriate terminology for describing the naming conventions. Contributions and critical reviews by all the authors, in particular PRS, CT, SL, BS and SAS, delivered the final manuscript. Authors read and approved the final manuscript Authors Affiliations EMBL-EBI, Wellcome Trust Genome Campus Institute of Medical Biometry and Medical Informatics (IMBI), University Medical Center Center of Excellence in Bioinformatics and Life Sciences, and Department of Philosophy, University at Buffalo Berkeley Bioinformatics and Ontologies Project, Lawrence Berkeley National Labs Department of Information and Computer Science, Norwegian University of Science and Technology (NTNU) NERC Environmental Bioinformatics Centre (NEBC) References Cote RG, Jones P, Apweiler R, Hermjakob H: The Ontology Lookup Service, a lightweight cross-platform tool for controlled vocabulary queries. BMC Bioinformatics 2006, 7: 97. 10.11861471-2105-7-97 PubMed Central View Article PubMed Google Scholar Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, et al . The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration. Nat Biotechnol 2007, 25: 12511255. 10.1038nbt1346 PubMed Central View Article PubMed Google Scholar Bodenreider O, Stevens R: Bio-ontologies: current trends and future directions. Brief Bioinform 2006, 7: 256274. 10.1093bibbbl027 PubMed Central View Article PubMed Google Scholar Tuason O, Chen L, Liu H, Blake JA, Friedman C: Biological nomenclatures: a source of lexical knowledge and ambiguity. Pac Symp Biocomput 2004, 238249. Google Scholar Exploiting patterns in Ontology Mapping iswc2007.semanticweb. orgpapers950.pdf ISOIEC 111795, Information technology Metadata registries (MDR) Part 5:Naming and identification principles iso. orgisoisocataloguecataloguetccataloguedetail. htmcsnumber35347 The HCLS Ontology Task Force esw. w3.orgtopicHCLSLabelsandDefinitions NISO (Ed): ANSINISO Z39.192005, Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies. Bethesda, Maryland, U. S.A: National Information Standards Organization, NISO Press 2005. Google Scholar IUBMB-IUPAC Joint Commission on Biochemical Nomenclature (JCBN) iupac. orgdivisionsVIIIjcbnindex. html Naming Conventions for OBO Foundry Ontology engineering obofoundry. orgwikiindex. phpNaming Wright MW, Bruford EA: Human and orthologous gene nomenclature. Gene 2006, 369: 16. 10.1016j. gene.2005.10.029 View Article PubMed Google Scholar The New C Standard, An Economic and Cultural Commentary citeseer. ist. psu. edujones02new. html Brown SH, Lincoln M, Hardenbrook S, Petukhova ON, Rosenbloom ST, Carpenter P, Elkin P: Derivation and evaluation of a document-naming nomenclature. J Am Med Inform Assoc 2001, 8: 379390. PubMed Central View Article PubMed Google Scholar BioPAX biological pathways exchange language, Documentation biopax. orgreleasebiopax-level2-documentation. pdf ISO, International Organization for Standardization iso. org The Gene Ontology Editorial Style Guide geneontology. orgGO. usage. shtmlconventions Semantic web best practices and deployment group, Ontology Engineering and Patterns Task Force w3.org2001swBestPracticesOEP Sansone SA, Fan T, Goodacre R, Griffin JL, Hardy NW, Kaddurah-Daouk R, Kristal BS, Lindon J, Mendes P, Morrison N, et al . The metabolomics standards initiative. Nat Biotechnol 2007, 25: 846848. 10.1038nbt0807-846b View Article PubMed Google Scholar Smith B, Kusnierczyk W, Schober D, Ceusters W: Towards a Reference Terminology for Ontology Research and Development in the Biomedical Domain. KR-MED 2006 2006. ontology. buffalo. edubfoTerminologyforOntologies. pdf Google Scholar Ontology for Biomedical Investigations (OBI) obi. sourceforge Hermjakob H: The HUPO Proteomics Standards Initiative Overcoming the Fragmentation of Proteomics Data. Proteomics 2006, 6: 3438. 10.1002pmic.200600537 View Article PubMed Google Scholar Kismeta Validator v1.1b, Enterprise Data Standards Validation and Enforcement kismetaValidtr. html Day-Richter J, Harris MA, Haendel M, Lewis S: OBO-Edit an ontology editor for biologists. Bioinformatics 2007, 23: 21982200. 10.1093bioinformaticsbtm112 View Article PubMed Google Scholar Mungall CM: Obol: Integrating Language and Meaning in Bio-Ontologies. Comparative and Functional Genomics 2004, 5: 509520. 10.1002cfg.435 PubMed Central View Article PubMed Google Scholar Controlled Languages: An Introduction shlrc. mq. edu. aumastersstudentsraltwargclgrammar. htm Smith B, Khler J, Kumar A: On the Application of Formal Principles to Life Science Data: a Case Study in the Gene Ontology. DILS 2004, 7994. ontology. buffalo. edumedoDatabaseIntegration. pdf Google Scholar Schober et al licensee BioMed Central Ltd. 2009 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. orglicensesby2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

Comments

Popular Posts