Cours 7:
Annotation des génomes
Projet de séquençage d’un génome
ATGTCTCTGAGGAGCGGCGGGCGGCGGCGCGCGGACCCAGGCGCGGATGGCGAGGCCAGCAGGGATGATG
GCGCCACTTCCTCAGTTTCGGCACTCAAGCGCCTGGAACGGAGTCAGTGGACGGATAAGATGGATTTGCG
GTTTGGTTTTGAGCGGCTGAAGGAGCCTGGTGAGAAGACAGGCTGGCTCATTAACATGCATCCTACCGAG
ATTTTAGATGAAGATAAGCGCTTAGGCAGTGCAGTGGATTACTACTTTATTCAAGATGACGGAAGCAGAT
TTAAGGTGGCTTTGCCCTATAAACCGTATTTCTACATTGCGACCAGAAAGGGTTGTGAGCGAGAAGTTTC
ATCTTTTCTCTCCAAGAAGTTTCAGGGCAAAATTGCAAAAGTGGAGACTGTCCCCAAAGAGGATCTGGAC
TTGCCAAATCACTTGGTGGGTTTGAAGCGAAATTACATCAGGCTGTCCTTCCACACTGTGGAGGATCTTG
TCAAAGTGAGGAAGGAGATCTCCCCTGCCGTGAAGAAGAACAGGGAGCAGGATCACGCCAGCGACGCGTA
CACAGCTCTGCTTTCCAGTGTTCTGCAGAGGGGCGGTGTCATTACTGATGAAGAGGAAACCTCTAAGAAG
ATAGCTGACCAGTTGGACAACATTGTGGACATGCGCGAGTACGATGTTCCCTACCACATCCGCCTCTCCA
TTGACCTGAAGATCCACGTGGCTCATTGGTACAATGTCAGATACCGAGGAAATGCTTTTCCGGTAGAAAT
CACCCGCCGAGATGACCTTGTTGAACGACCTGACCCTGTGGTTTTGGCATTTGACATTGAGACGACCAAA
CTGCCCCTCAAGTTTCCTGATGCTGAGACAGACCAGATTATGATGATTTCCTACATGATCGATGGCCAGG
GCTACCTCATCACCAACAGGGAGATTGTTTCAGAAGATATTGAAGATTTTGAGTTCACCCCCAAGCCAGA
ATATGAAGGCCCCTTTTGTGTCTTCAATGAACCCGATGAGGCTCATCTGATCCAAAGGTGGTTTGAACAC
GTCCAGGAGACCAAACCCACCATCATGGTCACCTACAACGGGGACTTTTTTGACTGGCCATTTGTGGAGG
CCCGGGCAGCAGTCCACGGTCTGAGCATGCAGCAGGAGATAGGCTTCCAGAAGGACAGCCAGGGGGAGTA
CAAGGCGCCCCAGTGCATCCACATGGACTGCCTCAGGTGGGTGAAGAGGGACAGTTACCTTCCTGTGGGC
AGTCATAATCTCAAGGCGGCCGCCAAGGCCAAGCTAGGCTATGATCCCGTGGAGCTAGACCCGGAGGACA
TGTGCCGGATGGCCACGGAGCAGCCCCAGACTCTGGCCACGTATTCTGTGTCAGATGCTGTCGCCACTTA
CTACCTGTACATGAAGTACGTCCACCCATTCATCTTTGCTCTGTGCACCATTATTCCCATGGAGCCCGAC
GAGGTGCTGCGGAAGGGCTCTGGCACTCTGTGTGAGGCCTTGCTGATGGTGCAGGCCTTCCACGCCAACA
TCATCTTCCCCAACAAGCAAGAGCAGGAGTTCAATAAGCTGACGGACGACGGACACGTGCTGGACTCTGA
GACCTACGTCGGGGGCCACGTGGAGGCCCTCGAGTCTGGGGTTTTCCGCAGCGATATCCCTTGCCGGTTT
AGGATGAATCCTGCCGCCTTTGACTTCCTGCTGCAGCGGGTTGAGAAGACCTTGCGCCACGCCCTTGAGG
AAGAGGAGAAAGTGCCTGTGGAGCAAGTCACCAACTTTGAAGAGGTGTGTGATGAGATTAAGAGCAAGCT
3
TGCCTCCCTGAAGGACGTTCCCAGCCGCATCGAGTGTCCACTCATCTACCACCTGGACGTGGGGGCCTGA
On a une séquence d’un génome,
et aprés?
Quel sont donc les problemes?
– On ne sait pas combien de
genes il y’a
– On ne sait pas oû ils sont
ces genes
– On ne sait pas leurs
fonctions
Une fois la séquence d’un génome obtenue, il s’agit de la faire parler
Et aprés la séquence?
AGTAGTGTGTGCCCGTCTGTTGTGTGACTCTGGTAGCTAGAGATCCCTCAGACCCTTTGT
GGTAGTGTGGAAAATCTCTAGCAGTGGCGCCCGAACAGGGACTTAAAAGCGAAAGTAAGA
CCAGAGGAGATCTCTCGACGCAGGACTCGGCTTGCTGAAGTGCACTCGGCAAGAGGCGAG
AGGGGCGGCTGGTGAGTACGCCATTTTTTATTTGACTAGCGGAGGCTAGAAGGAGAGAGA
TGGGTGCGAGAGCGTCAATATTAAGAGGCGAAAAATTAGATAAATGGGAAAGAATTAGGT
TAAGGCCAGGGGGAAAGAAAAGCTATATGATATAGCACTTAATATGGGCAAGCAGGGAGC
TGGAAAGATTTGCACTCAACTCTGGCCTTTTAGAAACATCAGGAGGCTGTAAACAAATAA
TGAAACAGCTACAACCAGCTCTACAGACAGGAACAGAGGAACTTAAATCATTATATAACA Un discours étrange:
CAGTAGCAACTCTCTATTGTGTACATGAAAAAATAGAAGTACGAGACACCAAGGAAGCCT
TAGACAAGATAGAGGAAGAACAAAACAAAAGTCAGCAAAAAACACAGCAGGCAGCTGACG exprimé dans la langue de
GAAAGGTCAGTCAAAATTATCCTATAGTGCAGAATCTTCAAGGGCAAATGGTACATCAAG
CCATATCACCTAGAACCTTGAATGCATGGGTAAAAGTAATAGAGGAGAAGGCTTTTAGCC
l’ADN (ATCG)
CAGAGGTAATACCCATGTTTACAGCATTATCAGAAGGAGCCACCCCACAAGATTTAAACA
CCATGTTAAATACGGTGGGGGGACATCAAGCAGCCATGCAAATGTTAAAGGATACCATCA
ATGAAGAGGCTGCAGAATGGGATAGATTACATCCAGTACATGCGGGGCCTATTGCACCAG
GCCAAATGAGAGAACCAAGGGGAAGTGACATAGCAGGAACTACTAGTACCCTTCAGGAAC
AAATATCATGGATAACAGGTAACCCACCTATTCCAGTGGGAGAAATCTATAAAAGATGGA
TAATTCTGGGGTTAAACAAAATAGTGAGAATGTATAGCCCTGTCAGCATTTTGGACATAA
La séquence du génome peut être comparer à un livre écrit dans
une langue inconnue. Il faut donner un sens au texte du génome:
trouver les mots, les phrases, le sens de chaque phrase et les liens entre
elles.
Annoter un génome, c’est donner un sens à sa séquence : trouver les mots, la
ponctuation, le sens de chaque phrase et les liens entre elles …“ .
Ces analyses font partie de la discipline nommée Genomique.
Génomique
Génomique : discipline qui étudie les génomes, visant à
dresser l’inventaire de l’ensemble des gènes d’un
organisme, à les localiser sur les chromosomes, à
déterminer leur séquence et à étudier leur fonction.
Annotation des génomes
Suite au séquençage d’un génome, on doit procéder à l’étape
suivante qui est l’ annotation des génomes.
Annotation:
Etablir un inventaire (par des méthodes bioinformatiques) de tous
les éléments génétiques (emplacement de génes, leur traduction,
localisation de promoteurs etc…) présents dans un génome, ainsi
que leurs fonctions.
Annotation des génomes
Deux niveaux d’annotation:
1- Annotation structurelle: Inventaire et analyse des éléments
presents dans un génome
• Identification de tous les génes codants pour des protéines et
des ARN (ribosomique, de transfert).
• Identification de sites promoteurs, de terminaison de la
transcription et de la traduction, d’epissage, intron, exons…etc
2- Annotation fonctionnelle
Identifier la fonction de tous les gènes détectés lors
de la première étape
Annotation structurelle des
génomes
La localisation des gènes:
• C’est la première étape pour interpréter un génome
Distinction entre régions codantes et non codantes
• Réalisée par des programmes informatiques combinant différents types
d’informations.
Comment reconnaitre un gène?
caractéristiques des gènes:
Cadre de lecture ouvert
Open Reading frame (ORF)
Un «cadre de lecture ouvert » ou «Open Reading Frame (ORF)” est une region d’ADN
entre un codon START et un codon STOP
sequence codante
Coding sequence (CDS)
Si on établit qu’un ORF code pour une protéine ou un ARN on le
désigne comme séquence codante (CDS) = gène
Difference entre ORF et CDS
Un «cadre de lecture ouvert » ou «Open Reading
Frame (ORF)” est une region d’ADN entre un codon
START et un codon STOP
Une sequence codantes (CDS) = gène
code pour une proteine ou un ARN
Attention: Un gène (CoDing Sequence CDS) est un ORF,
mais un ORF ne correspond pas forcément a un gène!
Recherche d’ORFs:
Les phases de lecture possibles dans un ARNm
ARNm
+1 phase de lecture
+2 phase de lecture
+3 phase de lecture
Recherche d’ORFs
“Scanning” d’une séquence d’ADN pour identifier des ORF
(traduction a l’aveugle):
Chaque séquence d’ADN peut traduite en 6 phases de lectures
différentes:
3 dans un brin et 3 sur le brin complémentaire
+3
+2
+1
5’ 3’
3’ 5’
-1
-2
-3
16
Open reading frames - ORF
Spring 2002 Christophe Roos - 2/6 Gene
finding
Recherche des ORF
une séquence d’ADN
logiciel DNA strider
1000 2000 3000 4000 5000 6000 7000
3> 3>
2> 2>
1> 1>
<1 <1
<2 <2
<3 <3
1000 2000 3000 4000 5000 6000 7000
- 6 phases de lecture - codon ATG - codon stop
Recherche des ORF
logiciel DNA strider (C. Marck)
1000 2000 3000 4000 5000 6000 7000
3> 3>
2> 2>
1> 1>
<1 <1
<2 <2
<3 <3
1000 2000 3000 4000 5000 6000 7000
- 6 phases de lecture - codon ATG - codon stop
Recherche des ORF
1000 2000 3000 4000 5000 6000 7000
3> 3>
2> 2>
1> 1>
<1 <1
<2 <2
<3 <3
1000 2000 3000 4000 5000 6000 7000
- 6 phases de lecture - codon ATG - codon stop
Recherche des ORF
1000 2000 3000 4000 5000 6000 7000
3> 3>
2> 2>
1> 1>
<1 <1
<2 <2
<3 <3
1000 2000 3000 4000 5000 6000 7000
- 6 phases de lecture - codon ATG - codon stop
Recherche des ORF
1000 2000 3000 4000 5000 6000 7000
3> 3>
2> 2>
1> 1>
<1 <1
<2 <2
<3 <3
1000 2000 3000 4000 5000 6000 7000
- 6 phases de lecture
- codon ATG Informations dans ces régions ?
- codon stop Promoteurs et terminateurs des gènes
Méthodes de prédiction de gènes (CDS)
Il existe 2 méthodes pour identifier les gènes
La méthode Ab initio La méthode comparative
ou “Codon Preference”
La prédiction des gènes par la
méthode du “Codon Preference
Les séquences codantes pour des gènes ont une particularité forte : code génetique
Escherichia coli vs Streptococcus pyogenes
UU UA
Phe U 1.15 1.57 Ser UCU 0.87 1.55 Tyr U 1.14 1.32 Cys UGU 0.89 1.41
UU
C 0.85 0.43 UCC 0.89 0.44 UAC 0.86 0.68 UGC 1.11 0.59
Usage des codons UU UA
(Codon Bias)Leu A 0.78 1.92 UCA 0.74 1.54 TER A 1.90 1.90 TER UGA 0.87 0.48
UU UA
G 0.77 1.30 UCG 0.92 0.32 G 0.23 0.62 Trp UGG 1.00 1.00
CU
U 0.62 1.26 Pro CCU 0.63 1.60 His CAU 1.14 1.33 Arg CGU 2.28 2.43
CUC 0.63 0.45 CCC 0.49 0.36 CAC 0.86 0.67 CGC 2.40 0.99
CU
A 0.22 0.68 CCA 0.76 1.71 Gln CAA 0.69 1.45 CGA 0.38 0.73
CU
G 2.98 0.39 CCG 2.11 0.33 CAG 1.31 0.55 CGG 0.59 0.33
AU AA
Ile U 1.52 1.91 Thr ACU 0.66 1.27 Asn U 0.90 1.35 Ser AGU 0.91 1.37
AU
C 1.26 0.78 ACC 1.74 0.90 AAC 1.10 0.65 AGC 1.66 0.78
AU AA
A 0.22 0.31 ACA 0.52 1.35 Lys A 1.53 1.48 Arg AGA 0.22 1.10
AU AA
Met G 1.00 1.00 ACG 1.07 0.49 G 0.47 0.52 AGG 0.12 0.41
GU La préférence est propre àGAl’espèce considérée
Val U 1.04 1.74 Ala GCU 0.64 1.84 Asp U 1.26 1.40 Gly GGU 1.35 1.62
Méthode comparative de
prediction des gènes
On compare la séquence des ORF avec les séquences d’autres espèces qui sont
disponibles dans les banques de données
La logique de cette approche est basée sur le fait que si la séquence d’un gène G X chez
l’espèce X est similaire a celle d’un gène Gy chez l’espèce Y dont la fonction est connue,
le fonction du gène GX est la même que celle du gène Gy..
• Les programmes d’identification des genes sont prédictifs.
• Ils génèrent des erreurs certains gènes échappent a la détection.
•Certain gènes prédit ne correspondent pas à de vrais gènes.
• Même pour les prédictions correspondent a des gènes réels, les limites précisent des
gènes sont parfois erronées
Qu’est ce qu’on peux connaitre sur un
organisme a partir de l’annotation
structurelle?
Statistiques des genomes
• Size: 0.49 Mb (Nanoarchaeum equitans ), ~9.2 Mb (Myxococcus xanthus )
• Chromosome: 1, but few bacteria have 2 (Vibrio);
circular and linear (Streptomyces)
• GC content: 26% (Buchnera) up to 72% (Streptomyces coelicolor )
• Codon usage: Different bacteria prefer to use specific codons over others
• Coding density: ~80-90% is coding, ~1 gene for every 1000 bases.
• Huge degree of diversity: genomes of closley related bacterial species
differ both in their contents and organizations (insertions, deletions,
rearrangements)
Codon
table
BP GENE
• Haemophilus influenzae 1,830,137 1,743
• Campylobacter jejuni 1,641,481 1,708
• Mycobacterium tuberculosis 4,115,291 3,924
• Neisseria meningitidis 2,184,406 2,121
• Escherichia coli 4,639,2214,288
Typically ~90% of the genome is coding
There is on average 1 gene/1000bp
Taille des génomes
• The genome size varies
significantly from
species to species.
Taille des génomes
Prise de conscience de plusieurs problèmes fondamentaux
Annotation fonctionnelle
Une fois que que tout les élément génétiques sur le génome
ont été identifiés, on doit passer a l’étape suivante: annotation
fonctionnelle