0% found this document useful (0 votes)
107 views33 pages

Cours 7: Annotation Des Génomes

After obtaining the sequence of a genome, the next step is to annotate the genome. Annotation involves using bioinformatics methods to establish an inventory of all genetic elements (location of genes, their translation, location of promoters, etc.) present in a genome and their functions. There are two levels of annotation: 1) Structural annotation, which involves inventorying and analyzing all elements in a genome, such as identifying protein-coding and RNA genes. 2) Functional annotation, which aims to identify the function of all genes detected in structural annotation. Structural annotation first locates genes by distinguishing coding from non-coding regions using computational programs combining different types of information, such as identifying open reading frames (ORFs) between start and stop cod

Uploaded by

Imene Semmar
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PPT, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
107 views33 pages

Cours 7: Annotation Des Génomes

After obtaining the sequence of a genome, the next step is to annotate the genome. Annotation involves using bioinformatics methods to establish an inventory of all genetic elements (location of genes, their translation, location of promoters, etc.) present in a genome and their functions. There are two levels of annotation: 1) Structural annotation, which involves inventorying and analyzing all elements in a genome, such as identifying protein-coding and RNA genes. 2) Functional annotation, which aims to identify the function of all genes detected in structural annotation. Structural annotation first locates genes by distinguishing coding from non-coding regions using computational programs combining different types of information, such as identifying open reading frames (ORFs) between start and stop cod

Uploaded by

Imene Semmar
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PPT, PDF, TXT or read online on Scribd
You are on page 1/ 33

Cours 7:

Annotation des génomes


Projet de séquençage d’un génome
ATGTCTCTGAGGAGCGGCGGGCGGCGGCGCGCGGACCCAGGCGCGGATGGCGAGGCCAGCAGGGATGATG
GCGCCACTTCCTCAGTTTCGGCACTCAAGCGCCTGGAACGGAGTCAGTGGACGGATAAGATGGATTTGCG
GTTTGGTTTTGAGCGGCTGAAGGAGCCTGGTGAGAAGACAGGCTGGCTCATTAACATGCATCCTACCGAG
ATTTTAGATGAAGATAAGCGCTTAGGCAGTGCAGTGGATTACTACTTTATTCAAGATGACGGAAGCAGAT
TTAAGGTGGCTTTGCCCTATAAACCGTATTTCTACATTGCGACCAGAAAGGGTTGTGAGCGAGAAGTTTC
ATCTTTTCTCTCCAAGAAGTTTCAGGGCAAAATTGCAAAAGTGGAGACTGTCCCCAAAGAGGATCTGGAC
TTGCCAAATCACTTGGTGGGTTTGAAGCGAAATTACATCAGGCTGTCCTTCCACACTGTGGAGGATCTTG
TCAAAGTGAGGAAGGAGATCTCCCCTGCCGTGAAGAAGAACAGGGAGCAGGATCACGCCAGCGACGCGTA
CACAGCTCTGCTTTCCAGTGTTCTGCAGAGGGGCGGTGTCATTACTGATGAAGAGGAAACCTCTAAGAAG
ATAGCTGACCAGTTGGACAACATTGTGGACATGCGCGAGTACGATGTTCCCTACCACATCCGCCTCTCCA
TTGACCTGAAGATCCACGTGGCTCATTGGTACAATGTCAGATACCGAGGAAATGCTTTTCCGGTAGAAAT
CACCCGCCGAGATGACCTTGTTGAACGACCTGACCCTGTGGTTTTGGCATTTGACATTGAGACGACCAAA
CTGCCCCTCAAGTTTCCTGATGCTGAGACAGACCAGATTATGATGATTTCCTACATGATCGATGGCCAGG
GCTACCTCATCACCAACAGGGAGATTGTTTCAGAAGATATTGAAGATTTTGAGTTCACCCCCAAGCCAGA
ATATGAAGGCCCCTTTTGTGTCTTCAATGAACCCGATGAGGCTCATCTGATCCAAAGGTGGTTTGAACAC
GTCCAGGAGACCAAACCCACCATCATGGTCACCTACAACGGGGACTTTTTTGACTGGCCATTTGTGGAGG
CCCGGGCAGCAGTCCACGGTCTGAGCATGCAGCAGGAGATAGGCTTCCAGAAGGACAGCCAGGGGGAGTA
CAAGGCGCCCCAGTGCATCCACATGGACTGCCTCAGGTGGGTGAAGAGGGACAGTTACCTTCCTGTGGGC
AGTCATAATCTCAAGGCGGCCGCCAAGGCCAAGCTAGGCTATGATCCCGTGGAGCTAGACCCGGAGGACA
TGTGCCGGATGGCCACGGAGCAGCCCCAGACTCTGGCCACGTATTCTGTGTCAGATGCTGTCGCCACTTA
CTACCTGTACATGAAGTACGTCCACCCATTCATCTTTGCTCTGTGCACCATTATTCCCATGGAGCCCGAC
GAGGTGCTGCGGAAGGGCTCTGGCACTCTGTGTGAGGCCTTGCTGATGGTGCAGGCCTTCCACGCCAACA
TCATCTTCCCCAACAAGCAAGAGCAGGAGTTCAATAAGCTGACGGACGACGGACACGTGCTGGACTCTGA
GACCTACGTCGGGGGCCACGTGGAGGCCCTCGAGTCTGGGGTTTTCCGCAGCGATATCCCTTGCCGGTTT
AGGATGAATCCTGCCGCCTTTGACTTCCTGCTGCAGCGGGTTGAGAAGACCTTGCGCCACGCCCTTGAGG
AAGAGGAGAAAGTGCCTGTGGAGCAAGTCACCAACTTTGAAGAGGTGTGTGATGAGATTAAGAGCAAGCT
3
TGCCTCCCTGAAGGACGTTCCCAGCCGCATCGAGTGTCCACTCATCTACCACCTGGACGTGGGGGCCTGA
On a une séquence d’un génome,
et aprés?

Quel sont donc les problemes?


– On ne sait pas combien de
genes il y’a
– On ne sait pas oû ils sont
ces genes
– On ne sait pas leurs
fonctions

Une fois la séquence d’un génome obtenue, il s’agit de la faire parler


Et aprés la séquence?
AGTAGTGTGTGCCCGTCTGTTGTGTGACTCTGGTAGCTAGAGATCCCTCAGACCCTTTGT
GGTAGTGTGGAAAATCTCTAGCAGTGGCGCCCGAACAGGGACTTAAAAGCGAAAGTAAGA
CCAGAGGAGATCTCTCGACGCAGGACTCGGCTTGCTGAAGTGCACTCGGCAAGAGGCGAG
AGGGGCGGCTGGTGAGTACGCCATTTTTTATTTGACTAGCGGAGGCTAGAAGGAGAGAGA
TGGGTGCGAGAGCGTCAATATTAAGAGGCGAAAAATTAGATAAATGGGAAAGAATTAGGT
TAAGGCCAGGGGGAAAGAAAAGCTATATGATATAGCACTTAATATGGGCAAGCAGGGAGC
TGGAAAGATTTGCACTCAACTCTGGCCTTTTAGAAACATCAGGAGGCTGTAAACAAATAA
TGAAACAGCTACAACCAGCTCTACAGACAGGAACAGAGGAACTTAAATCATTATATAACA Un discours étrange:
CAGTAGCAACTCTCTATTGTGTACATGAAAAAATAGAAGTACGAGACACCAAGGAAGCCT
TAGACAAGATAGAGGAAGAACAAAACAAAAGTCAGCAAAAAACACAGCAGGCAGCTGACG exprimé dans la langue de
GAAAGGTCAGTCAAAATTATCCTATAGTGCAGAATCTTCAAGGGCAAATGGTACATCAAG
CCATATCACCTAGAACCTTGAATGCATGGGTAAAAGTAATAGAGGAGAAGGCTTTTAGCC
l’ADN (ATCG)
CAGAGGTAATACCCATGTTTACAGCATTATCAGAAGGAGCCACCCCACAAGATTTAAACA
CCATGTTAAATACGGTGGGGGGACATCAAGCAGCCATGCAAATGTTAAAGGATACCATCA
ATGAAGAGGCTGCAGAATGGGATAGATTACATCCAGTACATGCGGGGCCTATTGCACCAG
GCCAAATGAGAGAACCAAGGGGAAGTGACATAGCAGGAACTACTAGTACCCTTCAGGAAC
AAATATCATGGATAACAGGTAACCCACCTATTCCAGTGGGAGAAATCTATAAAAGATGGA
TAATTCTGGGGTTAAACAAAATAGTGAGAATGTATAGCCCTGTCAGCATTTTGGACATAA
La séquence du génome peut être comparer à un livre écrit dans
une langue inconnue. Il faut donner un sens au texte du génome:
trouver les mots, les phrases, le sens de chaque phrase et les liens entre
elles.

Annoter un génome, c’est donner un sens à sa séquence : trouver les mots, la


ponctuation, le sens de chaque phrase et les liens entre elles …“ .

Ces analyses font partie de la discipline nommée Genomique.


Génomique

Génomique : discipline qui étudie les génomes, visant à


dresser l’inventaire de l’ensemble des gènes d’un
organisme, à les localiser sur les chromosomes, à
déterminer leur séquence et à étudier leur fonction.
Annotation des génomes
Suite au séquençage d’un génome, on doit procéder à l’étape
suivante qui est l’ annotation des génomes.

Annotation:
Etablir un inventaire (par des méthodes bioinformatiques) de tous
les éléments génétiques (emplacement de génes, leur traduction,
localisation de promoteurs etc…) présents dans un génome, ainsi
que leurs fonctions.
Annotation des génomes

Deux niveaux d’annotation:

1- Annotation structurelle: Inventaire et analyse des éléments


presents dans un génome
• Identification de tous les génes codants pour des protéines et
des ARN (ribosomique, de transfert).

• Identification de sites promoteurs, de terminaison de la


transcription et de la traduction, d’epissage, intron, exons…etc

2- Annotation fonctionnelle
Identifier la fonction de tous les gènes détectés lors
de la première étape
Annotation structurelle des
génomes

La localisation des gènes:

• C’est la première étape pour interpréter un génome


Distinction entre régions codantes et non codantes

• Réalisée par des programmes informatiques combinant différents types


d’informations.
Comment reconnaitre un gène?

caractéristiques des gènes:


Cadre de lecture ouvert
Open Reading frame (ORF)
Un «cadre de lecture ouvert » ou «Open Reading Frame (ORF)” est une region d’ADN
entre un codon START et un codon STOP
sequence codante
Coding sequence (CDS)
Si on établit qu’un ORF code pour une protéine ou un ARN on le
désigne comme séquence codante (CDS) = gène
Difference entre ORF et CDS

Un «cadre de lecture ouvert » ou «Open Reading


Frame (ORF)” est une region d’ADN entre un codon
START et un codon STOP

Une sequence codantes (CDS) = gène


code pour une proteine ou un ARN

Attention: Un gène (CoDing Sequence CDS) est un ORF,


mais un ORF ne correspond pas forcément a un gène!
Recherche d’ORFs:
Les phases de lecture possibles dans un ARNm
ARNm
+1 phase de lecture

+2 phase de lecture

+3 phase de lecture
Recherche d’ORFs
“Scanning” d’une séquence d’ADN pour identifier des ORF
(traduction a l’aveugle):
Chaque séquence d’ADN peut traduite en 6 phases de lectures
différentes:
3 dans un brin et 3 sur le brin complémentaire

+3
+2
+1
5’ 3’
3’ 5’
-1
-2
-3
16
Open reading frames - ORF

Spring 2002 Christophe Roos - 2/6 Gene


finding
Recherche des ORF

une séquence d’ADN


logiciel DNA strider
1000 2000 3000 4000 5000 6000 7000

3> 3>

2> 2>

1> 1>

<1 <1

<2 <2

<3 <3

1000 2000 3000 4000 5000 6000 7000

- 6 phases de lecture - codon ATG - codon stop


Recherche des ORF

logiciel DNA strider (C. Marck)


1000 2000 3000 4000 5000 6000 7000

3> 3>

2> 2>

1> 1>

<1 <1

<2 <2

<3 <3

1000 2000 3000 4000 5000 6000 7000

- 6 phases de lecture - codon ATG - codon stop


Recherche des ORF

1000 2000 3000 4000 5000 6000 7000

3> 3>

2> 2>

1> 1>

<1 <1

<2 <2

<3 <3

1000 2000 3000 4000 5000 6000 7000

- 6 phases de lecture - codon ATG - codon stop


Recherche des ORF

1000 2000 3000 4000 5000 6000 7000

3> 3>

2> 2>

1> 1>

<1 <1

<2 <2

<3 <3

1000 2000 3000 4000 5000 6000 7000

- 6 phases de lecture - codon ATG - codon stop


Recherche des ORF

1000 2000 3000 4000 5000 6000 7000

3> 3>

2> 2>

1> 1>

<1 <1

<2 <2

<3 <3

1000 2000 3000 4000 5000 6000 7000

- 6 phases de lecture
- codon ATG Informations dans ces régions ?
- codon stop Promoteurs et terminateurs des gènes
Méthodes de prédiction de gènes (CDS)

Il existe 2 méthodes pour identifier les gènes

La méthode Ab initio La méthode comparative


ou “Codon Preference”
La prédiction des gènes par la
méthode du “Codon Preference
Les séquences codantes pour des gènes ont une particularité forte : code génetique
Escherichia coli vs Streptococcus pyogenes

UU UA
Phe U 1.15 1.57 Ser UCU 0.87 1.55 Tyr U 1.14 1.32 Cys UGU 0.89 1.41
UU
C 0.85 0.43 UCC 0.89 0.44 UAC 0.86 0.68 UGC 1.11 0.59
Usage des codons UU UA
(Codon Bias)Leu A 0.78 1.92 UCA 0.74 1.54 TER A 1.90 1.90 TER UGA 0.87 0.48
UU UA
G 0.77 1.30 UCG 0.92 0.32 G 0.23 0.62 Trp UGG 1.00 1.00
CU
U 0.62 1.26 Pro CCU 0.63 1.60 His CAU 1.14 1.33 Arg CGU 2.28 2.43
CUC 0.63 0.45 CCC 0.49 0.36 CAC 0.86 0.67 CGC 2.40 0.99
CU
A 0.22 0.68 CCA 0.76 1.71 Gln CAA 0.69 1.45 CGA 0.38 0.73
CU
G 2.98 0.39 CCG 2.11 0.33 CAG 1.31 0.55 CGG 0.59 0.33
AU AA
Ile U 1.52 1.91 Thr ACU 0.66 1.27 Asn U 0.90 1.35 Ser AGU 0.91 1.37
AU
C 1.26 0.78 ACC 1.74 0.90 AAC 1.10 0.65 AGC 1.66 0.78
AU AA
A 0.22 0.31 ACA 0.52 1.35 Lys A 1.53 1.48 Arg AGA 0.22 1.10
AU AA
Met G 1.00 1.00 ACG 1.07 0.49 G 0.47 0.52 AGG 0.12 0.41
GU La préférence est propre àGAl’espèce considérée
Val U 1.04 1.74 Ala GCU 0.64 1.84 Asp U 1.26 1.40 Gly GGU 1.35 1.62
Méthode comparative de
prediction des gènes
On compare la séquence des ORF avec les séquences d’autres espèces qui sont
disponibles dans les banques de données

La logique de cette approche est basée sur le fait que si la séquence d’un gène G X chez
l’espèce X est similaire a celle d’un gène Gy chez l’espèce Y dont la fonction est connue,
le fonction du gène GX est la même que celle du gène Gy..
• Les programmes d’identification des genes sont prédictifs.
• Ils génèrent des erreurs certains gènes échappent a la détection.
•Certain gènes prédit ne correspondent pas à de vrais gènes.

• Même pour les prédictions correspondent a des gènes réels, les limites précisent des
gènes sont parfois erronées
Qu’est ce qu’on peux connaitre sur un
organisme a partir de l’annotation
structurelle?
Statistiques des genomes
• Size: 0.49 Mb (Nanoarchaeum equitans ), ~9.2 Mb (Myxococcus xanthus )
• Chromosome: 1, but few bacteria have 2 (Vibrio);
circular and linear (Streptomyces)
• GC content: 26% (Buchnera) up to 72% (Streptomyces coelicolor )
• Codon usage: Different bacteria prefer to use specific codons over others
• Coding density: ~80-90% is coding, ~1 gene for every 1000 bases.
• Huge degree of diversity: genomes of closley related bacterial species
differ both in their contents and organizations (insertions, deletions,
rearrangements)

Codon
table
BP GENE
• Haemophilus influenzae 1,830,137 1,743
• Campylobacter jejuni 1,641,481 1,708
• Mycobacterium tuberculosis 4,115,291 3,924
• Neisseria meningitidis 2,184,406 2,121
• Escherichia coli 4,639,2214,288
Typically ~90% of the genome is coding
There is on average 1 gene/1000bp
Taille des génomes

• The genome size varies


significantly from
species to species.
Taille des génomes

Prise de conscience de plusieurs problèmes fondamentaux


Annotation fonctionnelle
Une fois que que tout les élément génétiques sur le génome
ont été identifiés, on doit passer a l’étape suivante: annotation
fonctionnelle

You might also like