Genome-wide detection and characterization of positive selection in human populations

Publié le 23 octobre 2007 par Alceste

  Dans l’édition de cette semaine du journal Nature (l’une des revues scientifiques les plus préstigieuses), un article traite de gènes présentant une sélection positive dans le génome Humain en fonction des populations (ici des européens, des asiatiques et des africains de l’ouest.


  Pour bien faire les choses je dois faire un bref petit rappel.

  Il faut savoir que notre patrimoine génétique est soigneusement rangé sous forme de chromosomes dans le noyau de la majorité de nos cellules. Si l’on y regarde d’un peu plus près on voit que ces chromosomes sont des plotes très denses qui, une fois le fil (ADN) déroulé sont constituées d’une succession de 4 « bases » : A, T, C et G dans un ordre qui pourrait paraitre aléatoire.

  C’est le fameux code génétique découvert en 1953 qui à valu le prix Nobel à Watson et Crick en 1963.

  Il y a encore quelques années il semblait y avoir parmi ce code, certaines régions utiles, les gènes et le reste >90% était considéré comme de l’ « ADN poubelle ». Un gène est une séquence de bases qui code selon le « code génétique » pour un ARN messager (c’est une copie partielle du génome correspondant à un gène et qui permet de faire sortir l’information génétique du noyau) traduit ensuite en protéine : 3 bases = un acide aminé qui constitue la brique élémentaire des protéines.


  Un beau jour l’ADN poubelle à pris un sens ! Certaines protéines se lient spécifiquement à des séquences d’ADN pour réguler l’expression de gènes, ce sont les séquences régulatrices.

  Bien plus tard se sont succédé plusieurs petites révolutions qui ont largement remodelées le monde de la génétique…

  Le dogme voulant que 1 gène = 1 ARNm = 1 protéine a volé en éclat !


  Tout d’abord on s’est aperçu que les gènes étaient constitués de régions destinées à coder pour une protéine (exon) et d’autres non (Intron) et qu’un même gène pouvait coder pour plusieurs protéines en fonction de la sélection ou non de ces régions.

  Un peu plus tard on a découvert que certains ARN que l’on pensait ARNm n’étaient pas destinés à coder pour des protéines mais présentaient une fonction par eux-mêmes. Ces miARN (micro ARN) utilisent la propriété de la « complémentarité » des brins d’acides nucléiques (ARN, ADN) : la base A est complémentaire de la base T et la base C de la base G. Ainsi un brin ATCG sera complémentaire du brin TAGC, ils formeront un double brin ! Les séquences des miARN leurs permettent d’être spécifique (puisque complémentaires) de certains ARNm, ils se lient alors à eux et forment un complexe double brin qui n’est plus reconnu par la machinerie de traduction en protéine. C’est une manière de régulation de l’expression de nos gènes !


  Une autre petite révolution découle directement de la capacité des techniques « haut débit » de séquençage etc…

  Une fois le génome Humain séquencé l’on s’est mis à regarder de près la séquence et les différences entres population, entre malades et non malades etc…

  L’une des grosses découvertes a été celle des SNPs (Single Nucleotide Polymorphism, prononcez « snip » !). Ce sont des variations « normales » d’une base entre deux individus. Par exemple vous avec une base A (allèle A) à un endroit précis de votre génome alors que moi j’ai un G (allèle G), mais tout va bien nous sommes tout deux normaux ! C’est la variabilité génétique.


  Pour être précis le terme SNP correspond à l’endroit du génome ou se situe le polymorphisme, les possibilités (dans notre cas C et G) sont les allèles.

  Cette variabilité est répartie dans tout notre génome, ils y a des millions de SNPs. Bien entendu cette variabilité est transmissible, nous présentons largement moins de différences avec nos parents qu’avec d’autres personnes qui ne nous sont pas apparentées.

  Tout cela est bien beau mais faire de la Science pour de la Science sans en avoir utilité ça ne sert pas à grand-chose…

  Les SNPs sont répartis sur l’ensemble de notre génome à la façon de petites balises, ils peuvent servir de « marqueurs » génétique.

  Par exemple on peut regarder si certaines personnes ayant déclaré une maladie présentent plus souvent un marqueur que l’ensemble de la population non malade, ce sont les études d’association… On pourra alors dire que l’allèle A du SNP xxx est associé à la maladie. Tout cela présente un intérêt évident pour les pronostics…

  Mais revenons à nos moutons, après ces petites précisions je vais vous parler de l’article qui m’a intéressé cette semaine.

  C’est une étude portant sur plus de 3 millions de SNPs d’individus appartenant à 3 populations différentes : Européens, Asiatiques et Africains de l’ouest. Elle vise à détecter les éventuelles sélections positives. C'est-à-dire les critères que nous transmettons préférentiellement à notre descendance.

  En comparant les allèles de ces 3 millions de SNPs il s’est avéré que 300 régions candidates présentent des SNPs conservés (allèles identiques) parmi les individus d’une même population mais différents entre populations. Après différents affinages, sélection des régions les plus conservées parmi les 300 candidates et surtout « non synonymous ».

  Je vous ai présenté pus haut le principe du code génétique : 3 bases (un triplet) = 1 acide aminé. Le code génétique est redondant, plusieurs triplets peuvent correspondre au même acide aminé. Malgré la redondance du code, la variation d’un allèle peut induire le changement d’acide aminé et donc produire une protéine légèrement différente !

  Un SNP « non synonymous » est un polymorphisme qui induit, pour l’un de ces allèles, une modification de la séquence protéique.

  Parmi ces SNP sélectionnés, il se trouve que dans 3 cas les variations touchent 2 gènes impliqués dans un même processus biologique.

  Pour la population d’Afrique de l’Ouest, ce sont les gènes LARGE et DMD qui sont conservés et présentent une sélection positive. Ils sont tout deux reliés au processus d’infection par le virus Lassa.

  Pour la population Européenne, ce sont les gènes SLC24A5 et SLC45A2 impliqués dans la pigmentation de la peau.

  Pour la population Asiatique, ce sont les gènes EDAR et EDA2R impliqués dans le développement des follicules pileux.