PROTEINAS Hoy en día se acepta la idea de 3 reinos: Bacteria, Archaea y Eukaryota. Existen características comunes entre Bacteria y Archae y entre Eukaryota y Archaea. En la actualidad, para realizar estudios filogenéticos de diversas especies y distintos linajes se usan secuencias conservadas a través del tiempo y las cuales tienen una función similar en cada especies: por ejemplo el ARN 16S. También se usan diversos genes, principalmente los que están involucrados en los procesos de replicación, transcripción y traducción del DNA genómico, ya que corresponden a segmentos conservados que tienen que expresarse con una gran exactitud ya que están involucrados en una gran cantidad de procesos metabólicos. Existen técnicas que nos sirven secuenciar los genomas de distintos organismos. Y además, diversas bases de datos, con las cuales nosotros podemos mapear algún genoma que estemos estudiando y agruparla a alguna especie ya conocida. Sin embargo, por ejemplo es una limitancia el hecho de que es muy difícil promover el crecimiento de bacterias en una placa de cultivo, incluso las bacterias tienen una cultivabilidad menor al 1 %, por lo tanto, si no pueden cultivar, no pueden aislar, no pueden identificar la secuencia genómica. Para esto hay técnicas de deep secuency donde ustedes cultivan y secuencian un grupo de bacterias a mango de toda la mezcla que luego se mapea con una base de datos para identificar las especies contenidas en dicha mezcla. Craig Venter fue uno de los fundadores de Celera Genomics y también de uno de los creadores de la técnica Shot Gun Secuency, la cual ha aportado una gran cantidad de proteínas a la base de datos a nivel de secuencias. Hoy en día se conocen más de 8 millones mil lones de secuencias de proteínas. Aquí en la figura podemos ver una célula eucariota ciliada del epitelio terminal. La celula NO es una bolsa llena de agua. Por el contrario, contiene ademas de una estructura o esqueleto (conocido como citoesqueleto) una compleja red de organelos que cumplen diversas funciones. En el caso de las celulas eucarioticas destaca la presencia del nucleo, donde se almacena toda la informacion genetica. Las células eucariotas tienen toda una compartimentalización y organización, además esta célula tiene una dominancia apical y una dominancia basolateral. basolateral. En la mayoría de los procesos involucrados en una célula, las proteínas son de gran importancia, ya sea de transporte, estructural, etc.
Aquí podemos ver el fl flujo ujo de información genética de los seres vivos. Los procesos claves de flujo de información en seres vivos son la replicación, transcripción y traducción. Estos procesos permiten que la información genética (genotipo) de una célula se exprese mediante la construcción de moléculas complejas (proteínas) que dan lugar a la forma, apariencia, funcionalidad y adaptación al medio ambiente de esta (fenotipo). El ADN se duplica mediante un proceso de semiconservativo replicación. En
autocopiado conocido como este proceso
intervienen una serie de enzimas y factores proteicos. Algunos virus de ARN también son capaces de replicar su material genético. El ARN se sintetiza a partir del ADN a través de un proceso que se conoce como transcripción. El proceso de síntesis proteica se basa en la información contenida en el ARN y se conoce como traducción. La transformación de información contenida en moléculas de ARN a moléculas proteicas se basa en la utilización del código genético. El proceso de síntesis de ADN basado en moléculas de ARN es utilizado por los retrovirus y se conoce como transcripción reversa. Sin embargo, aún no se conoce un proceso inverso que se dirija desde proteína a RNA, el cual sería muy costoso energéticamente. Hoy en día se conocen los priones, el cual no son copias de síntesis, pero si son proteínas transmisibles que son capaces de inducir cambios en otras proteínas, y éstas a su vez, en otras proteínas y así sucesivamente. sucesivamente. Además, éstas pueden agregarse y sedimentar, afectando afectando diversos procesos celulares. Por ejemplo, estos son los causantes del mal de las vacas locas, que van afectando las neuronas, y su posterior muerte celular. Si ustedes toman el ADN de cada una de todas sus células y lo estiran, la longitud que alcanza el total es una vuelta a la vía láctea. Ese dato es para que tomen una idea de lo compactado que se encuentra encuentra el ADN. Proteínas llamadas histonas y diversas enzimas ayudan a su compactación. compactación.
Aquí podemos ver el fl flujo ujo de información genética de los seres vivos. Los procesos claves de flujo de información en seres vivos son la replicación, transcripción y traducción. Estos procesos permiten que la información genética (genotipo) de una célula se exprese mediante la construcción de moléculas complejas (proteínas) que dan lugar a la forma, apariencia, funcionalidad y adaptación al medio ambiente de esta (fenotipo). El ADN se duplica mediante un proceso de semiconservativo replicación. En
autocopiado conocido como este proceso
intervienen una serie de enzimas y factores proteicos. Algunos virus de ARN también son capaces de replicar su material genético. El ARN se sintetiza a partir del ADN a través de un proceso que se conoce como transcripción. El proceso de síntesis proteica se basa en la información contenida en el ARN y se conoce como traducción. La transformación de información contenida en moléculas de ARN a moléculas proteicas se basa en la utilización del código genético. El proceso de síntesis de ADN basado en moléculas de ARN es utilizado por los retrovirus y se conoce como transcripción reversa. Sin embargo, aún no se conoce un proceso inverso que se dirija desde proteína a RNA, el cual sería muy costoso energéticamente. Hoy en día se conocen los priones, el cual no son copias de síntesis, pero si son proteínas transmisibles que son capaces de inducir cambios en otras proteínas, y éstas a su vez, en otras proteínas y así sucesivamente. sucesivamente. Además, éstas pueden agregarse y sedimentar, afectando afectando diversos procesos celulares. Por ejemplo, estos son los causantes del mal de las vacas locas, que van afectando las neuronas, y su posterior muerte celular. Si ustedes toman el ADN de cada una de todas sus células y lo estiran, la longitud que alcanza el total es una vuelta a la vía láctea. Ese dato es para que tomen una idea de lo compactado que se encuentra encuentra el ADN. Proteínas llamadas histonas y diversas enzimas ayudan a su compactación. compactación.
ARN: hebra simple ADN: hebra doble (excepto en los procesos de duplicación y transcripción) transcripción) Se ha visto en distintas bases de datos, que no todos los ARN siguen el modelo de Watson y Crick, ya que estructuralmente no sólo se establecen interacciones interacciones entre las bases nitrogenadas que todos conocemos (Adenina, Citosina, Guanina, Timina, Uracilo). Y que también existen otras bases que son termodinámicamente estables, pero no tanto como las que siguen el modelo estructural de Watson y Crick. Aquí tenemos a la molécula energética por excelencia: el ATP. Catalizador y componente esencial del flujo energético. (Aprender estructura estructura de memoria para metabolismo)
El codón del ARN mensajero se acopla al anticodón del ARN de transferencia. Hay enzimas que reconocen específicamente este ARNt y lo cargan con el aminoácido correspondiente para su secuencia (anticodóncodón). Una mutación de esta secuencia causaría un error en la traducción de la proteína que se está codificando. Estas enzimas que son específicas para el ARNt son las aminoacil ARNt transferasas. Esta síntesis proteica ocurre en el ribosoma, donde se van agregando los ARNt, y va ocurriendo la formación de la proteínas a través de la formación de enlaces peptídicos entre los aminoácidos que se van agregando a medida que ribosoma se va deslizando a través de la secuencia del ARNm.
Proteínas. Las proteínas tienen distintos niveles de estructuras moleculares. A nivel de síntesis, la proteína es una gran polipéptido formado de aminoácidos. Los
aminoácidos
formados
por
un
están grupo
amino, un grupo carboxilo, un carbono alfa y una cadena lateral. Típicamente este carbono alfa tiene 4 sustituyentes distintos, resultando un carbono asimétrico (a excepción del aminoácido Glicina), dando una quiralidad a la molécula, dando mezclas racémicas. El grupo R son distintos grupos químicos funcionales que le dan una identidad a cada uno de los 20 aminoácidos. (hay más, pero solo nos referiremos a estos 20).
El enlace peptídico es una reacción por deshidratación de tipo amida. Aquí tenemos un ejemplo de la formación de enlaces peptídicos para dar un polipéptido.
Hay muchas formas de clasificar los aminoácidos. Análisis de algunos aminoácidos: La lisina es una aminoácido con un grupo que tiene amina con un pK del orden de 9,5 entonces a pH fisiológico presentan una carga positiva. Por otro lado, el ácido aspártico y el ácido glutámico tienen grupos carboxilatos en su cadena lateral, lo que les confiere un pK del orden de 4, por lo tanto a pH fisiológico están desprotonados y presentan una carga negativa. La histidina es un aminoácido especial ya que tiene un pK del orden de 6, lo que está muy cerca del pH fisiológico, por lo que a veces lo podemos encontrar con carga y a veces sin carga.
IMPORTANTE: Los pK de cada aminoácido puede ser modulados (variar) según el contexto en que se encuentre, ya sea según el medio o los aminoácidos adyacentes. También hay aminoácidos con grupos polares sin carga, serina, treonina, etc. También hay con grupos hidrofóbicos, generalmente son cadenas alifáticas, que no están cómodas en agua. Finalmente, hay un grupo especial de aminoácidos: tenemos a la Glicina, el cual su grupo R es un H, En la prolina, su cadena lateral está unida covalentemente al nitrógeno del grupo amino de la cadena principal (dándole rigidez al aminoácido, en la cisteína hay un grupo sulfhidrilo capaz
de establecer enlaces disulfuro (covalentes) con otros aminoácidos cisteínas (dándole más estabilidad a la proteína y su plegamiento). Al ver las cadenas laterales de los aminoácidos, podemos ver que algunos son isómeros, como leucina e isoleucina, por lo tanto, al tener una mutación, y en vez de tener una isoleucina, tengo leucina, será menos grave, de que si tuviera por ejemplo tirosina, en vez de glicina. Y quizás el impacto sea también menor en la estructura y funcionalidad de la proteína. En la proteína existe un grupo amino terminal y un grupo carboxilo terminal, la cantidad de enlaces peptídicos estará dada por la expresión N 1, donde N es el número de aminoácidos que formen la proteína. Los átomos de la cadena principal de un aminoácido corresponden al N del grupo amino, C alfa y al C del grupo carboxilo. Mientras que el grupo R corresponde a las cadenas laterales de cada aminoácido y se unen al C alfa de la cadena principal. Generalmente los grupos R en una proteína, se van alternando hacia arriba y hacia abajo, dando la conformación trans. Sin embargo, puede ocurrir que glicina con otro aminoácido con cadena lateral pequeña puede dar la conformación cis. (Prolina puede dar un porcentaje más alto en conformación cis). Típicamente, el codón de inicio para la síntesis proteica es AUG (revisar código genético). Hay muchas secuencias de proteínas que no empiezan con AUG ¿por qué ocurre eso? Porque luego de la síntesis de la proteína, esa parte del péptido es removida. Podemos ver que hay 4 más codones que dan Leucina, por lo tanto, una mutación en alguna de las bases para esta mutación no va a tener ningún impacto. Por eso también decimos que el código genético es degenerado (redundante). La
determinante
para
la
frecuencia de codones en una proteína es la velocidad con que sintetizan la proteína. Por ejemplo si se sintetiza una proteína a partir de ARNt no abundante, su síntesis va a ser más lenta. La zona de codones que se utilizan más para la síntesis de proteínas son codón ussage. Estos codón ussage son distintos para cada especie.
El proceso de transcripción en los eucariotas es similar a los de los procariotas, existen sin embargo algunas diferencias. Los genes eucariotas no se agrupan en operones como los de los procariotas. Cada gen eucariota se transcribe separadamente, con un control transcripcional independiente para cada gen. Si bien los procariotas tienen un solo tipo de ARN polimerasa para todos los tipos de ARN, los eucariotas tienen una para cada tipo. Una para el mARN, una para los rARN largos y una tercera para los rARN cortos y los tARN. En procariotas la traducción comienza inclusive antes que la transcripción haya terminado, mientras que en eucariotas tenemos dos procesos separados en tiempo y localización (recordar la existencia de una envoltura nuclear). Luego que en el núcleo de la célula eucariota se transcribe un ARN, el ARN transcripto es extensamente modificado antes de ser exportado al citoplasma. Se le agrega 7-metilguanina (una base inusual) al extremo 5' del mARN; y esto resulta esencial para el pegado del mARN al ribosoma. Una ristra de adeninas (tanto como 200 nucleótidos conocido como poli-A) se agrega al extremo 3' del mARN luego de la transcripción. La función de esta "cola" de poli A no se conoce, pero puede usarse para capturar mARN para estudios. Los intrones se cortan y los exones se colocan juntos antes que el mARN deje el núcleo Existen muchos ejemplos de mensajes idénticos procesados por diferentes métodos, a veces los intrones se tornan exones y viceversa. Moléculas de proteínas se pegan al mARN y luego se exportan del núcleo formando partículas llamadas ribonucleoproteínas (mRNPs) que parecen ayudar en el transporte por los poros nucleares y también en el pegado a los ribosomas.
También existen otras moléculas importantes como los polisacáridos, lípidos, etc. El glicógeno es un polisacárido que permite almacenar energía (fuente de glucosa). También tenemos fosfolípidos, que actúan en las membranas plasmáticas. Mediante reacciones metabólicas, los seres vivos van degradando macromoléculas (proteínas aminoácidos, polisacáridosmonosacáridos, lípidosácidos grasos, ácidos nucleicosDNA y RNA) y mediante reacciones anabólicas se va generando las Biomoléculas y moléculas energéticas necesarias para dicho organismo, que serán utilizadas según las necesidades de éste. En el metabolismo, es necesaria la acción enzimática, para que todos estos procesos sean viables. Los aminoácidos esenciales son aquellos que debemos ingerir por medio de nuestra dieta, mientras que los aminoácidos esenciales son aquellos que somos capaces de producir. Aquí tenemos una reacción que es parte del metabolismo celular: La serotonina es un neurotransmisor que se asocia a la molécula de la felicidad. Se han descrito polimorfismos en las enzimas responsables de la síntesis de esta molécula, y se han determinado personas que producen menos serotonina, lo que se asocia a depresión. Incluso personas que se han suicidado, por una depresión endógena muy fuerte. También hay que considerar que existen muchos factores ambientales capaces de producir depresión, no tan sólo depende del aspecto genético. El efecto que tienen algunas drogas, como el éxtasis, es bloquear la recaptura de la serotonina a las neuronas, quedando en el espacio interneuronal.
ANEXOS CLASE 1 Mutación: alteración genética poco frecuente en una población. (Anemia falciforme y Fibrosis Quística son causadas por mutaciones) Polimorfismo: cambio genético frecuente en una población y corresponde a un cambio en cada individuo por separado. SNIP: variaciones en secuencias de 1 sola letra. Exón: segmento del DNA que va a formar parte del RNA maduro y puede o no ser codificante. -
La hebra 53 puede ser designada con el signo (+), o puede llamarse hebra Forward, o
-
hebra Watson. La hebra 35 puede ser designada con el signo (-), o puede llamarse hebra Reverse, o hebra Crick.
ORF (Open Reading Frame) = CDS (Secuencia Codificante) Existe un proceso llamado splicing alternativo, en el cual, pueden conservarse en el ARNm, segmentos de intrones, o también zonas parciales de exones, o su totalidad. Pueden haber aproximadamente hasta 12 tipos de exones entre total y parcialmente codificantes. Hay genes que están en la hebra Watson y hay genes que están en la hebra Crick. El hecho de que hay genes acoplados en la secuencia de un organismo constituye una desventaja ya que al tener una mutación en esa zona, puede significar una alteración en la expresión de ambos genes, porque el impacto es doble. La fibrosis quística es una enfermedad genética recesiva más frecuente en la raza blanca. Producida por una mutación en el gen CGTR. Hay 1100 mutaciones distintas para este gen. UTR: zonas del ARNm que se encuentran al inicio y al final del segmento que participan en la regulación de su expresión. Son regiones que no se traducen. El RNA se puede plegar y formar puentes de hidrógeno.
Ejemplo de complejidad celular (levadura): genoma, transcriptoma, proteoma Genoma: ± ± ± ± ±
16 crosomomas nucleares 1 cromosoma mitocondrial 1 plasmido ~ 12.1 millones de nucleotidos ~ 7000 genes ?
Transcriptoma: ± ± ± ±
~ 6500 mRNAs 27 rRNAs 299 tRNAs ~ 80 other RNAs
Proteoma: ± ?
Metaboloma: ± ?
http://www.yeastgenome.org/cache/genomeSnapshot.html Francisco Melo, BIO257C, PUC.
45
1.- Levadura: Modelo para el estudio, por su importancia a nivel industrial, por su simpleza y por ser eukarionte. 12megas = 12 millones de nucleótidos. b) Genoma Humano tiene 3000millones. 2.- Aún no se conocen todos los genes. Se cree que tiene 7000. y y
3.- Si tengo los datos del genoma ¿Cómo anotar genes, que es lo que harían ustedes? Comparar con otras bases de datos. Bien, pero imaginemos que no tenemos internet b) Ver los ATGs (posiciones de inicio putativas) y ver si existe TAA (u otro stop) en fase o sea que estén en multiplos de 3 nucleótidos. 4.-Problemas: y y
y
y
Intrones: Pueden haber intrones, que no sean multiplos de 3nucleótidos, y desarmen el marco de lectura que habíamos pensado. En levadura hay pocos genes con intrones (<500) b) ¿Cómo saber cual ATG que marca el inicio del gen? También puede haber metioninas internas.
5.- Otra solución: Para tener mayor certeza, conviene tener cDNA y secuenciarlo. Luego alinearlo contra el genoma. Puedo encontrar los Genes, intrones y exones. 6.-Transcriptoma: RNA que puede ser codificante o no. y
7.-Proteoma: Es tan complejo que ni siquiera en levadura se conoce.
8.-Metaboloma: Enzimas del metabolismo primario son las más conocidas, sin embargo las del metabolismo secundario se sabe muy poco.
Importantes bases de datos biologicas Secuencias: ± G enBank
(Nucleic Acid sequences) (Nucleic Acid sequences) uniG ene (clustered, extended and curated EST s sequences) Sw issProt (Protein sequences. Excellent annotation) UNIProt/Tr EMBL (Largest database of protein sequences)
± EMBL ± ± ±
Estructuras: ± ± ± ±
PDB (Protein 3D structures) NDB (Nucleic Acid 3D structures) CATH (Structural Classification of Proteins) SCOP (Structural Classification of Proteins)
Complejas (diversa informacion, todo integrado): ±
NCBI (National Center for Biotechnology Information)
Francisco Melo, BIO257C, PUC.
46
1.- Hay tantas secuencias. En tantas bases de datos, que si quieres agregar una secuencia nueva, se compara con las ya existentes y puedes definir un umbral 99.% de identidad de secuencias, para asumir que son distintas. Ej. Todas las lisozima variantes, mutantes, etc no se consideran sólo existe una secuencia de ácidos nucleicos de lisozima Secuencia consenso. 2.- Conviene comenzar en SwissProt: Hay un montón de información para humanos, pero tiene muy pocas secuencias anotadas 3.- Estructuras: Con difracción de rayos X, o con resonancia magnética nuclear.(mucho mas caro $ ) 4.-CATH y SCOP: 2 bases de datos, de superposición óptima de estructuras. Puedo ver cuánto se parecen 2 estructuras de proteinas. Por ejemplo: Mioglobina y hemoglobina tienen distinta secuencia, pero estructuras muy similares.
Formato FASTA Este es un formato bastante libre que contiene una primera linea descriptiva para humanos (que comienza con el simbolo µ>¶) y luego la secuencia. La primera palabra de la primera linea es el nombreo ID de la secuencia (sin espacios). El resto de la linea es una descripcion de la secuencia (puede o no tener formato). Term
Entry Name
Molecule Type
Gene Name
Sequence Length
e.g.
FOSB_MOUSE
Protein
fosB
338 aa
!) 2 6 % B0 2 8 6 ( 3 URWHLQIRV% DD 0 ) 4 $ ) 3 * ' < ' 6 * 6 5 & 6 6 6 3 6 $ ( 6 4 < / 6 6 9 ' 6 ) * 6 3 3 7 $ $ $ 6 4 ( & $ * / * ( 0 3 * 6 ) 9 3 7 9 7 $ ,7 7 4 6 ' /4 : /94 3 7/,66 0 $ 4 6 4 * 4 3 /$ 6 4 3 3 $ 9 ' 3 < ' 0 3 * 7 6 < 6 7 3 * / 6 $ < 6 7 * * $ 6 * 6 * * 3 6 7 6 7 7 7 6 * 3 9 6 $ 5 3 $ 5 $ 5 3 5 355 ( ( 7 / 7 3 ( ( ( ( . 5 5 9 5 5 ( 5 1 . / $ $ $ . & 5 1 5 5 5 ( / 7 ' 5 / 4 $ ( 7 ' 4 /( ( ( . $ ( / ( 6 ( ,$ ( / 4 . ( . ( 5 / ( ) 9 / 9 $ + . 3 * & .,3 < ( ( * 3 * 3 * 3 / $ ( 9 5 ' / 3 * 6 7 6 $ . ( ' * ) * : / / 3 3 3 3 3 3 3 / 3 ) 4 6 6 5 ' $ 3 3 1 / 7 $ 6 / ) 7 + 6 ( 9 4 9 / * ' 3 ) 3 9 9 6 3 6 < 7 6 6 )/ 97 & 3 ( 9 6 $ ) $ * $ 4 5 7 6 * 6 ( 4 3 6 ' 3 / 1 6 3 6 / /$ /
Francisco Melo, BIO257C, PUC.
48
1.-Archivo de texto, donde puedo escribir secuencias para Proteinas, nucleótidos. Lo malo es que no identifica secuencias circulares de nucleótidos. 2.- >Encabezamiento para humanos: Puede ser de donde es, de que especie, o un codigo 1p2q etc y luego la secuencia que usan los software. 3.- Multifasta: Una extensión de fasta. No es mas que un sólo archivo con un montón de secuencias de pretinas diferentes.P.e.j. El transcriptora humano, está en formato multifasta, hay 30000 fastas. 4.- En Windows se debe usar Wordpad.
For ato PIR Este es un for ato bastante si ilar al for ato FAST A y contiene una pri era linea descr ipti a (que co ienza con el si bolo µ>¶) y luego una palabra clave que especif ica el tipo de secuencia, seguida de un punto y co a µ;¶ En la segunda linea viene una descr ipcion de la secuencia (no bre o ID nor al ente). F inal ente viene la secuencia is a, la cual se debe ter inar con un aster isco µ*¶ ¡
¡
¡
¡
¢
¡
¡
¡
¡
¡
¡
¡
¡
¡
¡
Pa labras claves: P1 (proteina), F1 (frag ento de proteina), DL (DNA lineal), DC (DNA circular), RL (RNA lineal), RC (RNA circular), N3 (tRNA), N1 (otro tipo de RNA). ¡
>P1;FOSB_MOUSE FOSB_MOUSE 338 bases MFQAFPGDYD SGSRCSSSPS PGSFVPTVTA ITTSQDLQWL GTSYSTPGLS AYSTGGASGS TPEEEEKRRV RRERNKLAAA IAELQKEKER LEFVLVAHKP GFGWLLPPPP PPPLPFQSSR
AESQYLSSVD VQPTLISSMA GGPSTSTTTS KCRNRRRELT GCKIPYEEGP DAPPNLTASL
SFGSPPTAAA QSQGQPLASQ GPVSARPARA DRLQAETDQL GPGPLAEVRD FTHSEVQVLG
SQECAGLGEM PPAVDPYDMP RPRRPREETL EEEKAELESE LPGSTSAKED DPFPVVSPSY
TSSFVLTCPE VSAFAGAQRT SGSEQPSDPL NSPSLLAL*
Francisco elo, BIO257C, PUC.
49
1.- Emerge como un sustituto al fasta. Tiene Palabra clave: DC y RC son muy importantes para identificar cadenas lineales nucleotídicas de plasmidios. Para conocer sitios de restricción en un plasmidio.
Mucho más complicado que el FASTA y el PIR: son los formatos para secuencias de acidos nucleicos:
Fo mato GenBank
LOCUS :
Short name for this sequence (Maximum of 32 characters).
DEFINITIO N : Definition of sequence (Maximum of 80 characters). A CC ESSIO N : accession number of the entry. VER SIO N : Version of the entry. CE : Shows the source, the date of creation and last modification o DBSOUR KEYW ORDS : Keywords for the entry.
f db entry.
A UTHOR S : Authors for the work. TITLE : Title of the publication. J OU RNA L : Journal reference for the entry. M EDLINE :
Medline ID. Lines of comments. SOU R CE ORGANISM : The organism from which the sequence was derived. ORGANISM : Full name of organism (Maximum of 80 characters). A UTHOR S : Authors of this sequence (Maximum of 80 characters). A CC ESSIO N : ID Number for this sequence (Maximum of 80 characters). FEATURES : Features of the sequence. ORIGIN : Beginning of sequence data. // End of sequence data. COMM ENT :
F ancisco Melo, BIO257C, PUC. £
Puede ser ADN, RNA de cualquier tipo.
50
Formato GenBank (continuacion) LOCUS
MMFOSB 4145 bp mRNA linear ROD 12-SEP-1993 fosB mRNA.
DEFINITIO N Mouse A CCESSI ON X14897
X14897.1 GI:50991 fos cellular oncogene; fosB oncogene; oncogene. SOU R C E Mus musculus. ORGANISM Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. REFERENCE 1 (bases 1 to 4145) A U TH OR S Zerial,M., Toschi,L., Ryseck,R.P., Schuermann,M., Muller,R. and Bravo,R. TIT LE The product of a novel growth factor activated gene, fos B, interacts with JUN proteins enhancing their DNA binding activity J OURNA L EMBO J. 8 (3), 805-813 (1989) M ED L INE 89251612 P UB M ED 2498083 COMM ENT clone=AC113-1; cell line=NIH3T3. FEATURE S Location/Qualifiers source 1..4145 /organism="Mus musculus" /db_xref="taxon:10090" CDS 1202..2218 /note="fosB protein (AA 1-338)" /codon_start=1 /protein_id="CAA33026.1" /db_xref="GI:50992" /db_xref="MGD:95575" /db_xref=³SWISS-PROT:P13346" /translation="MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQEC AGLGEMPGSFVPTVTAITTSQDLQWLVQPTLISSMAQSQGQPLASQPPAVDPYDMPGT SYSTPGLSAYSTGGASGSGGPSTSTTTSGPVSARPARARPRRPREETLTPEEEEKRRV RRERNKLAAAKCRNRRRELTDRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAH KPGCKIPYEEGPGPGPLAEVRDLPGSTSAKEDGFGWLLPPPPPPPLPFQSSRDAPPNL TASLFTHSEVQVLGDPFPVVSPSYTSSFVLTCPEVSAFAGAQRTSGSEQPSDPLNSPS LLAL"
VER N SI O
KEYW O RD S
Francisco Melo, BIO257C, PUC.
51
Es un ARNm de la proteina fosB de mus musculos(raton) Aparecen el aceso (código interno), el organismo y toda su taxonomia, los autores y el paper donde se publicó, los CDS ( Region codificante). -> entre 1202 y el 2218, están los codones. OJO 1202 y 2218, no cuentan. Noten que el mensajero tiene 4145 pares de bases, pero tiene solo 1014 codones codificantes.
Formato GenBank (continuacion) BASE COUNT
960 a 1186 c 1007 g 991 t 1 others
ORIGIN
1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 901 961 1021 1081 1141 1201 1261 1321 1381 1441 //
ataaattctt aagtacagaa actgtaatag gcaattgcta aggagccaca tcattgggat gaacacaagc gagtaacatt tcacttgcaa aaacataaaa ggatgctaaa agcccatgat attactgtgt gtcatgaact ttcctccctg ccgcggcact accgacagag gcagagggaa agcagcgcac catagccttg aatgtttcaa cgccgagtct ctcccaggag aatcacaacc c
attttgacac ggcttggtca acattacatc catggcaaac agagtaaaac cgttaaaatg caagtttaaa aaataccctg attagcacac caaaactatt attagacttc tacagttaat atgaacatgt taatacagag tcgtgacaca gcccggcggg cctggacttt cttgcatcga tttggagacg gcttcccggc gcttttcccg cagtacctgt tgcgccggtc agccaggatc
tcaccaaaat catttaaatc cataaaagtt tagtgtagca tgttcaacag aatcttccta atcagcagta aaggaaaaaa gaatatgcaa aaaatagttt aggggaattt taagagcagt tggctgctac agagcacgcc atcaatccgt tttctgggcg caggaggtac aacttgggca tgtccggtct gacctcagcg gagactacga cttcggtgga tcggggaaat ttcagtggct
agtcacctgg actgagaact tccccagtcc tagaagtcaa ttaatagttc caccttgcag gagatattaa aacctaaata cttggaaatc tagagggggt tgaagtcttc gcacgcaaca cagccacagt taggcagcaa gtacttggtg gggagcgatc agcggcggtc gttctccgaa actccggact tggtcacagg ctccggctcc ctccttcggc gcccggctcc cgtgcaaccc
aaaacccgct agagagaaat ttattgtaat agcaaaaaca aaactaagcc tgtatgattt aatgaaaagg tcaaaataac atgcagtgtt aaaatccagg aattttgaaa gtgacacgcc caatttaaca gcacagcttg tatctgaagc cccgcgtcgc tgaaggggat ccggagacta cgcatctcat ggcccccctg cggtgtagct agtccaccca ttcgtgccaa accctcatct
tttt gtgaca acta tcgcaa attg cacagt aacc aaagaa attg aatcta aact tttaca tttg ctaata tgat taaaat ttat ttaaga tcct ctgcca ccta ttaaaa ttta gagagc aggc tgctca ctgg gccact gcac gctgca cccc cgtgaa ctgg gatctt agct tccccg tcca ctcggc tgcc caggga catc accctc ccgc cgccgc cggt caccgc cttc catggc
Francisco Melo, BIO257C, PUC.
52
¿Qué puede ser ese otro?, no es ni A, ni T, ni C, ni G. -> cuando se secuencia, con los floróforos, se observa intensidad de los colores que representan cada nucleótido. Pueden haber quedado errores experimentales, de la polimerasa por ejemplo.
SwisProt: Mucha información para humanos, acerca de muy pocas proteinas.
Ideas interesantes: CC comentarios para humanos, (con quien interactúa,subunidades hubicación, ) muy importante para construir hipótesis.
Fo
ato wi
ROT
ID FOSB_MOUSE STANDARD; PRT; 338 AA. AC P13346; DT 01-JAN-1990 (Rel. 13, Created) DT 01-JAN-1990 (Rel. 13, Last sequence update) DT 15-JUN-2002 (Rel. 41, Last annotation update) DE Protein fosB. GN FOSB. OS Mus musculus (Mouse). OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleost omi; OX NCBI_Taxid=10090; RN [1] RP SEQUENCE FROM N.A. RX MEDLINE=89251612; PubMed=2498083; RA Zerial M., Toschi L., Ryseck R. -P., Schuermann M., Mueller R., RA Bravo R.; RT "The product of a novel growth factor activated gene, fos B, interacts RT with JUN proteins enhancing their DNA binding activity."; RL EMBO J. 8:805-813(1989). RN [2] RP SEQUENCE FROM N.A. RX MEDLINE=92158623; PubMed=1741260; RA Lazo P.S., Dorfman K., Noguchi T., Mattei M.-G., Bravo R.; RT "Structure and mapping of the fosB gene. FosB downregulates t he RT activity of the fosB promoter."; RL Nucleic Acids Res. 20:343 -350(1992). CC -!- FUNCTION: FOSB INTERACTS WITH JUN PROTEINS ENHANCING THEIR DNA CC BINDING ACTIVITY. CC -!- SUBUNIT: HETERODIMER (BY SIMILARITY). CC -!- SUBCELLULAR LOCATION: NUCLEAR. CC -!- INDUCTION: BY GROWTH FACTORS. CC -!- SIMILARITY: BELONGS TO THE BZIP FAMILY. FOS SUBFAMILY.
F an i ¤
¥
¦
¥
o
§
elo,
¨
IO257 , ©
©
.
53
Al final aparece la secuencia de la proteina.
Formato SwissPROT (continuacion) -------------------------------------------------------------------------This Swiss-Prot entry is copyright. It is produced through a collaboration tstation ± CC between the Swiss Institute of Bioinformatics and the EMBL ou ons on its CC the European Bioi nformatics Institute. There are no restr icti CC use by non-profit institutions as long as its content is in no way CC modified and this statement is n ot removed. Usage b y and for commercial -sib.ch/announce/ CC entities requires a license agreement (See http://www.isb CC or send an email to licen
[email protected]). ---------CC ---------------------------------------------------------------DR EMBL; X14897; CAA33026.1; -. DR EMBL; AF093624; AAD13196.1; -. DR PIR; S04108; TVMS FB. DR PIR; S35477; S35477. DR HSSP; P01100; 1FOS. DR TR ANSFAC; T00291; -. DR MGD; MGI:95575; Fosb. DR InterPro; IPR000837; Leuzip_ Fos. DR InterPro; IPR004827; TF_bZIP. DR Pfam; PF00170; bZIP; 1. DR PRINTS; PR00042; LEUZIPPR FOS. DR SM ART; SM00338; BRLZ; 1. DR PR OSITE; PS00036; BZIP_B ASIC; 1. KW Nuclear protein; DNA-binding. FT DNA_BIND 161 179 B ASIC MOTIF. FT DOMAIN 183 211 LEU CINE-ZIPPER. SQ SEQUE NCE 338 AA; 35976 MW; E9D031 A4BEAE48EC CRC64; MFQAFPGDYD SGSR CSSSPS AESQYLSSVD S FGSPPTAAA SQECAGLGEM PGS FVPTVTA ITTSQDLQWL VQPTLISSM A QSQGQPL ASQ PPAVDPYDMP GTSYSTPGLS AYSTGG ASGS GGPSTSTTTS GPVS ARPARA RPRRP REETL TPEEEEKRR V RRER NKLAAA KCRNRRRELT DRLQ AETDQL EEEK AELESE I AELQKEKER LE FVLVAHKP GCKIPYEEGP GPGPL AEVRD LPG STS AKED G FGWLLPPPP PPPLP FQSSR DAPPNLTASL FTHSEVQVLG DP FPVVSPSY TSS FVLTCPE VS AFAGAQRT SGSEQ PSDPL NSPSLL AL // CC CC
Francisco Melo, BIO257C, PUC.
54
Fo HEADER TITLE COMPND COMPND COMPND COMPND COMPND SOURCE SOURCE SOURCE SOURCE KEYWDS EXPDTA AUTHOR REVDAT REVDAT REVDAT JRNL JRNL JRNL JRNL JRNL REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK
ato
otein
ata an
FLUORESCENT PROTEIN 23 -AUG-96 1GFL STRUCTURE OF GREEN FLUORESCENT PROTEIN MOL_ID: 1; 2 MOLECULE: GREEN FLUORESCENT PROTEIN; 3 CHAIN: A, B; 4 ENGINEERED: YES; 5 MUTATION: Q80R MOL_ID: 1; 2 ORGANISM_SCIENTIFIC: AEQUOREA VICTORIA; 3 EXPRESSION_SYSTEM: ESCHERICHIA COLI; 4 EXPRESSION_SYSTEM_PLASMID: PTU58 FLUOROPHORE GREEN FLUORESCENT PROTEIN, LUMINESCENCE X-RAY DIFFRACTION F.YANG,L.G.MOSS,G.N.PHILLIPS JR. 2 17-F EB-04 1GFL 1 AUTHOR JRNL LINK CONECT 2 2 1 MASTER 1 11 -JAN-97 1GFL 0 AUTH F.YANG,L.G.MOSS,G.N.PHILLIPS JR. TITL THE MOLECULAR STRUCTURE OF GREEN FLUORESCENT TITL 2 PROTEIN REF NAT.BIOTECHNOL. V. 14 1246 19 96 REFN ASTM NABIF9 US ISSN 1087 -0156 2119 1 1 REFERENCE 1 1 AUTH A.B.CUBITT,R.HEIM,S.R.ADAMS,A.E.BOYD,L.A.GROS S, 1 AUTH 2 R.Y.TSIEN 1 TITL UNDERSTANDING, IMPROVING AND USING GREEN 1 TITL 2 FLUORESCENT PROTEINS 1 REF TRENDS BIOCHEM.SCI. V. 20 448 19 95 1 REFN ASTM TBSCDB NE ISSN 0376 -5067 0946 2 2 RESOLUTION. 1.9 ANGSTROMS. F an i o elo, IO257 , . 3
55
En formato PBD, se puede ver mucha información: Se muestra la GFP, expresada en E.coli, el paper, si hubo ingeniería genética o no etc... Resolución es muy buena(1,9Angstrom). Después se ve que la proteina tiene 2 cadenas.
Fo SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES HELIX HELIX HELIX HELIX HELIX HELIX SHEET SHEET SHEET SHEET SHEET ORIGX1 ORIGX2 ORIGX3 SCALE1 SCALE2 SCALE3 MTRIX1 MTRIX2 MTRIX3
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 6 1 2 3 4 5
ato
ontinua ion
A A A A A B B B B B
238 ALA SER LYS GLY GLU GLU LEU PHE THR GLY VAL V AL PRO 238 ILE LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY H IS LYS 238 PHE SER VAL SER GLY GLU GLY GLU GLY ASP ALA T HR TYR 238 GLY LYS LEU THR LEU LYS PHE ILE CYS THR THR G LY LYS 238 LEU PRO VAL PRO TRP PRO THR LEU VAL THR THR 238 ALA SER LYS GLY GLU GLU LEU PHE THR GLY VAL V AL PRO 238 ILE LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY H IS LYS 238 PHE SER VAL SER GLY GLU GLY GLU GLY ASP ALA T HR TYR 238 GLY LYS LEU THR LEU LYS PHE ILE CYS THR THR G LY LYS 238 LEU PRO VAL PRO TRP PRO THR LEU VAL THR THR 1 GLU A 5 PHE A 8 5 2 TRP A 57 PHE A 64 5 3 GLN A 69 PHE A 71 5 4 ASP A 76 HIS A 81 5 5 PHE A 83 SER A 86 1 6 LYS A 156 LYS A 158 5 A12 HIS A 25 ASP A 36 0 A12 VAL A 11 VAL A 22 -1 N VA L A 22 O HIS A 25 A12 THR A 118 ILE A 128 1 N LEU A 119 O LEU A 15 A12 ASN A 105 GLU A 115 -1 N GLU A 115 O THR A 118 A12 TYR A 92 PHE A 100 -1 N ILE A 98 O TYR A 106 1.000000 0.000000 0.000000 0.00000 0.000000 1.000000 0.000000 0.00000 0.000000 0.000000 1.000000 0.00000 0.011207 0.000000 0.000000 0.00000 0.000000 0.011207 0.000000 0.00000 0.000000 0.000000 0.008349 0.00000 1 -0.950278 0.287772 0.118992 7.36697 1 1 0.294841 0.708504 0.641164 13.04218 1 1 0.100202 0.644367 -0.758123 -38.10565 1
F an i
!
"
!
o
#
elo,
$
IO257 , %
&
'
%
.
56
Se ve la estructura 3D. Para cada átomo excepto los hidrógenos. Px, py, pz corresponden a los puntos en el espacio, la densidad es el radio de vander walls. Mide la rigidez
Py
Px ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ... TER ATOM ATOM ATOM ATOM ATOM ATOM ... TER END
Densidad elect ónica
Pz
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
N CA C O CB N CA C O CB OG N CA C O CB CG CD CE NZ
ALA ALA ALA ALA ALA SER SER SER SER SER SER LYS LYS LYS LYS LYS LYS LYS LYS LYS
A A A A A A A A A A A A A A A A A A A A
1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3
-14.093 -14.989 -14.809 -15.790 -14.760 -13.573 -13.364 -12.245 -11.264 -13.236 -12.004 -12.516 -11.712 -10.271 -10.026 -12.368 -12.827 -12.215 -11.968 -11.573
60.494 61.651 62.769 63.397 62.190 62.992 63.821 63.347 62.734 65.292 65.880 63.462 62.828 63.331 64.469 63.066 61.783 61.615 62.958 62.819
-9.249 -8.981 -10.006 -10.384 -7.570 -10.472 -11.651 -12.591 -12.155 -11.216 -11.497 -13.894 -14.936 -14.956 -14.615 -16.294 -16.993 -18.373 -19.039 -20.468
1827 1828 1829 1830 1831 1832
N CA C O CB N
ALA ALA ALA ALA ALA SER
B B B B B B
1 1 1 1 1 2
37.642 38.888 38.955 40.033 38.997 37.813
45.936 46.634 46.782 46.670 48.009 47.023
6.027 6.471 7.996 8.583 5.802 8.639
)
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
0.44 0.44 0.44 0.44 0.44 0.44
42.10 41.80 41.60 41.20 42.30 41.10 40.30 39.80 39.50 39.90 39.90 38.90 38.10 37.00 37.20 38.50 58.60 61.90 78.10 94.10
43. 43. 43. 43. 43. 42.
40 30 10 00 60 70
F ancisco Melo, BIO257C, PUC. (
N C C O C N C C O C O N C C O C C C C N
N C C O C N
57
El numero entre pZ, y densidad.-> Es la ocupancia, cuantas veces se vió el átomo en ésa posición. -> La proteina respira, y se mueve un poco, puede vibrar entre 2 conformaciones muy similares y muy estables.
lega iento de pr oteina
Fr an i 0
y
1
0
o
2
elo, I 257 , 3
4
5
6
7
5
.
1
Estabilidad termodinámica: La estructura más estable es la estructura nativa. Tienen por lo general un core hidróbóbico y lo que está en contacto con el solvente es polar. La cadana lineal, determina la estructura. Relación secuencia/estructura/funci ón en proteínas
F ancisco Melo, BIO257C, PUC. 8
y
En la secuencia semuestran 6 aa lejanos
2
y
y
Plegamiento->Estructura nativa. Convergen los aa, y se forma el sitio activo, que es un sitio de reconocimiento de la adenilato ciclasa. Puente de hidrógeno, puente salino. Casi es un ejemplo de llave cerradura.
i
@
9
y y y
A
B
C
i D
C
i
G
E
F
l
Q
i
R
S
T
U
U
Y
E
H
I
P
H
V
W
X
Por convención el N- terminal va a la izquierda, y el COOH a la derecha. Para P.Melo: Es la cadena lineal de aa, mas las cisternas que forman puente disulfuro. Muestra todos los aminoácidos, y el orden en que aparecen desde el N al C
t u tu a e unda ia en p oteina : i ten do tipo : alfa heli e
F an i `
y y
a
b
a
o
c
elo,
IO257 ,
d
e
f
g
hoja beta
.
e
5
Patrones conformacionales recurrentes, que llamaron la atención La punta de la flecha, marca la dirección hacia el extremo carboxilo terminal.
str ct r s c
l c
ri
ti ic : s f r
r cisc i
y
p
q
r
s
l , q
I u
t
h
y
r t i tr
v
w
x
y
,
y
s
i
s: ci
s
.
Se forma por un ataque nucleofílico del Nitrogeno sobre el Carbono Carbonílico. Rxn de deshidratación.
t u tu a e unda ia en p oteina : nla e peptidi o: e onan ia
Puede rotar
No puede rotar
: p3
: p2
F an i
y
o
elo,
IO257 ,
.
7
: No tiene libre rotación->pero, es una estructura resonante. Por lo tanto sólo puede estar trans o cis. 99,9% mas favorecido en trans. Con la excepción de la prolina ( 20% cis, 80% trans).
Estructura secundar ia en proteinas: Enlace peptidico: mas corto que un enlace simple
Franci co Melo, BIO257C, PUC.
y y
y
8
Distancia enlace C-N normal: 1,46 A Enlace amida: 1.33 A Enlace peptídico es tiene menor distancia.-> tiene características de doble enlace. No es que sea plano, si no que el enlace peptidido define un plano.La cadena principal es una colección de planos, entonces si conozco el ángulo entre los planos, puedo definir la estructura de la cadena principal
Estr uctur a secundar ia en pr oteinas: Cadena peptidica: angulo omega cis o tr ans
Hay que fijar se en el Hidr ógeno del Nitr ogeno y el Oxigeno del Car bonilo. Fr ancisco Melo, BIO257C, PUC.
11
o
: tiene solo 2 grados de libertad ( cis/trans)
Estr uctur a secundar ia en pr oteinas: Cadena peptidica: angulos phi, psi y liber t ad confor macional
Fr ancisco Melo, BIO257C, PUC.
y
10
Ángulos de torsión: o : tiene solo 2 grados de libertad ( cis/trans) : Mide la rotación a travéz del enlace N-C o o : Rotación a travéz del C -C(carbonilo).
o
y
Los demás dependen de la resolución.a 10°->Se tendrían 36 posibilidades para cada angulo. -> Un montón de libertad y de posibilidades de conformeros para la cadena principal.
¿Cómo se calculan?: yo me paro sobre un plano perpendicular al enlace, y se proyecta desde ahí una luz en cada plano y se mide eso
E tru tura e undaria en proteina : Angulo de tor ion (o diedro)
Fran i
o Melo, BI 257C, PUC.
13
Un
científico
hizo
el
siguiente
experimento: realizó un gráfico de dos dimensiones. En el eje X puso como variable el ángulo phi y en el eje Y puso como variable el ángulo psi. Los angulos de los aminoácidos se pueden medir de 0 a 360º. Sin embargo, por convención se usa entre -180 a 180º. Por lo tanto, si está a la derecha decimos que son angulos positivos, si está a la izquierda son ángulos negativos. Este gráfico representa en realidad a una esfera. Entonces, lo que hicieron estos investigadores, tomaron un conjunto de proteínas que se encontraban en bases de datos, y para cada aminoácido intermedio (excepto los N-terminal y C-terminal) midieron los ángulos phi y psi. Entonces se obtuvo un blot, donde cada punto representaba un aminoácido, y esta conformación se obtiene de proteínas nativas (termodinámicamente estables con minimos de energía libre accesible). Por lo tanto, aquí podemos ver cuáles son las conformaciones accesibles de estas proteínas, pero sólo de su cadena principal, no de las cadenas laterales. Entonces una
primera conclusión sería que existen conformaciones de la cadena principal que son termodinámicamente más estables. Además, podemos concluir que las proteínas nativas sólo adquieren un 25% del espacio disponible (1 de un total de 4 cuadrantes) para formar distintas conformaciones de su cadena principal (por formación de puentes de hidrógeno). Las zonas rojas corresponden a zonas donde se obtuvieron muchos puntos, a su vez, en las zonas amarillas también se obtuvieron muchos puntos pero en menor cantidad, y ya en la zona blanca se observaron muy pocos puntos. NOTA: ESTE EXPERIMENTO NO NECESARIAMENTE NOS DICE QUE LA CONFORMACIÓN BETA-PLEGADA ES MÁS ESTABLE QUE ALFA-HÉLICE. Más bien nos dice que en beta plegada, la tolerancia del ángulo de rotación es mayor que en alfa-hélice. Este gráfico permite también, aproximar a priori cual será la estructura secundaria del péptido, ya que existen combinaciones de ángulos típicas para cada estructura (- hélice y hoja).La conformación de los péptidos se define mediante la asignación de valores para cada par de esquinas i, i para cada aminoácido. En el segundo cuadrante se hallan las combinaciones de la hoja, en el tercer cuadrante se hallan la hélice derecha y los giros (loops); en el primer cuadrante las combinaciones de la hélice izquierda.
¿A qué se debe que estas conformaciones sean tan abundantes? Se debe a la formación de puentes de hidrógeno. En alfa-hélice, las cadenas laterales quedan mirando hacia afuera de la estructura. Y si éstas son afines pueden interactuar sin impedimento estérico, estableciendo moléculas de gran estabilidad. Los puentes de hidrógeno que se van formando en una estructura de alfa hélice son puentes de hidrógenos locales. Porque dos aminoácidos que están cercanos en términos de secuencia van a formar puentes de hidrógeno entre sí. Entonces cuando se está sintetizando una proteína a partir del ribosoma, rápidamente puede ir adoptando esta conformación, ya que sólo necesita 4-5 aminoácidos para comenzar a formarse en alfa-hélice. Por lo tanto, las alfa-hélices son las primeras estructuras que se puedan considerar en plegamiento, pero eso no quiere decir, que luego vayan a cambiar de conformación. (Cada 4 aminoácidos se forma un puente de hidrógeno en alfa-hélice) Las cadenas laterales pueden darle propiedades anfipáticas a la estructura, ya que hacia un lado pueden encontrarse grupos R polares y hacia el otro lado grupos R no polares, orientando a la estructura según afinidad con la misma proteína y/o con el ambiente. Además, hay muchas proteínas nativas que solo tienen alfa-hélice en su estructura, como las globinas, algunos factores de transcripción que reconocen secuencias específicas del ADN que generalmente tienen cadenas laterales cargadas positivamente, citokinas e interleukinas que participan en el sistema inmune,etc. Otro elemento recurrente que se ve en la estructura secundaria es la hebra beta. Es un segmento altamente estirado, cuando tienen dos hebras betas, también se pueden establecer puentes de hidrógeno entre los carbonilos y los grupos NH de la cadena principal, estabilizando la estructura. Cuando se tienen 2 o más hebras betas cercanas en el espacio forman lo que se conoce como planos beta u hojas beta (beta sheet). Aquí, los puentes de hidrógenos son no locales, ya que se pueden establecer entre aminoácidos que están muy lejanos en la secuencia, por lo tanto, esta estructura requiere un plegamiento mucho mayor que alfa-hélice. Hay dos tipos de hojas beta. Están las beta-paralelas y las beta-antiparalelas. Las hebras beta se dibujan con una flecha donde la punta representa el C-terminal y la base el N-terminal. De este modo, cuando estos vectores se encuentran en el mismo sentido, se forma la hoja beta paralela. Y cuando los vectores se encuentran en sentidos opuestos, se forma la hoja beta antiparalela. La gracia de las hojas betas, si ustedes lo giran, las cadenas laterales se alternan sobre y bajo el plano (trans), de modo que no hay impedimento estérico, e incluso algunas de estos grupos R interactúan entre sí, confiriéndole mayor estabilidad a la estructura. Con estas conformaciones se pueden formar las beta sándwich y las beta barril. Las beta sándwich dirigen sus grupos R según su afinidad de lo que envuelven y en el medio en que se encuentran, incluso pueden contener un ligando, que se une a lo que la proteína transporta.
El Beta barril son puras hojas beta antiparalelas, contituyen a las porinas, que son proteínas de membrana de bacterias que controlan el paso de sustratos. Como actúan a nivel de membrana, sus grupos R que se orientan hacia el exterior de la proteína son hidrofóbicos (inverso al beta sándwich), es decir, se orientan hacia la misma membrana celular. Estructura terciaria: estructura en la cual se conoce la posición espacial de cada átomo de la proteína en el espacio. Estructura cuaternaria: se obtiene por la interacción de más de una cadena proteica, de sus estructuras terciarias.
NOTA: HEMOGLOBINA TIENE ALFA-HELICE Y BETA-PLEGADA. ¿Qué fuerzas estabilizan la estructura de las proteínas?
Hydrogen Bonding: Polypeptides contain numerous proton donors and acceptors both in their backbone and in the R-groups of the amino acids. The environment in which proteins are found also contains the ample H-bond donors and acceptors of the water molecule. Hbonding, therefore, occurs not only within and between polypeptide chains but with the surrounding aqueous medium.
Hydrophobic Forces: Proteins are composed of amino acids that contain either hydrophilic or hydrophobic R-groups. It is the nature of the interaction of the different R-groups with the aqueous environment that plays the major role in shaping protein structure. The spontaneous folded state of globular proteins is a reflection of a balance between the opposing energetics of H-bonding between hydrophilic Rgroups and the aqueous environment and the repulsion from the aqueous environment by the hydrophobic R-groups. The hydrophobicity of certain amino acid R-groups tends to drive them away from the exterior of proteins and into the interior. This driving force restricts the available conformations into which a protein may fold.
Electrostatic Forces: Electrostatic forces are mainly of three types; charge-charge, charge-dipole and dipole-dipole. Typical charge-charge interactions that favor protein folding are those between oppositely charged R-groups such as K or R and D or E. A substantial component of the energy involved in protein folding is charge-dipole interactions. This refers to the interaction of ionized R-groups of amino acids with the dipole of the water molecule. The slight dipole moment that exist in the polar R-groups of amino acid also influences their interaction with water. It is, therefore, understandable that the majority of the amino acids found on the exterior surfaces of globular proteins contain charged or polar R-groups.
Van der Waals Forces: There are both attractive and repulsive van der Waals forces that control protein folding. Attractive van der Waals forces involve the interactions among induced dipoles that arise from fluctuations in the charge densities that occur between adjacent uncharged non-bonded atoms. Repulsive van der Waals forces involve the interactions that occur when uncharged nonbonded atoms come very close together but do not induce dipoles. The repulsion is the result of the electron-electron repulsion that occurs as two clouds of electrons begin to overlap. Although van der Waals forces are extremely weak, relative to other forces governing conformation, it is the huge number of such interactions that occur in large protein molecules that make them significant to the folding of proteins. La distancia depende del radio de las moléculas.
-
El agua es lo que dicta principalmente el plegamiento de la proteína.
-
Las fuerzas electrostáticas se mueven de acuerdo a la Ley de Coulomb.
De esto sabemos poco. El equilibrio se desplaza hacia la derecha ya que se ocupan muchas menos moléculas de agua para solvatar moléculas anfipáticas. Y termodinámicamente es más estable.
La secuencia primaria determina la estructura terciaria. Y la estructura nativa determina la funcionalidad de dicha proteína, dependiendo de los aminoácidos, su catálisis, etc. Si usted tiene una proteína o le hace una mutación a esta proteína, de manera que va a tener dos conformaciones alternativas de similar estabilidad y no hay barreras cineticas para pasar entre una y otra, usted va a tener una proteína que va a estar oscilando entre las dos proteínas. En general, las proteínas nativas están en torno a una sola conformación. Y eso es porque es mucho más estable que las demás conformaciones. Luego, la proteína se pliega, para reconocer específicamente su sustrato. Esto quizás se debió a la selección natural. La estructura tiene mucho más información que la secuencia. Aminoácidos no-locales en la secuencia convergen en la estructura (3D). Por lo tanto, la estructura determina la función de una proteína en mayor grado que su secuencia. La evolución opera directamente sobre la función de la proteína. Por tanto, la evolución opera en mayor grado sobre la estructura que sobre la secuencia de una proteína. La estructura de una proteína tiene mucha más información que su secuencia. Al final, la evolución va a elegir por función. No obstante, determinar la estructura 3D de una proteína es caro. ¿De qué manera podemos inferir qué aminoácidos son importantes dentro de una proteína? Supongamos que tenemos la estructura primaria de esa proteína. Lo primero que hago es blaestar mi proteína con las bases de datos. Es común encontrar zonas de aminoácidos muy conservadas, que se esperan que tengan funcionalidad similar en especies muy distintas. También pueden modelar a partir de cero, identificando aminoácido por aminoácido.
Experimento de Christian Anfinsen con Ribonucleasa (1961) El estaba trabajando con una proteína, y tomo páncreas, y de allí extrajo la ribonucleasa. La proteína fue reducida por betamercaptoetanol, que cuando tenemos los puentes disulfuros, los va a hidrogenar, separando estos puentes. Luego usó urea para remover las moléculas de agua y abrir la conformación de la proteína. Osea, la proteína ya no está inmersa en el agua. Y Luego midió la actividad enzimática. Luego removíó la urea por medio de diálisis. Y esperaba que la proteína se replegara a su estado nativo. Y luego se oxido, se espero que se formaran los puentes disulfuro. Sin embargo, faltaba el control negativo. ¡¿Por qué control negativo?? Para corroborar que la proteína se pliega sola y no por algún factor externo.. Se le reclamó al experimento que nunca se demostró que tan denaturada estaba la proteína, por lo que pudo haber estado un poquito denaturada y luego que se replegara a su forma nativa fue algo trivial. Para hacer el control negativo, invirtió el orden de los dos pasos finales. Primero oxidó para formar los puentes disulfuro entre las cisteínas libres en forma al azar. Pero no se vieron los mismos puentes disulfuros, sólo se vio un 2% de puentes disulfuros nativos. La gran conclusión de este experimento es que la secuencia de aminoácidos determina la estructura tridimensional de la proteína. Ab initio: Modelación de estructuras de proteínas nativas. El ab initio presenta dos problemas: -
No cuenta con la energía real de la naturaleza. Edifica el mínimo de energía.
Anfinsen demostró a finales de los 60' que al desplegar la enzima ribonucleasa A con urea y mercaptoetanol aumentaba su volumen aparente y desaparecían sus propiedades catalíticas. Al dializar la proteína volvía a plegarse. El plegamiento de las proteínas no está inducido por la célula sino que es el resultado de la interacción de la secuencia polipeptídica con el agua. Toda la información necesaria para adquirir su estructura tridimensional está presente en la secuencia de aminoácidos por lo que algún día se podrá predecir. Dada la flexibilidad de los polipéptidos el número de conformaciones posible de una proteína es enorme. Levinthal planteó la paradoja que lleva su nombre: si una proteína se pliega explorando al azar todas las conformaciones posibles tardará mucho más que la edad que tiene el Universo. Como las proteínas se pliegan muy deprisa (típicamente en milisegundos o segundos) está claro que no exploran todas las conformaciones al azar. Experimento de Chotia y Lesk Luego hay un segundo hallazgo importante. Unos investigadores británicos compararon la relación secuencia- estructura de las proteínas nativas. Ustedes pueden alinear secuencias de manera optima, con bases de datos, identificando secuencias idénticas. Otra forma es identificar la similitud tridimensional de estructuras proteicas a través de softwares. Para cada comparación que se tiene un valor de identidad de secuencia y de similitud estructural. En el eje X tenemos porcentaje de similitud de secuencia. En el eje Y tenemos similitud de estructura. La curva es hiperbólica. Eso implica que la estructura es más conservada que la secuencia. Podemos ver que al principio de la curva, si la secuencia se parece poco, la estructura se parece poco. Lo que vemos al final de la curva también es obvio, mientras mayor sea la similitud de la secuencia, esperamos que se parezcan mucho en estructura. Sin embargo, esto no baja linealmente. O sea yo puedo ir agregando mutaciones y mantener la misma estructura de la proteína, hasta que llega un punto de inflexión donde la proteína cambia de estructura. (Cuando es menos del 30% de similitud de secuencia). Esto es bueno para gente que trabaja con proyección de proteínas, ya que si tengo una secuencia, y la blasteo y encuentro otra secuencia con un 70% de identidad con mi secuencia, eso significa que puedo asumir que mi proteína va a adoptar una conformación similar a la de la base de datos. Esto llevó a las bases de la segunda técnica para detección de estructura de proteínas basada en computador que se llama Comparative Modelling o Comparación por Homología. Eso se parece a calcar una estructura.
Tipos de Comparative Modelling
Uno puede pensar que el truco está en la identidad de secuencia. Resulta que tengo Valina, leucina y citosina que son aminoácidos similares, osea yo los puedo cambiar y aun asi mantener las características físico químicas y el orden de la proteína.
NOTA: ESTO ES PARA PROTEÍNAS NATIVAS DEL PDB. NO EXTRAPOLAR ESTO A TODAS LAS PROTEINAS. Hay que tener en cuenta que también hay proteínas que ustedes pueden cambiar un solo aminoácido y cambia toda la estructura proteica. ¿Cómo explican que dos proteínas que son idénticas en secuencia en 100% pueden tener 50% de similitud de estructura? Esto se puede deber al medio ambiente y los dominios que se expresan en distintas condiciones ambientales y las interacciones de la proteína. Experimento de Holm y Sander. Estos dos científicos automatizaron el experimento anterior, usando internet. Cada estructura nueva que llegaba al PDB se blasteaba con toda la base de datos. De manera de actualizar esta relación de identidad de secuencia-estructura. A pesar de que la mayoría caía en esta curva, empezaron a surgir nuevos puntos en este espacio. Los puntos nuevos aparecieron al comienzo de la curva, en la parte inferior, es decir, proteínas con bajo porcentaje de identidad de secuencia, y por lo tanto, con bajo similitud estructural. También se encontraron casos de proteínas que tenían baja identidad de secuencias y una similitud estructural muy alta. Esto se pudo haber debido a evolución convergente ya que se trata de proteínas con funciones y secuencias distintas pero con estructuras muy similares.