COLL5_MIMIV

ID   COLL5_MIMIV             Reviewed;         812 AA.
AC   Q5UPS6;
DT   13-SEP-2005, integrated into UniProtKB/Swiss-Prot.
DT   07-DEC-2004, sequence version 1.
DT   29-SEP-2021, entry version 57.
DE   RecName: Full=Collagen-like protein 5;
GN   OrderedLocusNames=MIMI_R241;
OS   Acanthamoeba polyphaga mimivirus (APMV).
OC   Viruses; Varidnaviria; Bamfordvirae; Nucleocytoviricota; Megaviricetes;
OC   Imitervirales; Mimiviridae; Mimivirus.
OX   NCBI_TaxID=212035;
OH   NCBI_TaxID=5757; Acanthamoeba polyphaga (Amoeba).
RN   [1]
RP   NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC DNA].
RC   STRAIN=Rowbotham-Bradford;
RX   PubMed=15486256; DOI=10.1126/science.1101485;
RA   Raoult D., Audic S., Robert C., Abergel C., Renesto P., Ogata H.,
RA   La Scola B., Susan M., Claverie J.-M.;
RT   "The 1.2-megabase genome sequence of Mimivirus.";
RL   Science 306:1344-1350(2004).
CC   -!- FUNCTION: May participate in the formation of a layer of cross-linked
CC       glycosylated fibrils at the viral surface thus giving it a hairy-like
CC       appearance. {ECO:0000305}.
CC   -!- SUBCELLULAR LOCATION: Virion.
CC   -!- PTM: May be hydroxylated on lysine by the viral-encoded procollagen-
CC       lysine,2-oxoglutarate 5-dioxygenase. {ECO:0000305}.
CC   ---------------------------------------------------------------------------
CC   Copyrighted by the UniProt Consortium, see https://www.uniprot.org/terms
CC   Distributed under the Creative Commons Attribution (CC BY 4.0) License
CC   ---------------------------------------------------------------------------
DR   EMBL; AY653733; AAV50514.1; -; Genomic_DNA.
DR   RefSeq; YP_003986737.1; NC_014649.1.
DR   GeneID; 9924848; -.
DR   KEGG; vg:9924848; -.
DR   Proteomes; UP000001134; Genome.
DR   InterPro; IPR008160; Collagen.
DR   Pfam; PF01391; Collagen; 2.
PE   4: Predicted;
KW   Collagen; Glycoprotein; Hydroxylation; Reference proteome; Repeat; Virion.
FT   CHAIN           1..812
FT                   /note="Collagen-like protein 5"
FT                   /id="PRO_0000059420"
FT   DOMAIN          69..128
FT                   /note="Collagen-like 1"
FT   DOMAIN          143..502
FT                   /note="Collagen-like 2"
FT   DOMAIN          506..565
FT                   /note="Collagen-like 3"
FT   REGION          71..568
FT                   /note="Disordered"
FT                   /evidence="ECO:0000256|SAM:MobiDB-lite"
FT   REGION          730..802
FT                   /note="Disordered"
FT                   /evidence="ECO:0000256|SAM:MobiDB-lite"
FT   COMPBIAS        88..113
FT                   /note="Basic and acidic residues"
FT                   /evidence="ECO:0000256|SAM:MobiDB-lite"
FT   COMPBIAS        121..560
FT                   /note="Basic and acidic residues"
FT                   /evidence="ECO:0000256|SAM:MobiDB-lite"
FT   COMPBIAS        731..754
FT                   /note="Polar residues"
FT                   /evidence="ECO:0000256|SAM:MobiDB-lite"
FT   COMPBIAS        773..789
FT                   /note="Polar residues"
FT                   /evidence="ECO:0000256|SAM:MobiDB-lite"
FT   CARBOHYD        13
FT                   /note="N-linked (GlcNAc...) asparagine; by host"
FT                   /evidence="ECO:0000255"
FT   CARBOHYD        83
FT                   /note="N-linked (GlcNAc...) asparagine; by host"
FT                   /evidence="ECO:0000255"
FT   CARBOHYD        502
FT                   /note="N-linked (GlcNAc...) asparagine; by host"
FT                   /evidence="ECO:0000255"
FT   CARBOHYD        637
FT                   /note="N-linked (GlcNAc...) asparagine; by host"
FT                   /evidence="ECO:0000255"
FT   CARBOHYD        658
FT                   /note="N-linked (GlcNAc...) asparagine; by host"
FT                   /evidence="ECO:0000255"
FT   CARBOHYD        667
FT                   /note="N-linked (GlcNAc...) asparagine; by host"
FT                   /evidence="ECO:0000255"
SQ   SEQUENCE   812 AA;  78147 MW;  52CB0CB9034270DE CRC64;
     MNYQYTNYCC QSNITLPNSL TCTNAKIYVD VGRPNNCLGN DGDLYLDTNT NNLYYKIDGV
     WTLVSNLRGA SGAQGVKGDP GSNGSKGTKG EKGDKGDKGS KGDNGEKGEK GDAGLNGLDG
     SKGDKGDDGS KGSKGNKGDA IKGEKGDKGE IGDKGDKGED GLKGVKGDVG DKGDKGDKGD
     LGLKGVKGDK GITGDKGDKG EIGEKGNKGD KGDVGVKGDD GTKGEKGEKG TKGDKGNKGD
     KGEDGLKGEN GDIGDKGDKG SKGEDGLKGD KGDIGDKGDK GSKGEDGLKG SKGDKGEIGN
     KGDKGDKGDI GIKGDKGDIG DKGDKGDPGL KGEKGEKGDK GDIGDKGETG SKGSKGDKGD
     KGDKGDVGDK GSKGDKGDIG EKGDKGSKGD KGDKGDKGDK GDLGDKGDKG DKGETGEKGS
     KGDKGDKGDK GETGSKGDVG LKGSKGDKGD KGIKGDVGDK GDIGITGDKG DKGVKGDKGD
     IGLKGDKGDK GTKGDKGSKG DNGSKGETGA KGDKGDKGDK GIKGDTGTKG VKGDKGSKGD
     KGDLGDTGIK GDKGEKGDPG IKGEAGTNSP FIGTFIDNVP GSGTTIVPFG AIFAYLSAAG
     GGGGGGGISD GNGSPGGGAA GTVYLYPLTV TSGLVVNYTI GSGGTAGTPV AAGGAGGNTT
     ITIGTLNFTL NGGGGGGIGG TVGAINGGAG GSVTTPLGTT PGGSGGVGNG GPLPGNGQVG
     LFAFSGAGGG QARTNGASTG GFPGGQTDSN TFGGGGGGAS GFAKGGDGEQ EIPTTIPAQS
     GTLGSGGGGP TDVSASGGRG GDGFVRLDYY SA