معلومة

كيفية التعرف على الزخارف المحفوظة للبروتين

كيفية التعرف على الزخارف المحفوظة للبروتين



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أود التأكد من صحة منطقتي. بافتراض أنني أعرف تسلسل الأحماض الأمينية للبروتين المعني. لا أستطيع أن أقول أي شيء عن الهيكل الذي ينظر فقط إلى تسلسل الأحماض الأمينية لهذا البروتين. ولكن إذا كنت أعرف أن هذا البروتين مأخوذ من كائن حي آخر وكانت بنية هذا البروتين معروفة ، فعندئذ يمكنني مقارنة كلا التسلسلين واستنتاج شيء ما ، أليس كذلك؟ ما أعنيه هو أنه لا يوجد تسلسل محدد يقابل ، على سبيل المثال ، شكل حلزوني ثنائي الدوران ، وأنه يمكنني أخذ هذا التسلسل ، والتحقق مما إذا كان البروتين الخاص بي موجودًا وأقول أن هناك حلزون ثنائي الدوران - حلزوني عزر أم لا. لا يمكنني فعل ذلك إلا بالمقارنة مع البروتين الذي تعرف تركيبته بالفعل ، أليس كذلك؟


يبدو لي أنك تسأل عن نمذجة التماثل. في هذه الحالة ، نعم ، تحتاج إلى مقارنة البروتين الذي تريده ببروتين (أو بروتينات) ذات بنية معروفة. تتضمن نمذجة التنادد باختصار ثلاث (أربع؟) خطوات: تحديد القالب / محاذاة القالب ، والنمذجة ، وتقييم الجودة.

تبدأ في العثور على قالب للنمذجة الخاصة بك. يتم ذلك عادةً عن طريق محاذاة التسلسل ، على سبيل المثال التفجير. من المفضل أن تستخدم محاذاة تسلسل متعددة والتي تقوم بمحاذاة المناطق المحفوظة بشكل أكثر حساسية. تريد بعد ذلك نموذجًا بهوية تسلسل عالية قدر الإمكان (ينتج أكثر من 50٪ عادةً نماذج بحوالي 1 Å RMSE [1] في ذرات السلسلة الرئيسية. تجنب أقل من 30٪ حيث تزداد أخطاء النمذجة بسرعة.)

ثم هناك عدد من استراتيجيات النمذجة المختلفة (ويكيبيديا). لكن في الأساس ، يهدفون جميعًا إلى التنبؤ بهيكل لب البروتين المحفوظ قدر الإمكان (وهو عادةً ما تهتم به حقًا). الأحماض الأمينية المحيطية أكثر ديناميكية وأكثر عرضة للتطور وبالتالي يصعب التنبؤ بها. بعد ذلك ، والأهم من ذلك ، تقوم بتقييم جودة النموذج الخاص بك. يمكن القيام بذلك عن طريق حساب انتهاكات الإمكانات الإحصائية أو الطاقات التوافقية القائمة على الفيزياء (أو باستخدام طرق أكثر تقدمًا مثل طرق الانحدار متعدد المتغيرات). كما هو الحال في جميع النمذجة ، تعد هذه الخطوة الأكثر أهمية حقًا لأن التنبؤ بنموذج ضعيف مضلل وعديم الفائدة تمامًا.

إذا لم تجد أي قالب ، يمكنك اللجوء إلى المجال المثير للتنبؤ بهيكل بروتين De novo ، حيث الهدف هو التنبؤ بالبنية من تسلسل الأحماض الأمينية وحدها. أنا لست على دراية بأساليبهم ، لكن التنبؤ بـ de novo صعب (!). لا أتذكر أي أرقام دقيقة ولكن عدد التطابقات في البروتين ذي الحجم الطبيعي كبير بشكل فلكي ، مما يؤدي إلى تحديات حسابية وحسابية كبيرة. بالإضافة إلى ذلك ، بدون أي تسلسل مرجعي ، تكون افتراضات النموذج أكبر من افتراضات نمذجة التماثل. على الرغم من أنني سمعت أن هذا المجال قد أحرز تقدمًا كبيرًا في السنوات القليلة الماضية.


تحرير: لقد أدهشني أنك قد تسأل عن التعرف على طيات البروتين أيضًا. يوجد عدد كبير من الأدوات والطرق المختلفة للتعرف على مجالات البروتين وتحديد موقعها باستخدام تسلسل الأحماض الأمينية كمدخلات. يتوفر العديد منها كخوادم ويب. على سبيل المثال phyre الذي يستخدم ملف تعريف الأحماض الأمينية ويتنبأ بهياكل ثانوية للبحث في مكتبات الهيكل. الأساليب القائمة على الخيوط مثل MUSTER. يوجد أيضًا رقم يعتمد على نماذج ماركوف المخفية (HMMs). على سبيل المثال FISH الذي يستخدم HMMs الهيكلية.


يؤدي التفاعل بين ATP ، وهو نيوكليوتيد متعدد الوظائف وفي كل مكان ، والبروتينات إلى تهيئة الفسفرة وتخليق عديد الببتيد والتحلل المائي لـ ATP الذي يوفر الطاقة لعملية التمثيل الغذائي. ومع ذلك ، فإن المعرفة الحالية المتعلقة بالآليات التي يتم من خلالها التعرف على البروتينات ATP غير مكتملة ومبعثرة وغير دقيقة. نحن نحقق بشكل منهجي في التسلسل والزخارف الهيكلية للبروتينات التي تتعرف على ATP. حددنا ثلاث زخارف جديدة وصقلنا المعلومة ص-زخارف حلقية وفئة II aminoacyl-tRNA synthetase. تحدد الأشكال الخمسة خمسة أنماط تفاعل بروتين ATP مميزة والتي تتعلق بأكثر من 5٪ من تراكيب البروتين المعروفة. نوضح أنه على الرغم من أن هذه الأشكال تشترك في ثلاثي الببتيد GXG مشترك ، إلا أنها تتعرف على ATP من خلال مجموعات وظيفية مختلفة. ال صيتعرف الشكل الحلقي على ATP من خلال الفوسفات ، ويستهدف نموذج مركب aminoacyl-tRNA من الصنف الثاني الأدينوزين ، وتتعرف الأشكال الثلاثة الأخرى على كل من الفوسفات والأدينوزين. نظهر أن بعض الزخارف تشترك فيها أنواع مختلفة من الإنزيمات. تظهر الاختبارات الإحصائية أن الأشكال المتسلسلة الخمسة مرتبطة بشكل كبير ببروتينات ربط النيوكليوتيدات. يكشف الاختبار واسع النطاق على PDB أن حوالي 98 ٪ من البروتينات التي تحتوي على أحد الأشكال الهيكلية تم تأكيدها لربط ATP.

(أ) مجموعة متراكبة من هياكل موقع ربط ATP التي تنتمي إلى وضع ربط "الصنف الثاني aminoacyl- tRNA synthetase". (ب) الشكل الهيكلي الذي تم تحديده بواسطة طريقة التجميع لوضع الربط "aminoacyl- tRNA synthetase من الفئة الثانية".


تعليقات المراسل

توقيت

لا يوجد ما يشير إلى تاريخ آخر تحديث للموقع ، أو ما هو إصدار كل من قواعد بيانات التسلسل التي يتم البحث عنها.

أفضل ميزة

الموقع سهل الاستخدام للغاية ، كما أن تكامل الموارد المختلفة مفيد للغاية. يمكن للمرء أن يصنع نموذجًا ، والبحث عن البروتينات ذات الزخرفة ، ثم تحديد ما إذا كانت ، بدورها ، تشترك في أي أشكال أخرى.

أسوأ ميزة

لسوء الحظ ، فإن النتائج مشكوك فيها. باستخدام أحد البروتينات المفضلة لدي - وهو من المفترض أن يكون glycosyltransferase من أرابيدوبسيس - تم دفن أحد الأشكال الحقيقية المحفوظة في فوضى من الإيجابيات الكاذبة (على الرغم من أن الصفحة تدعي أنه لا يُتوقع وجود إيجابيات خاطئة عند هذا الصرامة). والأسوأ من ذلك ، عندما ذهبت للتحقق من وصف "الضربة الحقيقية" في قاعدة بيانات BLOCKS باستخدام الرابط المقدم ، تلقيت خطأ يفيد بعدم وجود مثل هذا الحظر. عندما استخدمت الرابط لبدء فحص EMOTIF ، تلقيت قائمة كبيرة من البروتينات المطابقة ، من كل من SwissPROT و GenBank. لكن الفحص الدقيق كشف أن عددًا من البروتينات التي كان يجب أن تتطابق مع نفس الشكل لم يكن موجودًا. في الواقع ، من أصل 22 معروفًا أرابيدوبسيس البروتينات التي تحتوي على نموذج نقل الجليكوزيل هذا ، لم يكن هناك أي واحد منها في القائمة - وهو إغفال صارخ جدًا. من أجل الإنصاف ، قررت اختبار بروتين آخر: بروتين متعدد الوظائف يشارك في أكسدة بيتا للأحماض الدهنية. هناك العديد من المجالات الواضحة جدًا في هذا البروتين ، والتي تطابق تسلسل الإجماع PROSITE لهذه الأشكال. تم تحديد مجال واحد (في الواقع ، 18 مرة) ، لكن المجالات الأخرى لم يتم تحديدها. كشف مسح EMOTIF مع العديد من مباريات التصميم مرة أخرى عدم وجود أي من أرابيدوبسيس التسلسلات التي تحتوي على هذه الزخارف. على الرغم من عدم ذكر ذلك في أي مكان على الموقع ، إلا أنه يبدو من الواضح أنه يتم البحث فقط في مجموعة فرعية من قاعدة بيانات البروتين (أو نسخة قديمة جدًا).

عندما حاولت السماح بعدم تطابق واحد في فحص EMOTIF ، معتقدًا أنه ربما يتسبب عدم تطابق أحماض أمينية واحدة في حذف بعض البروتينات ، اكتشفت أن هذه الميزة معطلة بشكل واضح. بدلاً من قائمة قصيرة من البروتينات المتطابقة مع عنصر البروتين المميز ، بدأ البحث بدلاً من ذلك في إطلاق عدد لا يصدق من متواليات البروتين كاملة الطول ، دون أي تمييز أو تدوين.

وتجدر الإشارة إلى أن موقع EMOTIF قد خضع لبعض التنقيحات في الشهر منذ كتابة هذا التقرير. لم يتغير التنقل ولا تزال هناك مشاكل في النتائج - الآن من المرجح أنه لن يتم إرجاع أي نتائج أكثر من إعطاء المستخدم نتائج زائفة.

قائمة الرغبات

يحتاج الموقع إلى توثيق أفضل للسماح للأشخاص بمعرفة كيفية عمل البرامج ولإيضاح حدود الأدوات بوضوح. لقد بحثت في معظم الموقع وكانت صفحات المساعدة الوحيدة التي يمكنني العثور عليها هي إنشاء EMOTIFs من محاذاة تسلسل متعددة.

المواقع ذات الصلة

لا يوجد ما يشير إلى تاريخ آخر تحديث للموقع ، أو ما هو إصدار كل من قواعد بيانات التسلسل التي يتم البحث عنها.

هناك موقعان أفضل للبحث عن الحوافز وهما خوادم BLOCKS وقاعدة بيانات PROSITE لعائلات ومجالات البروتين.


التنبؤ بمجال البروتين

مجالات البروتين هي ترتيبات لعناصر البنية الثانوية ، والتي تمنح وظيفة بيولوجية. لقد تطورت البروتينات المعقدة عن طريق مجموعة مختلطة ومطابقة للمجالات الفردية أو عن طريق ربط عدة وحدات من نفس المجال معًا. المجالات لها وظيفة مماثلة في الكائنات الحية المختلفة وتنظيم مجالات البروتين يؤدي إلى تلميحات حول وظيفة البروتين. أحد الأشكال واسعة الانتشار هو "الحلزون الدوراني" ، والذي يلمح إلى أن البروتين الخاص بك قادر على ربط الحمض النووي ببعض السعة.

أمثلة على البرامج التي تتنبأ بمجالات محددة:

منضدة عمل PSIPRED & # 8211 لتحليل تسلسل البروتين بما في ذلك الهيكل الثانوي وتنبؤ البروتين المضطرب

Phobius & # 8211 شرائح حلزونية عبر الغشاء وتسلسل إشارة

تنبؤات COILS & # 8211 للمناطق الملفوفة ، المميزة للبروتينات الهيكلية أو البروتينات المشاركة في تنظيم النسخ


أشكال الحفظ - تصنيف جديد قائم على التطوري للبروتينات

تشير أنماط حفظ البروتين عبر الأنواع ، وفقًا لتوجيهات الانتقاء الطبيعي ، إلى التفاعل بين وظيفة البروتين والتفاعل بين البروتين والتطور. منذ بداية العصر الجينومي ، تم تصنيف البروتينات على أنها إما محفوظة أو غير محفوظة. أصبح هذا التصنيف البسيط قديمًا وسريعًا بمجرد أن أصبحت البيانات الخاصة بأخصائيي تقويم العظام متاحة لآلاف الأنواع.

لإثراء اللغة المستخدمة لوصف أنماط الحفاظ على البروتين ، وفهم أهميتها البيولوجية ، قمنا بتصنيف 20294 بروتينًا بشريًا مقابل 1096 نوعًا. أسفرت تحليلات أنماط حفظ البروتينات البشرية في مجموعات حقيقية النواة المختلفة عن أنماط غنية ومتغيرة للغاية لم يتم تمييزها أو دراستها من قبل. باستخدام التصنيفات الرياضية ، حددنا سبعة أشكال للحفظ: خطوات ، حرجة ، تم تطويرها مؤخرًا ، هضبة ، فقدان كليد ، فقدان السمات و ربحالتي تصف تطور البروتينات البشرية.

نوع واحد من الزخارف التي أطلقنا عليها ربح، يصف البروتينات البشرية المحفوظة بشكل كبير في عدد صغير من الكائنات الحية ولكنها غير موجودة في معظم الأنواع الأخرى. ومن المثير للاهتمام أن هذا النمط يتنبأ بـ 73 حالة محتملة لنقل الجينات الأفقي في حقيقيات النوى.

بشكل عام ، يقدم عملنا مصطلحات جديدة لأنماط الحفظ ويحدد لغة جديدة تهدف إلى تصنيف البروتينات بناءً على التطور ، وكشف جوانب تطور البروتين ، وتحسين فهم وظائف البروتين.


كيفية التعرف على الأشكال المحفوظة للبروتين - علم الأحياء

مرحبًا نيكولاس ، شكرًا جزيلاً لك على تقديم الكثير من المعلومات. كانت طرق المعلوماتية الحيوية II صعبة بعض الشيء ولكن تم فهمها بعد تكرار مناقشات الصبي. شكرا جزيلا.

إنني أقدر حقًا هذه السلسلة من الدورات التدريبية ، وأود أن أشكر البروفيسور بروفارت وزملائه على عملهم الرائع في إعداد هذه السلسلة وتقديمها. شكرا جزيلا!

في هذه الوحدة & # x27ll ، نستكشف المناطق المحفوظة داخل عائلات البروتين. يمكن أن تساعدنا مثل هذه المناطق في فهم بيولوجيا التسلسل ، من حيث أنها من المحتمل أن تكون مهمة للوظيفة البيولوجية ، ويمكن استخدامها أيضًا للمساعدة في إسناد الوظيفة إلى التسلسلات حيث يمكننا تحديد أي متماثلات في قواعد البيانات. هناك طرق مختلفة لوصف المناطق المحفوظة من التعبيرات العادية البسيطة إلى ملفات التعريف إلى نماذج ماركوف المخفية (HMMs).

Реподаватели

نيكولاس جيمس بروفارت

Екст видео

حسنًا ، في معمل اليوم & # x27s ، نقوم بفحص الزخارف في البروتينات. وغالبًا ما يمكن أن يخبرنا وجود هذه الأشكال عن الوظيفة البيولوجية لبروتين معين ، خاصةً إذا تمكنا من العثور على أي تماثل مع التسلسلات في قاعدة البيانات. لذلك بدأنا استخدام قاعدة بيانات النطاق المحفوظة في NCBI. ويسأل السؤال 1 أ ما هي قواعد البيانات المصدر التي تشكل CDD ، وينبغي أن يكون من السهل جدًا اكتشاف ذلك في قسم المساعدة. السؤال 1 ب يسأل عن حجم بروتين BRCA2. إنه كبير جدًا ، ويبلغ طوله أكثر من 3000 حمض أميني. ثم يسأل السؤال 1 ج عن عدد نطاقات البروتين المتميزة التي يمتلكها BRCA2. وإذا قمنا بحساب عدد المدخلات الفريدة ، أو المعرفات في هذا القسم هنا. & # x27ll نرى أن هناك خمسة مجالات مختلفة موجودة. يسأل السؤال 1 د ، كم عدد نطاقات تكرار BRCA2 الموجودة؟ وهناك ثمانية من هذه الأشياء. هذه هي النقط الخضراء في هذه المنطقة من البروتين هنا. حسنا. ثم نقوم باستكشاف ما يسمى CDART ، وهي أداة استرجاع بنية المجال المحفوظة. وستتيح لك هذه الأداة تحديد البروتينات التي لها هياكل مجال مماثلة ، أي التركيب المماثل للنطاقات مثل البروتين الذي يهمك. لذلك لا يجب بالضرورة أن يكونوا متشابهين. يجب أن تحتوي فقط على نفس الأجزاء المكونة للبروتين الذي يهمنا. [السعال] يسأل السؤال 1e عن عدد الأنواع حقيقية النواة التي تحتوي على منطقة تكرار BRCA2. تحتوي منطقة BRCA2 على OB1 و OB2 و OB3 ، ولكنها في الواقع تفتقر إلى منطقة تكرار BRCA2 ، والتي يشار إليها في CDART باسم BRCA2. يمكننا استخدام أداة التصفية لتحديد ذلك بالفعل من خلال تضمين واستبعاد هذين المجالين ، ونرى أن هناك العديد من البروتينات التي تفتقر بالفعل إلى منطقة التكرار ، منطقة تكرار BRCA2 ، ولكنها تحتوي على مجالات OB1 و OB2 و OB3. وهذا من شأنه أن يشير إلى أن هذه المجالات يمكن أن تعمل في الواقع بشكل مستقل عن بعضها البعض. لذلك ، لا يجب أن يكون المجال الوحيد & # x27t موجودًا حتى يعمل المجال الآخر. لذلك ، ربما يخدمون وظائف مستقلة. لذا فإن الأداة التالية أو قاعدة البيانات التالية التي نستكشفها هي SMART. وسيقوم SMART مرة أخرى بفحص تسلسل البروتين بحثًا عن مناطق أو مجالات أو مناطق متكررة معروفة. & # x27ll أيضًا نحدد المناطق المتكررة. أو ببتيدات الإشارة ، كل هذه الأنواع من الإشارات في البروتينات المهمة للوظيفة ، وعندما نقوم بتغذية BRCA2 في SMART ، نرى أنه لا توجد في الواقع ببتيدات إشارة أو مجالات عبر الغشاء. لذلك لا يبدو أنه مرتبط بـ & # x27t ، فإنه يشير إلى أنه & # x27s غير مرتبط بالغشاء ، وأنه & # x27s لا يستهدف أي مقصورة فرعية خلوية معينة. السؤال 1 س يسأل كم عدد المناطق منخفضة التعقيد التي يمتلكها BRCA2؟ وما نبحث عنه هنا هو هذه المناطق منخفضة التعقيد. ونحن ببساطة نعد هؤلاء في القائمة. لذلك ، سيساعدك ذلك في الإجابة على أحد أسئلة الاختبار. [السعال] قاعدة البيانات التالية التي & # x27re نستكشفها هي Pfam وها نحن هنا ، مرة أخرى ، نتغذى في تسلسلاتنا. ويسأل عن عدد مجالات البروتين المختلفة التي يحددها Pfam. وهنا مرة أخرى نرى خمسة كما فعلنا مع CDD. مرة أخرى ، نرى ثمانية من تكرار BRCA2 ، بالإضافة إلى هذه المجالات الفريدة الأخرى في هذه النهاية. لذلك ، من الجيد رؤية التطابق بين CDD وبحث Pfam. لذا ، يسأل السؤال j عما إذا كنا نرى مجال تكرار BRCA يحدث في البروتينات المتعامدة غير BRCA2 أم لا. لذا ، هذا يشبه نوعًا ما عكس عملية البحث التي أجريناها باستخدام CDART. حيث كنا نبحث عن وجود مجالات تكرار غير BRCA في بروتينات أخرى في غياب تكرار BRCA. لذلك نحن هنا & # x27 نفعل العكس ، ونحن & # x27 نسأل عما إذا كان تكرار BRCA يحدث أم لا في البروتينات المتعامدة غير BRCA2. وما يمكننا القيام به هو أنه يمكننا ببساطة التمرير لأسفل في الإخراج الرسومي لبحث Pfam الخاص بنا ، ونرى أن هناك حالات نرى فيها تكرار BRCA في البروتينات ، لكننا لا نرى هذه المناطق الأخرى هنا. وهذا يشير مرة أخرى - يؤكد - أن المجالين يمكن أن يعملوا بشكل مستقل ، ويفترض أن يكون كل منهما مستقلاً عن الآخر ، ولهما وظائف مختلفة. أنهم لا يجب أن يكونوا حاضرين ليعملوا معًا. لذا فهذه حقيقة مهمة. وبعد ذلك يطرح السؤال k ، هل يمكننا أن نقول أي شيء مثير للاهتمام حول الأنواع التي تمتلك تكرارات BRCA بدقة ولا توجد مجالات أخرى من نوع BRCA2 ويبدو أن هناك تنوعًا كبيرًا في الأنواع. لذلك ، لا يقتصر الأمر على أي نوع معين. حسنا. الآن نحن ننظر في التسلسلات التي تدخل في تحديد تكرار BRCA2. هذا هو رقم إدخال Pfam PF00634. وإذا أخذنا كل تلك التسلسلات الموجودة في التسلسلات المختلفة الموجودة في قواعد البيانات ، يمكننا أن نرى أن أفضل موضع محفوظ في HMM لتكرار BRCA2 هو في الواقع هذا الموضع هنا. المركز السابع. وهذا & # x27s فينيل ألانين. تم حفظه بالكامل تقريبًا. هناك القليل من الاختلاف ، لكنه دائمًا ما يكون فينيل ألانين في هذا الموضع. إذا قمت بالتمرير إلى اليمين ، فستجد هنا & # x27ll إجابة لسؤال اختبار آخر. [السعال] لذا فإن السؤال م يسأل ، كيف تم بناء HMM لتكرار BRCA2. ويمكننا بالفعل رؤية الأوامر ، أوامر UNIX ، التي تم إصدارها في الإصدار المستقل من HMMer لإنشاء HMM. ونحن لا نستخدم ذلك ، ولكن من الجيد معرفة أنه يمكننا التعمق في الأوامر الفعلية التي تم استخدامها لإنشاء HMM. لذا فإن الجزء الأخير من المختبر يتعامل مع استخدام InterProScan. وكما ذكرت في المحاضرة ، InterPro & # x27s مجموعة شاملة من كل هذه الأشكال والمجالات المختلفة التي تم تجميعها في قاعدة بيانات رئيسية واحدة. وهذا يجعل من السهل جدًا البحث في العديد من قواعد البيانات المختلفة باستخدام أداة InterProScan. ويطرح السؤال n ، هل نتائج InterProScan الخاصة بنا لـ BRCA2 متوافقة مع نتائج بحث CDD؟ والإجابة مرة أخرى هي نعم ، نحن نرى التطابق. حتى هنا يكرر BRCA. هناك ثمانية منهم بالإضافة إلى هذه المجالات الأخرى الموجودة في الطرف C من بروتين BRCA2. وتم طرح أحد أسئلة الاختبار حول ما إذا كان هناك & # x27s فكرة إيجابية تم تحديدها واحتوائها داخل InterPro أم لا. وما نبحث عنه هنا هو وجود PS Designator على معرّفات الانضمام هنا ، لذلك إذا كان هناك & # x27s a PS ، فهذا يعني Prosite ، فإن الفكرة جاءت من Prosite. لذلك من المفترض أن يساعدك ذلك في الإجابة على سؤال الاختبار هذا. حسنًا ، بنهاية المعمل الأول لأساليب المعلوماتية الحيوية 2 ، يجب أن تعرف سبب اهتمامنا بالبحث عن الزخارف والملفات الشخصية في التسلسل. يجب أن تعرف مزايا وعيوب تمثيل العناصر الهيكلية في تسلسل البروتين كزخارف ، أو حتى كملفات جانبية ، وهي أفضل قليلاً. يجب أن تكون قادرًا على إنشاء فكرة معينة بمحاذاة معينة. يجب أن تكون أيضًا قادرًا على فهم كيفية تسجيل تسلسل معين باستخدام مصفوفة تسجيل محددة لموضع معين ، PSSM ، كما يجب أن تكون قادرًا على استخدام CDD و CDART و SMART و Pfam و InterProScan لتحديد وحدات وظيفية معينة ضمن تسلسل البروتين


كيفية التعرف على الأشكال المحفوظة للبروتين - علم الأحياء

مرحبًا نيكولاس ، شكرًا جزيلاً لك على تقديم الكثير من المعلومات. كانت طرق المعلوماتية الحيوية II صعبة بعض الشيء ولكن تم فهمها بعد تكرار مناقشات الصبي. شكرا جزيلا.

إنني أقدر حقًا هذه السلسلة من الدورات التدريبية ، وأود أن أشكر البروفيسور بروفارت وزملائه على عملهم الرائع في إعداد هذه السلسلة وتقديمها. شكرا جزيلا!

في هذه الوحدة & # x27ll ، نستكشف المناطق المحفوظة داخل عائلات البروتين. يمكن أن تساعدنا هذه المناطق في فهم بيولوجيا التسلسل ، من حيث أنها من المحتمل أن تكون مهمة للوظيفة البيولوجية ، ويمكن استخدامها أيضًا للمساعدة في إسناد الوظيفة إلى التسلسلات حيث يمكننا & # x27t تحديد أي متماثلات في قواعد البيانات. هناك طرق مختلفة لوصف المناطق المحفوظة من التعبيرات العادية البسيطة إلى ملفات التعريف إلى نماذج ماركوف المخفية (HMMs).

Реподаватели

نيكولاس جيمس بروفارت

Екст видео

[موسيقى] حسنًا ، مرحبًا بكم في طرق المعلوماتية الحيوية II. أنا & # x27m معلمك نيكولاس بروفارت. تم تطوير مواد الدورة التدريبية لهذه الدورة التدريبية بواسطة رايان أوستن ، وديفيد جوتمان ، ولورا هوغ ، وموموكو برايس ، وأنا. وقد أنتج الدورة جيمي ويس وروهان باتيل وويليام هيكوب ومرة ​​أخرى أنا. للتذكير ، يرجى استخدام أدوات كورسيرا لمناقشة محتوى المحاضرة والمختبرات. شكل المقرر الدراسي والمنهج الدراسي على النحو التالي. ستغطي الدورة البحث عن الحافز ، وتفاعلات البروتين والبروتين ، والمعلوماتية الحيوية الهيكلية ، والتعبير الجيني ، وتحليل البيانات ، والتنبؤ بعنصر رابطة الدول المستقلة. معظم الأدوات المستخدمة في الاستكشاف تعتمد على الويب. في الأسبوع الأول ، نقوم بتغطية أشكال البروتين. في الأسبوع الثاني ، نقوم بتغطية تفاعلات البروتين والبروتين. الأسبوع 3 ، بنية البروتين. الأسبوع الرابع والخامس ، تحليل التعبير الجيني والأسبوع السادس ، العناصر التنظيمية لرابطة الدول المستقلة. تتكون المادة الأسبوعية من محاضرات صغيرة مدتها حوالي 20 دقيقة ومقدمة قصيرة مدتها دقيقتان ومقاطع فيديو موجزة. ثم هناك المعامل الأسبوعية التي ستستغرق حوالي ساعة إلى ساعتين للقيام بها ، ثم هناك اختبارات معملية مرتبطة بهذه الاختبارات المعملية القصيرة إلى حد ما. هناك & # x27s أيضًا فيديو مناقشة معمل اختياري عبر الإنترنت يمكنك مشاهدته لمساعدتك في العمل من خلال المعمل. وهناك نوعان من الاختبارات المقطعية. مادة واحدة بعد الأسابيع الثلاثة الأولى والأخرى في نهاية الدورة. أخيرًا ، ننتهي & # x27ll بمهمة واحدة ، والتي تكون مستحقة في نهاية الدورة التدريبية. يجب أن أضيف أنه & # x27s ليس من الضروري أن تكون قد اتخذت طرق المعلوماتية الحيوية 1 لهذه الدورة لطرق المعلوماتية الحيوية II. من شأنه أن يساعد ولكن & # x27s ليست ضرورية. حسنًا ، في هذا الأسبوع ، نقوم بتحليل الدوافع والملف الشخصي و & # x27ll نتحدث عن الزخارف والملفات الشخصية والملف الشخصي HMMs. وتطرق إلى أداة تسمى HMMer وقاعدة بيانات للملفات الشخصية والزخارف. فلماذا نريد الزخارف والأشكال؟ لماذا نهتم بهم؟ والسبب هو أن الاختلاف والتباعد التطوري يؤدي إلى ظهور عائلات متسلسلة. إعطاء عائلات البروتين لها عناصر هيكلية ذات صلة ضرورية للوظيفة البيولوجية. وهناك قيود صارمة على تكوين الأحماض الأمينية والتوجيه الضروري ، على سبيل المثال ، هندسة الموقع النشطة الصحيحة. ومع ذلك ، قد يؤدي الاختلاف في التسلسل إلى عدم تحديد أي تجانس. لكن قد تكون العناصر الهيكلية لا تزال موجودة ويمكننا استخدامها لاستنتاج وظيفة إذا كان بإمكاننا تحديد متماثل. وأيضًا وجود نموذج للعناصر الهيكلية قد يسمح بمحاذاة أفضل لعضو جديد في عائلة التسلسل. يقومون أيضًا بتسلسل الزخارف التي يمكن أن تكون موجودة في محفزات الجينات. وهذه ضرورية لربط عوامل النسخ والبروتينات المنظمة الأخرى. ونحن & # x27ll نناقش هذه التفاصيل بمزيد من التفصيل في مختبر عنصر رابطة الدول المستقلة في الأسبوع السادس. حسنًا ، نبدأ بالزخارف التي تسمى أيضًا الأنماط أو القواعد. وهذا هو أبسط نهج لتعريف العنصر الهيكلي. قاعدة بيانات المثال للزخارف هي Prosite. لذلك ، بالنظر إلى المحاذاة ، هنا & # x27s مثال على المحاذاة هنا. يمكننا أن نبدأ في رؤية أن بعض المخلفات داخل المحاذاة محفوظة أو على الأقل شبه محفوظة. على سبيل المثال ، في الموضع الثاني ، نرى في الأسبارتات الذي يبدو أنه محفوظ. ثم في المركز الرابع ، نرى الجلايسين الذي يبدو أنه محفوظ تمامًا. يمكننا استخدام مجموعة القواعد التالية لإنشاء أو اشتقاق فكرة. ويتم وصف الأنماط في Prosite باستخدام هذه القواعد. بادئ ذي بدء ، نستخدم رمز IUPAC القياسي المكون من حرف واحد للأحماض الأمينية. نستخدم X للإشارة إلى موضع يتم فيه قبول أي حمض أميني. نشير إلى الغموض داخل أقواس مربعة. لذلك إذا رأينا شيئًا يشبه هذا ، فهذا يعني أن الألانين أو الليوسين أو الثريونين مسموح به في هذا الموضع. تستخدم الغموض الأكثر عمومية زوجًا من الأقواس المتعرجة للإشارة إلى ما هو غير مسموح به في هذا الموضع. على سبيل المثال ، هذا يعني أن أي حمض أميني باستثناء الألانين أو الميثيونين مسموح به في هذا الموضع. الآن يتم فصل كل عنصر في النمط باستخدام شرطة. & # x27s ليست قاعدة مطلقة ، يتم الإشارة إلى التكرار باستخدام القيم العددية أو النطاق العددي بين الأقواس. إذن ، x 3 على سبيل المثال يعني ثلاثة Xs ، x 2 فاصلة 4 تعني أنه يمكن أن يكون لديك Xs على التوالي ، أو ثلاثة Xs متتالية ، أو أربعة Xs على التوالي. يمكن الإشارة إلى الأنماط الموجودة في الطرف N أو الطرف C من التسلسل باستخدام سهم التأشير الأيسر هذا أو الإشارة إلى اليمين أكبر من الرمز ، على التوالي. وتنتهي الفترة بالنمط الذي لم يتم ملاحظته دائمًا أيضًا. حسنًا ، بالعودة إلى المحاذاة ، نستخدم تلك القواعد لاشتقاق فكرة ، يمكننا رؤيتها هنا. وكنا نقرأ هذا الشكل على أنه ألانين أو سيرين في الموضع الأول ، متبوعًا بأسبارتات محفوظ تمامًا يليه IV أو L ، يليه جلايسين محفوظ تمامًا ، أي واحد من أربعة أحماض أمينية ، أي شيء باستثناء البرولين أو الجلايسين ، يليه سيستين محفوظ تمامًا ثم D أو E ، أرجينين. أي واحد من فينيل ألانين أو تيروزين ، مرتين ، ثم ينتهي مع الجلوتامين. ومن الأمثلة الحقيقية على ذلك إصبع الزنك C2H2. وهنا نرى سيستين محفوظين تمامًا ، وهما روابط الزنك ، بالإضافة إلى الهيستدين المحفوظين تمامًا ، وهما أيضًا روابط الزنك ومن ثم هذا النوع من منطقة المباعدة المتداخلة. لكن المشكلة في أسلوب الحافز هي أنه لا يوجد شيء مثل المطابقة الجزئية. لذلك ، على سبيل المثال ، إذا كنا نبحث مع تسلسل متشعب تطوريًا ونحاول تحديد أصابع الزنك C2H2. إذا لم يكن لهذا التسلسل & # x27t أحد هذه الأحماض الأمينية في منطقة المباعد ، فلن يتم العثور على & # x27t من خلال البحث في قاعدة البيانات. لذلك يقودنا هذا إلى الطريقة التالية لأنماط التسجيل وهذا & # x27s باستخدام ملفات التعريف ونطلق عليها أيضًا مصفوفات التسجيل الخاصة بالموقع أو PSSM. هنا ، لدينا & # x27 لدينا محاذاة خمسة تسلسلات أخرى. واحد ، اثنان ، ثلاثة ، أربعة خمسة ، وهناك خمسة مواضع في هذه المحاذاة ، وخمسة أعمدة. لذلك قمنا ببناء مصفوفة من جميع الأحماض الأمينية على الصفوف هنا ، سيستين ، ليسين ، هيستيدين ، سيرين ، وما إلى ذلك. ثم في كل موضع في المصفوفة ، تتوافق المواضع مع أعمدة المحاذاة. نحن فقط نسجل القيمة ، عدد المرات التي نرى فيها السيستين أو الجلايسين أو الهيستدين في هذا الموضع. في العمود الأول ، لدينا أربعة من أصل خمسة أحماض أمينية هي السيستين. لذلك وضعنا احتمال ملاحظة سيستين في هذا الموضع 0.8. واحتمال ملاحظة جلايسين 0.2. ونفعل ذلك في جميع المواقف. لذلك يمكننا بعد ذلك استخدام ملف التعريف هذا ، PSSM ، لتسجيل أي تسلسل معين ، لتسجيل أي تسلسل معين لمدى تطابقه مع الملف الشخصي. لذلك إذا قدمنا ​​& # x27re تسلسلاً ، لذلك هنا CGGSV ، يمكننا حساب درجة بناءً على الملف الشخصي الذي لدينا من أجله ببساطة عن طريق ضرب احتمالات ملاحظة C في الموضع الأول في احتمال ملاحظة G في الثانية المركز ، و G في المركز الثالث ، و S في المركز الرابع و V في المركز الخامس للحصول على مجموع نقاط 0.031. لذلك يبدو أنه شيء عظيم. يمكننا في الواقع أن نأخذ في الاعتبار وفرة بعض الأحماض الأمينية في مواقع معينة. هناك بعض الفسحة المعطاة عند إنشاء الملفات الشخصية من حيث عمليات الحذف والأوزان الممنوحة للأحماض الأمينية غير المحتملة وما إلى ذلك. لكن هذه كلها أنواع من التعديلات التي يجب إجراؤها يدويًا وهذا يقودنا إلى نوع جديد من الملف الشخصي يعتمد على نماذج ماركوف المخفية. الآن فقط جانباً ، أود تقديم شعارات متسلسلة للسماح بتصور المخلفات المحفوظة. إذن ما ننظر إليه هنا ، على الرغم من أنه يمكنك & # x27t رؤية أي شيء ، هو مجموعة من المتواليات المشتركة بين أيزوميراز ثلاثي الفوسفات. هذا من قاعدة بيانات الملف الشخصي ونرى أن هناك & # x27s فينيل ألانين في الموضع الأول ، وبعض التربتوفان هنا في نوع من الوسط وما إلى ذلك. ولكن حتى إذا أضفنا لونًا للإشارة إلى البقايا التي لها نفس الخصائص الفيزيائية والكيميائية ، فمن الصعب حقًا تحديد البقايا المحفوظة ومدى جودة حفظها. قد نلتقط هذا اللايسين هنا في هذا الموضع هنا ، الشريط الأحمر. ولكن بخلاف ذلك ، من الصعب نوعًا ما استخدام شيء يسمى شعارات التسلسل للوصول إلى هذا بطريقة مرئية. وهنا ، هذا شعار متسلسل لتلك المحاذاة وما يمكننا رؤيته في الواقع هو أن هناك حفظًا مطلقًا في اللايسين في الموضع السابع ، شبه حفظ للهليون في الموضع الخامس. وهذا التربتوفان هنا محفوظ إلى حد ما في المركز السادس. الآن يتم تحديد ارتفاع الأحرف في شعار التسلسل هذا من خلال الحفظ ، كما تم قياسه بواسطة الانتروبيا. ونستخدم شيئًا يسمى درجة البت لحساب ذلك ويتم احتساب درجة البت وفقًا لهذه المعادلة هنا. في الأساس ، نجمع كل حمض أميني في موضع معين. نحسب تكرار هذا الحمض الأميني ونضربه في السجل 2 لتكرار ذلك الحمض الأميني في هذا الموضع ثم نجمع كل الأحماض الأمينية في موضع معين. ونطرح هذه القيمة من اللوغاريتم 2 من 20 في حالة تسلسل البروتين ، تسلسل الأحماض الأمينية ، هناك 20 من الأحماض الأمينية ، وفي حالة متواليات النوكليوتيدات ، سنطرح في الواقع قيمة الانتروبيا ، قيمة الانتروبيا شانون ، من log 2 لأربعة لأن هناك أربعة نيوكليوتيدات مختلفة. لذا فإن القيمة القصوى التي يمكنك الاحتفاظ بها تمامًا كما هو الحال بالنسبة لبقايا اللايسين هذه في الموضع 7 هي 4.32 ، لذا ضع ذلك في الاعتبار. الشيء الجميل الآخر في تسلسل الشعارات هو أنه يمكنك قراءة تسلسل الإجماع بمجرد قراءة الحرف العلوي في كل كومة. يتم ترتيب الحروف في كل كومة وفقًا لوفرتها في محاذاة الأحماض الأمينية في موضع العمود المحدد. لذا ، لقراءة تسلسل الإجماع ، سنقرأ ببساطة الحرف العلوي في كل عمود. W V M G N W K M N G T وهذا سيعطينا التسلسل الإجماعي لهذه المحاذاة المعينة. لذلك يمكننا استخدام هذه لفحص أجزاء من علم الأحياء والنظر على سبيل المثال إلى مجمع ربط CAP-DNA. نرى أن هناك بعض المخلفات في تسلسل الحمض النووي التي يتعرف عليها بروتين CAP هذا ويمكن رؤيتها هنا. نحتاج إلى T G T G A و T C A C A في هذا الموضع ثم هذه خريطة المدى للمخلفات على بنية البروتين. ترتبط هذه المخلفات الموجودة على بنية البروتين ببقايا الحمض النووي هذه. ونرى الحفاظ على بقايا البروتين هذه من حيث منطقة ربط الحمض النووي لعزر اللولب الدوراني الحلزوني. في حالة مواقع TATA الخميرة ، نرى أنه بالتأكيد يبدو أنها فكرة تاتا. هذه بداية النسخ في مروجي الخميرة لمروجي الخميرة. بعض المواقع داخل صندوق TATA يتم الحفاظ عليها بشكل أفضل من غيرها. على سبيل المثال ، يبدو أن الثانية A مطلب مطلق. يمكننا أيضًا أن نرى في حالة تقاطعات لصق intron-exon أن الإشارة في الواقع ضعيفة إلى حد ما. يبدو أن هناك مطلبًا لـ G و T في الموضع الأول والثاني من intron ، و A و G في الموضع الأخير للإنترون. ثم هناك & # x27s هذا البولي بيريميدين المحاصر هنا في اتجاه الطرف الأساسي الثلاثة للإنترون المطلوب أيضًا. ولكن هنا مرة أخرى ، إنها ليست إشارة قوية جدًا. نرى أيضًا بعض المتطلبات هنا لبعض خصوصية النوكليوتيدات في الطرف الثالث من exon. لذا فإننا نعود الآن إلى نماذج Hidden Markov ، وتقدم نماذج Markov المخفية أو HMMs نهجًا أكثر منهجية لتقدير معلمات النموذج. إذا كنا نحاول وصف نمط هيكلي محدد. It's a dynamic kind of statistical profile and as with an ordinary profile, we can build it by analyzing the distribution of the amino acids in the training set of related proteins of an alignment. However, an HMM has more complex topology than a profile. So rather than just having a matrix of values, we can use a finite state machine to represent not only the values at a given position but also the ability to transition into different states, so an insert state or delete state. And this little cartoon here just shows the kinds of states the hidden states that can exist within a model in terms of a finite state machine. In the case of a sequence HMM typically we have a certain number of match states for each position in the alignment that's well conserved / not gappy. And then we also have insert states as denoted by these characters here and then we also have delete states denoted by the circles. And to generate a sequence once we've created this HMM, we can actually generate a sequence by moving through the HMM starting at the beginning and then transitioning in any number of ways into either an insert state or a match state or a delete state. And the transition probabilities can all be described based on the data that we use to generate the HMM. And the emission probabilities associated with the match states and the insert states are also described based on the data that we use to generate the HMM. So this is sort of a cartoon of what a sequence HMM would look like. In the case of a real alignment, something like this where we have eight match states, we would basically for each match state in the sequence alignment where we have more than 50% of residues at each position, that's how we determine the number of match states with a simple heuristic here. there are more sophisticated ways of doing this, we would compute the frequency of each residue at each match state. So in this first column, for instance, we have one two, three, four five valines plus phenylalanine plus an isoleucine. And in the match state emission probability series, we would have the highest probability of emitting a valine at this given position followed by isoleucine and phenylalanine. We typically add in a very small probability of emitting other amino acids at a given position so that we can still use the HMM to score sequences rationally, and as I mentioned before we also capture the transition probabilities between states. So the transition probabilities here are denoted by the width of the arrows. So the vast majority of the the sequences don't contain any insertions or deletions. And so the transition would be typically in this direction. However, we can at some points transition into delete state or insert state. We would need to transition into an insert state to generate this sequence. Or to generate this sequence, we need to transition into a delete state, and then we finish up at the end. And then we can use this HMM using the Viterbi algorithm, sort of beyond the scope of this course. But we can use this model of sequence properties, alignment properties to then score any given sequence as to whether or not it matches the HMM or how well it matches the HMM. A database of profile HMMs is Pfam. And it encompasses a large collection of multiple sequence alignments, which are then used to generate a large collection of hidden Markov models. The current iteration encompasses around 18,000 protein families. A Pfam is formed in two separate ways. There are two flavours of Pfam models. Pfam-A HMMs are based on fairly accurate human-crafted multiple sequence alignments, whereby Pfam-B models are based on an automated clustering of the rest of SWISS-PROT using a program called Domainer. Pfam-A uses high-quality seed alignments to build HMMs and then additional sequences are added to generate a final set of aligned sequences. And the seeds for those alignments are honed by iterative methods. So there are issues. HMMs sound great and sounds like they've solved all our problems. They allow gaps. They allow deletions. However, it's a linear model and it's unable to capture a higher order correlations among amino acids in a protein molecule. So for instance, amino acids which are far apart in the linear chain, but which may be in proximity to each other when the protein folds, those interactions between, those amino acids, the dependencies can't be predicted with a linear model. And for HMMs, we assume that any amino acid in the sequence is independent of the probability of its neighbours. And this may not always be true. So in the case of a hydrophobic core of proteins, hydrophobic amino acids are likely to appear in proximity to each other. And so researchers have developed new kinds of statistical models and neural nets, hybrid HMMs, dynamic Bayesian nets, factorial HMMs, and so on. But for the purpose of this course, we're just going to explore HMMs and they really are quite useful. So in today's lab, we'll use several domain, motif, profile HMM databases and tools to examine a representative sequence. We'll look at the CDD, Conserved Domain Database. You should consider what was used to generate the CDD. We'll use CDART to identify conserved domain architectures. We'll look at SMART, which is Simple Modular Architecture Research Tool, look at Pfam. And if there's, actually, we won't be looking at HMMer, but there is a suite of tools for generating profile HMMs if you're interested in exploring that on your own. Interproscan offers a convenient way to search Pfam and other profile and motif databases. It's not completely comprehensive, but it's a really good starting place to scan for sequence patterns in a protein of unknown function if you can't find a homolog. All right, well, I hope you enjoy the lab and I'll see you in a bit.


A novel method to identify the DNA motifs recognized by a defined transcription factor

The interaction between a protein and DNA is involved in almost all cellular functions, and is vitally important in cellular processes. Two complementary approaches are used to detect the interactions between a transcription factor (TF) and DNA, i.e. the TF-centered or protein–DNA approach, and the gene-centered or DNA–protein approach. The yeast one-hybrid (Y1H) is a powerful and widely used system to identify DNA–protein interactions. However, a powerful method to study protein–DNA interactions like Y1H is lacking. Here, we developed a protein–DNA method based on the Y1H system to identify the motifs recognized by a defined TF, termed TF-centered Y1H. In this system, a random short DNA sequence insertion library was generated as the prey DNA sequences to interact with a defined TF as the bait. Using this system, novel interactions were detected between DNA motifs and the AtbZIP53 protein from أرابيدوبسيس. We identified six motifs that were specifically bound by AtbZIP53, including five known motifs (DOF, G-box, I-box, BS1 and MY3) and a novel motif BRS1 [basic leucine zipper (bZIP) Recognized Site 1]. The different subfamily bZIP members also recognize these six motifs, further confirming the reliability of the TF-centered Y1H results. Taken together, these results demonstrated that TF-centered Y1H could identify quickly the motifs bound by a defined TF, representing a reliable and efficient approach with the advantages of Y1H. Therefore, this TF-centered Y1H may have a wide application in protein–DNA interaction studies.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


How to recognize a conserved motifs of the protein - Biology

There are many structural elements (motifs) that are conserved among different proteins. For example carbohydrates can be attached to the amino acid asparagine in proteins through N-glycosylation sites which are indicated by the consensus sequence Asn-Xaa-Ser/Thr. The first amino acid is Asparagine (Asn), the second amino acid can be any of the 20 amino acids (Xaa), and the third amino acid is either Serine (Ser) or Threonine (Thr). However, just because this consensus sequence appears does not mean that the site is glycosylated. You can also look for more complex motifs or domains, such as enzyme active sites and receptor binding sites.

We will look at four different programs.

CDART: gives an interactive graphical display of conserved motifs in a protein

The following three can be accessed through BIOLOGY WORKBENCH.

PROSITE analyzes a protein sequence for known motifs

RPSBLAST performs a blast search of your sequence vs. a database of conserved domains

BLIMPS is similar to RPSBLAST, except that it looks for specific blocks or domains of sequence similarity

CDART: Conserved Domain Architecture Retrieval Tool. This program gives an interactive graphical display of the conserved motifs found in an amino acid sequence. You can click on each domain to learn more about its properties and consensus sequence. The program also provides graphical displays of all known proteins containing at least one of the domains found in your protein. One drawback is that this program only reports major domains, and not smaller motifs, and has fairly brief descriptions. It is a good place to start, but the programs described below under BIOLOGY WORKBENCH are more descriptive and thorough.

1. The program PROSITE analyzes a protein sequence for these known motifs and gives a description of each. This is useful when analyzing the sequence of a new protein to try to gain clues to its function.

Enter the amino acid sequence that you wish to analyze or the accession number of the protein and press Start the Scan . You will be given an output which lists several motifs present in the protein, indicating the sequence that was identified and its position in the protein. Each will also contain a link to more information on that particular motif.

For example the sequence being analyzed has potential N-glycosylation sites at amino acids 233 and 556. By clicking on PDOC00001 more information on N-glycosylation will be provided.

Other motifs are more complex and can include sites that bind cofactors or substrates (active site). Such information would be valuable in identifying the function of a protein.

2. RPSBLAST performs a blast search of your sequence vs. a database of conserved domains in families of proteins. Your sequence is compared to the consensus sequence of many families of proteins to look for a match. This is very useful in identifying which family your protein belongs to, especially over larger domains.

For example, if we sumbitted a serine protease we would get the following matches.

If we click on the link smart00020 we would learn about the consensus sequenced used, information on the family of proteins, and other sequences which are closely aligned to our sequence. There is a new 3D imaging program which allows one to view the aligned sequences. This is not loaded on our computer, but we can view it as an html image.

3. BLIMPS is similar to RPSBLAST, except that it looks for specific blocks or domains of sequence similarity. A protein may overall have relatively low similarity to another protein, but if it has high similarity in specific important regions it may have the same activity and be a homologous protein. BLIMPS compares a protein or nucleic acid sequence against an the BLOCKS database of conserved protein motifs. The scores for high scoring BLOCKS found within the query sequence are totalled and a family classification is made based on the total score for each block found in the query sequence. Individual block scores are listed beneath the family classification along with the highest scoring alignments.

For example, the protein below matched 3 out of 3 blocks for the conserved sequence of an active site of a serine protease.


شاهد الفيديو: Eiwitten of proteïnen (أغسطس 2022).