معلومة

عدد قليل جدًا من النصوص من مجمع النسخ Oases

عدد قليل جدًا من النصوص من مجمع النسخ Oases



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحاول تشغيل الواحات لتجميع النسخ. النتيجة بعيدة كل البعد عن المتوقع ، لذا أود أن أسأل ما إذا كنت أقوم بتشغيلها بالطريقة الصحيحة؟ شكرا.

هذا هو أمري:

نصوص python / oases_pipeline.py -m 25 -M 29 -o output -d "-strand_specific-shortPaired data / reads.fa" -p "-min_trans_lgth 100 -ins_length 300"

مكتبتي خاصة بالخيوط وتنتهي بزوج بطول 67 نقطة أساس. يتم خلط القراءات على النحو التالي:

> 0 (left_mate_forwarded) ACTC…> 1 (right_mate_reverse_complemented) TATA…

حصلت على بعض النصوص ، لكنني بعيدًا عن النصوص المشروحة ، بعيدًا عن نتيجة الثالوث. أطول مسابقة من Oases هي 2500 نقطة أساس (مقابل 10000 نقطة أساس من أزرار الكم و 6000 نقطة أساس من Trinity). قيمة N50 منخفضة أيضًا. يُبلغ فقط عن 20 كونتيغًا تغطي الطول الكامل لبعض النصوص من أزرار Cufflinks (تقريبًا 4000 تقريبًا) ، بينما يبلغ Trinity حوالي 650.

مجموعة البيانات التي أستخدمها هي مجموعة فرعية من S. بومبي. هل يهم؟

هل يمكن لأي شخص مساعدتي في توضيح ما إذا كان هناك خطأ ما هنا؟


TraRECo: مجمع نسخ دي نوفو يعتمد على نهج جشع مع تصحيح أخطاء القراءة باستخدام مصفوفة الإجماع

تتضمن التحديات عند تطوير مُجمّع نسخ جيد من de novo كيفية التعامل مع أخطاء القراءة وتكرار التسلسل. تستخدم جميع مجمعات de novo تقريبًا رسمًا بيانيًا لـ Bruijn ، حيث ينمو التعقيد خطيًا مع حجم البيانات بينما يعاني من الأخطاء والتكرار. على الرغم من أنه يمكن تصحيح الأخطاء عن طريق فحص البنية الطوبولوجية للرسم البياني ، إلا أن هذه ليست مهمة سهلة عندما يكون هناك عدد كبير جدًا من الفروع. هناك اتجاهان بحثيان لتحسين موثوقية الرسم البياني أو دقة البحث عن المسار ، وفي هذه الدراسة ، ركزنا على الأول.

نتائج

نقدم TraRECo ، وهو نهج جشع لتجميع de novo باستخدام إنشاء رسم بياني مدرك للأخطاء. في النهج المقترح ، قمنا ببناء contigs عن طريق محاذاة القراءة المباشرة ضمن هامش مسافة وقمنا بإجراء بحث مفصل لإنشاء رسوم بيانية للتوصيل. أثناء القيام بذلك ، كونتيج من الطول ل تم تمثيله بـ 4 × ل المصفوفة (تسمى مصفوفة الإجماع) ، حيث كان كل عنصر هو العد الأساسي للقراءات المحاذاة حتى الآن. تم الحصول على تسلسل تمثيلي عن طريق أخذ الأغلبية في كل عمود من مصفوفة الإجماع لاستخدامها لمزيد من محاذاة القراءة. بمجرد الحصول على الرسوم البيانية للربط ، استخدمنا IsoLasso للعثور على مسارات بعمق قراءة ملحوظ. التجارب باستخدام القراءات الحقيقية والمحاكاة تبين أن الطريقة قدمت تحسنا كبيرا في الحساسية وأداء أفضل بشكل معتدل عند مقارنة الحساسية والدقة. تم تحقيق ذلك من خلال إنشاء الرسم البياني المدرك للخطأ باستخدام مصفوفة الإجماع ، والتي من خلالها أصبحت القراءات التي تحتوي على أخطاء قابلة للاستخدام في إنشاء الرسم البياني (وإلا ، فقد تم التخلص منها في النهاية). أدى ذلك إلى تحسين جودة معلومات عمق التغطية المستخدمة في خطوة البحث اللاحقة عن المسار وأخيرًا موثوقية الرسم البياني.

الاستنتاجات

يستخدم تجميع De novo بشكل أساسي لاستكشاف الأشكال الإسوية غير المكتشفة ويجب أن يكون قادرًا على تمثيل أكبر عدد ممكن من القراءات بطريقة فعالة. بهذا المعنى ، يوفر لنا TraRECo بديلاً محتملاً لتحسين موثوقية الرسم البياني على الرغم من أن العبء الحسابي أعلى بكثير من العبء الفردي ك-مر في نهج الرسم البياني de Bruijn.


جمعية دي نوفو للنسخ

الملخص
خلفية فاكهة الكيوي [Actinidia deliciosa (A Chev) Liang et Ferguson] هي كرمة شبه استوائية من عائلة Actinidiaceae الأصلية من الصين. تحتوي هذه المسكوكة على جينوم allohexaploid (من الوالدين ثنائي الصيغة الصبغية وذاتية الصبغيات) الموجود في 174 كروموسومًا ينتج فاكهة ذروتها وسمينة تسمى فاكهة الكيوي. لا يوجد حاليًا الكثير من المعلومات الجينومية والنسخية حول هذا النوع. في سياق المعرفة الجزيئية المنخفض هذا ، يتمثل الهدف الرئيسي لهذا العمل في إنشاء مجموعة نسخ دي نوفو خاصة بالأنسجة لتوليد تحليل التعبير التفاضلي بين هذه الأنسجة المحددة للحصول على قاعدة بيانات جديدة مفيدة للحصول على معرفة أفضل بالنمو الخضري والزهور والفاكهة في الحالات الفينولوجية المختلفة لـ Actinidia deliciosa cv. "هايوارد".

النتائج في هذه الدراسة ، قمنا بتحليل النصوص الكاملة المختلفة من الجذع ، الأوراق ، برعم الزهرة ، الزهرة والفاكهة في 4 مراحل تطور (7،50،120 و 160 يومًا بعد التزهير DAF) في الكيوي باستخدام RNA-seq. قمنا بتسلسل أربع وعشرين مكتبة ، وحصلنا على 604،735،364 قراءة تم تجميعها باستخدام برنامج Trinity. احتوى الإصدار الأول من نسخة Actinidia deliciosa de novo على 142،025 كونتيج (x̅ = 1،044bp ، N50 = 1،133bp). تم استخدام CEGMA و BUSCO لتقييم جودة التجميع ، حيث حصلوا على ما يقرب من 90.0٪ (35.1٪ جزئيًا) وأكثر من 85.0٪ (18.3٪ جزئيًا) من الجينات فائقة الحفظ لحقيقيات النوى والنباتات ، على التوالي. تم إجراء التعليق التوضيحي باستخدام BLASTx مقابل قاعدة بيانات بروتين TAIR10 ووجدنا نسبة تعليق توضيحي تبلغ 35.6٪ (50508) ، تاركًا 64.4٪ (91517) من مجموعة contigs بدون تعليق توضيحي.

الاستنتاجات: تمثل هذه النتائج نسخة مرجعية لفاكهة الكيوي اللويكسابلويد التي تولد قاعدة بيانات لجينات الأكتينيديا ديليسيوزا المتعلقة بتطور الأوراق والزهور والفاكهة. وهكذا ، توفر الدراسة الحالية معلومات قيمة عالية ، تحدد أكثر من 20000 جين حصري بما في ذلك جميع مقارنات الأنسجة ، والتي ترتبط بالبروتينات المشاركة في العمليات البيولوجية والوظائف الجزيئية المختلفة. إن تجميع النسخ وتنقيحها بالإضافة إلى التقييم المتري للتجميع ، قد تضمن جودة كافية لتكون قاعدة بيانات مفترضة لهذا النوع وتم العثور على عدد كبير من البروتينات المحفوظة للغاية. فيما يتعلق بالنسخة ، فإن ما يقرب من 65 ٪ من contigs لا يتطابق مع أي بروتين. لذلك ، سيكون الشرح الوظيفي المستقبلي مطلوبًا من أجل الحصول على معرفة أفضل بالتطور الخاص بالأنسجة.


اختيار التسلسل والتحليل

يعد اختيار تقنية التسلسل ونهج تحليل البيانات أمرًا بالغ الأهمية لنجاح التجربة. تنتج تقنيات التسلسل الثلاثة المذكورة حجمًا هائلاً من البيانات عالية الجودة ، ولكن لكل منها تطبيقات عملية محددة. ينتج تسلسل Illumina و SOLiD مجموعات بيانات قصيرة ولكن عالية العمق. بالنسبة لتسلسل Illumina ، يمكن للمستخدم حاليًا تحديد طول القراءات في نطاق 36 nt إلى 150 nt والتي يمكن تسلسلها إما من أحد طرفي جزء DNA (قراءات أحادية الطرف) أو من طرفي جزء DNA ( يقرأ نهاية مقترنة). عادةً ما يتم تحديد القراءات الأطول والقراءات ذات النهاية المزدوجة في مشاريع التجميع de novo ، ولكن يتم اختيار القراءات الأقصر أحيانًا للمحاذاة مع الجينوم المرجعي. تنخفض درجة الثقة لقاعدة معينة في تسلسل مع زيادة طول القراءة ، مما قد يعيق المحاذاة والتحليل النهائي. يتم تمثيل البيانات من قراءات تسلسل Illumina كتسلسل نيوكليوتيد فعلي ويمكن أن ينتقل التحليل مباشرة إلى المحاذاة إلى الجينوم المرجعي أو التجميع الجديد.

في نظام SOLiD ، يمكن للمستخدم حاليًا اختيار أطوال قراءة تتراوح من 35 إلى 75 نانو طنًا في الشكل أحادي النهاية أو ثنائي النهاية. يتسلسل نظام SOLiD قاعدتين في وقت واحد (وبالتالي هناك 16 مجموعة ممكنة للاستعلام) ، ويجب أن يتم تسلسل أي قاعدة مفردة مرتين لتحديد التسلسل الحقيقي في موضع واحد. يُعتقد أن هذه الطريقة تعمل على تحسين تحديد أخطاء التسلسل في تحليل ما بعد التسلسل. ومع ذلك ، بالنسبة للباحثين الذين ليس لديهم جينوم مرجعي ، فإن نظام التشفير ثنائي القاعدة هذا يمثل عيبًا ، لأن التسلسل الناتج يتم ترميزه رقميًا ولن يتعرف عليه عالم الأحياء على الفور. فقط من خلال التحليل اللاحق يتم استعادة الصلة البيولوجية لقراءة تسلسل SOLiD. عادةً ما يتم محاذاة قراءات SOLiD في تنسيقها المشفر ثنائي القاعدة (ما يسمى بتنسيق "مساحة اللون") إلى جينوم ترميز ثنائي القاعدة لتحويل التسلسل مرة أخرى إلى مساحة نيوكليوتيد ، ولكن بدون الجينوم المرجعي يمكن أن يتطلب معلومات إضافية لفهمها من التسلسل. التحويل المباشر لقراءات التسلسل ممكن ولكن لا يوصى به لأن جميع القواعد التي تتبع خطأ واحدًا في مساحة اللون ستخلق أخطاء في جميع القواعد اللاحقة للقراءة. تتم إحالة القارئ إلى موقع الشركة المصنعة للحصول على شرح أكثر تفصيلاً للترميز المزدوج. إذا اختار باحث في نظام غير نموذجي استخدام نظام SOLiD ، فقد يكون جينوم قريب قريب هو الخيار الأكثر مباشرة لتحليل المصب.

توزيع طول القراءة لأنظمة Illumina و SOLiD موحد للغاية ، ومعظم القراءات هي بالضبط الطول الذي يطلبه الباحث. في تسلسل Roche 454 ، تحتوي القراءات على توزيع أوسع لطول التسلسل ، ويتم أيضًا ترميز 454 قراءة في مساحة النوكليوتيدات العادية. معظم القراءة البالغ عددها 454 هي الآن أطول من 500 nt ، مع وضع يقارب 700 nt وبطول أقصى يزيد عن 1000 nt. عادةً ما ينتج عن القراءات الطويلة لجهاز التسلسل 454 تجميعات نسخ عالية الجودة ، ولكن مجموعات البيانات هذه أقل عمقًا بكثير لكل دولار يتم إنفاقه على التسلسل. يختلف تحليل بيانات القراءة القصيرة عالية العمق اختلافًا جوهريًا عن تحليل القراءات الطويلة منخفضة العمق ، وبالتالي تختلف أساليب التحليل والموارد الحسابية اعتمادًا كبيرًا على اختيار النظام الأساسي. تعود جذور هذه الاختلافات جزئيًا إلى إعداد المكتبة.


أساليب

المواد النباتية

زعفران (C. Sativus L.) من أرض زراعية مفتوحة بقرية تقع في بلدة بامبور في منطقة بولواما ، جامو وكشمير ، الهند. تم حصاد أنسجة مختلفة ، بما في ذلك القرم ، والتيبال ، والأوراق ، ووصمة العار ، والسداة من النباتات وتم تجميدها على الفور في النيتروجين السائل وتخزينها عند -80 درجة مئوية حتى استخدامها مرة أخرى.

عزل الحمض النووي الريبي وتسلسل النسخ

تم عزل إجمالي الحمض النووي الريبي من الأنسجة المذكورة أعلاه في ثلاث مكررات بيولوجية باستخدام كاشف TRI (Sigma Life Science ، الولايات المتحدة الأمريكية). تم تحديد كمية ونوعية إجمالي الحمض النووي الريبي بواسطة مقياس الطيف الضوئي النانوي (Thermo Fisher Scientific) والمحلل الحيوي (Agilent Technologies ، سنغافورة). تم فحص نقاء RNA الكلي عن طريق تقدير نسبة الامتصاصية عند 260/280 و 260/230 ورقم سلامة الحمض النووي الريبي (RIN). لم تكن جودة الحمض النووي الريبي الكلي المعزول من أنسجة القرم والوصم تفي بالمعيار الأدنى لتسلسل Illumina. لذلك ، قمنا بتعديل البروتوكول القياسي للحصول على جودة أفضل من RNA ، والتي تضمنت غسل حبيبات RNA بـ 5 M NaCl (2-3 مرات) قبل الذوبان في الماء الخالي من RNase. تم استخدام إجمالي RNA عالي الجودة (260/280 ، 1.8–2.0 260/230 & gt 2.0 RIN & gt 7.5) مجمعة بكميات متساوية من التكرارات البيولوجية الثلاثة لكل عينة لتسلسل النسخ باستخدام منصة Illumina لتوليد 100-nt إقران طويل- يقرأ النهاية. للحصول على بيانات نظيفة عالية الجودة لـ من جديد التجميع ، تم إجراء فحص صارم للجودة لإزالة القراءات منخفضة الجودة وتشذيب المحول باستخدام مجموعة أدوات NGS QC الداخلية الخاصة بنا (الإصدار 2.3) 42.

من جديد تجميع النسخ

تم تجميع قراءات عالية الجودة في contigs باستخدام مجمعات قراءة قصيرة متنوعة شائعة الاستخدام ، مثل Velvet (v1.2.01) 43 ، Oases (v0.2.04) 44 ، ABySS (v1.2.6) 45 ، SOAPdenovo (v1.04) 46 و CLC Genomics Workbench (v4.7.2) و Trinity (v2012-05-18) 47. تم إجراء تجميع النسخ باستخدام طريقتين مختلفتين كما هو موضح سابقًا 48. في النهج الأول (الأفضل ك-mer) ، تم تجميع قراءات عالية الجودة بتفاوت ك- بطول 39-99 باستخدام Velvet و Oases و ABySS و SOAPdenovo ، في حين تم استخدام برامج CLC Genomics Workbench و Trinity في المعلمات الافتراضية. في النهج الثاني (مضافة ك-mer متبوعًا بـ TGICL) ، تم استخدام استراتيجية من خطوتين للتجميع. أولاً ، تم إنشاء contigs للجميع كتم دمج -mers بواسطة المجمع المعني وإزالة التكرار باستخدام أداة CD-HIT. بعد ذلك ، تم تجميع مجموعة contigs غير الزائدة عن الحاجة باستخدام مجموعة TGICL (الإصدار 2.0) 49 مع حد أدنى لطول التداخل يبلغ 40 وحد أقصى للهوية يبلغ 90. تحليل محتوى GC لـ C. Sativus تم إجراء النسخ باستخدام برنامج بيرل النصي الداخلي.

شرح وظيفي

لتعيين الوظيفة المفترضة لكل نسخة من C. Sativus، تم إجراء بحث عن التشابه باستخدام BLASTX 50 ضد نبات الأرابيدوبسيس وبروتينات الأرز متبوعًا بقواعد بيانات NCBI غير الزائدة عن الحاجة و UniRef90 مع ه-قيمة حد قطع 10 5 للعثور على أفضل تطابق مهم لكل نص. تم تعيين شروط GOSlim لكل منها C. Sativus نسخة تحت الوظيفة الجزيئية والعملية البيولوجية وفئات المكونات الخلوية بمقارنة التسلسل مع بروتينات أرابيدوبسيس. وبالمثل ، تصنيف C. Sativus تم إجراء النصوص في فئات وظيفية مختلفة باستخدام قاعدة بيانات KOG. تحديد عائلات TF في C. Sativus تم إجراء النسخ استنادًا إلى ملف تعريف نموذج ماركوف المخفي (HMM) (تم الحصول عليه إما من قاعدة بيانات PFAM أو تم إنشاؤه من محاذاة المجال المحفوظة) البحث باستخدام المعايير الواردة في قاعدة بيانات عامل النسخ النباتي (http: //plntfdb.bio.uni-potsdam .de / v3.0 /) كما هو موضح سابقًا 21.

تحديد SSRs

C. Sativus تم فحص النسخة النصية بحثًا عن وجود تسلسلات تكرار بسيطة (SSRs) باستخدام MISA (القمر الصناعي MicroSA) عند المعلمات الافتراضية 51. كان الحد الأدنى لعدد وحدات التكرار للدي نيوكليوتيد ستة ، بينما كان الحد الأدنى لعدد وحدات التكرار أكثر من خمسة في معايير البحث للثالث ، والرباعي ، والخماسي ، والسداسي النوكليوتيد.

تحليل التعبير الجيني التفاضلي

لتقدير نمط التعبير لكل نسخة في عينات الأنسجة المختلفة ، تم تعيين قراءات عالية الجودة من كل عينة على مجموعة النسخ النهائية باستخدام CLC Genomics Workbench. تم السماح بحد أقصى اثنين من حالات عدم التطابق للتعيين. تمت تسوية أعداد القراءة من خلال حساب عدد القراءات لكل كيلو قاعدة لكل مليون (RPKM) لكل نسخة في الأنسجة الفردية. تم إجراء تحليل التعبير الجيني التفاضلي باستخدام برنامج DESeq (v1.10.1) 52 بناءً على التوزيع السلبي ذي الحدين. أ ص- تم استخدام قطع قيم 0.05 جنبًا إلى جنب مع تغيير مزدوج على الأقل لتحديد التعبير التفاضلي الكبير للنصوص. تعرض الخريطة الحرارية أنماط التعبير الخاصة بالأنسجة (سجل2 أضعاف التغيير) للنصوص المشاركة في مسارات مختلفة عبر TIGR MultiExperiment Viewer (MeV ، v4.8).

تحليل PCR في الوقت الحقيقي

لتحليل PCR في الوقت الفعلي ، تم تصميم البادئات الخاصة بالجينات (الجدول S5) باستخدام برنامج Primer Express (v3.0) (Applied Biosystems ، الولايات المتحدة الأمريكية). تم إجراء PCRs في الوقت الحقيقي في ثلاث مكررات بيولوجية مستقلة وثلاث مكررات تقنية لكل تكرار بيولوجي لكل عينة من الأنسجة كما ورد سابقًا 53. يوبيكويتين تم استخدامه كجينة تحكم داخلية للتطبيع.

توافر البيانات

تم إيداع بيانات التسلسل التي تم إنشاؤها في هذه الدراسة في Gene Expression Omnibus تحت رقم المدخل GSE65103. تم توفير تجميع النسخ والتعليقات التوضيحية الوظيفية وبيانات SSRs والتعبير الجيني على صفحة ويب Saffron Transcriptome (http://nipgr.res.in/mjain.html؟page=saffron).


خلفية

يمكن الآن دراسة النسخ النصية من خلال التسلسل. ومع ذلك ، في حالة عدم وجود جينوم مرجعي ، يظل تجميع de novo مهمة صعبة. تأتي الصعوبة الرئيسية بالتأكيد من حقيقة أن قراءات التسلسل قصيرة ، وأن التسلسلات المتكررة داخل النسخ يمكن أن تكون أطول من القراءات. هذه القراءة القصيرة / قضية التكرار القصير بالطبع ليست خاصة بتسلسل النسخ. إنها مشكلة قديمة كانت موجودة منذ الخوارزميات الأولى لتجميع الجينوم. على الرغم من أن المشاكل المتكررة تتشابه في كلا السياقين ، إلا أن لها أيضًا بعض الخصائص الخاصة بكل منهما. في تجميع الجينوم ، تميل التكرارات إلى أن تكون أطول وتوجد بنسخ أكثر. في تجميع النسخ ، توجد التكرارات داخل الجينات وتميل إلى أن تكون أقصر وبنسخ أقل. ومع ذلك ، في هذه الحالة الأخيرة ، لا يمكن تطبيق التغطية لتمييز contigs الذي يتوافق مع التكرارات ، كما يمكن أن يكون في علم الجينوم باستخدام على سبيل المثال إحصائيات مايرز [6 ، 7] ، لأن تغطية الجين لا تعكس فقط رقم نسخه في الجينوم ، ولكن أيضًا ومستوى تعبيره في الغالب. يتم التعبير عن بعض الجينات بشكل كبير وبالتالي مغطاة بشكل كبير ، في حين أن معظم الجينات يتم التعبير عنها بشكل سيئ وبالتالي فهي مغطاة بشكل سيئ. مثل هذه الخصائص تعقد تطبيق استراتيجية الحل الجيني المتكرر على سياق النسخ.

في البداية ، كان يُعتقد أن التكرارات لن تكون مشكلة رئيسية في تسلسل الحمض النووي الريبي ، لأنها في الغالب في المناطق الداخلية والجينية. ومع ذلك ، فإن الحقيقة هي أن العديد من المناطق التي يُعتقد أنها متوارثة بين الجينات يتم نسخها [8] ولا يتم دائمًا تقسيم الإنترونات بالفعل عندما يتم جمع الرنا المرسال ليتم ترتيب تسلسلها [9]. وبالتالي ، فإن التكرارات ، خاصة العناصر القابلة للنقل ، موجودة جدًا في العينات الحقيقية وتسبب مشاكل كبيرة في تجميع النسخ ، إذا لم تتم معالجتها بشكل صحيح.

تعتمد معظم مجمعات النسخ النصية قصيرة القراءة الحالية ، إن لم تكن جميعها ، على الرسوم البيانية لـ De Bruijn. من بين أشهرها الواحات [3] ، الثالوث [2] ، وبدرجة أقل عبر الهاوية [10] و IDBA-tran [11]. المشترك بينهم جميعًا هو عدم وجود نموذج واضح وصريح للتكرار في بيانات RNA-seq. وهكذا يتم استخدام الاستدلال لمحاولة التعامل بكفاءة مع التكرارات. على سبيل المثال ، في الواحات يُعتقد أن الرؤوس القصيرة تتوافق مع التكرارات وبالتالي لا تُستخدم لتجميع الجينات. تتم إضافتهم في خطوة ثانية ، والتي نأمل أن تتسبب في عدم تجميع الجينات التي تشارك الجينات معًا. في Trinity ، لا توجد محاولة للتعامل مع التكرارات من خلال نمذجة صريحة لهم. ستحاول الوحدة الأولى من Trinity ، Inchworm ، تجميع contig الأكثر تغطية والذي نأمل أن يتوافق مع النص البديل الأكثر وفرة. ثم يتم لصق exons البديلة على هذا النص الرئيسي لتشكيل رسم بياني للربط. الخطوة الأخيرة هي تعداد جميع النصوص البديلة. في حالة وجود التكرارات ، يمكن تفسير تغطيتها العالية على أنها رابط معبر للغاية بين نسختين غير مرتبطين. بشكل عام ، قد تكون النصوص المجمعة خيالية أو مقسمة إلى العديد من النصوص الفرعية.

في الطريقة التي طورناها سابقًا ، KisSplice ، وهو مجمع نسخ محلي [12] ، تكون التكرارات أقل إشكالية لأن الهدف ليس تجميع نصوص كاملة الطول. يهدف KisSplice بدلاً من ذلك إلى إيجاد متغيرات في النسخ (SNPs و indels والربط البديل). ومع ذلك ، كما ذكرنا في [12] ، لم يكن KisSplice قادرًا على التعامل مع أجزاء كبيرة من الرسم البياني de Bruijn الذي يحتوي على رسوم بيانية فرعية مرتبطة بتسلسلات متكررة للغاية ، على سبيل المثال العناصر القابلة للنقل ، ما يسمى بالمكونات المعقدة ثنائية الارتباط.

هنا ، نحاول تحقيق ثلاثة أهداف: (1) إعطاء صياغة واضحة لمفهوم التكرارات مع عدد نسخ مرتفع في بيانات RNA-seq ، (2) تطبيقه على تجميع النسخ المحلي من خلال إعطاء طريقة عملية لتعداد الفقاعات التي ضاع بسبب مثل هذه التكرارات ، و (3) قم بتطبيقه على مجموعة النسخ العالمية من خلال إظهار أن طوبولوجيا الرسم البياني الفرعي حول نسخة يمكن أن تعطي بعض التلميحات حول مستوى ثقتها. تذكر أننا في سياق de novo ، لذلك نفترض أنه لا الجينوم المرجعي / النسخ ولا قاعدة بيانات التكرارات المعروفة ، على سبيل المثال RepBase [13] ، متوفرة.

أولاً ، نقدم رسميًا نموذجًا لتمثيل تكرار عدد النسخ العالي واستغلال خصائصه لاستنتاج أن الرسوم البيانية الفرعية المرتبطة بالتكرار في رسم بياني Bruijn تحتوي على عدد قليل من الأقواس القابلة للانضغاط. ومع ذلك ، نوضح أن مشكلة تحديد الرسم البياني الفرعي المقابل للتكرارات وفقًا لمثل هذا التوصيف في الرسم البياني لـ de Bruijn هي مشكلة NP كاملة. لذلك من غير المحتمل أن توجد خوارزمية متعددة الحدود.

ثانيًا ، نوضح أنه في الحالة المحددة للتجميع المحلي لأحداث التضفير البديلة (AS) ، باستخدام إستراتيجية تعتمد على توصيف القوس القابل للانضغاط ، يمكننا بشكل ضمني تجنب مثل هذه الرسوم البيانية الفرعية. بتعبير أدق ، من الممكن العثور على الهياكل (أي الفقاعات) المقابلة لأحداث AS في الرسم البياني لـ De Bruijn غير المضمنة في الرسم البياني الفرعي المتكرر (انظر الشكل 3 للحصول على مثال). بينما كانت هناك جهود كبيرة في الأدبيات لحل التكرارات ، لم يكن هناك تقريبًا أي استكشاف حول كيفية تجنبها. يفسر ذلك حقيقة أن معظم الجهود في التجميع تركز على تجميع الجينوم والنسخة كامل الطول ، حيث لا يكون تجنب التكرارات خيارًا ، ويمكن تضييق أداء المجمّع إلى مدى نجاحه في حل التكرارات. ومع ذلك ، في حالتنا ، يمكن أن يكون تجنب التكرار تقنية فعالة. في الواقع ، تم تأكيد هذه الحقيقة من خلال تجاربنا ، حيث باستخدام بيانات RNA-seq المحاكاة للإنسان ، أظهرنا أن الخوارزمية الجديدة تحسن بشكل كبير من حساسية KisSplice ، مع تحسين دقتها أيضًا. قمنا كذلك بمقارنة الخوارزمية الخاصة بنا باثنين من أفضل مجمعات النسخ ، وهما Trinity [2] و Oases [3] ، في المهمة المحددة لاستدعاء أحداث AS ، ونوضح أن خوارزميتنا أكثر حساسية من كلتا الأداتين ، بينما تكون أيضًا أكثر حساسية. دقيق. بالإضافة إلى ذلك ، تُظهر نتائجنا أن ميزة استخدام الخوارزمية الجديدة المقترحة في هذا العمل تكون أكثر وضوحًا عندما تحتوي بيانات الإدخال على محتوى عالٍ لما قبل mRNA أو تنبع أحداث AS ذات الأهمية من جينات معبرة للغاية. علاوة على ذلك ، نعطي مؤشرا على فائدة طريقتنا في البيانات الحقيقية.

ثالثًا ، نوضح أنه يمكن أيضًا تطبيق الطريقة الموصوفة في سياق تجميع النسخ كامل الطول. نقدم مقياسًا يعتمد على النموذج المقترح لتحديد النصوص منخفضة الثقة ، وهي تلك التي تعبر المناطق المعقدة في رسم بياني بروين. ضمن هذه الأجزاء المعقدة من الرسم البياني التي تم إنشاؤها بواسطة التكرارات ، سيتعين على أي مجمّع اختيار المسار (المسارات) "الصحيح" من بين العديد من المسارات الحالية. هذا الاختيار ليس بسيطًا وقد يؤدي إلى حلول غير صحيحة (مثل النصوص الوهمية أو المقطوعة). لذلك من المهم أن تكون قادرًا على تحديد النصوص القادمة من هذه المناطق المعقدة من أجل معرفة أن الحل المقدم ليس هو الحل الوحيد ، وعلاوة على ذلك قد لا يكون هو الحل الصحيح. قارنا مقياسنا مع طريقتين حديثتين لتقييم نسخة de novo ، وهما Rsem-Eval [4] و TransRate [5] ، للمهمة المحددة المتمثلة في تحديد النصوص الوهمية في كل من مجموعات البيانات الحقيقية والمحاكاة. نظهر أن مقياسنا يوفر نتائج جيدة على الرغم من حقيقة أنه يستخدم فقط مخطط الرسم البياني ، وليس التغطية ، ولا قراءة المعلومات. تشير النتائج التي تم الحصول عليها إلى أن استكشاف طوبولوجيا الرسم البياني الفرعي حول النص ، وهي معلومات يتم تجاهلها حاليًا بواسطة طرق تقييم النسخ ، يمكن أن يكون مفيدًا لاستنتاج بعض خصائص النص ، مثل مستوى الثقة والجودة وصلابة التجميع ، إلخ. لذلك ، يمكن أن يؤدي قياسنا إلى تحسين الأساليب الحديثة لتقييم نسخة de novo ، نظرًا لأنه قادر على التقاط أخطاء التجميع التي فاتتها هذه الأدوات.

مقدمات

لنفترض أن ( Sigma ) أبجدية ذات حجم ثابت ( سيجما ). هنا دائمًا نفترض ( Sigma = ). بالنظر إلى تسلسل (سلسلة) (s in Sigma ^ * ) ، دع |س| تدل على طوله ، س[أنا] ال أناالعنصر ال س، و س[أنا, ي] السلسلة الفرعية (s [i] s [i + 1] ldots s [j] ) لأي (1 le i & ltj le | s | ).

أ ك مير هو تسلسل (s in Sigma ^ k ). نظرا لعدد صحيح ك ومجموعة س من التسلسلات لكل طول (n ge k ) ، نحدد فترة(س, ك) كمجموعة متميزة ك-mers التي تظهر كسلسلة فرعية في س.

التعريف 1

إعطاء مجموعة من التسلسلات (يقرأ) (R subseteq Sigma ^ * ) وعدد صحيح ك، نحدد الرسم البياني الموجه لـ Bruijn (G_k (R) = (V ، A) ) حيث (V = span (R ، k) ) و ((u ، v) in A ) إذا و فقط إذا (u [2، k] = v [1، k-1] ).

بالنظر إلى الرسم البياني الموجه (G = (V ، A) ) والرأس (v في V ) ، فإننا نشير إلى خارج الحي (Resp. في الجوار) بواسطة (N ^ + (v) = ) (resp. (N ^ - (v) = )) ، ولها خارج الدرجة (Resp. في درجة من خلال (د ^ + (v) = | N ^ + (v) | ) ( (d ^ - (v) = | N ^ - (v) | )). بسيط) طريق ( pi = s leadsto t ) في جي عبارة عن سلسلة من الرؤوس المميزة (s = v_0 ، ldots ، v_l = t ) بحيث ، لكل (0 le i & lt l ) ، ((v_i ، v_) ) قوس من جي. إذا كان الرسم البياني مرجحًا ، أي أن هناك دالة (w: A rightarrow Q _ < ge 0> ) تربط وزنًا بكل قوس في الرسم البياني ، فإن الطول من المسار ( pi ) هو مجموع أوزان الأقواس المقطوعة ، ويُرمز إليه بـ (| pi | ).

يسمى القوس ((u ، v) في A ) قابل للانضغاط إذا (د ^ + (ش) = 1 ) و (د ^ - (ت) = 1 ). الحدس وراء هذا التعريف يأتي من حقيقة أن كل مسار يمر ش يجب أن تمر أيضًا الخامس. لذلك ينبغي أن يكون من الممكن "ضغط" هذا القوس أو تقليصه دون فقد أي معلومات. لاحظ أن الرسم البياني المضغوط لـ de Bruijn [2 ، 3] الذي يشيع استخدامه بواسطة المجمعات النسخية يتم الحصول عليه من الرسم البياني de Bruijn عن طريق استبدال ، لكل قوس مضغوط (ش, الخامس) ، القمم ش, الخامس برأس جديد x، حيث (N ^ - (x) = N ^ - (u) ) ، (N ^ + (x) = N ^ + (v) ) والتسمية هي سلسلة من ك- صاحب ش و ال ك- صاحب الخامس بدون الجزء المتداخل (انظر الشكل 1).

مثال على قوس مضغوط في رسم بياني لـ De Bruijn. أ القوس (CTG, TGA) هو القوس الوحيد القابل للضغط في الرسم البياني المحدد لـ de Bruijn ( (k = 3 )). ب الرسم البياني المقابل مضغوط De Bruijn


الاستنتاجات

باستخدام نهج بروتيني ونسخ متكامل ، كشفنا عن اختلافات في بروتينات الكبد في الرنين المغناطيسي النووي طويل العمر مقارنة بالأطباء العامين الأقصر عمراً. لقد أكدنا طريقة تفضيلية لاستخدام الأحماض الدهنية لتغذية التنفس في الرنين المغناطيسي النووي ، مما يعكس تركيبة مميزة من الميتوكوندريا الخاصة بهم. علاوة على ذلك ، فقد حددنا بصمة تدريجية للشيخوخة تظهر في الكبد من الرنين المغناطيسي النووي على المستوى الجزيئي. ومن المثير للاهتمام ، أن مجموعات البروتينات ذات الصلة وظيفيًا ، بما في ذلك إنزيمات مسارات إزالة السموم ، تأثرت بالمثل بالشيخوخة في كل من عينات الرنين المغناطيسي النووي وعينات الكبد البشري. وهذا يؤكد وجود صلة مباشرة بين عمليات الشيخوخة لهذين النوعين. يبقى أن نوضح ما إذا كانت المسارات المتأثرة بالشيخوخة تؤثر على الحالة الصحية للرنين المغناطيسي النووي القديم وتحد من عمرها ، كما أظهرنا أن هذا هو الحال في الديدان الخيطية C. elegans.


النتائج

دقة التنبؤ الجيني في النصوص المرجعية

استخدمنا GeneMarkS-T و Prodigal و TransDecoder و ESTscan للتنبؤ بجينات ترميز البروتين في نسخ "كاملة" و "جزئية" من A. thaliana ، D. melanogaster ، M. musculus و S. بومبي (راجع قسم "المواد والطرق"). يعتمد عدد الجينات المتوقع في مجموعة من النصوص على الحد الأدنى لطول الجين المحدد (ملغم). نحن تغيرنا ملغم كمعامل حد من 90 إلى 480 نقطة أساس (بخطوات 30 نقطة أساس). لكل مجموعة من التنبؤات قمنا بحساب Sn و Sp بناءً على شرح النص ورسمنا اعتماد Sn على 1 - Sp (الشكلان 2 و 3). في هذه المخططات ، التي تبدو مشابهة لمنحنيات خاصية تشغيل المستقبل (ROC) ، تم الحصول على النقاط اليمنى العلوية من أجلها ملغم يساوي 90 نقطة أساس. لا نعرض مؤامرات لـ ESTscan لأننا لم نتمكن من تحقيق أداء عالٍ بدرجة كافية (على سبيل المثال ، بالنسبة للماوس ، كان لدينا Sn = 0.53 و Sp = 0.54). نعتقد أن التدريب الذاتي من شأنه تحسين أداء ESTscan. في حالة عدم وجود مثل هذا الخيار ، اضطررنا إلى اختيار أحد النماذج المتاحة المحددة مسبقًا ، على سبيل المثال النموذج البشري لتحليل نصوص الماوس.

مخططات حساسية التنبؤ الجيني (Sn) كوظائف لخصوصية التنبؤ الجيني (1 - Sp) لـ TransDecoder و Prodigal و GeneMarkS-T المحددة في مجموعات اختبار من النصوص المرجعية "الكاملة" لـ A. thaliana ، D. melanogaster ، M. musculus و S. بومبي. قمنا بتطبيق الأدوات الثلاث في كل من وضعي (S) المكفوفين والخيوط. لبناء المنحنيات ، أنشأنا مجموعات من الجينات المتوقعة بأقل طول يتحكم فيه ملغم عتبة (انظر النص). مثل ملغم زادت القيم من 90 إلى 480 نقطة أساس (بخطوة 30 نقطة أساس) انخفضت قيم Sn.

مخططات حساسية التنبؤ الجيني (Sn) كوظائف لخصوصية التنبؤ الجيني (1 - Sp) لـ TransDecoder و Prodigal و GeneMarkS-T المحددة في مجموعات اختبار من النصوص المرجعية "الكاملة" لـ A. thaliana ، D. melanogaster ، M. musculus و S. بومبي. قمنا بتطبيق الأدوات الثلاث في كل من وضعي (S) المكفوفين والخيوط. لبناء المنحنيات ، أنشأنا مجموعات من الجينات المتوقعة بأقل طول يتحكم فيه ملغم عتبة (انظر النص). مثل ملغم زادت القيم من 90 إلى 480 نقطة أساس (بخطوة 30 نقطة أساس) انخفضت قيم Sn.

كما هو الحال في الشكل 2 للاختبارات على نسخ مرجعية "جزئية" محاكاة لـ A. thaliana ، D. melanogaster ، M. musculus و S. بومبي. تم عمل النسخ "الجزئية" عن طريق قص المتواليات في نهاية كل من 5 و 3 للنصوص "الكاملة" (انظر النص لمعرفة عقلانية هذه الطريقة). تم استخدام الأدوات الثلاثة في كل من الوضعين (S) للمكفوفين والحبال.

كما هو الحال في الشكل 2 لاختبارات محاكاة النصوص المرجعية "الجزئية" لـ A. thaliana ، D. melanogaster ، M. musculus و S. بومبي. تم عمل النسخ "الجزئية" عن طريق قص المتواليات في نهاية كل من 5 و 3 للنصوص "الكاملة" (انظر النص لمعرفة عقلانية هذه الطريقة). تم استخدام الأدوات الثلاثة في كل من الوضعين (S) للمكفوفين والحبال.

بالنسبة للنصوص "الكاملة" ، أظهرت كل من إصدارات GeneMarkS-T الخاصة بكل من ستراند-أعمى والمحددة أداءً أفضل بشكل ملحوظ من الأدوات الأخرى (الشكل 2). في التجارب مع النصوص "الجزئية" (الشكل 3) اقترب الضال و TransDecoder في الأداء من GeneMarkS-T. أفضل (Sn + Sp) / 2 رأيناه لـ GeneMarkS-T و Prodigal و TransDecoder عندما ملغم كانت القيم 150 و 210 و 270 نقطة أساس على التوالي. أدت إضافة معلومات عن حبلا الحمض النووي الريبي ، وبالتالي استخدام إصدارات (S) من أدوات البحث عن الجينات الثلاثة ، إلى زيادة قيم Sp (الشكلان 2 و 3).

تباين كبير في محتوى G + C بتنسيق M. العضلات و D. melanogaster تم تحديد النصوص (من 0.31 إلى 0.76 في الماوس ومن 0.27 إلى 0.63 في الطيران) على الفور بواسطة GeneMarkS-T الذي قام بتجميع النصوص في ثلاث صناديق محتوى G + C بحدود محددة تلقائيًا (الجدول S1). تم إجراء التدريب الذاتي بشكل منفصل للنصوص في كل من المجموعات الثلاث. في خطوة التنبؤ ، تم اختيار معلمات الخوارزمية المستخدمة لنسخة معينة فيما يتعلق بمحتوى النص G + C. أنتج هذا النهج قيم Sn أفضل من حالة عدم وجود المجموعات (الجدول S1).

درسنا كيف تعتمد دقة التنبؤ على حجم النصوص في التدريب. بالنسبة لهذه التجارب ، قمنا بأخذ عينات عشوائية من عدة مجموعات من النصوص بنفس الحجم. إذا كان الحجم أكبر من 600 كيلو بايت ، فقد وصل GeneMarkS-T و Prodigal إلى هضبة بأداء ثابت وقيمة (Sn + Sp) / 2 قريبة من 96٪ لـ GeneMarkS-T و 94٪ لـ Prodigal (الشكل 4). كانت دقة TransDecoder لها نمط تغيير مماثل مع وصول الهضبة عند 91 ٪ إلى حجم 1 ميجا بايت. أدى الانخفاض إلى 100 كيلو بايت إلى إنتاج أداء أقل ولكنه لا يزال لائقًا: 90٪ لـ GeneMarkS-T و Prodigal ، و 80٪ لـ TransDecoder. كان الحد الأدنى لحجم التسلسل المطلوب لـ Prodigal 20 كيلو بايت بينما كان حد GeneMarkS-T أقل. أقل من 50 كيلو بايت يقوم GeneMarkS-T بالتبديل تلقائيًا لاستخدام النماذج التجريبية لمناطق ترميز البروتين التي يمكن تحديد معلماتها لجزء تسلسلي قصير يصل إلى 400 نقطة أساس (15).

اعتماد (Sn + Sp) / 2 من أدوات التنبؤ الجيني الثلاثة على حجم مجموعة التدريب D. melanogaster النصوص (يُظهر المحور X الحجم الإجمالي للمجموعة ، ومقياس السجل). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. ال mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. ال mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

In some transcripts GeneMarkS-T predicted several coding regions (with mgl 300 bp). We observed such outcomes in 2.5% of A. thaliana transcripts, 9.4% of S. بومبي, 6.0% of D. melanogaster and 20.4% of M. العضلات. In the supposed absence of operons such outcomes are possible for three reasons. First, additional predictions could have no connection to carrying genetic code, i.e. pure false positives. Second, a transcript could come from a locus where splicing mechanism generates alternative isoforms. For instance, protein-coding exons related to one isoform could appear outside the protein coding region related to another isoform (e.g. Figure 5A). Third, a transcript could overlap adjacent genes located in the complementary strand. خصوصا، S. بومبي, a species not known for ubiquitous alternative splicing, has short intergenic regions and long UTRs that may overlap adjacent genes (e.g. Figure 5B). Not surprisingly, for S. بومبي we observed a significant gain of accuracy after switching to strand-specific versions of the three gene finders (Figures 2 and 3).

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (أ) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (ب) The 5′ UTR of S. بومبي transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (أ) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (ب) The 5′ UTR of S. بومبي transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

If multiple predictions were generated in a transcript GeneMarkS-T selected the one with the maximum log-odd score. This approach produced 93% success rate in selecting the ‘true’ coding region for A. thaliana, 74% for D. melanogaster, 98% for M. العضلات and 62% for S. بومبي.

Prediction of translation initiation site

To assess the accuracy of TIS prediction by GeneMarkS-T, Prodigal and TransDecoder we used 1392 reference transcripts of M. العضلات (with annotated coding regions longer than 300 bp). The TIS annotation in these transcripts was validated by Ribo-seq experiments (see ‘Materials and Methods’ section). GeneMarkS-T was run in three modes: (i) with default settings (ii) with search for the Kozak motif switched off and iii/ with mandatory prediction of complete CDS.

GeneMarkS-T with default settings correctly predicted 68.5% starts in genes where the reading frame was correctly predicted (and, therefore, the 3′ end of the gene). This was higher accuracy in comparison with the two other tools (Table 2). All three tools revealed a tendency to extend the 5′ end of the coding region beyond the 5′ end of the transcript. Notably, TransDecoder adopts the ‘longest-ORF’ rule and selects the 5′-most AUG (with respect to the in-frame stop codon) as the translation initiation site. In comparison, GeneMarkS-T had the largest fraction of TIS predictions located downstream from the 5′-most AUGs. Use of the Kozak motif was responsible for improving Sn of GeneMarkS-T by about 10% (Table 2). Prohibiting predictions of incomplete coding regions would boost the TIS identification accuracy of GeneMarkS-T to 95.0%, however, use of this option is limited to transcripts that are known to be 5′ end complete.

Numbers of protein-coding regions predicted correctly (TP) and incorrectly (FP) by GeneMarkS-T, Prodigal and TransDecoder in D. melanogaster ‘concordant’ transcripts (selected as described in text)

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
أغسطس 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
مخمل 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
أغسطس 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
مخمل 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
أغسطس 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
مخمل 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
أغسطس 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
مخمل 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Several ribosome profiling studies ( 12, 23–24) raised concerns about the frequent presence of alternative TIS's located both upstream and downstream of annotated TIS's confirmed by Ribo-seq experiments. However, a recent publication ( 25) indicated that reports of alternative TIS in many cases are likely to be artefacts therefore, the confidence in the Ribo-seq experimental validation of annotated TIS's remains high.

Gene prediction with heuristic models (case for meta-transcriptomics)

To model gene prediction in a metatranscriptome we used the same set of mouse transcripts G + C content of individual transcripts in this set ranged from 27 to 63%. To run GeneMarkS-T on a given transcript we used parameters derived as functions of a single variable, the transcript G + C content. We did not continue the training, assuming that the given transcript is the only sequence from an unknown genome. This assumption is relevant for a typical metatranscriptome. The method of inference of these functions was described earlier for short metagenomics sequences ( 7, 15). We used the functions that reflect dependence of oligonucleotide composition of protein coding regions on G + C content of the sequence the functions were derived for a set of complete prokaryotic genomes ( 15). The results are surprisingly good (last row in Table 2) with correct prediction of 82.4% of genes (1147 out of 1193) also 54.9% of starts were correctly predicted in comparison with 68.6% correct starts predicted with full training of the model.

Model training and gene predictions for transcripts reconstructed from RNA-Seq

A comprehensive assessment of the accuracy of transcript reconstruction from RNA-Seq reads was conducted in the RGASP competition ( 3). We used in this study transcripts reconstructed in ( 3) by Cufflinks, Augustus, Exonerate, Velvet and Oases ( 18–22). It was shown that assembled transcripts frequently contain errors and only a subset of all transcripts could be fully recovered ( 3). Observed average lengths of assembled transcripts were shorter than that of reference transcripts, particularly the average lengths of the من جديد assemblies made by Oases and Velvet (Supplementary Figure S1A). Would the errors present in transcript assemblies affect self-training of GeneMarkS-T? To address this question we trained GeneMarkS-T on five sets of D. melanogaster transcripts assembled by the five tools mentioned above. The trained models were used in GeneMarkS-T to predict genes in reference transcripts of D. melanogaster. We observed almost no difference between any of the five graphs of Sn versus 1 − Sp for gene prediction with models trained on D. melanogaster assembled transcripts and the graph depicting Sn versus 1 − Sp for gene prediction with the D. melanogaster model trained on reference transcripts (Figure 6). Thus, GeneMarkS-T training was shown to be robust with respect to use of assembled transcripts instead of ‘ideal’ reference transcripts.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

To assess performance of gene prediction methods in assembled transcripts we used the same five sets of assembled D. melanogaster النصوص. First, we mapped the assembled transcripts to the corresponding reference transcripts ( 3) to detect and evaluate the differences. We used the results to divide the set of assembled transcripts into three groups: ‘concordant’, ‘conflicting’ and ‘not-aligned’ (see ‘Materials and Methods’ section and Supplementary Figure S2). Many assembled D. melanogaster transcripts fell into ‘conflicting’ category (from 17 to 47%, depending on the tool, see Supplementary Figure S3, ‘A’ bars) Cufflinks, Exonerate and Oases produced larger numbers of ‘conflicting’ transcripts than Augustus and Velvet. Multiple protein-coding regions were predicted more frequently in the ‘conflicting’ transcripts than in the ‘concordant’ transcripts (Supplementary Figure S4). Note, that for GeneMarkS-T events of prediction of multiple coding regions were registered prior to selecting ‘reported’ predictions with highest log-odd score. We have illustrated the distribution of events (multiple, single, none predictions) for GeneMarkS-T (Supplementary Figure S4). The distributions of the same events for the two other gene prediction tools show similar patterns (Table S2). Thus, all the tools predict single coding regions in ‘concordant’ assemblies with higher frequencies than in ‘conflicting’ ones.

To make unambiguous comparison of accuracy of gene prediction in ‘concordant’ transcripts we had to select the sets where gene finders make single gene predictions. As such surrogate sets we chose sets of ‘concordant’ assemblies where GeneMarkS-T predicted single protein-coding regions. Annotation of protein coding regions in these assembled transcripts was accomplished by transfer of the reference transcript annotation. In all the five test sets, GeneMarkS-T generated the largest number of TPs and the fewest number of FPs (Table 3).

In the sets of assembled transcripts where GeneMarkS-T predicted multiple coding regions we have observed high fractions of ‘conflicting’ transcripts (e.g. 90%, for the set of Cufflinks assembled transcripts). Thus, predicting multiple coding regions was an indicator of a higher chance for the transcript to be in the ‘conflicting’ category and to carry some discrepancies in the transcript assembly. Still, this observation should be taken with a caveat that multiple coding regions could appear in the ‘concordant’ transcript encoding alternative isoforms (as illustrated in Figure 5).

Very short coding regions are rare and are rarely predicted. Therefore, if an assembled transcript (complete or incomplete) is short it is likely that no gene will be predicted. Indeed, we observed that the gene finding tools did not predict genes in many transcripts assembled by the من جديد methods Velvet and Oases (Supplementary Figure S3). Notably, many of these transcripts were too short (Supplementary Figure S1A).


النتائج

Accuracy of gene prediction in reference transcripts

We used GeneMarkS-T, Prodigal, TransDecoder and ESTscan to predict protein-coding genes in ‘complete’ as well as ‘partial’ transcripts of A. thaliana, D. melanogaster, M. musculus و S. بومبي (see ‘Materials and Methods’ section). The number of genes predicted in a set of transcripts depends on the selected minimum gene length (mgl). We have changed mgl as a threshold parameter from 90 to 480 bp (with 30 bp steps). For each set of predictions we computed Sn and Sp based on the transcript annotation and plotted the dependence of Sn on 1 − Sp (Figures 2 and 3). In these plots, which look similar to receiver operating characteristic (ROC) curves, the top right points were obtained for mgl equal to 90 bp. We do not show plots for ESTscan as we were not able to achieve high enough performance (i.e. for mouse we had Sn = 0.53 and Sp = 0.54). We believe that self-training would improve ESTscan performance. In the absence of such an option we were forced to select one of the available pre-defined models, e.g. the human model for analysis of mouse transcripts.

Plots of gene prediction sensitivity (Sn) as functions of gene prediction specificity (1 − Sp) for TransDecoder, Prodigal and GeneMarkS-T determined on test sets of ‘complete’ reference transcripts of A. thaliana, D. melanogaster, M. musculus و S. بومبي. We applied the three tools in both strand blind and strand informed (S) modes. To build the curves we generated sets of predicted genes with minimal length controlled by the mgl threshold (see text). مثل mgl values increased from 90 to 480 bp (with 30 bp step) the Sn values decreased.

Plots of gene prediction sensitivity (Sn) as functions of gene prediction specificity (1 − Sp) for TransDecoder, Prodigal and GeneMarkS-T determined on test sets of ‘complete’ reference transcripts of A. thaliana, D. melanogaster, M. musculus و S. بومبي. We applied the three tools in both strand blind and strand informed (S) modes. To build the curves we generated sets of predicted genes with minimal length controlled by the mgl threshold (see text). مثل mgl values increased from 90 to 480 bp (with 30 bp step) the Sn values decreased.

Same as in Figure 2 for the tests on simulated ‘partial’ reference transcripts of A. thaliana, D. melanogaster, M. musculus و S. بومبي. The ‘partial’ transcripts were made by trimming sequences on both 5′ and 3′ end of the ‘complete’ transcripts (see text for rational of this method). The three tools were used in both strand blind and strand informed (S) modes.

Same as in Figure 2 for the tests on simulated ‘partial’ reference transcripts of A. thaliana, D. melanogaster, M. musculus و S. بومبي. The ‘partial’ transcripts were made by trimming sequences on both 5′ and 3′ end of the ‘complete’ transcripts (see text for rational of this method). The three tools were used in both strand blind and strand informed (S) modes.

For ‘complete’ transcripts, both strand-blind and strand-specific versions of GeneMarkS-T demonstrated significantly better performance than the other tools (Figure 2). In experiments with ‘partial’ transcripts (Figure 3) Prodigal and TransDecoder came closer in performance to GeneMarkS-T. The best (Sn + Sp)/2 we saw for GeneMarkS-T, Prodigal and TransDecoder when the mgl values were 150, 210 and 270 bp, respectively. Adding information on RNA strand and thus use of the (S) versions of the three gene finding tools, increased the Sp values (Figures 2 and 3).

Significant variation in G + C content in M. العضلات و D. melanogaster transcripts (from 0.31 to 0.76 in mouse and from 0.27 to 0.63 in fly) was immediately identified by GeneMarkS-T which grouped the transcripts into three G + C content bins with automatically defined borders (Table S1). Self-training was done separately for transcripts in each of the three clusters. In the prediction step, algorithm parameters used for a given transcript were chosen with respect to the transcript G + C content. This approach produced better Sn values than in the absence of clustering (Table S1).

We studied how prediction accuracy depends on the volume of transcripts in training. For these experiments we sampled randomly several sets of transcripts with the same volume. If the volume was larger than 600 kb, GeneMarkS-T and Prodigal reached a plateau with steady performance and (Sn + Sp)/2 value close to 96% for GeneMarkS-T and 94% for Prodigal (Figure 4). Accuracy of TransDecoder had a similar pattern of change with the plateau at 91% reached at the volume of 1 Mb. A decrease to 100 kb produced lower but still decent performance: 90% for GeneMarkS-T and Prodigal, and 80% for TransDecoder. The minimum volume of sequence required for Prodigal was 20 kb while the GeneMarkS-T limit was even lower. Below 50 kb GeneMarkS-T automatically switches to use of heuristic models of protein-coding regions whose parameters could be determined for a sequence fragment as short as 400 bp ( 15).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. ال mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. ال mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

In some transcripts GeneMarkS-T predicted several coding regions (with mgl 300 bp). We observed such outcomes in 2.5% of A. thaliana transcripts, 9.4% of S. بومبي, 6.0% of D. melanogaster and 20.4% of M. العضلات. In the supposed absence of operons such outcomes are possible for three reasons. First, additional predictions could have no connection to carrying genetic code, i.e. pure false positives. Second, a transcript could come from a locus where splicing mechanism generates alternative isoforms. For instance, protein-coding exons related to one isoform could appear outside the protein coding region related to another isoform (e.g. Figure 5A). Third, a transcript could overlap adjacent genes located in the complementary strand. خصوصا، S. بومبي, a species not known for ubiquitous alternative splicing, has short intergenic regions and long UTRs that may overlap adjacent genes (e.g. Figure 5B). Not surprisingly, for S. بومبي we observed a significant gain of accuracy after switching to strand-specific versions of the three gene finders (Figures 2 and 3).

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (أ) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (ب) The 5′ UTR of S. بومبي transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (أ) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (ب) The 5′ UTR of S. بومبي transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

If multiple predictions were generated in a transcript GeneMarkS-T selected the one with the maximum log-odd score. This approach produced 93% success rate in selecting the ‘true’ coding region for A. thaliana, 74% for D. melanogaster, 98% for M. العضلات and 62% for S. بومبي.

Prediction of translation initiation site

To assess the accuracy of TIS prediction by GeneMarkS-T, Prodigal and TransDecoder we used 1392 reference transcripts of M. العضلات (with annotated coding regions longer than 300 bp). The TIS annotation in these transcripts was validated by Ribo-seq experiments (see ‘Materials and Methods’ section). GeneMarkS-T was run in three modes: (i) with default settings (ii) with search for the Kozak motif switched off and iii/ with mandatory prediction of complete CDS.

GeneMarkS-T with default settings correctly predicted 68.5% starts in genes where the reading frame was correctly predicted (and, therefore, the 3′ end of the gene). This was higher accuracy in comparison with the two other tools (Table 2). All three tools revealed a tendency to extend the 5′ end of the coding region beyond the 5′ end of the transcript. Notably, TransDecoder adopts the ‘longest-ORF’ rule and selects the 5′-most AUG (with respect to the in-frame stop codon) as the translation initiation site. In comparison, GeneMarkS-T had the largest fraction of TIS predictions located downstream from the 5′-most AUGs. Use of the Kozak motif was responsible for improving Sn of GeneMarkS-T by about 10% (Table 2). Prohibiting predictions of incomplete coding regions would boost the TIS identification accuracy of GeneMarkS-T to 95.0%, however, use of this option is limited to transcripts that are known to be 5′ end complete.

Numbers of protein-coding regions predicted correctly (TP) and incorrectly (FP) by GeneMarkS-T, Prodigal and TransDecoder in D. melanogaster ‘concordant’ transcripts (selected as described in text)

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
أغسطس 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
مخمل 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
أغسطس 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
مخمل 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
أغسطس 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
مخمل 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
أغسطس 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
مخمل 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Several ribosome profiling studies ( 12, 23–24) raised concerns about the frequent presence of alternative TIS's located both upstream and downstream of annotated TIS's confirmed by Ribo-seq experiments. However, a recent publication ( 25) indicated that reports of alternative TIS in many cases are likely to be artefacts therefore, the confidence in the Ribo-seq experimental validation of annotated TIS's remains high.

Gene prediction with heuristic models (case for meta-transcriptomics)

To model gene prediction in a metatranscriptome we used the same set of mouse transcripts G + C content of individual transcripts in this set ranged from 27 to 63%. To run GeneMarkS-T on a given transcript we used parameters derived as functions of a single variable, the transcript G + C content. We did not continue the training, assuming that the given transcript is the only sequence from an unknown genome. This assumption is relevant for a typical metatranscriptome. The method of inference of these functions was described earlier for short metagenomics sequences ( 7, 15). We used the functions that reflect dependence of oligonucleotide composition of protein coding regions on G + C content of the sequence the functions were derived for a set of complete prokaryotic genomes ( 15). The results are surprisingly good (last row in Table 2) with correct prediction of 82.4% of genes (1147 out of 1193) also 54.9% of starts were correctly predicted in comparison with 68.6% correct starts predicted with full training of the model.

Model training and gene predictions for transcripts reconstructed from RNA-Seq

A comprehensive assessment of the accuracy of transcript reconstruction from RNA-Seq reads was conducted in the RGASP competition ( 3). We used in this study transcripts reconstructed in ( 3) by Cufflinks, Augustus, Exonerate, Velvet and Oases ( 18–22). It was shown that assembled transcripts frequently contain errors and only a subset of all transcripts could be fully recovered ( 3). Observed average lengths of assembled transcripts were shorter than that of reference transcripts, particularly the average lengths of the من جديد assemblies made by Oases and Velvet (Supplementary Figure S1A). Would the errors present in transcript assemblies affect self-training of GeneMarkS-T? To address this question we trained GeneMarkS-T on five sets of D. melanogaster transcripts assembled by the five tools mentioned above. The trained models were used in GeneMarkS-T to predict genes in reference transcripts of D. melanogaster. We observed almost no difference between any of the five graphs of Sn versus 1 − Sp for gene prediction with models trained on D. melanogaster assembled transcripts and the graph depicting Sn versus 1 − Sp for gene prediction with the D. melanogaster model trained on reference transcripts (Figure 6). Thus, GeneMarkS-T training was shown to be robust with respect to use of assembled transcripts instead of ‘ideal’ reference transcripts.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

To assess performance of gene prediction methods in assembled transcripts we used the same five sets of assembled D. melanogaster النصوص. First, we mapped the assembled transcripts to the corresponding reference transcripts ( 3) to detect and evaluate the differences. We used the results to divide the set of assembled transcripts into three groups: ‘concordant’, ‘conflicting’ and ‘not-aligned’ (see ‘Materials and Methods’ section and Supplementary Figure S2). Many assembled D. melanogaster transcripts fell into ‘conflicting’ category (from 17 to 47%, depending on the tool, see Supplementary Figure S3, ‘A’ bars) Cufflinks, Exonerate and Oases produced larger numbers of ‘conflicting’ transcripts than Augustus and Velvet. Multiple protein-coding regions were predicted more frequently in the ‘conflicting’ transcripts than in the ‘concordant’ transcripts (Supplementary Figure S4). Note, that for GeneMarkS-T events of prediction of multiple coding regions were registered prior to selecting ‘reported’ predictions with highest log-odd score. We have illustrated the distribution of events (multiple, single, none predictions) for GeneMarkS-T (Supplementary Figure S4). The distributions of the same events for the two other gene prediction tools show similar patterns (Table S2). Thus, all the tools predict single coding regions in ‘concordant’ assemblies with higher frequencies than in ‘conflicting’ ones.

To make unambiguous comparison of accuracy of gene prediction in ‘concordant’ transcripts we had to select the sets where gene finders make single gene predictions. As such surrogate sets we chose sets of ‘concordant’ assemblies where GeneMarkS-T predicted single protein-coding regions. Annotation of protein coding regions in these assembled transcripts was accomplished by transfer of the reference transcript annotation. In all the five test sets, GeneMarkS-T generated the largest number of TPs and the fewest number of FPs (Table 3).

In the sets of assembled transcripts where GeneMarkS-T predicted multiple coding regions we have observed high fractions of ‘conflicting’ transcripts (e.g. 90%, for the set of Cufflinks assembled transcripts). Thus, predicting multiple coding regions was an indicator of a higher chance for the transcript to be in the ‘conflicting’ category and to carry some discrepancies in the transcript assembly. Still, this observation should be taken with a caveat that multiple coding regions could appear in the ‘concordant’ transcript encoding alternative isoforms (as illustrated in Figure 5).

Very short coding regions are rare and are rarely predicted. Therefore, if an assembled transcript (complete or incomplete) is short it is likely that no gene will be predicted. Indeed, we observed that the gene finding tools did not predict genes in many transcripts assembled by the من جديد methods Velvet and Oases (Supplementary Figure S3). Notably, many of these transcripts were too short (Supplementary Figure S1A).


ملف إضافي 1:

Includes 12 supporting figures and four supporting tables. A description of each is given within the file.

Additional file 2:

Performance of four transcriptome assemblers on the Edgren dataset. A table of which true positive breakpoint sequences were assembled by Trinity, Oases, TransABySS and SOAPdenovo-Trans on the Edgren dataset. Oases assembled the highest number of true positive breakpoints with 31.

Additional file 3:

Fusion genes in the BT-474, SK-BR-3, KPL-4 and MCF-7 cell lines. A list of the true positive fusion genes used in the validation of JAFFA on the Edgren and ENCODE dataset, along with a list of the probable true positives, and the fusion calls from JAFFA, FusionCatcher, SOAPfuse, defuse and TopHat-Fusion.

Additional file 4:

Fusion genes in the glioma dataset. A list of the true positive fusion genes, probable true positives and results from JAFFA, SOAPfuse, defuse and TopHat-Fusion for the gliomas dataset.

Additional file 5:

JAFFA commands. This script provides commands to reproduce the results from JAFFA and other tools shown in the manuscript.


شاهد الفيديو: الدرس الـ 18: آلية كشف النسخ وسرقة النصوص من الانترنت ووضعها في مستند الوورد (أغسطس 2022).