معلومة

كيفية الحصول على النمط الفرداني التدريجي من ملف vcf؟

كيفية الحصول على النمط الفرداني التدريجي من ملف vcf؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

على الرغم من أنني أقرأ كل الأيام والليالي ، ما زلت مرتبكًا في هذا المجال. لدي مئات من ملفات BAM (من تسلسل الجينوم الكامل لمجموعة بشرية معينة). كنت أتساءل كيف يمكنني الحصول على النمط الفرداني التدريجي من ملف vcf الخام؟ قرأت أيضًا عن GATK ، لكن لم أجد إجابة واضحة لسؤالي. من فضلك قل لي ما إذا كانت هذه الأداة مناسبة لهذا الهدف؟ هل تسمح من فضلك بتقديم بعض الأدلة العملية وخطوط الأنابيب التي تشرح مثل هذا التحليل خطوة بخطوة؟

شكرا لك على مساعدتك


يجب أن تكون قادرًا على إعادة تنسيق ملفات BAM إلى ملفات VCF ذات الامتداد PGDSpider.

أجد أن استخدام برامج محددة لهذا النوع من تنسيق البيانات يميل إلى أن يكون عرضة للخطأ وغير عملي عند وجود عدد كبير من الملفات لإعادة تنسيقها ، لذلك أنا شخصياً أحب أن أقرأ ببساطة عن معيار التنسيق وأكتب الكود لإعادة تنسيقه بنفسي ولكن هذا كثيرًا مسألة تفضيل شخصي.


يمكنك استخدام إما HapCut2 أو WhatsHap أو الحزمة الخاصة بي.


هناك حزم متعددة لتحقيق ذلك. لقد استخدمت شخصيًا bcftools (SAMtools). فيما يلي قائمة غير شاملة:

  • SAMtools (bcftools) ؛
  • VarScan2 ؛
  • FreeBayes
  • خلد الماء.
  • متغير عميق

كيفية الحصول على النمط الفرداني التدريجي من ملف vcf؟ - مادة الاحياء

موسع لكتل النمط الفرداني المقسوم على إعادة مراحل. برنامج Python لتوسيع كتل النمط الفرداني ReadBackPhased باستخدام احتمالات انتقال Markov من الدرجة الأولى واختبار الاحتمالية.

تم تطويره بواسطة Bishwa K. Giri في مختبر Remington بجامعة North Carolina في Greensboro ، قسم الأحياء.

Giri ، B. K. ، Remington D. L. biorxiv (2018) [لم يتم الرفع بعد].

جدول المحتويات

يتم استدعاء نمطين وراثيين متغاير الزيجوت في جينوم كائن ثنائي الصبغيات لإعادة التدوير على مراحل إذا كانا مدعومين من خلال تسلسل قراءة محاذي. اعتمادًا على حجم ونوع مكتبة تسلسل القراءة (نهاية واحدة مقابل نهاية متقاربة) ، يمكن أن يتراوح نوع تسلسل القراءة (DNAseq مقابل RNAseq) من النمط الفرداني المعاد تشكيله من حجم 2 من الأنماط الجينية إلى أنماط وراثية متعددة.

تحقق من هذه الروابط لمزيد من التفاصيل حول إعادة قراءة الطرد

يعد النمط المفرد التدريجي مشكلة "الانتقال إلى" الثانية في المعلوماتية الحيوية بعد محاذاة القراءة. تنطبق أهمية التدريج على النمط الفرداني مباشرة على تحليلات ASE (التعبير النوعي للأليل) ، وإعداد النمط الفرداني الممتد لاختبار EHH (النمط الفرداني الممتد) ، وإعداد الجينوم ثنائي القطب الذي سيصبح قريبًا معيارًا جديدًا في المعلوماتية الحيوية في السنوات القادمة ، إلخ. تزداد الحاجة إلى مراحل النمط الفرداني (وفي النهاية جينوم ثنائي الصبغيات) مع زيادة تغاير الزيجوت في الجينوم لأن زيادة التجانس تؤدي إلى تحيز أكبر في المحاذاة وتعقد موثوقية المتغيرات التي تسمى باستخدام بيانات المحاذاة تلك (ملفات SAM ، BAM).

يتضمن النهج الكلاسيكي للتقسيم التدريجي للنمط الفرداني تطبيق اختبار LD (اختلال التوازن) بين اثنين من العلامات غير المتجانسة ، والتي بدأت بإعداد الخريطة الجينية بواسطة ألفريد ستورتيفانت. وبالتالي ، فإن أي أداة مرحلية للنمط الفرداني القائمة على السكان تستخدم اختبار صعوبة التعلم بدرجات متفاوتة من التعقيد بناءً على حجم العينة المتاح ، والعلامات ، وأنواع المحدد ، والعلاقة بين العينات. بالنسبة لأدوات تقسيم النمط الفرداني ، يتم استخدام أدوات مثل Beagle و ShapeIT و impute2 وما إلى ذلك بشكل سائد. تستفيد هذه الأدوات من المتغيرات (SNPs ، InDels) على طول طول الجينوم من خلال معالجة سلسلة من المتغيرات على طول المواضع الجينومية بشكل فردي ومستقل. لذلك ، بالنسبة للكائن ثنائي الصيغة الصبغية الذي يحتوي على سلسلة من المتغيرات مع مواقع متغايرة الزيجوت "n" هناك "2 ن" أنماط الفرد المحتملة. إلى حد معين هذا "2 ن" يتم التعامل مع المشكلة وتخفيفها عن طريق أخذ عينات بيانات النمط الجيني في فترات جينومية قصيرة من عدة عينات وتطبيق الهوية عن طريق النسب (IBD) ، وهي طريقة النمط الفرداني الأكثر شيوعًا ، وما إلى ذلك على الأنماط الجينية المأخوذة من العينات لاستنتاج النمط الفرداني المحتمل في تلك المنطقة. ومع ذلك ، قد لا يكون تطبيق هذه الطرق هو الأمثل في حل حالات الطور في الكائنات الحية التي تحتوي على جينوم غير متجانس للغاية ، وهجينة و / أو لديها عدد قليل جدًا من اللوحات المرجعية أو لا تحتوي على أي لوحات مرجعية وبيانات التركيب الوراثي الوفيرة.

القضايا الرئيسية للأدوات التي تتعامل مع النمط الفرداني التدريجي "2 ن" الطريقة يمكن تلخيصها على النحو التالي:

  • زيادة عبء الحساب بسبب "2 ن" مشكلة.
  • مشكلة في تقسيم المتغيرات النادرة على مراحل.
  • ينطبق في الغالب على الإنسان والكائنات الحية مع لوحة النمط الفرداني المرجعية والبيانات الجينومية الوفيرة.
  • ليست مثالية للكائنات الحية التي لديها جينوم غير متجانس ، أو سلالات ، أو هجينة ، أو تنتمي إلى مجموعة الكائنات الحية التي تحتوي على عينة صغيرة من الموارد الجينومية والجينوم المرجعي المُعد.

لذلك ، فإن استخدام LD بين اثنين من تعدد الأشكال المتجاور باستخدام مجموعة صغيرة من العينات غير قادر على توفير دقة كافية لحل إعداد النمط الفرداني GW (على نطاق الجينوم) ، مما قد يؤدي إلى أخطاء تبديل مفرطة. بالإضافة إلى ذلك ، في الجينوم غير المتجانس والهجين ، يمكن أن تكون المشاكل الناشئة بسبب أخطاء التبديل في تحليلات المصب متعددة.

تبرز ميزة القراءة الخلفية كطريقة جديدة وأكثر موثوقية لإعداد أنماط الفردانية قصيرة المدى من خلال الانضمام إلى المتغيرات غير المتجانسة التي تغطيها قراءات التسلسل. يمكن إطالة هذه الأنماط الفردية القصيرة عن طريق إضافة قراءات متسلسلة بطول أطول (يقرأ PacBio) أو عن طريق إضافة المزيد من القراءات الجينومية و RNAseq من نفس أدوات المشاهدة الفردية WhatsHap ، hapCut ، فيزر إلخ.

ولكن ، لا تزال المشكلات المتعلقة بأسلوب RBphase والأدوات الموجودة قائمة ويمكن تلخيصها على النحو التالي:

  1. تهدف بشكل أساسي إلى إعداد أنماط الفرد طويلة المدى ولكن ليس بالضرورة على نطاق الجينوم.
  2. تستهدف أساليب RBphase الحالية فقط على المستوى الفردي أو العائلي ، أي أنها تتطلب مدخلات متعددة من ملفات "BAM" و "VCF" لنفس الفرد و / أو الثلاثيات. تعتمد الزيادة في حجم كتل النمط الفرداني المرحلي فقط على ملفات BAM متعددة ، أو مجموعات متعددة من القراءات الأطول من نفس الفرد ، والذي لا يزال يعني تضمين تسلسل وتكلفة إضافية.
  3. الإشارة إلى النقطة 2 - & gt تكامل بيانات RB المرحلية مع التدرج القائم على السكان لا يزال مفقودًا ، أي أنهم غير قادرين على حل حالة الطور لكتلتين من النمط الفرداني في نفس العينة باستخدام معلومات حالة طور النمط الفرداني من عينات أخرى.

مع زيادة حجم قراءات PE (النهاية المزدوجة) من illumina وتوافر متواليات أطول من PacBio ، أصبح من الممكن الآن زيادة حجم الأنماط الفردية RB بشكل كبير. على الرغم من القراءة الطويلة في المستقبل ، ستكون هناك دائمًا مشكلات في التغطية بسبب فجوات التغطية العشوائية. ستؤدي هذه الفجوات إلى تقسيم النوع الفرداني الواسع للجينوم إلى مقاطع متعددة من النمط الفرداني ، وبالتالي فإن عملية RB الكاملة لا تعد أيضًا حلاً مثاليًا.

الجمع بين RBphasing مع تمديد المرحلة القائمة على السكان يقلل من مشكلة

  1. قم أولاً بإعداد كتل النمط الفرداني RBphased ضمن عينة باستخدام قراءات التسلسل المحاذاة (ملفات BAM ، ملفات SAM).
  2. بعد ذلك ، يتم ضم كتلتين من النمط الفرداني المتتالي عند نقطة فاصل في عينة عن طريق حساب تقديرات احتمالية LD (اختلال التوازن) التي لوحظت في عينات أخرى عند نقطة الانقطاع تلك.

منذ ذلك الحين ، يزداد حجم الكتل الطورية RB مع زيادة تغاير الزيجوت في الجينوم ، PhaseExtender هي أدوات مناسبة للغاية للكائنات الحية ذات الجينوم غير المتجانسة و / أو التي لديها كمية محدودة من بيانات التركيب الوراثي المتسلسلة. دائمًا ما يحتوي النمط الفرداني RBphased على مزيد من المعلومات مقارنةً بـ SNP أو InDel واحد ، وبالتالي التغلب على المشكلات المتعلقة بالمبدلات عند إعداد النمط الفرداني بعيد المدى في مجموعة متغايرة الزيجوت. لذا ، فإن إعادة الأطوار إلى جانب التدرج القائم على السكان قادرة على إنتاج متغيرات أعلى لكل كتلة من النمط الفرداني ، مما يجعل PhaseExtender طريقة وأداة أفضل عند العمل مع الكائنات الحية ذات تغاير الزيجوت العالي (خارج عبور السكان والهجين).

  • موسع phASE يستخدم بيانات النمط الفرداني RB المرحلية للعديد من الأفراد الذين ينتمون إلى نفس العائلة أو السكان أو الأنواع. يمكن تحضير VCF إعادة الطور لعينة واحدة باستخدام تطبيقات مثل مراحل إعادة الطور ، hapcut2 ، GATK. يتم بعد ذلك دمج العديد من نماذج VCF أحادية الطور RBphased لإنشاء VCF متعدد العينات.
  • يتم بعد ذلك تحويل بيانات النمط الفرداني RBphased من VCF متعدد العينات إلى تنسيق جدولي بسيط (ملف HAPLOTYPE). يتم تمثيل النمط الجيني في هذا التنسيق الجدولي ككتل قاعدة IUPAC وكتل النمط الفرداني باستخدام فهرس كتلة فريد.
  • بعد ذلك ، يمكن ضم الكتلتين المتتاليتين على مراحل RB في عينة واحدة إما في تكوين متوازي أو بديل ، انظر الشكل ??.
  • للانضمام إلى الكتلتين المتتاليتين على مراحل RB في عينة واحدة ، نستخدم معلومات حالة النمط الفرداني لعينات أخرى في التجمع. يتم تقدير احتمالية وجود تكوين محتمل (متوازي مقابل بديل) كما لوحظ صعوبة التعلم بين الكتل المتتالية في العينات الأخرى.
  • يتم حساب تقديرات الاحتمالية عن طريق إنشاء سلسلة ماركوف من الدرجة الأولى بين النيوكليوتيدات في كتلتين متتاليتين. يتم تمثيل سلاسل ماركوف كمصفوفة انتقالية من الدرجة الأولى من جميع النيوكليوتيدات في كتلة النمط الفرداني السابقة إلى جميع النيوكليوتيدات في كتلة النمط الفرداني اللاحقة ثم العكس (للسلسلة العكسية). يتم تجميع احتمالية انبعاث النوكليوتيدات المرصودة واحتمالية الانتقال في القيمة القصوى أو الحد الأقصى لقيمة المنتج لتشكيل تقديرات احتمالية ذات مغزى لكل من التكوين (الموازي مقابل البديل).
  • يتم بعد ذلك تمديد حالة الطور لكتلتين متتاليتين من النمط الفرداني إذا كان السجل 2 المحسوب (الاحتمالية) لأي من التكوينين أعلى من حد قطع السجل 2 (الاحتمالية).

بالنسبة إلى مكفي بخصوص الخوارزمية ، انظر هذه المشكلة على مكدس و / أو مدونتي.

فوائد استخدام phaseExtender

  • يتيح لنا الجمع بين بيانات RB المرحلية مع التدريج القائم على populaiton استخدام حجم عينة صغير للتنبؤ بدقة بحالة النمط الفرداني المناسبة.
  • يوفر PhaseExtender المرونة لضبط عدد النمط الجيني المرحلي المستخدم لبناء سلاسل markov بين الكتل المتتالية.
  • توفر PhaseExtender مرونة في تحديد امتداد المرحلة إلى مناطق أسرّة معينة.
  • توفر القدرة على ضبط قطع LOD جنبًا إلى جنب مع التخصيص الذي تمت مناقشته أعلاه وسيلة لتحسين مراحل النمط الفرداني بشكل متكرر.

موسع phASE يمكن استخدامها مع ملفات vcf متعددة العينات التي تم إنتاجها بواسطة خط أنابيب GATK أو غيرها من الأدوات التي تولد كتل نمط فرداني إعادة عرض في الناتج VCF. يتم إنشاء ملف النمط الفرداني باستخدام RBphased VCF ثم توجيهه إلى موسع المرحلة. انظر ، هذا المثال لهيكل البيانات لملف النمط الفرداني لإدخال نموذج فرداني ملف 01 - ملف نصي مفصول بعلامة تبويب مع قيمة PI و PG_al لكل عينة.

في العديد من الأمثلة التعليمية (ملفات الاختبار أدناه) ، استخدمت ملف hapotype تم إعداده من RBphased VCF الذي تم إنشاؤه بواسطة Phaseer (https://github.com/secastel/phaser ، https://github.com/secastel/phaser/tree/master/ فيسر). لكن، موسع المرحلة يمكن استخدامها مع ملف النمط الفرداني للإدخال الذي تم تحضيره من أي VCF متدرج الطور نظرًا لأنه يفي بهيكل البيانات المناسب. يمكن تحويل VCF المُعاد الطور إلى ملف haplotype باستخدام أداة الوظيفة الإضافية vcf_to_table-v3.py.
يتكون VCF من الطور من النمط الجيني المرحلي ، أي PG و Phase Block Index ، أي قيم PI في حقل FORMAT بي يمثل فهرس كتلة النمط الفرداني الفريد و PG يمثل الأنماط الجينية المرحلية داخل كتلة PI. بعد تحويل RBphased VCF إلى ملف haplotype موسع المرحلة يستخدم النمط الجيني المرحلي ، أي PG و Phase Block Index ، أي قيم PI في ملف النمط الفرداني لإعداد احتمالات مصفوفة الانتقال والمضي قدمًا في امتداد المرحلة.

موسع المرحلة مكتوب بلغة python3 ، لذلك تحتاج إلى تثبيت python3 على نظامك لتشغيل هذا الرمز محليًا. إذا لم يكن لديك برنامج python مثبتًا ، فيمكنك التثبيت من هنا. بالنسبة لنظام Linux ، يمكنك الحصول على أحدث إصدار من python3 من خلال:

sudo apt-get install python3

أو ، يمكنك تثبيت أحدث الإصدارات بشكل فردي عن طريق:

python3 phase-Extender.py - إدخال مثال 01 / input_haplotype_file.txt --SOI ms02g --lods 10

  • يتطلب ملفًا متعدد العينات متعدد الأطوار على نمط الفرد كمدخل ويعيد عينة واحدة من ملف النمط الفرداني الممتد. يتم أيضًا إنتاج ملفات نتائج أخرى تحتوي على إحصائيات عن النمط الفرداني الأولي مقابل النمط الفرداني الممتد.
  • اختياريًا ، يمكن تضمين اللوحة المرجعية للنمط الفرداني (بنفس بنية البيانات مثل النمط الفرداني للإدخال) وملف السرير للحد من عملية تمديد المرحلة أو تحسينها.

؟؟ يحتاج الى تحسين.
تحقق من هذا البرنامج التعليمي المفصل خطوة بخطوة لإعداد ملفات الإدخال والمعرفة الفنية حول تشغيل موسع المرحلة. ؟؟

ملف haplotype (مطلوب): إدخال ملف haplotype. يجب أن يحتوي على قيم PI و PG_al لكل عينة.
لتحويل ملف vcf إلى ملف haplotype (من VCF إلى تنسيق جدولي) ، استخدم ؟؟الخطوة 01 (أ) في البرنامج التعليمي.
يجب ألا يحتوي اسم النموذج على حرف "_".

اللوحة المرجعية للنمط الفرداني (اختياري): بخلاف "اللوحة المرجعية للنمط الفرداني" المستخدمة في أدوات التدريج الأخرى ، يتطلب phaseExtender لوحة مرجعية بنفس بنية ملف HAPLOTYPE. لتحويل اللوحة المرجعية للنمط الفرداني (من VCF إلى تنسيق نص مناسب) ، استخدم الخطوة 01 (ب) في البرنامج التعليمي. ؟؟

ملف السرير (اختياري): إذا كان هدفك هو الحد من امتداد الطور إلى مناطق جينية معينة (على سبيل المثال ، حدود الجين أو exon أو QTL) ، فإننا نقترح عليك تقديم ملف سرير مناسب. موسع المرحلة ثم يحد بشكل حصري من التدرج داخل الحدود الداخلية لمناطق سرير الإدخال.

  • --إدخال - إدخال ملف haplotype. يجب أن يكون PI و PG_al موجودين في الرأس لكل عينة.
  • --لذا أنا - عينة من الاهتمام. يجب أن يشير إلى عينة واحدة في النمط الفرداني للملف. يجب ألا يحتوي اسم النموذج على حرف "_".
  • - ن(1) - الحد الأقصى لعدد العمليات للتشغيل في وقت واحد. الحد الأقصى لعدد العمليات يقتصر على عدد الكروموسومات (contigs) في ملف النمط الفرداني المدخلات.
  • - python_string(python3) - استدعاء مترجم python 3 لتشغيل البرنامج.
  • --انتاج(SOI_extended) - دليل الإخراج.
  • --snpTh(3) - عتبة snp. الحد الأدنى لعدد SNPs المطلوبة في كل كتلة نمط فرداني متتالية لتشغيل امتداد الطور بين كتلتين.
  • --numHets(40) - عدد متغاير الزيجوت. الحد الأقصى لعدد النيوكلوتايد غير المتجانسة المستخدمة من كل كتلة متتالية لحساب أقصى تقدير احتمالية لكل تكوين بين كتلتين.
  • --culLH(maxPd) - تراكم تقديرات الاحتمالية. يمكن أن يكون الإعجاب لاثنين من التكوينات الممكنة إما "كحد أقصى كمجموع" أو "الحد الأقصى كمنتج". تقصير هو "max-product". خيارات: "maxPd" أو "maxSum".
  • - الآلهة(5) - قطع تسجيل 2 من الاحتمالات عتبة. حد القطع المستخدم لتمديد كتل النمط الفرداني المتتالية. ** `** ملاحظة: القيمة الافتراضية مضبوطة على (2 ^ 5 = احتمال 32 مرة). لذلك ، سيتم ضم كتلتين متتاليتين في تكوين متوازي إذا تم حساب log2 (الاحتمال) و gt lods threshold **
  • --استخدامعينة(الكل) - عينات لاستخدامها في ملف النمط الفرداني المحدد (بالإضافة إلى النمط الفرداني المرجعي) لحساب مصفوفة الانتقال. الخيارات: "الكل" ، "refHap" ، "الإدخال" ، "اسم العينات مفصول بفواصل". الافتراضي: سيتم استخدام جميع العينات الموجودة في (refHap + input).
  • --سرير - معالجة امتداد النمط الفرداني داخل مناطق السرير هذه فقط. يكون هذا مفيدًا إذا كنت تريد تقييد امتداد النمط الفرداني فقط داخل مناطق معينة ، مثل - داخل الجينات ، والإكسونات ، والإنترونات ، وحدود QTL ، إلخ.
  • - اكتب LOD(لا) - يكتب حساب LODs بين كتلتين متتاليتين من النمط الفرداني عند معالجة امتداد الطور لملف الإخراج. خيارات: 'نعم / لا'. ** `ملاحظة: يتم طباعة "نقاط اللود" بغض النظر عما إذا كانت "" الكتل المتتالية متصلة أم لا.
  • --hapStats(لا) - إعداد الإحصاء الوصفي ، والرسم البياني لتوزيع حجم النمط الفرداني لملف النمط الفرداني المدخلات مقابل النمط الفرداني الممتد للعينة محل الاهتمام. خيارات: 'نعم / لا'
  • - addMissingSites(لا) - تضمين بيانات التركيب الوراثي غير المرحلية والمفقودة من ملف النمط الفرداني للإدخال إلى ملف الإخراج الموسع للمرحلة النهائية. خيار: 'نعم / لا'.

يحتوي على جميع بيانات النمط الفرداني RBphased لعينة الاهتمام قبل وبعد تمديد المرحلة.

  • 1 - كونتيج - اسم كونتيج (أو رقم).
  • 2 - نقاط البيع - موضع البدء من النمط الفرداني (1 على أساس).
  • 3 - المرجع - أليل مرجعي في هذا الموقع.
  • 4 - جميع الأليلات - جميع الأليلات ممثلة بجميع العينات في ذلك الموقع.
  • 5 - SOI_PI - فهرس PI فريد من نوعه لكتل ​​النمط الفرداني لعينة الاهتمام.
  • 6 - SOI_PG_al - أليلات GT (التركيب الوراثي) على مراحل في الموضع الجيني والتي تنتمي إلى فهارس PI الفريدة.
  • 7 - log2Odds (فقط في extension_haplotype_SOI.txt) - log2Odds محسوبة بين الكتلة السابقة واللاحقة.

إحصائيات النمط الفرداني الوصفية لملف النمط الفرداني للإدخال لعينة الاهتمام.

  • 1 - كونتيج - اسم كونتيج (أو رقم).
  • 2 - SOI_PI - قائمة مفصولة بفواصل لمؤشر PI الفريد لمجموعات النمط الفرداني لعينة الاهتمام. يمثل العدد الإجمالي لمؤشر PI العدد الإجمالي لأجزاء النمط الفرداني الموجودة في contig المحدد في تلك العينة.
  • 3 - عدد_فارس_بي_بي - عدد مواقع المتغيرات داخل كل كتلة PI للعينة محل الاهتمام.
  • 4 - النطاق_من_PI - المدى الجينومي لكل كتلة PI للعينة المعنية.
  • 5 - مجموع_أنماط - العدد الإجمالي للنمط الفرداني (أي PI) في الاقتباس المحدد لعينة الاهتمام.
  • 6 - إجمالي_فارس - إجمالي عدد المواقع المتغيرة في المنطقة المحددة لعينة الاهتمام. ملحوظة: مجموع (num_Vars_by_PI) = total_Vars.

ملحوظة: - SOI_PI والإحصاءات المرتبطة بها مرتبة.

يحتوي على بيانات من المواقع التي تحتوي على GT (التركيب الوراثي) غير المرحلي أو المفقود لعينة الاهتمام في ملف النمط الفرداني للإدخال. ملحوظة: يتم دمج هذه البيانات مع extension_haplotype_SOI.txt إذا تم تعيين --addMissingSites على "نعم".

يحتوي هذا الملف على النمط الفرداني ReadBackPhased بعد امتداد الطور المتزامن مع البيانات المفقودة. يحتوي هذا الملف على عدد متساوٍ من الصفوف كملف نمط فرداني إدخال والبيانات فقط لعينة من الاهتمام.

ملحوظة: - تستند هذه المخططات على الإحصائيات الوصفية التي تم إنشاؤها للأنماط الفردانية قبل وبعد تمديد المرحلة. من الممكن أن تأخذ هذه الإحصائيات (initial_haplotype_stats_)لذا أنا.txt و amp final_haplotype_stats_لذا أنا.txt) وإنشاء قطع مخصصة بتنسيق ر أو باستخدام طرق أخرى.

عدد الأنماط الفردانية لكونتيج معين قبل وبعد تمديد المرحلة.

عدد المتغيرات لكونتيج معين قبل وبعد تمديد المرحلة.

رسم بياني لتوزيع حجم النمط الفرداني (حسب عدد المتغيرات في النمط الفرداني) في كونتيج معين قبل وبعد امتداد المرحلة.

رسم بياني لتوزيع حجم النمط الفرداني (حسب النطاق الجيني للنمط الفرداني) في كونتيج معين قبل وبعد تمديد المرحلة.

1) ما نوع الخوارزمية التي يستخدمها موسع الطور؟
يستخدم موسع الطور احتمالات انتقال من الدرجة الأولى من كل مستوى من الأنماط الجينية من كتلة النمط الفرداني السابقة إلى كل مستوى من الأنماط الجينية إلى كتلة النمط الفرداني اللاحقة. يستخدم هذا الإصدار (v1) سلاسل إلى الأمام-1stOrder-markov و backward-1stOrder-markov سلاسل احتمالات الانتقال. ستتبع الإصدارات المستقبلية التحسينات عن طريق إضافة سلاسل ماركوف ذات الترتيب الأعلى.

2) ما هي ميزة استخدام موسع الطور؟
نحتاج عمومًا إلى حالة طور دقيقة بمستوى جيني / نسخة أثناء إجراء ASE ، وتشريح تأثيرات الأم والأب. تعد الأنماط الفردانية الطويلة مهمة في الغالب أثناء إعداد الجينوم ثنائي الصبغة ، واختبار عمليات المسح الانتقائية داخل مناطق QTL وما إلى ذلك. بالنسبة لأنظمة الكائنات الحية الناشئة حيث تكون بيانات النمط الجيني متفرقة CW (على نطاق الكروموسوم) ، فإن الأنماط الفردانية GW (واسعة الجينوم) أكثر صعوبة في الحل. أيضًا ، قد يكون التدرج في النمط الفرداني أكثر تعقيدًا في عبور الأفراد والهجين بسبب عدم التجانس. RB يوفر في الواقع ميزة مع الجينوم غير المتجانس لأن تكرار الكتل الطورية RB يزداد مع التغايرية في الجينوم. تحتوي شظايا النمط الفرداني القصيرة هذه على متغيرات متعددة غير متجانسة على كتلة نمط فرداني قصير. مع زيادة حجم PE (النهاية المزدوجة) ، يزداد أيضًا حجم كتل RBphase. يكون موسع الطور مفيدًا في هذه المرحلة حيث يحاول حل حالة الطور لكتلتين متتاليتين من عينة واحدة في كل مرة باستخدام بيانات من كتل النمط الفرداني لعينات أخرى تجسر نقطة التوقف هذه. لذلك ، يمكننا حل تكوين النمط الفرداني لـ SOI (عينة الاهتمام) بمزيد من الثقة لأن: - لدينا المزيد من المتغيرات داخل كل كتلة تساهم في مزيد من المعلومات. - نحتاج فقط إلى حل حالتين ممكنتين من الطور في وقت واحد مقارنة بالنمط الفرداني 2 ^ n عند قراءة SNP واحد في كل مرة. يوفر موسع الطور أيضًا تحكمًا أكثر مرونة وتلاعبًا في كيفية المضي قدمًا في تمديد المرحلة. من الممكن أيضًا التحكم في العديد من المعلمات مثل lods و snpTh و numHets و culLH و bed و useSample لملاحظة ومقارنة كيفية تغير امتداد المرحلة.

3) هل طور موسع المرحلة InDels؟
نعم ، لكنها مشروطة. يجب بالفعل إعادة توجيه InDels بشكل موثوق به إلى كتلة النمط الفرداني. بهذه الطريقة عندما يتم تمديد النمط الفرداني لتلك النيوكلوتايد ، فإن InDels يتنقل معه ويمتد أيضًا.

4) ما هو الحجم الأدنى المطلوب لكتلة النمط الفرداني؟
كلما كان النوعان الفردانيان أكبر ، كلما كان اختبار الاحتمالية أفضل للنمط الفرداني الذي يتم تطبيقه على مراحل. بشكل افتراضي ، احتفظت بهذا الرقم إلى 3 متغيرات (حصرية SNP) لكل كتلة من النمط الفرداني التي تحتاج إلى تمديد.

5) هل يقوم موسع الطور بعمل GW (على نطاق الجينوم) أو CW (على نطاق الكروموسوم)?
هناك حالة معينة عندما يكون موسع الطور قادرًا على القيام بالتدريج الفردي للنمط الفرداني GW أو CW. أ) إذا كان لديك الكثير من العينات حيث يتم تجسير نقطة توقف الأنماط الفردانية في عينة واحدة بواسطة عينات أخرى ، بحيث يتم حل نقطة التوقف هذه مع كل تطبيق تكراري لموسع الطور ، فمن الممكن الحصول على النمط الفرداني CW و GW. في هذه الحالة ، يمكننا تشغيل موسع الطور لكل عينة هناك عن طريق توسيع النمط الفرداني إلى حد معين. بعد أن يمكن تطبيق موسع الطور هذا بشكل متكرر على البيانات المحدثة في كل مرة ، هناك من خلال توسيع الأنماط الفردية لكل عينة إلى طول كروموسوم كامل وربما إلى طول الجينوم الكامل. هناك احتمالية أكبر للحصول على طور GW إذا تم تسلسل العينات بتغطية أعلى ، وزيادة في طول تسلسل النهاية المزدوجة ، وتوافر قراءات التسلسل الكبيرة مثل قراءات pac-bio. ب) هناك موقف آخر عندما يكون تمديد طور GW ، CW ممكنًا عندما يكون لديك على الأقل عدد قليل من العينات التي تم حلها على مستوى GW / CW. يمكن أن تشمل هذه البيانات على مراحل بالكامل مثل ملف مصفوفة الجينوم ، وبيانات VCF على مراحل بالكامل ، ولوحة مرجعية للنمط الفرداني على مراحل بالكامل. لهذا ، يجب تقديم العينة ذات المراحل الكاملة ككتل واحدة في مجموعة العينة التي يتم توصيلها بالأنابيب إلى موسع الطور.

6) هل طور موسع الطور غير SNPs لمرحلة إعادة التشغيل?
لا، ليس كذلك. إنه تحديث مستقبلي محتمل.

7) هل يعزو موسع الطور الطرز الجينية المفقودة?
لا، ليس كذلك. إنه تحديث مستقبلي محتمل.

8) هل يستخدم موسع الطور لوحة مرجعية للنمط الفرداني?
نعم إنها كذلك. يعتقد ، يجب تحويل VCF (اللوحة المرجعية للنمط الفرداني) إلى ملف النمط الفرداني المناسب.

9) هل يستخدم موسع الطور إعادة التركيب في الاعتبار?
لا وربما تكون هذه الميزة الأقل أهمية في موسع الطور. الهدف الرئيسي من Phase-Extender هو الانضمام إلى كتل النمط الفرداني القصيرة المتتالية المرحلية بالفعل في عينة باستخدام علاقة المتغيرات في تلك المواقع في عدة عينات أخرى. يتم استخدام هذه الأنماط الفردانية التي يتم تقسيمها على مراحل في عينات أخرى ولكن بها نقطة توقف في SOI لبناء احتمالات الانتقال. هناك افتراض بأن إعادة التركيب أقل احتمالا لتحدث بالضبط عند نقطة التوقف تلك أو بالقرب منها. لذلك ، فإن معظم التباين في النمط الفرداني بين العينات حول نقطة الانهيار ليس نتيجة إعادة التركيب الأخير ، ولكن الطفرة فقط.

10) هل طور موسع الطور طور وراثي نادر?
نعم إنها كذلك. ولكن ، يجب أن يكون النمط الجيني النادر هو إعادة التأكيد على كتل النمط الفرداني القصيرة. هذه إحدى مزايا موسع الطور مقارنة بالأدوات الأخرى عندما يتعلق الأمر بالتدريج في التركيب الوراثي النادر. عندما يتم استخدام SNPs منفردًا للتطور إلى نمط فرداني ، فمن الصعب حقًا وضع طور جيني نادر بدقة - والسبب هو الأهمية الإحصائية للنمط الجيني النادر الذي ينتمي إلى أي من حالة الطورين غامض للغاية. ولكن ، إذا كان النمط الجيني النادر مرتبطًا بكتلة أحادية اللون مدعومة بالعديد من الأنماط الجينية المرحلية للقراءة ، فإن هذا يجعل مراحل الأنماط الجينية النادرة أكثر دقة ، نظرًا لأن الاحتمالات يتم توفيرها بواسطة تعدد الأشكال الأخرى غير النادرة.

11) ما مدى سرعة موسع المرحلة?
تمت كتابة Phase-extender في python-3 ، لذا فهو أبطأ نسبيًا من الأدوات الأخرى المبنية على الجزء العلوي من C أو C ++ أو java. قادمًا من خلفية بيولوجية خالصة ، كان تعلم Python أحد أكثر المهام التي قمت بها دائمًا ، ومن ثم كان بناء هذه الأداة جزءًا كبيرًا من رسالة الدكتوراه الخاصة بي. لقد قمت بتحسين جزء استدعاء ملف VCF باستخدام cyvcf2 (وهو في المتوسط ​​أسرع 4 مرات من وحدة pyVCF القديمة). تم تحسين موسع الطور أيضًا ليكون قادرًا على التشغيل على خيوط / عملية متعددة. ولكن ، إذا كنت تقوم بتشغيل موسع الطور على بيانات الجينوم الكبيرة ولديك عدد كبير جدًا من العينات ، وتعمل على كمبيوتر محمول ، أقترح التشغيل على مؤشر ترابط واحد ، والذي قد يستغرق وقتًا طويلاً ولكنه سيقلل من عبء الذاكرة.

12) هل يقوم موسع الطور بتمديد المرحلة الثلاثية?
لا، ليس كذلك. إنه تحديث مستقبلي محتمل.

13) ما يجب أن تكون علاقة عيناتي?
ضمن السكان ، أو ضمن بيانات مستوى الأنواع جيدة.

14) ما هو الفرق بين موسع الطور و آلة خياطة الطور?
موسع الطور هو أداة تدريجية للنمط الفرداني العام. Phase-Stitcher مخصص للهجين F1.

15) هل يجب أن أقوم بإعداد ملف كتلة النمط الفرداني الخاص بي فقط باستخدام فايزر?
يمكن استخدام موسع الطور ، أداة خياطة الطور مع البيانات التي تم إنشاؤها بواسطة أي أداة RBphasing.

لم أكن محظوظًا جدًا لأن أحيط نفسي أو على الأقل أحصل على مساعدة وجهًا لوجه من مبرمجي الكمبيوتر الأذكياء. لكن قلبي ممتن جدًا للأشخاص الذين يعملون على الويب الذين جعلوني قادرًا على حل هذه المشكلة. بفضل العديد من الأشخاص على biostars و stackoverflow و seqanswer و google web search ، الذين قدموا ملاحظات حول الأسئلة الصغيرة التي كانت جزءًا من مشروع Phase-Extender.

إذا كان أي شخص مهتمًا أكثر بتحسين هذا المشروع من خلال التحسينات على الرويثم والبرمجة ، فسأكون أكثر من سعيد.

القدرات المتوقعة في المستقبل (قريباً)

  • المرحلة SNPs التي لم يتم تعيينها إلى كتل ReadBackPhased
  • التضمين الجيني
  • ثلاثي قائم على مراحل ، على أساس الأسرة
  • قدرات سلسلة ماركوف عالية الترتيب
  • المعالجة المتعددة داخل الكروموسوم

توليد بيانات ASE باستخدام PHASER

1. تحميل وإعداد PHASER

يمكنك تنزيل أحدث إصدار من phASER من Github:

يمكن العثور على متطلبات تشغيل phASER بالإضافة إلى الوثائق الشاملة على صفحة Github ، لذا تأكد من التحقق منها إذا واجهتك مشكلة ، أو إذا كنت تريد معرفة المزيد حول الخيارات المتقدمة.

بعد ذلك سوف تحتاج إلى تجميع فيزر:

& gt cd فيسر / فيسر /
& gt python setup.py build_ext & # 8211inplace
& gt cd ../../

* ملاحظة ، لإجراء عرض & # 8220feature & # 8221 من WordPress ، يتم تحويل شرطة مزدوجة إلى شرطة em. عند تشغيل setup.py ، يجب أن يكون هناك شرطان أمام & # 8220inplace & # 8221.

2. تنزيل بيانات النموذج والملفات المطلوبة

في هذا البرنامج التعليمي ، سأستخدم مجموعة بيانات متاحة للجمهور تتكون من LCL RNA-seq من GEUVADIS ومكالمات النمط الجيني من 1000 Genomes Phase 3 للفرد NA06986.

ملاحظة & # 8211 نظرًا لاستضافة هذه الملفات على صندوق الإسقاط ، ستحتاج & # 8217 إلى تنزيلها باستخدام مستعرض ويب.

  • NA06986.vcf.gz & # 8211 VCF التي تحتوي على مكالمات النمط الجيني للفرد. من الناحية المثالية ، يجب أن تكون هذه الأنماط الجينية قد تم تقسيمها إلى مراحل مسبقًا باستخدام طريقة مثل التدرج السكاني. إذا كنت لا تعرف كيفية القيام بذلك ، فإنني أقترح استخدام خدمة Sanger Imputation Service وهي سهلة الاستخدام وستقوم بتجميع العينة الخاصة بك باستخدام لوحة Haplotype Reference Consortium الضخمة.
  • NA06986.vcf.gz.tbi & # 8211 فهرس tabix لـ VCF. يتطلب phASER أن تكون VCFs المدخلة مفهرسة tabix. يمكن إنشاء هذا لأي موضع تم فرزه ، بضغط VCF باستخدام الأمر & # 8216tabix -p vcf sample.vcf.gz & # 8217.
  • NA06986.2.M_111215_4.bam & # 8211 ملف بتنسيق BAM يحتوي على قراءات RNA-seq التي تمت محاذاتها مع الجينوم البشري باستخدام STAR.
  • NA06986.2.M_111215_4.bam.bai & # 8211 فهرس لملف BAM الذي يسمح باسترجاع سريع للقراءات بناءً على الإحداثيات الجينومية. يمكن إنشاء هذا لأي BAM باستخدام الأمر & # 8216samtools index reads.bam & # 8217.

بالإضافة إلى بياناتنا النموذجية ، سنحتاج إلى بعض الملفات لتشغيل phASER.

ملاحظة & # 8211 نظرًا لاستضافة هذه الملفات على صندوق الإسقاط ، ستحتاج & # 8217 إلى تنزيلها باستخدام مستعرض ويب.

  • hg19_hla.bed.gz & # 8211 يحتوي ملف BED هذا على جميع جينات HLA البشرية ، والتي يصعب تعيين القراءات القصيرة لها بسبب المعدل المرتفع للتنوع الجيني. سيتم وضع هذه الجينات في القائمة السوداء من تحليلات المصب.
  • hg19_haplo_count_blacklist.bed.gz & # 8211 يحتوي ملف BED هذا على مواضع جينومية حددناها على أنها إما تظهر تحيزًا في عمليات المحاكاة أو لديها درجة قابلية تعيين UCSC & lt 50. تُستخدم المتغيرات التي تقع في هذه المواضع للتقسيم التدريجي ، ولكن ليس لإنشاء تعداد الفرداني لتجنب مشاكل التعيين انحياز، نزعة.
  • gencode.v19.GRCh37.genes.bed.gz & # 8211 يحتوي ملف BED هذا على جميع الجينات البشرية على النحو المحدد بواسطة Genode لـ hg19. سيُستخدم هذا الملف لتعريف الجينات عندما نقوم بتوليد أعداد على مستوى النمط الفرداني.

سوف تحتاج إلى فك ضغط هذه الملفات قبل استخدامها بواسطة phASER.

3. قم بتشغيل phASER مع بيانات المثال

الآن لدينا كل ما نحتاجه لتشغيل PHASER. في الاختبار الذي أجريته باستخدام مجموعة البيانات هذه ، استغرق الأمر أقل من 10 دقائق باستخدام 8 خيوط على معالج رباعي النواة بسرعة 2.8 جيجاهرتز Intel Core i7 مع خيوط المعالجة المتعددة.

& gt python فيسر / فيسر / فيسر. -haplo_count_blacklist hg19_haplo_count_blacklist.bed - الخيوط 4 --o stage_test_case

الآن سأشرح ماهية كل من الوسيطات:

  • & # 8211vcf NA06986.vcf.gz & # 8211 VCF التي تحتوي على مكالمات النمط الجيني للعينة.
  • & # 8211bam NA06986.2.M_111215_4.bam & # 8211 BAM التي تحتوي على RNA-seq يقرأ.
  • & # 8211paired_end 1 & # 8211 تحديد أن القراءات تأتي من تجربة نهاية مزدوجة.
  • & # 8211mapq 255 & # 8211 الحد الأدنى لجودة تعيين القراءات لاستخدامها للتقسيم التدريجي و ASE. يجب تعيين هذا على قيمة تضمن تعيين القراءات بشكل فريد. عند استخدام STAR ، يكون هذا الرقم 255 ، ولكنه سيختلف بناءً على التقويم.
  • & # 8211baseq 10 & # 8211 الحد الأدنى من الجودة الأساسية في تعدد الزيجوت SNP للقراءة لاستخدامها.
  • & # 8211 عينة NA06986 & # 8211 اسم النموذج في ملف VCF.
  • & # 8211blacklist hg19_hla.bed & # 8211 قائمة المواقع إلى القائمة السوداء من التدريج. يحتوي الملف الذي نقدمه على جميع جينات HLA.
  • & # 8211haplo_count_blacklist hg19_haplo_count_blacklist.bed & # 8211 قائمة بالمواقع التي سيتم وضعها في القائمة السوداء عند إنشاء التعداد الأليلي. هذه هي المواقع التي حددناها سابقًا على أنها تحتوي على تحيز في الخرائط ، لذا فإن استبعادها سيؤدي إلى تحسين النتائج.
  • & # 8211threads 4 & # 8211 عدد الخيوط المراد استخدامها.
  • & # 8211o phaser_test_case & # 8211 بادئة ملف الإخراج.

إذا تم تشغيل phASER بنجاح ، سترى رسالة مثل هذه:

اكتمل باستخدام 1591165 قراءة في 595 ثانية باستخدام 8 خيوط

4. توليد كميات التعبير عن النمط الفرداني

الآن بعد أن تم تشغيل phASER ، يمكننا استخدام أداة مصاحبة تسمى & # 8220phASER Gene AE & # 8221 ، والتي تأخذ ملفات الإخراج من phASER جنبًا إلى جنب مع التعليقات التوضيحية الجينية وتنتج مقاييس تعبير النمط الفرداني على مستوى الجين.

& gt pythonhaseer / phaser_gene_ae /haseer_gene_ae.py --haplotypic_counts phaseer_test_case.haplotypic_counts.txt --features gencode.v19.GRCh37.genes.bed --o phaseer_test_case_gene_ae.txt

  • & # 8211haplotypic_counts phaseer_test_case.haplotypic_counts.txt & # 8211 هذا أحد ملفات الإخراج من phASER. يحتوي على عدد قراءة لجميع كتل النمط الفرداني بالإضافة إلى تعدد الأشكال الفردية ومراحلها بالنسبة لبعضها البعض.
  • & # 8211gencode.v19.GRCh37.genes.bed& # 8211 يحتوي على إحداثيات جميع الجينات التي نرغب في حساب التعبير الفرداني لها. من المهم جدًا أن تكون تسمية الكروموسوم متسقة بين هذا الملف ، VCF و BAM.
  • & # 8211o phaseer_test_case_gene_ae.txt & # 8211 اسم ملف الإخراج.
  • & # 8211 no_gw_phase 0 & # 8211 يمكن تشغيل هذا الخيار (عن طريق الضبط على 1) إذا لم يكن إدخال VCF الذي تم استخدامه على مراحل مسبقًا. إذا استطعت ، أقترح بشدة إدخال VCF على مراحل باستخدام على سبيل المثال عدد السكان التدريجي كما ذكرنا سابقًا ، ولكن في بعض الحالات قد لا يكون هذا ممكنًا. على سبيل المثال ، إذا كنت تعمل مع كائن نموذجي وتفتقر إلى البيانات الثلاثية.

يجب أن يعمل هذا بسرعة نسبيًا ، فقد استغرق الأمر بضع دقائق فقط على جهاز الكمبيوتر المحمول.

هذا هو & # 8217s! لقد قمت الآن بقياس تعبير مستوى النمط الفرداني في كل جين لعينة RNA-seq الخاصة بك. بالطبع ، ما تقرر القيام به بعد ذلك هو الجزء الصعب ، وهذا متخصص للغاية اعتمادًا على السؤال العلمي المحدد الذي تطرحه. ومع ذلك ، فإن لديك عددًا ممتازًا من النمط الفرداني والذي سيكون بمثابة تحسين كبير لأي تحليلات لاحقة عن استخدام متغيرات ASE الفردية وحدها.


الشكل متاح مجانًا للاستخدام الأكاديمي. لمعرفة قواعد الاستخدام غير الأكاديمي انظر أدناه. يتم أيضًا تضمين ملف ترخيص مع كل تنزيل برنامج.

مترجمة مسبقا الشكل يمكن تنزيل الثنائيات وملفات الأمثلة من الروابط أدناه.

أحدث إصدار للبرنامج هو الإصدار 2 (r900). نحن ندعم الإصدار الأحدث فقط.


برنامج GLIBC
نوع
ملف
Linux (x86_64) الإصدار 2.12
ثابتة
شكلit.v2.r904.glibcv2.12.linux.tar.gz
Linux (x86_64)
الإصدار 2.17
ثابتة
شكلit.v2.r904.glibcv2.17.linux.tar.gz

لفك ضغط الملفات على كمبيوتر Linux ، استخدم أمرًا مثل هذا:

سيؤدي هذا إلى إنشاء دليل يحمل نفس اسم الملف الذي تم تنزيله ، مطروحًا منه لاحقة ".tgz". ستجد داخل هذا الدليل ملفًا تنفيذيًا يسمى الشكل ، أ رخصة ملف و مثال/ الدليل الذي يحتوي على أمثلة لملفات البيانات.

اتفاقية الترخيص التجاري

يجب الحصول على ترخيص محدد لأي مؤسسة تجارية أو هادفة للربح أو لأي غرض لنشر الويب. لمزيد من المعلومات يجب عليك الاتصال بكليهما

اتفاقية الترخيص الأكاديمي

قام قسم المعلوماتية الحيوية في المعهد الوطني للفنون والمقاييس (CNAM) بتطوير خوارزمية جديدة لحساب أسرع لنماذج ماركوف المخفية ، بناءً على تمثيلات الرسم البياني. تم تطبيق هذه الخوارزمية بشكل ملحوظ لإعادة بناء الأنماط الفردانية من بيانات النمط الجيني للسكان المؤدية إلى برنامج SHAPEIT. هذه الخوارزمية وتطبيقاتها ، بما في ذلك SHAPEIT ، في انتظار براءة الاختراع. يمنحك المعهد الوطني للفنون والمقاييس (CNAM) ، البروفيسور جان فرانسوا زاجوري ومجموعته من قسم المعلوماتية الحيوية (المطورون) ، الإذن لك ولمختبرك (المؤسسة) لاستخدام SHAPEIT. يسمح CNAM والمطورون للباحثين في مؤسستك بنسخ وتعديل SHAPEIT للأغراض البحثية الداخلية غير الهادفة للربح ، وفقًا للشروط التالية:

يظل برنامج SHAPEIT في مؤسستك ولا يتم نشره أو توزيعه أو نقله أو إتاحته بأي شكل آخر بخلاف موظفي المؤسسة والطلاب المشاركين في البحث تحت إشرافك. إذا كنت ترغب في الحصول على SHAPEIT لأي أغراض تجارية أو للنشر عبر الإنترنت ، فستحتاج إلى تنفيذ اتفاقية ترخيص منفصلة مع CNAM ودفع رسوم. وهذا يشمل ، على سبيل المثال لا الحصر ، استخدام SHAPEIT لتقديم خدمات لأطراف خارجية مقابل رسوم. في هذه الحالة ، يرجى الاتصال بـ:

العلاقات العامة. زاغوري ، CNAM.
هاتف: 33 1 58 80 88 20
البريد الإلكتروني: zagury at cnam.fr

يتم توزيع البرنامج وفقًا لشروط الاستخدام التالية

تحتفظ في SHAPEIT وأي تعديلات على SHAPEIT أو حقوق الطبع والنشر أو العلامة التجارية أو الإشعارات الأخرى المتعلقة بـ SHAPEIT كما هو منصوص عليه من قبل CNAM.

أنت تزود المطورين بتعليقات حول استخدام SHAPEIT في بحثك ، ويسمح للمطورين و CNAM باستخدام أي معلومات تقدمها في إجراء تغييرات على برنامج SHAPEIT. سيتم إرسال جميع تقارير الأخطاء والأسئلة الفنية إلى قائمة البريد هنا

أنت تقر بأن المطورين و CNAM والمرخص لهم قد يطورون تعديلات على SHAPEIT والتي قد تكون مشابهة إلى حد كبير لتعديلاتك على SHAPEIT ، وأن المطورين و CNAM والمرخص لهم لن يكونوا مقيدين بأي شكل من الأشكال بواسطتك في CNAM أو المرخص لهم. استخدام أو إدارة مثل هذه التعديلات. أنت تقر بحق المطورين و CNAM في إعداد ونشر تعديلات على SHAPEIT والتي قد تكون مشابهة إلى حد كبير أو مكافئة وظيفيًا لتعديلاتك وتحسيناتك ، وإذا حصلت على حماية براءة اختراع لأي تعديل أو تحسين على SHAPEIT ، فإنك توافق على عدم الإدعاء أو الإلزام التعدي على براءة الاختراع الخاصة بك من قبل المطورين أو CNAM أو من قبل أي من المرخص لهم من CNAM الذين حصلوا على تعديلات أو تحسينات على SHAPEIT من CNAM أو المطورين. إذا أدى استخدام برنامج SHAPEIT إلى نتائج سيتم نشرها ، فيرجى تحديد إصدار SHAPEIT الذي استخدمته والاستشهاد بأحد المنشورات التالية.

  • O. Delaneau، J. Marchini، JF. Zagury (2012) طريقة مرحلية خطية معقدة لآلاف الجينومات. طرق نات. 9 (2): 179-81. دوى: 10.1038 / نميث 1785
  • O. Delaneau، JF. زاغوري ، ج.مارشيني (2013) تحسين مراحل الكروموسوم الكامل للأمراض والدراسات الجينية السكانية. طرق نات. 10 (1): 5-6. دوى: 10.1038 / نميث. 2307
  • O. Delaneau ، B. Howie ، A. Cox ، JF. Zagury ، J. Marchini (2013) تقدير النمط الفردي باستخدام قراءات التسلسل. المجلة الأمريكية لعلم الوراثة البشرية 93 (4) 787-696
  • J. O'Connell، D. Gurdasani، O. Delaneau، et al. (2014) نهج عام للنمط الفرداني التدريجي عبر مجموعة كاملة من الارتباط. علم الوراثة PLoS
  • O. Delaneau، J. Marchini، The 1000 Genomes Project Consortium (2014) دمج بيانات التسلسل والمصفوفة لإنشاء لوحة مرجعية محسنة للنمط الفرداني لمشروع جينوم 1000. اتصالات الطبيعة.

تقع أي مخاطر مرتبطة باستخدام برنامج SHAPEIT في مؤسستك معك ومع مؤسستك. SHAPEIT هو تجريبي بطبيعته ويتم إتاحته كمجاملة بحث "كما هي" بدون التزام من قبل CNAM بتقديم الخدمات أو الدعم المصاحب.

تُخلي CNAM والمؤلفون مسؤوليتهم صراحةً عن أي وجميع الضمانات المتعلقة بالبرنامج ، سواء كانت صريحة أو ضمنية ، بما في ذلك على سبيل المثال لا الحصر الضمانات المتعلقة بقابلية التسويق أو الملاءمة لغرض معين.


كيفية الحصول على النمط الفرداني التدريجي من ملف vcf؟ - مادة الاحياء

DCHap: خوارزمية تقسيم وقهر النمط الفرداني التدريجي لبيانات التسلسل من الجيل الثالث

DCHap هي أداة مرحلية للنمط الفرداني سريعة ودقيقة لبيانات تسلسل الجيل الثالث. يعمل مع كل من SMRT يقرأ (PacBio) ويقرأ Oxford Nanopore.

للتحميل DCHap، عليك استنساخ ملف DCHap إلى جهازك.

مدخلات DCHap هي مصفوفة SNP ، انظر الاختبارات / chr22.matrix. يمكنك استخدام أداة extractHAIRS بتنسيق HapCUT2 لاشتقاق مصفوفة SNP من ملف BAM وملف VCF ، راجع https://github.com/vibansal/HapCUT2.

يخزن chr22_post_haplotype نتيجة التدريج. يقرأ chr22_assignments مخازن أقسام.

[1] بانسال وفيكاس وفينيت بافنا. "HapCUT: خوارزمية فعالة ودقيقة لمشكلة تجميع النمط الفرداني." المعلوماتية الحيوية 24.16 (2008): i153-i159.

[2] دويتاما ، خورخي ، وآخرون. "ReFHap: خوارزمية موثوقة وسريعة للنمط الفرداني الفردي." وقائع المؤتمر الدولي الأول لـ ACM حول المعلوماتية الحيوية والبيولوجيا الحاسوبية. ACM ، 2010.

[3] إيدج وبيتر وفينيت بافنا وفيكاس بانسال. "HapCUT2: تجميع نمط فرداني قوي ودقيق لتقنيات التسلسل المتنوعة." أبحاث الجينوم 27.5 (2017): 801-812.

[4] كوليشوف ، فولوديمير. "النمط الفرداني الاحتمالي الفردي." المعلوماتية الحيوية 30.17 (2014): i379-i385.


هل لديك بيانات التباين الهيكلي؟

اعتبر مشروع 1000 Genomes التباين الهيكلي (أطول من 50 نقطة أساس في الطول) استنادًا إلى بيانات Illumina قصيرة القراءة في المنشور من قبل Sudmant et al. في عام 2015.

يتم أيضًا اعتبار المتغيرات الهيكلية في تحليل بيانات القراءة القصيرة عالية التغطية في العمل الذي تقوم به مدينة نيويورك.

ومع ذلك ، فإن بيانات القراءة القصيرة لها قيود على تقييم التباين الهيكلي. طبق اتحاد التنوع البنيوي للجينوم البشري (HGSVC) مجموعة متنوعة من التقنيات لاستكشاف قدرتها على اكتشاف التباين الهيكلي. تم توسيع هذا العمل لاحقًا وتستخدم مشاريع أخرى مجموعة متنوعة من التقنيات لإنتاج مجموعات جينوم تم حلها من النمط الفرداني.


Neoepiscope هو برنامج مفتوح المصدر تمت مراجعته من قبل النظراء للتنبؤ بالمناظير الجديدة من بيانات تسلسل الحمض النووي (DNA-seq). حيث تحصر معظم برامج التنبؤ بالتنبؤات الجديدة الانتباه إلى الموبيبات الجديدة الناشئة عن طفرة جسدية واحدة على الأكثر ، غالبًا ما تكون SNV فقط ، يستخدم Neoepiscope مخرجات النمط الفرداني المُجمَّع لـ HapCUT2 لتعداد المنافذ الجديدة الناشئة عن أكثر من طفرة جسدية واحدة. يأخذ neoepiscope أيضًا في الاعتبار تغيير الإطارات من indels ويسمح بتخصيص النسخة المرجعية باستخدام متغيرات السلالة الجرثومية.

يحتوي Neoepiscope v0.2.x على خطأ حرج حيث لا يتم تقسيم المتغيرات المتماثلة اللواقح إلى مراحل باستخدام متغيرات متغايرة الزيجوت. يرجى التحديث إلى أحدث إصدار.

neoepiscope مرخص بموجب ترخيص MIT. راجع LICENSE لمزيد من التفاصيل.

أجزاء من neoepiscope - على وجه التحديد ، أجزاء من الكود في transcript.py و bowtie_index.py و download.py - مأخوذة من Rail-RNA ، وهو حقوق الطبع والنشر (c) 2015 Abhinav Nellore و Leonardo Collado-Torres و Andrew جافي ، وجيمس مورتون ، وجاكوب بريت ، وخوسيه ألكيسيرا-هيرنانديز ، وكريستوفر ويلكس ، وجيفري تي ليك ، وبن لانجميد ومرخصة بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.

يتوافق neoepiscope مع Python 3.6 والإصدارات الأحدث. للتثبيت ، قم بتشغيل

ملاحظة: إذا فشل ذلك على نظام التشغيل macOS 10 (Catalina) أو الأحدث ، فقد يتعذر على تثبيت pysam المطلوب العثور على مترجم C. لحل هذه المشكلة ، يمكنك تجربة إما 1) تشغيل xcode-select - install أو 2) تثبيت pysam عبر conda (على سبيل المثال conda install -c bioconda pysam) قبل محاولة تثبيت pip تثبيت neoepiscope مرة أخرى.

لتنزيل ملفات التعليقات التوضيحية المرجعية المتوافقة (hg19 و / GRCh38 و / أو الماوس mm9) وربط عمليات تثبيت البرامج الاختيارية ذات الصلة بـ neoepiscope (مثل netMHCpan) ، ستحتاج إلى استخدام وظيفة التنزيل الخاصة بنا. قم بتشغيل الأمر:

والاستجابة للمطالبات وفقًا لاحتياجاتك.

للتأكد من أن البرنامج يعمل بشكل صحيح ، قم باستنساخ هذا المستودع ، ومن داخله قم بتشغيل:

إعداد ملفات مرجعية (لمن يستخدمون مراجع أخرى غير البشرية hg19 أو GRCh38 أو mouse mm9)

اذا أنت ليست كذلك باستخدام مرجع hg19 أو GRCh38 أو mouse mm9 البشري الذي تم إنشاؤه من وظائف التنزيل لدينا ، ستحتاج إلى تنزيل ملفات التعليقات التوضيحية الخاصة بك وإعدادها. قبل استدعاء أي من المناظير الجديدة ، قم بتشغيل Neoepiscope في وضع الفهرس لإعداد قواميس لبيانات النسخ المستخدمة في تنبؤات الموبيبات الجديدة:

فهرس Neoepiscope -g & ltGTF & gt -d & lt دليل لعقد القواميس المختارة & gt

-د ، - يقر طريق كتابة قواميس مخلل

تأكد من الترتيب الصحيح لـ VCF

لاستدعاء المناظير الجديدة من الطفرات الجسدية ، تأكد من أن العمود الذي يحتوي على بيانات لعينة الورم في ملف VCF الخاص بك يسبق العمود ببيانات من عينة عادية متطابقة. لو أنه لا، قم بتشغيل neoepiscope في وضع المبادلة لإنتاج VCF جديد:

مبادلة Neoepiscope -i & ltINPUT VCF & gt -o & ltSWAPPED VCF & GT

-i ، - مسار الإدخال لإدخال VCF

-o ، - مسار الإخراج إلى VCF المبادلة

إضافة تباين في الخط الجرثومي (اختياري)

إذا كنت ترغب في تضمين تباين السلالة الجرثومية في تنبؤ الموضع الجديد الخاص بك ، فقم بدمج VCFs الجسدية والسلالة الجرثومية لعينة قبل المتغيرات المرحلية:

neoepiscope دمج -g & ltGERMLINE VCF & gt -s & ltSOMATIC VCF & gt -o & ltMERGED VCF & gt

-g ، - مسار الخط الجرثومي إلى السلالة الجرثومية VCF

-s ، - المسار التلقائي إلى VCF الجسدي

-o ، - مسار الإخراج لكتابة VCF مدمجة

-t ، - معرف الورم - معرف الورم (مطابقة العينة في حقل مجموعة قراءة ملف BAM الورم)

إذا كنت تخطط لاستخدام ReadBackedPhasing من GATK من أجل مراحل النمط الفرداني (انظر أدناه) ، فتأكد من تحديد معرف الورم باستخدام العلامة -t. يجب أن يتطابق مع اسم العينة في رأس ملف BAM الخاص بالورم (قيمة SM في حقل المجموعة المقروءة).

توقع مراحل النمط الفرداني

بعد ذلك ، قم بتشغيل HapCUT2 مع VCF المدمج أو الجسدي وملف الورم BAM الخاص بك (تأكد من استخدام --indels 1 عند تشغيل extractHAIRS إذا كنت ترغب في توقع المنافذ الجديدة الناتجة عن عمليات الإدراج والحذف). قبل استدعاء المناظير الجديدة ، جهز ناتج HapCUT2 لتضمين الطفرات غير المرحلية كنماذج الفردانية الخاصة بها وعلم متغيرات الخط الجرثومي إذا كان ذلك مناسبًا:

neoepiscope الإعدادية -v & ltVCF & gt -c & ltHAPCUT2 OUTPUT & gt -o & lt ADJUSTED HAPCUT OUTPUT & GT

-v ، - مسار vcf لملف VCF المستخدم لتوليد إخراج HapCUT2

-c، --hapcut2-output إلى إخراج HapCUT2 الأصلي

-o ، - مسار الإخراج لملف الإخراج

-p ، - إدخال إشارة مرحلية VCF على مراحل مع GATK ReadBackedPhasing

بدلاً من ذلك ، يمكنك إجراء عملية مرحلية باستخدام ReadBackedPhasing الخاص بـ GATK على VCF المدمج أو الجسدي. إذا قمت بتقسيم المتغيرات إلى مراحل باستخدام GATK بدلاً من HapCUT2 ، فتأكد من استخدام العلامة -p عند تشغيل neoepiscope prep لتنسيق الإخراج الخاص بك:

الإعدادية neoepiscope -v & ltVCF & gt -o & ltADJUSTED HAPCUT OUTPUT & gt -p

يمكنك أيضًا توقع المناظير الجديدة بدون مراحل من خلال تحضير VCF المدمج أو الجسدي:

الإعدادية neoepiscope -v & ltVCF & gt -o & ltADJUSTED HAPCUT OUTPUT & GT

استدعاء neoepiscope -b & ltGENOME BUILD & gt -c & ltPREPPED HAPCUT2 OUTPUT & gt [خيارات]

-x ، - مسار مؤشر القوس إلى فهرس ربطة العنق للجينوم المرجعي

-d ، - يقر المسار إلى الدليل الذي يحتوي على قواميس مخللة تم إنشاؤها في وضع الفهرس

-b ، - قم ببناء الجينوم الذي سيتم استخدامه (البشر hg19 أو GRCh38 أو الماوس mm9 - خيارات x و -d)

-c ، - مسار خرج hapcut2 مدمج إلى إخراج HapCUT2 تم تعديله بواسطة إعداد Neoepiscope

-v ، - مسار vcf لملف VCF المستخدم لتوليد إخراج HapCUT2

-o ، - مسار الإخراج لملف الإخراج

-f ، - إخراج Fasta إخراج إضافي لملف Fasta

-k ، - حجم kmer-size للتنبؤ بالمواضع الجديدة (الافتراضي 8-11 من الأحماض الأمينية)

-p ، - برنامج توقع الانجذاب لاستخدامه في تنبؤات ربط MHC (الافتراضي MHCflurry v1 مع درجات الترتيب والتقارب)

-a ، - الأليلات الموازية لاستخدامها في تنبؤات ربط معقد التوافق النسيجي الكبير

-n، - no-affinity لا تقوم بتشغيل تنبؤات تقارب ملزمة ، تتجاوز الخيارين -p و -a

-g ، - الخط الجرثومي كيفية التعامل مع طفرات السلالة الجرثومية (يتضمن افتراضيًا كتنوع في الخلفية)

-s ، - كيفية التعامل مع الطفرات الجسدية تلقائيًا (يتضمن افتراضيًا تعداد الموضع الجديد)

-u، - upstream-atgs معالجة الترجمة من أكواد بدء التشغيل - ("رواية" (افتراضي) فقط ، "كل" ، "لا شيء" ، "مرجع" فقط)

-i ، - عزل الطفرات المعزولة - يعطل مراحل الطفرات التي تشترك في النمط الفرداني

- تعدّد nmd النواتج الجديدة من نصوص الاضمحلال الوسيط اللامعقولة

--pp تعداد النيوبيتوبات من نصوص الجينات الزائفة متعددة الأشكال

--igv تعداد المناظير الجديدة من نصوص IG V.

- TRV تعداد المناظير الجديدة من نصوص TR V

- السماح بدون بدء تعداد المنافذ الجديدة من النصوص بدون أكواد البدء المشروحة

- السماح بدون توقف تعداد المنافذ الجديدة من النصوص بدون أكواد الإيقاف المشروحة

- مسار rna-bam لملف محاذاة نهاية RNA-seq المقترن

- مسار عدد النسخ إلى ملف يحتوي على عدد قراءة لكل نص

- الحد الأدنى لعتبة TPM لنسخة TPM المطلوبة للاحتفاظ بـ neoepitope

يتطلب استخدام خيار --build استخدام وظيفة التنزيل الخاصة بنا لشراء وفهرسة الملفات المرجعية المطلوبة لـ hg19 البشري و / أو GRCh38 البشري و / أو الماوس mm9. إذا كنت تستخدم بنية جينوم بديلة ، فستحتاج إلى تنزيل فهرس القوس وملفات GTF الخاصة بك لهذا البناء واستخدام وضع الفهرس الجديد لإعدادهم للاستخدام مع خيارات --dicts و --bowtie-index.

يجب تضمين معلومات Haplotype باستخدام -c / path / to / haplotype / file. هذا في شكل إخراج HapCUT2 ، يتم إنشاؤه إما من VCF الجسدي الخاص بك أو من سلالة جرثومية / VCF جسدية مدمجة تم إنشاؤها باستخدام وظيفة دمج Neoepiscope الخاصة بنا. يجب تعديل ناتج HapCUT2 باستخدام وظيفة إعداد الاكتشاف الجديد لدينا لضمان استمرار تضمين الطفرات التي تفتقر إلى بيانات التدريج في التحليل.

إذا كنت ترغب في استخراج معلومات تردد الأليل المتغير من VCF الجسدي الخاص بك ليتم إخراجها مع الحلقات ذات الصلة ، فقم بتضمين المسار إلى VCF الجسدي الذي استخدمته لإنشاء VCF المدمج الخاص بك باستخدام -v / path / to / VCF.

لتحديد ملف الإخراج ، استخدم -o / path / to / output_file. إذا لم يتم تحديد ملف الإخراج ، فسيتم كتابة الإخراج على مستوى قياسي. بشكل افتراضي ، يتم إخراج البيانات الموجودة على المناظير الجديدة فقط في الملف. باستخدام الخيار --fasta ، سيتم إنشاء ملف إضافي ، /path/to/output_file.fasta. هذا ملف FASTA يحدد تسلسل البروتين الكامل من كل نسخة متأثرة بالطفرة. سيعطي العنوان الموجود في FASTA اسم النسخة التي نشأ منها البروتين ، متبوعًا بعلامة "v [#]" لكل نسخة من النسخة. هذا الخيار متاح فقط عند كتابة الإخراج إلى ملف ، وليس الخروج القياسي.

الحجم الافتراضي للكمر لتعداد الموضع الجديد هو 8-11 من الأحماض الأمينية ، ولكن يمكن تحديد نطاق مخصص باستخدام وسيطة --kmer-size مع الحد الأدنى والحد الأقصى لحجم الحاتمة مفصولة بفواصل (على سبيل المثال - حجم km8،20 إلى الحصول على حواتم يتراوح طولها من 8 إلى 20 حمضًا أمينيًا).

للتنبؤ بالتقارب ، يدعم neoepiscope حاليًا التنبؤات من MHCflurry v1 و MHCnuggets v2 و netMHC v4 و netMHCpan v3 أو v4 و netMHCIIpan v3 و netMHCII v2 و PickPocket v1 و netMHCstabpan v1 و PSSMHCpan v1. عند تثبيت برنامجنا باستخدام pip ، يتم تثبيت أو تحديث MHCflurry و MHCnuggets تلقائيًا. يجب أن يتم التكامل الاختياري لكل من netMHC أو netMHCpan أو netMHCIIpan أو netMHCII أو PickPocket أو netMHCstabpan أو PSSMHCpan من التثبيت الخاص بك لهذه البرامج باستخدام وظيفة التنزيل الخاصة بنا (راجع "تثبيت neoepiscope" أعلاه). لاحظ أن gawk قد يكون مطلوبًا لاستخدام هذه الأدوات الإضافية. يرجى ملاحظة أن MHCflurry و MHCnuggets يتطلبان استخدام TensorFlow ، والذي كان توافقًا محدودًا مع python v3.7. إذا كنت ترغب في استخدام هذه الأدوات ، فيرجى استخدام python v3.6 أو إصدار أقل لتشغيل neoepiscope.

برنامج توقع التقارب الافتراضي لـ neoepiscope هو MHCflurry v1. لتحديد مجموعة مخصصة من برامج التنبؤ الملزمة ، استخدم الوسيطة -p لكل برنامج متبوعًا باسمه وإصداره وإخراج (مخرجات) التسجيل المطلوبة (على سبيل المثال تقارب -p mhcflurry 1 ورتبة -p mhcnuggets 2 تقارب). للتخلي عن تنبؤات التقارب الملزمة ، استخدم خيار سطر الأوامر - no-affinity.

يمكن التعامل مع طفرات السلالة الجرثومية والجسدية بعدة طرق. يمكن استبعادها تمامًا (على سبيل المثال - استبعاد السلالة الجرثومية) ، وتضمينها كتنوع في الخلفية لتخصيص نسخة المرجع (على سبيل المثال - خلفية الخط الجرثومي) ، أو تضمينها كمتغيرات يمكن من خلالها تعداد المنافذ الجديدة (على سبيل المثال - تشمل الجذور). القيمة الافتراضية لـ --germline هي background ، والقيمة الافتراضية لـ --somatic هي include.

يمكن أيضًا التعامل مع اختيار رمز البدء للنسخة بمرونة. بشكل افتراضي ، تكون قيمة الوسيطة --upstream-atgs هي بلا ، والتي تحدد الاستخدام التفضيلي لكودون البدء المرجعي للنسخة ، أو بدلاً من ذلك أقرب ATG المتجه لها في حالة رمز البدء المرجعي المعطل. بدلاً من ذلك ، يسمح استخدام - upstream-atgs الجديدة باستخدام ATG جديد المنبع من كودون البدء المرجعي في حالة كودون البدء المعطل. يستخدم المنبع - atgs الأقل تحفظًا معظم ATG المنبع ، بغض النظر عن حداثته. بالنسبة لخيار متحفظ ، يتطلب مرجع --upstream-atgs استخدام كودون البدء المرجعي فقط ، مما يمنع تعداد المنافذ الجديدة من نسخة إذا تم تعطيل كود البدء المرجعي.

بشكل افتراضي ، يعدد Neoepiscope فقط المناظير الجديدة من نصوص تشفير البروتين مع بدء وإيقاف الكودونات المشروحة. ومع ذلك ، من خلال تحديد الأعلام --nmd و --pp و --igv و / أو - trv ، يمكنك أيضًا تعداد المناظير الجديدة من نصوص الاضمحلال التي لا معنى لها ، ونصوص الجينات الزائفة متعددة الأشكال ، والنصوص المتغيرة للجلوبيولين المناعي ، و / أو مستقبل الخلايا التائية نصوص متغيرة ، على التوالي. لمزيد من المرونة ، يمكنك إضافة --allow-nonstart و / أو --allow-nonstop لتعداد المناظير الجديدة من النصوص بدون بدء شرح و / أو إيقاف الكودونات ، على التوالي.

يوجد خياران للقياس الكمي للتعبير عن المناظير الجديدة: 1) توفير عدد قراءة النص لحساب التعبير على مستوى النص في TPM أو 2) توفير محاذاة RNA لحساب دعم مستوى القراءة المباشر لطفرة المصدر. يمكن استخدام كلا الخيارين في وقت واحد. لحساب تعبير مستوى النص ، استخدم الخيار --transcript-counts وقم بتوفير المسار إلى ملف مفصول بعلامات جدولة مع معرفات النص في العمود الأول وأعداد القراءة في العمود الثاني (على سبيل المثال ، الإخراج من HTseq's htseq-count برنامج). سيوفر هذا قيمة (قيم) TPM للنسخة (النصوص) التي يرتبط بها الموضع الجديد. لتصفية المناظير الجديدة بشكل إضافي من النصوص المكتوبة بشكل سيئ ، يمكنك استخدام الخيار --tpm-threshold لتعيين الحد الأدنى لمتطلبات TPM. لحساب تعبير مستوى الطفرة ، يمكنك توفير ملف محاذاة RNA-seq BAM مزدوج النهاية. سيوفر هذا عدد القراءات التي تدعم الطفرة ، وعدد القراءات التي تغطي موضع الطفرة ، والنسبة المئوية للقراءات التي تغطي الطفرة التي تدعم هذه الطفرة. ملاحظة: يتطلب التعبير على مستوى الطفرة تثبيت samtools وفي المسار الخاص بك.

إخراج استدعاء Neoepitope

يعد ملف neoepiscope عبارة عن ملف TSV ، إما مكتوبًا وفقًا للمعايير القياسية افتراضيًا ، أو الملف المسمى بخيار الإخراج --output. يسرد العمود الأول تسلسل الموضع الجديد. يسرد العمود الثاني الكروموسوم الذي تحدث فيه طفرة المصدر ، ويسرد العمود الثالث موضع الطفرة على ذلك الكروموسوم. يسرد العمود الرابع تسلسل النوكليوتيدات المرجعية في هذا الموضع (* للإدخالات) ، ويسرد العمود الخامس تسلسل النوكليوتيدات البديل في هذا الموضع (* للحذف). يسرد العمود السادس نوع المتغير - V لـ SNVs / MNVs و I للإدخالات و D للحذف. يسرد العمود السابع VAF لتلك الطفرة (إذا كان متاحًا) ، ويسرد العمود الثامن الحلقات العادية المقترنة للوضعيات الجديدة الناتجة عن SNVs / MNVs. يسرد العمود التاسع أي تحذيرات مرتبطة بالموقع الجديد أو نسخة (نسخ) الأصل الخاصة به (على سبيل المثال ، إذا تم تعطيل كود البدء المرجعي وتم استخدام كودون بدء بديل) ، يسرد العمود العاشر معرف (معرفات) المجموعة للنسخة (على سبيل المثال) s) من أصل الموضع الجديد ، ويسرد العمود الحادي عشر نوع (أنواع) نسخة من نسخة (نسخ) الأصل. يسرد العمود الثاني عشر معرف (معرفات) المجموعة لأي جينات مرتبطة بنسخة (نسخ) الأصل ، ويسرد العمود الثالث عشر اسم (أسماء) الجينات. يسرد العمود الرابع عشر مستويات تعبير TPM (s) للنسخة (النصوص) المرتبطة بهذا الحاتمة. يسرد العمود الخامس عشر عدد قراءات RNA-seq التي تدعم طفرة المصدر. يسرد العمود السادس عشر عدد قراءات RNA-seq التي تغطي موضع طفرة المصدر. يسرد العمود السابع عشر النسبة المئوية للقراءات التي تغطي موضع طفرة المصدر التي تدعم هذه الطفرة. يسرد العمود الثامن عشر معرف (معرفات) IEDB المرتبطة بالحلقة إذا كان تسلسلًا معروفًا ، مع إدراج أي تعديلات الببتيد ذات الصلة. إذا تم تشغيل أي تنبؤات ربط معقد التوافق النسيجي الكبير (MHC) من أجل المناظير الجديدة ، فإن الأعمدة التالية تسرد تقاربات الربط الخاصة بـ neoepitope لمجموعة أداة التنبؤ بالربط / أليل HLA على النحو المسمى (على سبيل المثال ، mhcnuggets_HLA-A * 02: 01_affinity يمثل تقارب الربط في نانومتر من هذا المنظار الجديد لـ الأليل HLA-A * 02:01 كما تنبأ به MHCnuggets).

إذا تم تحديد الخيار --fasta ، فسيتم أيضًا كتابة ملف fasta إلى الملف المحدد باستخدام الخيار --output ، بامتداد إضافي .fasta. ستكون أسماء التسلسل عبارة عن معرفات نسخ متبوعة بـ _vX ، حيث يمثل X رقم إصدار.التسلسلات هي تسلسلات الأحماض الأمينية المشتقة من ترجمة ذلك النص.


Bamgineer: إدخال متغيرات رقم نسخة محاكية خاصة بأليل في مجموعات بيانات تسلسل exome ومستهدفة

تلعب الاختلافات الجسدية في عدد النسخ (CNVs) دورًا مهمًا في تطوير العديد من السرطانات البشرية. أتاح التوفر الواسع لبيانات التسلسل من الجيل التالي تطوير خوارزميات لاستنتاج ملفات تعريف CNV حسابياً من مجموعة متنوعة من أنواع البيانات بما في ذلك بيانات تسلسل الإكسوم وبيانات التسلسل المستهدفة حاليًا وهي أكثر أنواع بيانات جينوم السرطان انتشارًا. ومع ذلك ، فإن التقييم والمقارنة المنهجيين لهذه الأدوات لا يزالان يمثلان تحديًا بسبب الافتقار إلى مجموعات مرجعية للحقيقة الأساسية. لتلبية هذه الحاجة ، قمنا بتطوير Bamgineer ، وهي أداة مكتوبة بلغة Python لتقديم أحداث عدد النسخ الخاصة بأليل محدد من قبل المستخدم على مراحل في ملف Binary Alignment Mapping (BAM) الحالي ، مع التركيز على تجارب التسلسل المستهدفة والإكسوم. كمدخل ، تتطلب هذه الأداة قراءة ملف محاذاة (تنسيق BAM) ، وقوائم بإحداثيات الجينوم غير المتداخلة لإدخال المكاسب والخسائر (ملف السرير) ، وملف اختياري يحدد أنماط الفرد المعروفة (تنسيق vcf). لتحسين أداء وقت التشغيل ، يقدم Bamgineer CNV المطلوب بالتوازي باستخدام قائمة الانتظار والمعالجة المتوازية على جهاز محلي أو على مجموعة حوسبة عالية الأداء. كدليل على المبدأ ، قمنا بتطبيق Bamgineer على ملف تسلسل exome واحد عالي التغطية (يعني: 220X) من عينة دم لمحاكاة ملفات تعريف عدد النسخ لثلاثة أورام نموذجية من كل نوع من أنواع الأورام العشرة في 5 مستويات خلوية للورم (20) -100٪ ، إجمالي 150 ملف BAM). لإثبات الجدوى بخلاف بيانات exome ، قدمنا ​​محاذاة قراءة لمكتبة تسلسل الحمض النووي الخالي من الخلايا المستهدفة من 5 جينات لمحاكاة تضخيم EGFR بترددات متوافقة مع الحمض النووي للورم المتداول (10 ، 1 ، 0.1 و 0.01 ٪) مع الاحتفاظ بحجم الإدخال متعدد الوسائط توزيع البيانات الأصلية. نتوقع أن يكون Bamgineer مفيدًا في التطوير والقياس المنهجي لخوارزميات استدعاء CNV من قبل المستخدمين الذين يستخدمون البيانات المولدة محليًا لمجموعة متنوعة من التطبيقات. شفرة المصدر متاحة مجانًا على http://github.com/pughlab/bamgineer.

بيان تضارب المصالح

وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.

الأرقام

الشكل 1. نظرة عامة مفاهيمية بامجينير.

الشكل 1. نظرة عامة مفاهيمية بامجينير.

تمت محاكاة CNV الخاصة بـ Haploype باستخدام قراءات معاد إقرانها. ألوان حمراء وزرقاء ...

الشكل 2. مثال على CNV الخاص بأليل ...

الشكل 2. مثال على مكالمات CNV المحددة لأليل الناتجة من ملفات بام المعدلة.

0.33 في عرض الكروموسوم. ج) عرض الجينوم (يسار) والكروموسوم (يمين) لـ 36 حدثًا (21 مكاسب و 25 خسارة) مأخوذة من أطلس الجينوم لسرطان المثانة البولي (BLCA) لمحتوى الورم بنسبة 100٪. كما هو متوقع لنسبة العمق و BAFs حوالي 0.5 و صفر على التوالي.

الشكل 3. نسب Log2 من نموذج تم محاكاته ...

الشكل 3. نسب Log2 من محاكاة أورام نموذجية بمستويات نقاوة متفاوتة.

الشكل 4. ملفات تعريف عدد النسخ المحاكاة على مستوى Exome ...

الشكل 4. ملف تعريف عدد النسخ المحاكاة على مستوى Exome في مجموعة من درجات نقاء الورم المتوقع ...

الشكل 5. محاكاة CNVs منخفضة التردد في ...

الشكل 5. محاكيات CNVs منخفضة التردد في بيانات الحمض النووي للورم المنتشرة تنتج النسب الأليلية المتوقعة ...

160 و 330 نقطة أساس) ، وتوزيع حجم الجزء لأزواج القراءة الأصلية وتلك الخاصة بأزواج القراءة المقدمة لمحاكاة كسب EGFR متسقة بشكل معقول (اختبار KS على الوجهين: 0.11: قيمة p: 0.81 نلاحظ وجود اختلافات طفيفة في الكثافة النسبية للذروة الثانية في حوالي


الخيارات المشتركة

الخيارات التالية شائعة للعديد من أوامر bcftools. راجع الاستخدام لأوامر محددة لمعرفة ما إذا كانت تنطبق.

يتحكم في كيفية معالجة السجلات ذات المواضع المكررة ويحدد السجلات المتوافقة عبر ملفات الإدخال المتعددة. هنا نعني بكلمة "متوافق" السجلات التي يجب أن تعتبرها الأدوات متطابقة. على سبيل المثال ، عند إجراء تقاطعات خطية ، قد تكون الرغبة في اعتبار جميع المواقع متطابقة مع مواضع مطابقة ( bcftools ISEC -c الكل ) ، أو المواقع التي تحتوي على نوع متغير مطابق فقط ( bcftools ISEC -c snps إينديلز ) ، أو المواقع التي تحتوي على جميع الأليلات المتطابقة فقط ( bcftools ISEC -c لا أحد ).

في حالة عدم وجود العمود الثاني ، يتم افتراض الجنس "F". مع bcftools استدعاء -C الثلاثي ، من المتوقع ملف PED. يتجاهل البرنامج العمود الأول والأخير يشير إلى الجنس (1 = ذكر ، 2 = أنثى) ، على سبيل المثال:

Bcftools شرح توضيحي [والخيارات] ملف

إضافة أو إزالة التعليقات التوضيحية.

دعوة bcftools [والخيارات] ملف

هذا الأمر يحل محل السابق عرض bcftools المتصل. تم فقد بعض الوظائف الأصلية مؤقتًا أثناء عملية النقل ضمن htslib ، ولكن ستتم إضافتها مرة أخرى عند الطلب الشائع. يمكن استدعاء نموذج الاستدعاء الأصلي بامتداد اختيار.

خيارات تنسيق الملف:

خيارات الإدخال / الإخراج:

الإجماع / خيارات الاتصال المتنوعة:

Bcftools cnv [والخيارات] ملف

يتطلب نسخ رقم المتصل المتغير VCF مشروحًا بقيم تردد أليل B (BAF) الخاص بشركة Illumina وقيم شدة نسبة تسجيل R (LRR). يعتبر HMM حالات رقم النسخة التالية: CN 2 (عادي) ، 1 (خسارة نسخة واحدة) ، 0 (خسارة كاملة) ، 3 (ربح نسخة واحدة).

خيارات عامة:

خيارات HMM:

Bcftools concat [والخيارات] ملف 1 ملف 2 […]

اربط أو ادمج ملفات VCF / BCF. يجب أن تحتوي جميع ملفات المصدر على نفس نماذج الأعمدة التي تظهر بالترتيب نفسه. يمكن استخدامها ، على سبيل المثال ، لسلسلة VCFs كروموسوم في VCF واحد ، أو دمج SNP VCF و indel VCF في واحد. يجب فرز ملفات الإدخال حسب chr والموضع. يجب تقديم الملفات بالترتيب الصحيح لإنتاج VCF مرتبة عند الإخراج ما لم يكن -a ، - السماح بالتداخلات تم تحديد الخيار. باستخدام الخيار --naive ، يتم تجميع الملفات دون إعادة ضغطها ، وهو سريع جدًا ..

Bcftools الإجماع [والخيارات] ملف

قم بإنشاء تسلسل إجماع من خلال تطبيق متغيرات VCF على ملف مرجعي fasta. بشكل افتراضي ، سيقوم البرنامج بتطبيق جميع متغيرات ALT على Fasta المرجعية للحصول على تسلسل الإجماع. باستخدام --عينة (واختياريًا ، --النمط ) سيطبق خيار النمط الجيني (النمط الفرداني) من FORMAT / GT. لاحظ أن البرنامج لا يعمل كمتصل بدائي متغير ويتجاهل معلومات العمق الأليلية ، مثل INFO / AD أو FORMAT / AD. لذلك ، ضع في اعتبارك استخدام مجموعة توصيل في.

اختر أي الأليل من حقل FORMAT / GT لاستخدامه (الرموز غير حساسة لحالة الأحرف):

الأليل الأول / الثاني للأنماط الجينية المرحلية ورمز IUPAC للأنماط الجينية غير المرحلية

Bcftools تحويل [والخيارات] ملف

خيارات إدخال VCF:

خيارات إخراج VCF:

GEN / SAMPLE التحويل:

تحويل gVCF:

تحويل HAP / SAMPLE:

تحويل HAP / LEGEND / SAMPLE:

تحويل TSV:

Bcftools csq [والخيارات] ملف

المتنبئ بالنتائج المدرك للنمط الفردي الذي يتعامل بشكل صحيح مع المتغيرات المجمعة مثل MNPs المقسمة على سجلات VCF متعددة ، أو SNPs مفصولة عن طريق intron (ولكن متجاورة في النسخة المقسمة) أو indels القريبة المتغيرة للإطار والتي في الواقع لا تتحول إلى إطار.

تمت إضافة تعليق توضيحي لمخرج VCF بعلامة INFO / BCSQ و FORMAT / BCSQ (قابلة للتكوين باستخدام اختيار). هذا الأخير عبارة عن قناع بت من الفهارس إلى INFO / BCSQ ، مع أنماط فردانية مشذرة. راجع أمثلة الاستخدام أدناه لاستخدام محول٪ TBCSQ بتنسيق استفسار لاستخراج نموذج أكثر قابلية للقراءة من هذا القناع النقطي. يحد إنشاء قناع البت من عدد النتائج التي يمكن الرجوع إليها لكل عينة في علامات FORMAT / BCSQ. بشكل افتراضي ، هذا هو 15 ، ولكن إذا كان مطلوبًا المزيد ، فراجع ملف - ncsq اختيار.

يتطلب البرنامج إدخال ملف VCF / BCF ، الجينوم المرجعي بتنسيق fasta ( --فاستا المرجع ) والميزات الجينية بتنسيق GFF3 يمكن تنزيلها من موقع Ensembl ( - gff- تعليق توضيحي ) ، وينتج ملف VCF / BCF مشروح. حاليًا ، يتم دعم ملفات Ensembl GFF3 فقط.

بشكل افتراضي ، يجب أن يتم إدخال VCF على مراحل. إذا كانت المرحلة غير معروفة ، أو معروفة جزئيًا فقط ، فإن --مرحلة يمكن استخدام الخيار للإشارة إلى كيفية التعامل مع البيانات غير المرحلية. بدلاً من ذلك ، يمكن إيقاف الاتصال المدرك للنمط الفرداني باستخدام --المحلي csq اختيار.

إذا تم اكتشاف متغيرات متضاربة (متداخلة) داخل نمط فرداني واحد ، فسيتم إصدار تحذير وستستند التنبؤات إلى المتغير الأول فقط في التحليل.

الأليلات الرمزية غير مدعومة. ستبقى بدون توضيح في VCF الناتج ويتم تجاهلها لتحليل التنبؤ.

كيفية التعامل مع الأنماط الجينية غير المتجانسة غير المرحلية:

أمثلة على شرح BCSQ:

مرشح bcftools [والخيارات] ملف

تطبيق مرشحات عتبة ثابتة.

Bcftools gtcheck [ والخيارات ] [ -g genotypes.vcf.gz ] query.vcf.gz

يتحقق من هوية العينة. يمكن للبرنامج العمل في وضعين. إذا كان -g يتم إعطاء الخيار ، هوية العينات من query.vcf.gz يتم فحصها مقابل العينات الموجودة في -g ملف. بدون ال -g الخيار ، فحص متعدد العينات للعينات بتنسيق query.vcf.gz تم إنجازه.

-s ، - عينات [ قري | جي تي ]: "LIST": قائمة نماذج الاستعلام أو -g عينات. إذا لم يكن كذلك ولا معطى ، تتم مقارنة جميع مجموعات أزواج العينات الممكنة

-S ، - عينات-ملف [ قري | جي تي ]: ملف "FILE" باستخدام الاستعلام أو -g عينات للمقارنة. إذا لم يكن كذلك ولا معطى ، تتم مقارنة جميع مجموعات أزواج العينات الممكنة

فهرس bcftools [ والخيارات ] in.bcf | in.vcf.gz

ينشئ فهرسًا لملفات VCF / BCF المضغوطة bgzip للوصول العشوائي. يتم إنشاء CSI (فهرس مرتبة حسب الإحداثيات) افتراضيًا. يدعم تنسيق CSI فهرسة الكروموسومات حتى طول 2 ^ 31. يمكن إنشاء ملفات فهرس TBI (فهرس tabix) ، والتي تدعم أطوال كروموسوم تصل إلى 2 ^ 29 ، باستخدام -t / - tbi الخيار أو استخدام تابيكس برنامج معبأ مع htslib. عند تحميل ملف فهرس ، سيحاول bcftools تجربة CSI أولاً ثم TBI.

خيارات الفهرسة:

خيارات الإحصائيات:

Bcftools ISEC [ والخيارات ] A.vcf.gz B.vcf.gz […]

يقوم بإنشاء التقاطعات والنقابات ومكملات ملفات VCF. اعتمادًا على الخيارات ، يمكن للبرنامج إخراج سجلات من ملف واحد (أو أكثر) يحتوي (أو ليس لديه) سجلات مقابلة لها نفس الموضع في الملفات الأخرى.

BITMAP توجد مواضع الإخراج في هذا العدد (=) ، هذا العدد أو أكثر (+) ، هذا العدد الكبير أو أقل (-) ، أو نفس الشيء بالضبط (

) الملفات -o ، - الإخراج ملف ارى الخيارات المشتركة . عندما يتم إخراج عدة ملفات ، يتم التحكم في أسمائها عبر -p في حين أن. -O ، - نوع الإخراج ب | ش | ض | الخامس ارى الخيارات المشتركة -p ، --prefix DIR إذا تم توفيره ، فقم بمجموعة فرعية لكل ملف من ملفات الإدخال وفقًا لذلك. أنظر أيضا -w . -r ، - المناطق chr | chr: نقاط البيع | chr: من إلى | chr: from- [،…] ارى الخيارات المشتركة -R ، - ملف المناطق ملف ارى الخيارات المشتركة -t ، - الأهداف chr | chr: نقاط البيع | chr: من إلى | chr: from- [،…] ارى الخيارات المشتركة -T ، - ملف الأهداف ملف ارى الخيارات المشتركة -w ، - اكتب قائمة قائمة ملفات الإدخال للإخراج المعطاة كمؤشرات على أساس 1. مع -p و لا -w ، كل الملفات مكتوبة.

أمثلة:

قم بإنشاء تقاطع ومكملات لمجموعتين مع حفظ الإخراج في dir / *

تصفية المواقع في A (تتطلب INFO / MAF & gt = 0.01) و B (تتطلب INFO / dbSNP) ولكن ليس في C ، وإنشاء تقاطع ، بما في ذلك المواقع التي تظهر في اثنين على الأقل من الملفات بعد تطبيق المرشحات

استخراج وكتابة السجلات من A المشتركة بين كل من A و B باستخدام مطابقة أليل تامة

استخراج السجلات الخاصة بـ A أو B مقارنة بالموضع فقط

اطبع قائمة السجلات الموجودة في A و B ولكن ليست في C و D

دمج bcftools [ والخيارات ] A.vcf.gz B.vcf.gz […]

دمج ملفات VCF / BCF متعددة من مجموعات عينات غير متراكبة لإنشاء ملف واحد متعدد العينات. على سبيل المثال ، عند دمج ملف A.vcf.gz تحتوي على عينات S1 , S2 و S3 وملف B.vcf.gz تحتوي على عينات S3 و 4 س ، سيحتوي ملف الإخراج على خمس عينات مسماة S1 , S2 , S3 , 2: S3 و 4 س .

لاحظ أنه من مسؤولية المستخدم التأكد من أن أسماء العينات فريدة في جميع الملفات. إذا لم تكن كذلك ، فسيخرج البرنامج مع وجود خطأ ما لم يكن الخيار - عينات القوة معطى. يمكن أيضًا إعطاء أسماء العينات بشكل صريح باستخدام امتداد - رأس الطباعة و --استخدام الرأس والخيارات.

لاحظ أنه يمكن دمج السجلات من ملفات مختلفة فقط ، وليس من نفس الملف أبدًا. للدمج "العمودي" ألق نظرة على bcftools concat أو bcftools القاعدة م في حين أن.

Bcftools mpileup [ والخيارات ] -F المرجع في بام [ in2.bam […]]

قم بإنشاء VCF أو BCF التي تحتوي على احتمالات النمط الجيني لملف واحد أو عدة ملفات محاذاة (BAM أو CRAM). هذا يعتمد على الأصل samtools mpileup الأمر (بامتداد -الخامس أو -g خيارات) إنتاج احتمالات النمط الجيني في تنسيق VCF أو BCF ، ولكن ليس الناتج المتراكم النصي. ال mpileup تم نقل الأمر إلى bcftools لتجنب الأخطاء الناتجة عن استخدام إصدارات غير متوافقة من samtools و bcftools عند استخدامها في خط أنابيب استدعاء mpileup + bcftools.

يتم التعرف على الأفراد من علامات SM في سطور رأسRG. يمكن تجميع عدة أفراد في ملف محاذاة واحد ، كما يمكن فصل فرد واحد إلى ملفات متعددة. في حالة عدم وجود معرفات العينة ، يتم اعتبار كل ملف إدخال كعينة واحدة.

لاحظ أن هناك طريقتين متعامدتين لتحديد المواقع في ملف الإدخال عبر -r منطقة و -t المواقف . يستخدم الأول (ويتطلب) فهرسًا للقيام بالوصول العشوائي بينما يتدفق الأخير عبر محتويات الملف لتصفية المناطق المحددة ، ولا يتطلب فهرسًا. يمكن استخدام الاثنين بالتزامن. على سبيل المثال ، يمكن تحديد ملف BED الذي يحتوي على مواقع الجينات في الكروموسوم 20 باستخدام -r 20 -t chr20.bed ، مما يعني أن الفهرس يستخدم للعثور على الكروموسوم 20 ثم يتم تصفيته للمناطق المدرجة في ملف BED. لاحظ أيضًا أن ملف -r يمكن أن يكون الخيار أبطأ بكثير من -t مع العديد من المناطق ويمكن أن تتطلب المزيد من الذاكرة عند معالجة مناطق متعددة والعديد من ملفات المحاذاة.

خيارات الإدخال

خيارات الإخراج

خيارات لحساب احتمال النمط الجيني SNP / INDEL

أمثلة:

اتصل بـ SNPs و INDELs القصيرة ، ثم ضع علامة على المواقع والمواقع منخفضة الجودة بعمق القراءة الذي يتجاوز الحد. (يجب تعديل عمق القراءة إلى حوالي ضعف متوسط ​​عمق القراءة حيث تشير أعماق القراءة المرتفعة عادةً إلى المناطق الإشكالية التي غالبًا ما يتم إثرائها من أجل المصنوعات اليدوية.) يمكن للمرء أن يفكر في إضافة -C50 mpileup إذا تم المبالغة في تقدير جودة الخرائط للقراءات التي تحتوي على حالات عدم تطابق مفرطة. عادة ما يساعد تطبيق هذا الخيار في محاذاة BWA-backtrack ، ولكن قد لا يساعد في محاذاة أخرى.

قاعدة bcftools [ والخيارات ] file.vcf.gz

محاذاة لليسار وتطبيع indels ، تحقق مما إذا كانت أليلات REF تتطابق مع المرجع ، وقم بتقسيم المواقع المتعددة إلى صفوف متعددة واسترداد multiallelics من صفوف متعددة. سيتم تطبيق المحاذاة إلى اليسار والتطبيع فقط إذا كان --فاستا المرجع يتم توفير الخيار.

Bcftools [plugin اسم |+ اسم ] [والخيارات] ملف — [خيارات التوصيل]

إطار عمل مشترك لمختلف المرافق. يمكن استخدام الإضافات بنفس طريقة استخدام الأوامر العادية ، فقط اسمها مسبوق بـ "+". تقبل معظم المكونات الإضافية نوعين من المعلمات: الخيارات العامة المشتركة بين جميع المكونات الإضافية متبوعة بفاصل ، وقائمة من الخيارات الخاصة بالمكونات الإضافية. هناك بعض الاستثناءات لهذه القاعدة ، فبعض المكونات الإضافية لا تقبل الخيارات الشائعة وتنفذ المعلمات الخاصة بها. لذلك يرجى الانتباه إلى أمثلة الاستخدام التي تأتي مع كل مكون إضافي.

خيارات إدخال VCF:

خيارات إخراج VCF:

خيارات البرنامج المساعد:

قائمة بجميع الإضافات المتاحة.

بشكل افتراضي ، يتم البحث في دلائل النظام المناسبة عن المكونات الإضافية المثبتة. يمكنك تجاوز هذا عن طريق تعيين متغير البيئة BCFTOOLS_PLUGINS إلى قائمة أدلة مفصولة بنقطتين للبحث. إذا بدأت BCFTOOLS_PLUGINS بنقطتين ، أو انتهت بنقطتين ، أو تحتوي على نقطتين متجاورتين ، فسيتم البحث في دلائل النظام أيضًا في هذا الموضع في قائمة الأدلة.

-v ، - الإسراف طباعة معلومات التصحيح لتصحيح فشل البرنامج المساعد -V ، - الإصدار طباعة سلسلة الإصدار والخروج

قائمة المكونات الإضافية التي تأتي مع التوزيع:

يدير اختبار ارتباط أساسي ، لكل موقع أو في منطقة ، ويتحقق من وجود أليلات وأنماط وراثية جديدة في مجموعتين من العينات. يضيف تعليقات INFO التالية:

  • PASSOC .. اختبار فيشر الدقيق لاحتمال الارتباط الجيني (أليل REF مقابل non-REF)
  • FASSOC .. نسبة الأليل non-REF في الضوابط والحالات
  • NASSOC .. عدد من أليلات التحكم-المرجع ، التحكم-البديل ، مرجع الحالة ، أليلات الحالة-البديل
  • NOVELAL .. يسرد عينات بأليل جديد لم يتم ملاحظته في المجموعة الضابطة
  • NOVELGT .. يسرد عينات بنمط وراثي جديد لم يتم ملاحظته في المجموعة الضابطة

تعيين علامات المعلومات المختلفة. قائمة العلامات المدعومة في هذا الإصدار:

  • INFO / AC Number: A Type: Integer .. عدد الأليل في الأنماط الجينية
  • INFO / AC_Hom Number: A Type: Integer .. Allele counts in homozygous genotypes
  • INFO / AC_Het Number: A Type: Integer .. الأليل يحسب في الأنماط الجينية متغايرة الزيجوت
  • INFO / AC_Hemi Number: A Type: Integer .. Allele counts in hemizygous genotypes
  • رقم INFO / AF: A النوع: Float .. تردد Allele
  • رقم INFO / AN: 1 النوع: عدد صحيح .. إجمالي عدد الأليلات في الأنماط الجينية المسماة
  • INFO / ExcHet Number: A النوع: Float .. اختبر التغاير الزيجوت الزائد 1 = جيد ، 0 = سيئ
  • INFO / END رقم: 1 النوع: عدد صحيح .. موضع نهاية المتغير
  • INFO / F_MISSING رقم: 1 النوع: عائم .. جزء من الأنماط الجينية المفقودة
  • INFO / HWE رقم: A النوع: Float .. اختبار HWE (PMID: 15789306) 1 = جيد ، 0 = سيئ
  • رقم INFO / MAF: A النوع: عائم .. تردد أليل ثانوي
  • INFO / NS رقم: 1 النوع: عدد صحيح .. عدد العينات مع البيانات
  • رقم INFO / TYPE :. النوع: سلسلة .. نوع السجل (REF ، SNP ، MNP ، INDEL ، إلخ)
  • رقم FORMAT / VAF: A النوع: Float .. الجزء الذي يقرأ مع الأليل البديل ، يتطلب FORMAT / AD أو ADF + ADR
  • رقم FORMAT / VAF1: 1 النوع: Float .. هو نفسه FORMAT / VAF ولكن لجميع الأليلات البديلة بشكل تراكمي
  • TAG = func (TAG) Number: 1 النوع: عدد صحيح .. دعم تجريبي للتعبيرات المعرفة من قبل المستخدم مثل "DP = sum (DP)"

أمثلة:

استكشاف أخطاء المكونات الإضافية:

أشياء يجب التحقق منها إذا كان المكون الإضافي الخاص بك لا يظهر في ملف bcftools plugin -l انتاج:

  • تشغيل مع -الخامس خيار للإخراج المطول: bcftools plugin -lv
  • هل متغير البيئة BCFTOOLS_PLUGINS يشتمل على المسار الصحيح؟

واجهة برمجة تطبيقات المكونات الإضافية:

Bcftools polysomy [ والخيارات ] file.vcf.gz

كشف عدد النسخ الكروموسومية في تعليقات VCFs بقيم تردد أليل B (BAF) لشركة Illumina. لاحظ أن هذا الأمر لا يتم تجميعه بشكل افتراضي ، راجع القسم تجميع اختياري مع GSL في ملف التثبيت للحصول على المساعدة.

خيارات عامة:

خيارات الخوارزمية:

استعلام bcftools [ والخيارات ] file.vcf.gz [ file.vcf.gz […]]

استخراج الحقول من ملفات VCF أو BCF وإخراجها بتنسيق محدد من قبل المستخدم.

صيغة:

أمثلة:

إعادة توجيه bcftools [ والخيارات ] file.vcf.gz

تعديل رأس ملفات VCF / BCF ، وتغيير أسماء العينات.

Bcftools roh [ والخيارات ] file.vcf.gz

برنامج للكشف عن عمليات الزيجوت المتماثل / الزيجوت الذاتي. يتم اعتبار المواقع ثنائية الأليلات فقط.

نموذج HMM:

خيارات عامة:

خيارات HMM:

فرز bcftools [ والخيارات ] file.bcf

احصائيات bcftools [ والخيارات ] A.vcf.gz [ B.vcf.gz ]

يوزع VCF أو BCF وينتج إحصائيات ملف نصي مناسبة لمعالجة الآلة ويمكن رسمها باستخدام مؤامرة vcfstats . عند تقديم ملفين ، يقوم البرنامج بإنشاء إحصائيات منفصلة للتقاطع والمكملات. افتراضيًا ، تتم مقارنة المواقع فقط ، / يجب أن تُعطى لتضمين أعمدة عينة أيضًا. عند تحديد ملف VCF واحد في سطر الأوامر ، تتم طباعة الإحصائيات بتردد الأليل غير المرجعي ، وتوزيع العمق ، والإحصائيات حسب الجودة وعدد العينات لكل عينة ، والإحصائيات الفردية ، وما إلى ذلك. عند تقديم ملفين VCF ، يتم أيضًا طباعة إحصائيات مثل التوافق (توافق النمط الجيني بتردد أليل غير مرجعي ، توافق النمط الوراثي حسب العينة ، الاختلاف غير المرجعي) والارتباط. تتم أيضًا طباعة الخلاف لكل موقع (PSD) بتنسيق - الإسراف الوضع.

عرض bcftools [ والخيارات ] file.vcf.gz [ منطقة […]]

اعرض ملفات VCF أو BCF ، وقم بفرزها وتصفيتها حسب الموضع وتعبير التصفية. التحويل بين VCF و BCF. سابق مجموعة فرعية bcftools .

خيارات الإخراج

-o ، - الإخراج ملف : ضع اسم الملف. في حالة عدم وجوده ، يكون الإعداد الافتراضي هو الطباعة إلى الإخراج القياسي (stdout).

خيارات المجموعة الفرعية:

خيارات التصفية:

لاحظ أن خيارات التصفية أدناه التي تتناول حساب عدد الأليلات ستتحقق أولاً من قيم AC و AN في عمود INFO لتجنب تحليل جميع حقول التركيب الوراثي (FORMAT / GT) في VCF. هذا يعني أن مرشح مثل - min-af 0.1 سيتم احتسابها من INFO / AC و INFO / AN عند توفرها أو FORMAT / GT خلاف ذلك. ومع ذلك ، لن يحاول استخدام أي حقل آخر موجود ، مثل INFO / AF على سبيل المثال. لذلك ، استخدم - استثناء الضبط البؤري التلقائي & lt0.1 في حين أن.

لاحظ أيضًا أنه يجب على المرء توخي الحذر عند تنفيذ عينة فرعية وتصفية في أمر واحد لأن ترتيب العمليات الداخلية يمكن أن يؤثر على النتيجة. على سبيل المثال ، ملف -بمعنى آخر يتم إجراء التصفية قبل إزالة العينة ، ولكن -P يتم إجراء التصفية بعد ذلك ، وبعضها غامض بطبيعته ، على سبيل المثال يمكن أخذ عدد الأليل من عمود INFO عند وجوده ولكن يتم حسابه أثناء الطيران عند الغياب. لذلك يوصى بشدة بتوضيح الترتيب المطلوب بوضوح عن طريق فصل هذه الأوامر إلى خطوتين. (تأكد من استخدام ملف -أو ش الخيار عند الأنابيب!)

مساعدة bcftools [ أمر ] | bcftools - مساعدة [ أمر ]

اعرض رسالة استخدام مختصرة تسرد أوامر bcftools المتاحة. إذا تم تقديم اسم الأمر أيضًا ، على سبيل المثال ، عرض تعليمات bcftools ، فسيتم عرض رسالة الاستخدام التفصيلية لهذا الأمر المحدد.

Bcftools [ --إصدار | -الخامس ]

اعرض أرقام الإصدارات ومعلومات حقوق النشر لـ bcftools والمكتبات المهمة التي تستخدمها bcftools.

Bcftools [ - نسخة فقط ]

اعرض رقم إصدار bcftools الكامل بتنسيق يمكن قراءته آليًا.


ملف إضافي 1:

تكميلي الأشكال S1-S5.

ملف إضافي 2: الجدول S1

: إحصائيات موجزة على مستوى الأنسجة لبيانات AE على مستوى النمط الفرداني. يسرد الجدول حجم العينة ، وعدد الجينات المعبر عنها (المعرفة كجينات بـ & gt = 0.1 TPM في فرد واحد على الأقل) ، عدد الجينات التي تحتوي على بيانات phASER (تُعرّف على أنها جينات مع & gt = 8 قراءات في فرد واحد على الأقل) ، متوسط ​​عدد عينات لكل جين مع بيانات phASER ، وإذا تم استخدام الأنسجة لرسم خرائط GTEx v8 eQTL.

الملف الإضافي 3: الجدول S2

: إحصائيات عتبة العينة واختلال التوازن الأليلي لبيانات AE على مستوى النمط الفرداني. جدول حيث الصفوف هي كل من 49 من الأنسجة GTEx حيث تم استدعاء eQTLs والأعمدة تسرد عدد الجينات مع بيانات AE على مستوى النمط الفرداني بأقل عدد من عتبات العينة من 1 إلى 300 (minXXX). على سبيل المثال ، يسرد min1 عدد الجينات التي تحتوي على بيانات AE من عينة واحدة على الأقل. يحتوي الجدول على ثلاث أوراق ، الأولى (all_data) تعرض إحصائيات تم إنشاؤها باستخدام جميع بيانات AE على مستوى النمط الفرداني ، والثانية (sig_imb_fdr05) ، تحسب فقط الحالات التي بها اختلال كبير في الأليلات (اختبار ذو الحدين مقابل 50/50 ، مستوى الجينات FDR & lt 5٪ ) ، وأخيرًا (sig_imb_fdr05_no_het) ، عد فقط الحالات التي بها اختلال كبير في التوازن حيث لا يكون الفرد متغاير الزيجوت لأي قمة (FDR & lt 5٪) أو مستقلة (التقليب) ص & lt 1e-4) eQTLs عبر أي أنسجة GTEx للجين.


شاهد الفيديو: TOP 9 Interior Design Styles. أفضل 9 أنماط للتصميم الداخلي (يوليو 2022).


تعليقات:

  1. Kyan

    أؤكد. أنا أشترك في كل ما سبق.دعونا نناقش هذا

  2. Jett

    بالضبط إلى هذه النقطة :)

  3. Cai

    أعني أنك لست على حق. يمكنني الدفاع عن موقفي.

  4. Derrek

    موضوع رائع

  5. Ysbaddaden

    أجد أنك لست على حق. سنناقشها. اكتب في رئيس الوزراء ، سوف نتواصل.

  6. Gilmar

    نعم أنت الشخص الموهوب



اكتب رسالة