معلومة

21.1: الشبكات التنظيمية - الاستدلال والتحليل والتطبيق - علم الأحياء

21.1: الشبكات التنظيمية - الاستدلال والتحليل والتطبيق - علم الأحياء



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

تتكون الأنظمة الحية من طبقات متعددة تقوم بتشفير المعلومات حول النظام. الطبقات الأساسية هي:

1. Epigenome: يتم تعريفه بواسطة تكوين الكروماتين. يعتمد هيكل الكروماتين على الطريقة التي تنظم بها الهيستونات الحمض النووي. ينقسم الحمض النووي إلى مناطق خالية من النوكليوزوم والنيوكليوسوم ، مما يشكل شكله النهائي ويؤثر على التعبير الجيني.

  1. الجينوم: يشمل الحمض النووي المشفر وغير المشفر. تُستخدم الجينات المحددة بواسطة ترميز الحمض النووي لبناء الحمض النووي الريبي ، وتنظم العناصر التنظيمية لرابطة الدول المستقلة التعبير عن هذه الجينات.
  2. نسخ RNAs (مثل mRNA و miRNA و ncRNA و piRNA) من الحمض النووي. لديهم وظائف تنظيمية وتصنيع البروتينات.
  3. بروتين يتكون من بروتينات. وهذا يشمل عوامل النسخ ، والبروتينات ، والإنزيمات الأيضية.

تختلف التفاعلات بين هذه المكونات ، لكن فهمها يمكن أن يضع أجزاء معينة من النظام في سياق الكل. لاكتشاف العلاقات والتفاعلات داخل الطبقات وفيما بينها ، يمكننا استخدام الشبكات.

إدخال الشبكات البيولوجية

تتكون الشبكات البيولوجية على النحو التالي:
صافي التنظيم - مجموعة من التفاعلات التنظيمية في الكائن الحي.

  • العقد هي جهات تنظيمية (مثل عوامل النسخ) والأهداف المرتبطة بها.
  • تتوافق الحواف مع التفاعل التنظيمي ، الموجه من العامل التنظيمي إلى هدفه. يتم توقيعها وفقًا للتأثيرات الإيجابية أو السلبية ويتم ترجيحها وفقًا لقوة التفاعل.

شبكة التمثيل الغذائي - يربط عمليات التمثيل الغذائي. هناك بعض المرونة في التمثيل ، ولكن أحد الأمثلة هو رسم بياني يعرض منتجات التمثيل الغذائي المشتركة بين الإنزيمات.

  • العقد عبارة عن إنزيمات.
  • تتوافق الحواف مع التفاعلات التنظيمية ، ويتم ترجيحها وفقًا لقوة التفاعل.

شبكة الإشارات - يمثل مسارات الإشارات البيولوجية.

  • العقد عبارة عن بروتينات تسمى مستقبلات الإشارة.
  • يتم إرسال واستقبال الحواف إشارات بيولوجية ، موجهة من المرسل إلى المستقبل.

بروتين نت - يعرض التفاعلات الفيزيائية بين البروتينات.

• العقد عبارة عن بروتينات فردية.

• الحواف هي تفاعلات فيزيائية بين البروتينات.

شبكة التعبير المشترك - يصف وظائف التعبير المشترك بين الجينات. عامة جدا تمثل شبكات تفاعل وظيفية أكثر من شبكات تفاعل مادية ، على عكس الأنواع الأخرى من الشبكات. أداة قوية في التحليل الحسابي للبيانات البيولوجية.

• العقد هي جينات فردية.
• الحواف هي علاقات التعبير المشترك.

اليوم ، سنركز حصريًا على الشبكات التنظيمية. تتحكم الشبكات التنظيمية في التعبير الجيني الخاص بالسياق ، وبالتالي فهي تتمتع بقدر كبير من السيطرة على التنمية. إنهم يستحقون الدراسة لأنهم عرضة للخلل والتسبب في المرض.

التفاعلات بين الشبكات البيولوجية

يمكن اعتبار الشبكات البيولوجية الفردية (أي الطبقات) بحد ذاتها عُقدًا في شبكة أكبر تمثل النظام البيولوجي بأكمله. يمكننا ، على سبيل المثال ، أن يكون لدينا شبكة إشارات تستشعر البيئة التي تحكم التعبير عن عوامل النسخ. في هذا المثال ، ستعرض الشبكة أن TFs تتحكم في تعبير البروتينات ، ويمكن للبروتينات أن تلعب دور الإنزيمات في المسارات الأيضية ، وما إلى ذلك.

تظهر المسارات العامة لتبادل المعلومات بين هذه الشبكات في الشكل 21.4.

دراسة الشبكات التنظيمية

بشكل عام ، تُستخدم الشبكات لتمثيل التبعيات بين المتغيرات. يمكن تمثيل التبعيات الهيكلية من خلال وجود حافة بين العقد - على هذا النحو ، فإن العقد غير المتصلة مستقلة بشكل مشروط. من الناحية الاحتمالية ، يمكن تعيين "وزن" للحواف يمثل قوة أو احتمالية التفاعل. يمكن أيضًا النظر إلى الشبكات على أنها مصفوفات ، مما يسمح بالعمليات الحسابية. توفر هذه الأطر وسيلة فعالة لتمثيل ودراسة النظم البيولوجية.

هذه الشبكات مثيرة للاهتمام بشكل خاص للدراسة لأن الأعطال يمكن أن يكون لها تأثير كبير. تحدث العديد من الأمراض عن طريق إعادة لف الشبكات التنظيمية. يتحكمون في التعبير المحدد للسياق في التنمية. لهذا السبب ، يمكن استخدامها في بيولوجيا الأنظمة للتنبؤ بالتطور وحالة الخلية وحالة النظام والمزيد. بالإضافة إلى ذلك ، فهي تلخص الكثير من الاختلاف التطوري بين الكائنات الحية المتشابهة وراثيًا.

لوصف الشبكات التنظيمية ، هناك العديد من الأسئلة الصعبة التي يجب الإجابة عليها.

تحديد العنصر ما هي عناصر الشبكة؟ تم تحديد العناصر المكونة للشبكات التنظيمية المحاضرة الأخيرة. وتشمل هذه الزخارف المنبع والعوامل المرتبطة بها.

تحليل هيكل الشبكة كيف يتم توصيل عناصر الشبكة؟ بالنظر إلى الشبكة ، يتكون تحليل الهيكل من فحص وتوصيف الخصائص المهمة. يمكن عمل شبكات بيولوجية ولكنها لا تقتصر عليها.

استدلال الشبكة كيف يتفاعل المنظمون ويقومون بتشغيل الجينات؟ هذه هي مهمة تحديد حواف الجينات وتوصيف أفعالهم.

تطبيقات الشبكة ماذا يمكننا أن نفعل بالشبكات بمجرد أن نحصل عليها؟ تتضمن التطبيقات وظيفة التنبؤ لتنظيم الجينات والتنبؤ بمستويات التعبير عن الجينات المنظمة.


1المزيد في محاضرة علم التخلق.


الاستدلال والتحليل الحسابي للشبكات التنظيمية الجينية عبر نمط التحسين التجميعي الخاضع للإشراف

يجلب عصر ما بعد الجينوم فئات متنوعة من بيانات omics. يعمل الاستدلال والتحليل للشبكات التنظيمية الجينية بشكل بارز في استخراج الآليات المتأصلة ، واكتشاف وتفسير الطبيعة البيولوجية ذات الصلة والمبادئ الحية تحت ظواهر المتاهة ، وفي النهاية تعزيز رفاه البشرية.

نتائج

يتم تقديم نمط تحسين اندماجي خاضع للإشراف يعتمد على نظريات المعلومات ومعالجة الإشارات في الاستدلال والتحليل للشبكات التنظيمية الجينية. يُقترح إجراء ارتباط لتحديد القوة التنظيمية / الاتصال ، ويحدد مقياس تحول الطور الاتجاهات التنظيمية بين مكونات الشبكات المعاد بناؤها. وبالتالي ، فإنه يحل المشاكل التنظيمية غير الموجهة الناشئة عن معظم الأساليب الحالية ذات الصلة الخطية / غير الخطية. في حالة التكرار الحسابي والطوبولوجي ، نقوم بتقييد حجم المجموعة المصنف للمرشحين الزوجين ضمن نمط تحسين اندماجي متعدد الأغراض (MOCO).

الاستنتاجات

نشهد على النهج المقترح على مجموعتي بيانات ميكروأري في العالم الواقعي لهما خصائص إحصائية مختلفة. وبالتالي ، فإننا نكشف عن آليات التصميم المتأصلة للشبكات الجينية بالوسائل الكمية ، مما يسهل مزيدًا من التحليل النظري والتصميم التجريبي بأغراض بحثية متنوعة. يتم توضيح المقارنات النوعية مع الأساليب الأخرى وبعض النقاط ذات الصلة التي تحتاج إلى مزيد من العمل في قسم المناقشة.


الملخص

يعد كشف الشبكات التنظيمية الجزيئية الكامنة وراء تطور المرض أمرًا بالغ الأهمية لفهم آليات المرض وتحديد أهداف الأدوية. تعتمد الطرق الحالية لاستنتاج شبكات تنظيم الجينات (GRNs) بشكل أساسي على بيانات التعبير الجيني للدورة الزمنية. ومع ذلك ، فإن معظم بيانات omics المتاحة من الدراسات المقطعية لمرضى السرطان غالبًا ما تفتقر إلى المعلومات الزمنية الكافية ، مما يؤدي إلى تحدي رئيسي لاستدلال GRN. من خلال القياس الكمي للتقدم الكامن باستخدام مسافة مشعب قائمة على مناحي عشوائي ، نقترح طريقة بايز القائمة على التقدم الزماني الكامن ، PROB ، لاستنتاج GRNs من بيانات النسخ المستعرضة لعينات الورم. تم إثبات متانة PROB لمتغيرات القياس في البيانات رياضيًا والتحقق منها رقميًا. يشير تقييم الأداء على البيانات الحقيقية إلى أن PROB يتفوق على الطرق الأخرى في كل من استدلال الوقت الكاذب واستدلال GRN. تُظهر تطبيقات سرطان المثانة وسرطان الثدي أن طريقتنا فعالة في تحديد المنظمين الرئيسيين لتطور السرطان أو أهداف الأدوية. تم التحقق من صحة ACSS1 الذي تم تحديده تجريبيًا لتعزيز الانتقال الظهاري إلى اللحمة المتوسطة لخلايا سرطان المثانة ، ويتم التحقق من تفاعلات أهداف FOXM1 المتوقعة والتنبؤ بالانتكاس في سرطان الثدي. تقترح دراستنا طرقًا فعالة جديدة لنمذجة البيانات السريرية لتوصيف تطور السرطان وتسهيل ترجمة النهج القائمة على الشبكة التنظيمية إلى الطب الدقيق.


2 العمارة في سبيني

تستخدم SEBINI بنية قياسية ثلاثية المستويات: (1) واجهة مستخدم عميل على الويب ، (2) طبقة وسطى منطقية للتطبيق تتكون من مجموعة من servlets Java وبرامج Java أخرى (وفئات Java gt100) و (3) علائقية قاعدة بيانات تخزن البيانات المطلوبة بواسطة الطبقة الوسطى. يتم تخزين الشبكات المستنبطة (بالإضافة إلى البيانات الأولية والبيانات التقديرية واختيارات معلمات الخوارزمية المستخدمة لإنشاء الشبكات) بشكل دائم في قاعدة البيانات من أجل التصور والتحليل الطوبولوجي والإحصائي ، وللتصدير لاحقًا بتنسيق يمكن قراءته بواسطة الإنسان أو خاص بالبرنامج . يمكن أن تكون خوارزميات الاستدلال والتمييز (binning) أي نوع من البرامج القابلة للتنفيذ ، حيث تتم إضافة فئة معالج Java لكل خوارزمية جديدة للتعامل مع الاتصال بين صفحة الويب الخاصة بالاستدعاء وقاعدة البيانات والخوارزمية. يتم تنفيذ الأمن على أساس المشروع ، مع مالك واحد وربما عدة مستخدمين لكل مشروع.

تضمنت مشكلات التصميم الرئيسية (1) واجهة تنقل المستخدم بين مجموعات البيانات الضخمة المحتملة ، مما يتيح سهولة التنقل من مجموعة شبكة إلى شبكة معينة إلى عقدة أو حافة محددة و (2) إنتاج خرائط فعالة ومفهومة من الشبكات المستنتجة و حواف مستنتجة تعود إلى بيانات التعبير الأصلي المقابلة. لاحظ أن لدينا علاقات رأس بأطراف من مجموعة بيانات تعبير إلى مجموعة بيانات تعبير مرتب ، بالإضافة إلى علاقة رأس بأطراف بين مجموعة بيانات مجمعة والشبكة المستنبطة والحواف المستنبطة التي تم إنشاؤها بواسطة خوارزمية الاستدلال المحددة. يتم تخزين السجلات الخاصة بكل نوع من أنواع البيانات هذه بشكل دائم وتوصيلها بالسجلات المناسبة لأنواع البيانات الأخرى. قرارات التصميم الأخرى: يتم توجيه جميع الاتصالات بين servlet من خلال CentralControl servlet ، لتدفق تحكم واضح (وقابل لإعادة الاستخدام). يتم استدعاء كل خوارزمية binning and inference في مؤشر ترابط Java منفصل ينفذ نشر الوظيفة إلى قاعدة البيانات ، مما يسمح بالمراقبة الديناميكية لتقدم المهمة من قبل المستخدم. يتم توقيت الوظائف بالمللي ثانية ، مما يتيح المقارنة بين خوارزميات السرعة النسبية مقابل القوة النسبية.

تم تطبيق SEBINI في البداية على سطح مكتب Dell الذي يعمل بنظام Red Hat Linux ، باستخدام Java ver. 1.4 ، إصدار PostgreSQL. 7.4 و Tomcat 4.1. تم تثبيت SEBINI أيضًا على خادم ويب Windows 2003. يتم تخزين المعلمات الخاصة بالآلة في ملف نصي للخصائص يمكن تغييره بسهولة. مطلوب MATLAB من Mathworks لبعض خوارزميات الاستدلال.


توصيف طبولوجيا الشبكة

ربما يأتي المستوى الأكثر عمومية لتحليل الشبكة من مقاييس الشبكة العالمية التي تسمح لنا بتوصيف ومقارنة بنى الشبكة المعينة (أي تكوين العقد وحوافها المتصلة). تم مؤخرًا إجراء مقاييس عالمية مثل توزيع الدرجات (درجة العقدة هي عدد الحواف التي تشارك فيها) ومعامل التجميع (عدد الحواف التي تربط جيران العقدة مقسومًا على الحد الأقصى لعدد هذه الحواف) تمت مراجعته في سياق الشبكات الخلوية [8 **] وفي البروتينات [9]. وقد تم اقتراح أن مفاهيم الرسم البياني الكمي هذه يمكنها التقاط تنظيم الشبكة الخلوية بكفاءة ، مما يوفر رؤى حول تطورها ووظيفتها واستقرارها واستجاباتها الديناميكية [10 **]. على سبيل المثال ، يُعتقد أن عدة أنواع من الشبكات البيولوجية التي تم مسحها ، مثل PPI وتنظيم الجينات والشبكات الأيضية ، تعرض طوبولوجيا خالية من المقاييس (أي أن معظم العقد لديها عدد قليل فقط من الوصلات في حين أن بعض العقد متصلة بشكل كبير) ، والتي تتميز بقوة- توزيع درجة القانون الذي يتحلل أبطأ من الأسي. يُلاحظ أيضًا هذا النوع المعين من طوبولوجيا الشبكة بشكل متكرر في العديد من الشبكات غير البيولوجية ويمكن إنشاؤه بواسطة نماذج تطورية بسيطة وأنيقة ، حيث ترتبط العقد الجديدة بشكل تفضيلي بالمواقع المتصلة بالفعل بشكل كبير. تشمل التحسينات العديدة على هذا النموذج العام ، على سبيل المثال ، تكرار الشبكة والتكامل مع جوهرها الأصلي ، مما يؤدي إلى هياكل الشبكة الهرمية ، والتي تتميز بتوزيع معامل التجميع غير الثابت [8 ، 10].

ومع ذلك ، يجب ملاحظة أنه ، من الناحية العملية ، يتم تحديد بنية الشبكات البيولوجية واسعة النطاق باستخدام طرق أخذ العينات ، مما يؤدي إلى شبكات فرعية للشبكة الحقيقية ، ويمكن تطبيق هذه الشبكات الجزئية فقط لتوصيف طوبولوجيا الأساس ، شبكة مخفية [11]. تم التعرف مؤخرًا على أنه من الممكن الاستقراء من الشبكات الفرعية إلى خصائص الشبكة بأكملها فقط إذا كانت توزيعات الدرجة للشبكة بأكملها والشبكات الفرعية التي تم أخذ عينات منها عشوائيًا تشترك في نفس عائلة التوزيعات الاحتمالية [12]. في حين أن هذا هو الحال في فئات محددة من نماذج الرسم البياني للشبكة ، بما في ذلك الرسوم البيانية الكلاسيكية Erdös-Rényi والرسوم البيانية العشوائية الأسية ، فإن الشرط غير راضٍ عن توزيعات الدرجات الخالية من المقاييس. وفقًا لذلك ، كشفت الدراسات الحديثة في الشبكات التفاعلية أن النموذج الخالي من المقاييس المقبول عمومًا لشبكات PPI قد يفشل في ملاءمة البيانات [13]. علاوة على ذلك ، قد يؤدي أخذ العينات المحدود وحده إلى ظهور طبولوجيا خالية من المقاييس ، بغض النظر عن هيكل الشبكة الأصلي [14]. تشير هذه النتائج إلى أن تفسير الخصائص العامة لهيكل الشبكة الكامل بناءً على الدقة الحالية - التي لا تزال محدودة - وتغطية الشبكات المرصودة يجب أن يتم بحذر. علاوة على ذلك ، في حين أن خصائص الرسم البياني الهرمي والخالي من المقياس يمكن أن تميز بشكل فعال بعض سمات الشبكات واسعة النطاق ، فمن المحتمل أن تكون الوحدة النمطية المحلية وتكتل الشبكة هو المفهوم الرئيسي في فهم معظم الآليات والوظائف الخلوية.


1 المقدمة

تعد نمذجة الديناميكيات المقترنة لأنماط التعبير عن الجينات (البروتين) وفقًا للظروف الداخلية والبيئية المتغيرة مهمة مهمة في بيولوجيا الأنظمة. لتوصيف وكشف الديناميات الدقيقة لشبكات تنظيم الجينات على مستوى الجينوم (GRNs) ، تم تكريس جهود بحثية كبيرة لتحسين الأساليب الحسابية باستمرار والتي ستسمح للباحثين بفهم التفاعلات المعقدة للوائح الجينات (Hughes) وآخرون.، 2000). غالبًا ما يشار إلى هذه الأساليب بالهندسة العكسية (Karlebach and Shamir ، 2008 Madhamshettiwar وآخرون.، 2012 بريل وآخرون.، 2010 Stolovitzky وآخرون.، 2007) ، لتلائم النماذج المنفصلة لشبكات GRN مع البيانات التجريبية عالية الإنتاجية. في الأدبيات ، أظهرت مناهج الاستدلال المعتمد على التعبير الجيني أداءً متواضعًا عند تطبيقها على البيانات الحقيقية مقارنةً بـ في السيليكو بيانات التعبير (Madhamshettiwar وآخرون.، 2012 مارباخ وآخرون.، 2012). بالإضافة إلى ذلك ، يمكن تحسين الأداء التنبئي على نهج قائم على التعبير الدقيق عن طريق دمج أنواع متعددة من البيانات ، مثل إثراء مجموعة الجينات (Chouvardas وآخرون.، 2016) ، تسلسل المعلومات (Yu وآخرون.، 2014) وطوبولوجيا الشبكة (Hartemink وآخرون., 2001).

من ناحية أخرى ، تم نمذجة GRNs بشكل عام باستخدام المعادلات التفاضلية العادية (ODE) والشبكات المنطقية والنماذج الرسومية الاحتمالية بما في ذلك شبكات Bayesian (de Hoon وآخرون.، 2002 فريدمان وآخرون.، 2000 لوفريكس وآخرون.، 2014). لإعادة تقييم نموذج GRN المعاد بناؤه في ضوء أدلة إضافية ، في الماضي القريب ، تم تطوير منهجيات حسابية وإضفاء الطابع الرسمي عليها رياضيًا ، من أجل دمج المعرفة البيولوجية السابقة والقياسات عالية الإنتاجية بشكل صارم (Covert وآخرون.، 2004 جات فيكس وآخرون.، 2006). علاوة على ذلك ، تم إضفاء الطابع الرسمي على هذه المنهجيات بطريقة تسمح بأوصاف تنبؤية جيدة للبيانات التجريبية. بغض النظر عن نهج النمذجة أو الحسابية المطبقة ، من المهم تقييم صحة هذه الشبكات. بالنظر إلى طوبولوجيا الشبكة البيولوجية ومجموعة جزئية من ملفات تعريف تعبير المصفوفة الدقيقة لجميع الجينات في الشبكة ، يجب أن تستنتج خوارزمية الهندسة العكسية نظامًا ديناميكيًا احتماليًا أفضل يشرح البيانات التجريبية المرصودة. في هذه المقالة ، نعتبر مشكلة الهندسة العكسية هذه. نصف ديناميات للشبكة كمسارات لمستويات التعبير الجيني في حالة مستقرة ، بالنظر إلى الظروف التجريبية.

في الأدبيات ، تم اقتراح بعض الطرق التي يمكن أن تأخذ شبكة بيولوجية وتحاكي البيانات البيولوجية للجينات المختلفة إما بيانات سلاسل زمنية أو قيم الحالة الثابتة. واحد من هؤلاء sgnesR (تريباثي وآخرون.، 2017) ، وهي حزمة R تُستخدم لمحاكاة ملف تعريف التعبير الجيني من شبكة جينات معينة باستخدام خوارزمية المحاكاة العشوائية ، والتي يتم تحديد معلمات التفاعل وفقًا لقيود محددة. وبالمثل ، محاكي بيانات جينومي متعدد العروض اقترحه فراتيلو وآخرون. (2015) يمكن أن يولد بيانات بيولوجية تركيبية من نماذج الشبكة القائمة على ODE ذات المعلمات المعروفة ، والتي يتم إنشاؤها من خلال إجراء تكراري. غالبًا ما تكون مجموعات البيانات المحاكاة ، على الرغم من التحكم الكامل فيها ، في غاية التبسيط بحيث لا تشرح بفعالية التفاعلات التنظيمية المعقدة بين الكيانات البيولوجية مقارنة ببيانات التعبير الجيني الحقيقية. أداة محاكاة ونمذجة أخرى مستخدمة على نطاق واسع في بيولوجيا الأنظمة هي محاكي المسار المعقد (COPASI) (الأطواق وآخرون.، 2006 كليب وآخرون.، 2008). COPASI هو برنامج قائم بذاته متخصص في إعداد وتحليل نماذج الشبكة البيوكيميائية والحركية مع توفير بعض التحليلات الأساسية المتكافئة. إنه يسمح بتحليل أكثر تفصيلاً ودقة ، ولكنه يتطلب أيضًا مزيدًا من المعرفة ، وتحديدًا حول حركية العمليات الفردية. عامل مهم في محاكاة هذه النماذج هو معرفة معلمات التفاعل الحركي. يمكن استخلاص هذه المعلومات من الأدبيات ومع ذلك ، يصعب العثور عليها (Klipp وآخرون.، 2008). ينبع نقص الثوابت الحركية من صعوبة القياسات والشكوك في وظيفة العديد من البروتينات وتفاعلاتها ، وبالتالي يحد من تطبيق بعض هذه الأساليب. ومع ذلك ، توفر هذه المحاكيات معلومات قيمة يمكن استخدامها لاختبار طرق الاستدلال الشبكي نوعيًا ، وكذلك لتحديد معلمات النموذج.

في عملنا ، نطبق نموذجًا احتماليًا لتقييم الاتساق العالمي بين GRNs وملف تعريف التعبير الجيني للظروف التجريبية المتنوعة إحصائيًا. لذلك ، نستكشف إطارًا احتماليًا يسمح لنا بنمذجة عدم اليقين في الشبكات الخلوية من خلال دمج المعرفة البيولوجية السابقة والبيانات التجريبية عالية الإنتاجية. نقوم بإضفاء الطابع الرسمي على النموذج كرسم بياني عامل احتمالي (Kschischang وآخرون.، 2001) ، والتي يمكنها التعامل مع الأنظمة المعقدة للغاية ومجموعات البيانات الشاملة. يسمح لنا هذا النموذج الاحتمالي بالتغلب على عيوب النماذج التي تفترض ملاحظات صامتة ، لأنه قادر على مزج القياسات المستمرة الصاخبة مع العلاقات التنظيمية المنفصلة بين المتغيرات. علاوة على ذلك ، فإنه لا يتطلب تحديدًا صريحًا لمعلمات الحركة الحركية للشبكة. يتم تطبيق طريقتنا على الإشريكية القولونية بيانات المصفوفة الدقيقة للحمض النووي ، حيث يتم استخدامها بنجاح للتنبؤ بالحالة الثابتة العالمية المسموح بها للجينات في الشبكات الفرعية المستخرجة المعنية. يتم إجراء تحليلاتنا على بيانات وشبكات التعبير الجيني الحقيقية. تم التحقق من صحة الطريقة أيضًا باستخدام تقنيات اضطراب الشبكة (Maslov ، 2008) ، بالإضافة إلى تجارب حذف الجينات. تم تنظيم بقية هذه المقالة على النحو التالي: في القسم 2 ، نقوم بصياغة إطار شبكة الرسم البياني للعوامل الاحتمالية (FGN) لتحليل الشبكات البيولوجية بالنظر إلى البيانات التجريبية. نتابع مع نموذج الاستدلال من خلال تطبيق خوارزمية تمرير الرسائل. يوضح القسم 3 أمثلة على الشبكات التنظيمية مع مناقشة موجزة حول منهجية تفريغ البيانات. يقدم القسم 4 التحليلات الإحصائية لأمثلة الشبكة الخلوية باستخدام إطار العمل الموصوف. تم اختتام المقال في القسم 5.


أساليب

استنادًا إلى نظريات الاحتمالية ومعالجة الإشارات ، يقدم القسم التالي مقياسًا بلا أبعاد للقوة التنظيمية ومقياس تحول الطور لتحديد التوجهات التنظيمية. بالنسبة لاستدلال الشبكة ، نقترح إطار عمل تحسين اندماجي لتقييد تعقيدات الاستدلال. يسمح الإطار بإمكانية دمج المعرفة المكتسبة والأهداف المحددة للتعدين والتحليل التكامليين.

الاستدلال القائم على نظرية الاحتمالات لهياكل الشبكة البيولوجية

يهدف تحليل الارتباط إلى الكشف عن قوة العلاقة الخطية بين المتغيرات العشوائية (R.V.). من الاستقلال. من بين المقاييس المختلفة المستخدمة غالبًا لقياس الارتباط أو الارتباط ، فإن بيرسون معامل ارتباط لحظة المنتج قابل للتطبيق على بعض البيانات ذات الخصائص المتنوعة. عادة ، الارتباط ρ X ، ص يشار إليه على أنه التغاير بين اثنين من R.V. مقسومة على ناتج انحرافاتهم المعيارية ، والتي يمكن تمثيلها كـ [7 ، 10 ، 12 ، 13]

حيث تشير كلمة cov إلى التغاير ، ه هو عامل القيمة المتوقعة ، ميكرومتر X = ه(X) و σ X 2 = ه[(X-ه(X)) 2 ]=ه(X 2 )-ه 2 (X).

عند تفسير بيرسون معامل ارتباط لحظة المنتج ، أشار كوهين إلى أن المعايير التفسيرية المقترحة كانت تعسفية بشكل عام وأنه يجب اعتماد علاجات محددة لحالات محددة في تلك التي تتراوح من الفيزياء إلى العلوم الاجتماعية الأخرى [22]. بصرف النظر عن الإحصاء البارامترى ، فإن مقاييس الارتباط اللامعلمية مثل χ 2 اختبار ، سبيرمان ρو Kendall’s τ هذه المقاييس يمكن تطبيقها على مشاكل التوزيعات غير الطبيعية المتنوعة [23].

الاستدلال النظري للمعلومات لهياكل الشبكة البيولوجية

لتقدير الاعتماد المتبادل بين اثنين من R.V. ، كثيرا ما يتم اعتماد المعلومات المتبادلة كبديل في تطبيقات المعلومات النظرية ، بالإضافة إلى المقياس أعلاه. المعلومات المتبادلة لاثنين من R.V. يمكن تعريفها على أنها [24] ،

أين ص(x, ذ) يشير إلى التوزيع الاحتمالي المشترك لـ X و ص، و ص1(x) و ص2(ذ) تمثل التوزيعات الاحتمالية الهامشية لـ X و ص على التوالى. عادة ما يتبنى المقياس الشكل المحدد جيدًا أنا(X, ص, ب)، أين ب يدل على القاعدة. بشكل عام ، يمكن تحديد القاعدة 2 لأنها الوحدة المشتركة للبت. وبالتالي ، للتحليل ضمن هذا السياق ، نستخدم أساس 2 باستمرار.

مقياس الترابطية لوصف التوصيلية التنظيمية

توضح المقاييس الموصوفة أعلاه علاقات الترابط والاعتماد الخاصة بـ R.V. عادة ، هذه R.V. تميز الكيانات المختلفة داخل النظام. يمكن ترجيح الترابط في الشبكة البيولوجية باحتمالية الارتباط بين الأزواج قيد التحقيق [25]. منذ المقاييس أعلاه ، بمعنى آخر. ال بيرسون الارتباط اللحظي بين المنتج والمعلومات المتبادلة عبارة عن كميات متجهية بلا أبعاد نقدمها مقياس الترابط (AM) لإلقاء الضوء على الاتصال بين الأزواج المرشحة. ضمن هذا المقياس الموحد ، يمكن عرض كميات المعلومات المتبادلة ومقاييس الارتباط على الإحداثيات المتعامدة لمستوى ثنائي الأبعاد. يتم تمثيل المقياس في مصطلح رسمي على النحو التالي ،

أين MI أناو كو أناتشير إلى المعلومات المتبادلة وكميات الارتباط على التوالي ω أنا1ω أنا2تمثل أوزان كلا الكميتين α أناهو اختلاف المرحلة ل أنا عشر مرشح الزوج و ن هي مجموعة من الأعداد الطبيعية. لاحظ أن الأوزان هنا تهدف إلى الاستفادة من أي توزيع غير متماثل محتمل ضمن مجموعات البيانات للمصطلحات الفرعية المذكورة أعلاه MI أناو كو أنا. يمكن اشتقاق الأوزان من المعرفة المكتسبة مسبقًا أو من فرضية نظرية محددة ، على سبيل المثال النقط الوسطى ذات الصلة من مجموعات البيانات.

مقياس التحول الطوري لتحديد الاتجاهات التنظيمية

حاليًا ، معظم ملفات تعريف التعبير الجيني عبارة عن بيانات متسلسلة زمنية منفصلة. عينات البيانات عبارة عن كثافات تعبير متنوعة تم قياسها في نقاط زمنية متعددة ، وتمثل فترات البيانات فترات أخذ العينات. متي ن تتم مقارنة العينات ، ما مجموعه ن(ن-1) / 2 تم الحصول على مقارنات زوجية. بوت وآخرون. استخدم نوعًا من طريقة معالجة الإشارات لتجميع ومقارنة تشابه ملفات تعريف التعبير [26]. لكل تنظيم زوجي محتمل ، يمكن تقسيم أنشطة الجينات التي تم فحصها كنظام فرعي. قد يُنظر إلى أنماط التعبير الخاصة بهم على أنها إشارات إدخال وإخراج ، كما هو موضح في الشكل 9.

يمكن تشكيل كل ارتباط زوجي كنظام فرعي مع استخدام أنماط التعبير كإشارات إدخال وإخراج.

لكل زوج ، يمكن حساب التماسك والكسب وانزياح الطور عن طريق تحويل فورييه المنفصل (DFT) للمدخلات والمخرجات. تماسك الإشارات أ و ب هي دالة للكثافة الطيفية للقدرة (PSD) والكثافة الطيفية عبر القدرة (CPSD) ، كما هو محدد أدناه ،

أين PSD أأ(F), PSD ب(F)، و CPSD أب(F) قياس PSD و CPSD للإشارات الزوجية المرتبطة. الرمز F يمثل مقياس مجال التردد. عادة ، الإشارات أ و ب هي من نفس الطول. يمثل التماسك 1 علاقة مضاعفات عددية بين إشارتين تم فحصهما ، بينما يشير 0 إلى أن هذه العلاقة ليست مرتبطة خطيًا. تقيس وظيفة النقل (TF) بين إشارتي إدخال / إخراج مرتبطتين تضخيم الإشارة وخصائص التأخر الزمني / الكمون ذات الصلة ، والتي يتم تعريفها على أنها ،

ستكون وظائف النقل المنتظمة ذات قيمة معقدة ، حيث تكون أقواسها هي مراحل التحويل المقابلة (TP). تشير القيم المطلقة إلى مكاسب التحويل ذات الصلة (TG) ، ويتم تمثيل كلا المقياسين على أنهما ،

من الناحية النظرية ، يوضح TP تحول الطور بين الإشارات الزوجية التي تم فحصها ، بمعنى آخر. المدخلات والمخرجات. يمكن تخصيص نطاقات إزاحة الطور داخل-إلى ، حيث يمثل -π طورًا من نصف طول موجة و يشير إلى تأخر طور نصف طول موجة. سواء تم تضخيم إشارات الإدخال أم لا ، لا يُضيء عند الإخراج بواسطة كسب النقل ويحدد الدرجات ذات الصلة عند الترددات المختلفة. كلما كانت النسبة أكبر ، كلما فقد الناتج طاقة أقل. لاحظ أنه عند الترددات المختلفة ، قد تختلف مرحلة النقل وكسب النقل النسبي عن بعضهما البعض. معيار التقييم الفعال لهذه المقاييس هو التماسك ذي الصلة ، أي في الترددات التي تكون فيها قيم التماسك عالية ، تكون مراحل ومكاسب النقل المقابلة أكثر موثوقية من غيرها.

تكمن مزايا هذه المقاييس في الخصائص المرنة والكمية لتحديد التأخير التنظيمي عبر العتبة الديناميكية. تتمتع الآليات التنظيمية الواقعية بإمكانيات متعددة ، وقد تختلف تأثيرات التأخير التنظيمي المتأصلة خلال العمليات البيولوجية بأكملها. يحدد مقياس تحول الطور هذه الاحتمالات الكامنة وراء الآليات التنظيمية بطريقة كمية. تشمل المزايا القدرات الكامنة في الدمج بداهة المعرفة البيولوجية. يتجنب هذا النوع من أسلوب الاستدلال القائم على المعرفة الروابط الإيجابية الزائفة الزائدة داخل المرشحين الزوجيين.

هذه العتبة الديناميكية قابلة للتطبيق على غالبية المشاكل التي تواجه علماء الأحياء النظرية والتجريبية. نظرًا لأن الاتصال التنظيمي الكامن وراء المرشحين الزوجي قد يختلف في عمليات متنوعة أو في أوقات مختلفة لأخذ العينات ، فإن التحديد المنهجي والكمي لهذه اللوائح مع المعرفة التجريبية والنظرية سيكون أكثر فاعلية من تلك الناتجة عن معظم الأساليب الحسابية المتاحة حاليًا [17]. تميز هذه الأنواع من روابط وأنظمة الشبكة المرنة العمليات التنظيمية الرئيسية من منظور نظريات معالجة المعلومات والإشارات.

نمط MOCO لتقييد التعقيدات الحسابية

في الأقسام التالية ، نستخرج اللوائح المتأصلة ونفك تشفير هياكل الشبكة عن طريق إدخال معيار التسلسل الهرمي للجينات الزوجي (PGHC) لتصنيف أزواج الجينات المحتملة إلى ثلاث مجموعات رئيسية على النحو التالي.

الجينات الزوجية الأصيلة (APGs): تتضمن أزواجًا ذات قيم معلومات متبادلة ومعاملات ارتباط أكبر من عتبات معينة. علاوة على ذلك ، فإن المقابل ص تكمن القيمة في فاصل الثقة ، أي أصغر من 0.05.

الجينات الزوجية المشكوك فيها (QPGs): تشمل الأزواج التي لا تفي بكلا الحدين المذكورين أعلاه. تحتوي المجموعة على أزواج من فئتين. فئة واحدة لديها أزواج مع معلومات متبادلة أكبر من عتبات محددة ولكنها لا تفي بمعايير معاملات الارتباط ولا ص القيم. تشتمل الفئة الأخرى على أزواج ذات معاملات ارتباط أكبر من عتبات معينة ومع ص القيم الموجودة في فاصل الثقة ولكن المعلومات المتبادلة ذات الصلة لا تفي بحدود معينة.

الجينات الزوجية غير الموثوقة (UPGs): تتضمن هذه الجينات الزوجية المرشحة التي لا تفي بأي معايير من APGs أو QPGs المحددة أعلاه.

تعمل QPGs في الواقع كمجموعة فرعية من المرشحين لـ APGs في حالة تعيين الحدود التجريبية عالية جدًا لاستخراج الهياكل فقط من APGs. في ظل هذه الظروف ، سيتم تصنيف QPGs وفقًا لقيم المعلومات المتبادلة ومعاملات الارتباط و ص القيم. سيتم تخصيص الأزواج المثلى لـ APGs لتحسين اتصال الشبكة السابق. يتم عرض خوارزمية PGHC الخاضعة للإشراف في الجدول 1.

وبالتالي ، يمكن تحويل إعادة بناء الشبكة إلى فئة من مشاكل MOCO [10 ، 12 ، 13]. تشمل أهداف التحسين الوصول أولاً إلى العتبات المناسبة للمعلومات المتبادلة ومعامل الارتباط لتعظيم المكونات الممكنة في APGs. يمكن تنفيذ الاستدلال بمزيد من الثقة والموثوقية. الهدف الثاني هو تعظيم UPGs. كلما زاد حجم UPGs ، قل عدد المشكلات التي تواجهها أثناء البحث عن الحلول الإضافية. هذا يقلل من مساحة الحل الممكنة للحسابات اللاحقة. بالإضافة إلى ذلك ، توجد القيود النسبية التالية. توجد قيود غير سلبية على أحجام المجموعات ، ويتم إصلاح العدد الإجمالي للزوج المرشحين ، بمعنى آخر. المساحة الاندماجية الصالحة محدودة. تشكل حدود الكسب لضمان اتصال شبكة صالح والمعرفة البيوكيميائية المكتسبة سابقًا والظروف التجريبية المختلفة قيودًا بارزة أخرى لعملية إعادة الإعمار. يوصف نموذج MOCO على النحو التالي ،

أين F أناهي مجموعة وظائف متعددة الأهداف س1هي مجموعة مجموعات المجموعات الممكنة لكل من APGs و QPGs و UPGs س2هي مجموعة الأرقام لجميع أزواج الجينات (س 2 = <ن(ن-1) / 2>, ن هو العدد الإجمالي للجينات) س3هي مجموعة من قيود الكسب الضرورية (GC) و س4هي مجموعة القيود المحتملة من المعرفة البيولوجية المكتسبة (ABK).

في الآونة الأخيرة ، جادل عدد قليل من المؤلفين بضرورة دمج تفضيلات صانعي القرار (DM) في اختيار حلول MOCO [27-29]. بالنسبة للمشكلة قيد التحقيق ، تنبع تفضيلات DM بشكل أساسي من GC (س3) و ABK (س4) موضح أعلاه.

في الحالات التي تحكمها عتبات أدنى للمعلومات المتبادلة ومقاييس الارتباط ، ستشكل APGs المجموعة ذات الحد الأقصى من المكونات ضمن مجموع المرشحين للزوج. من ناحية أخرى ، مع العتبات المرتفعة ، يمكن تجميع العديد من الأزواج في UPGs. هذا يقلل من التعقيد الحسابي لإعادة بناء الشبكة لأن APGs بها مكونات أقل في مثل هذه المواقف. إذا تم تصنيف APGs بأحجام أعلى من المعتاد ، فستكون الشبكة المعاد بناؤها متصلة بكثافة وستكون بها الكثير من التكرار. On the contrary, a sparsely connected structure will be inferred with an undersized candidate group of APGs.

Since biological theoreticians and experimentalists may vary specific mutual information and correlation thresholds to incorporate empirical or concrete knowledge into the reconstruction procedures, the underlying coordination approaches via the MOCO framework might be feasible and significant, especially for those containing pivotal structural connectivity or for specific analysis purposes.

The APGs, QPGs, and UPGs engender the underlying evolutionary mechanisms with respect to dynamic threshold by the above metrics and related biochemical knowledge, as shown in Figure 10.

Schematic representation of the MOCO problem by dynamic thresholding of mutual information and correlation metrics. Total pairs are classified into APGs, QPGs and UPGs. The upper rightward horizontal arrow represents dynamic thresholding by mutual information, and the left descending arrow is for thresholding of the correlation measure.


Differential gene regulatory networks in development and disease

Gene regulatory networks, in which differential expression of regulator genes induce differential expression of their target genes, underlie diverse biological processes such as embryonic development, organ formation and disease pathogenesis. An archetypical systems biology approach to mapping these networks involves the combined application of (1) high-throughput sequencing-based transcriptome profiling (RNA-seq) of biopsies under diverse network perturbations and (2) network inference based on gene-gene expression correlation analysis. The comparative analysis of such correlation networks across cell types or states, differential correlation network analysis, can identify specific molecular signatures and functional modules that underlie the state transition or have context-specific function. Here, we review the basic concepts of network biology and correlation network inference, and the prevailing methods for differential analysis of correlation networks. We discuss applications of gene expression network analysis in the context of embryonic development, cancer, and congenital diseases.

الكلمات الدالة: Coexpression networks Correlation Systems biology Transcriptomics.


Dana-Farber Cancer Institute, Medical Oncology, Boston, MA, USA

Universität der Bundeswehr München, Department of Computer Science, Werner-Heisenberg-Weg 39, 85577 Neubiberg, Germany

Dana-Farber Cancer Institute, Medical Oncology, Boston, MA, USA

Tampere University of Technology, Computational Medicine and Statistical Learning Laboratory, Department of Signal Processing, Tampere, Finland

Dana-Farber Cancer Institute, Medical Oncology, Boston, MA, USA

Universität der Bundeswehr München, Department of Computer Science, Werner-Heisenberg-Weg 39, 85577 Neubiberg, Germany

Dana-Farber Cancer Institute, Medical Oncology, Boston, MA, USA

Tampere University of Technology, Computational Medicine and Statistical Learning Laboratory, Department of Signal Processing, Tampere, Finland

UMIT –The Health and Life Sciences University, Eduard Wallnoefer Zentrum 1, 6060 Hall Austria

Nankai University, College of Computer and Control Engineering, 300071 Tianjin, P.R. China

Nankai University, College of Computer and Control Engineering, 300071 Tianjin, P.R. China

Tampere University of Technology, Predictive Medicine and Analytics Lab Department of Signal Processing, Tampere, Finland

ملخص

This chapter presents the basic steps that are required to conduct a genome-scale gene regulatory networks (GRN) inference and network-based functional analysis in an R programming environment. The analysis is performed for a large-scale multiple myeloma gene expression data set. It shows the retrieval of gene expression data sets from the NCBI “GeoDB” database, their preprocessing and probe set summarization for gene annotation based on “Entrez” gene identifiers and gene symbols. The first step for the inference of a GRN is the data retrieval and data preprocessing. The chapter uses a publicly available preprocessed multiple myeloma data set available from “GeoDB” with the accession “GSE4581”. The chapter gives basic gene expression data processing requirements for the inference and analysis of GRN by the application of the “bc3net” R package. The “bc3net” is a bagging approach of the “c3net” and aggregates an ensemble of “c3net” GRN that are inferred by bootstrapping a gene expression data set.


Supplementary Figure 1 Comparison of datasets simulated from synthetic networks by using BoolODE and GeneNetWeaver.

Each row corresponds to the synthetic network indicated by the label on the left. (a) The network itself, with red edges representing inhibition and blue edges representing activation. (b) A 2D t-SNE visualization of one BoolODE-generated dataset for 2,000 cells. The color of each point indicates the simulation time: blue for earlier, green for intermediate, and yellow for later times. (c) Each colour corresponds to a different subset of cells obtained by using ك-means clustering of the BoolODE-generated dataset, with ك set to the number of expected steady states. (d) A 2-D t-SNE visualization of one GeneNetWeaver output.

Supplementary Figure 2 Box plots of AUPRC values for synthetic networks.

Each row corresponds to one of the six synthetic networks. Each column corresponds to an algorithm. Red, blue, yellow, purple and green box plots correspond to AUPRC values for 10 datasets with 100, 200, 500, 2,000, and 5,000 cells, respectively. The gray dotted line indicates the AUPRC value for a random predictor, which is equal to the network’s density. In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 3 Box plots of AUROC values for synthetic networks.

Each row corresponds to one of the six synthetic networks. Each column corresponds to an algorithm. Red, blue, yellow, purple and green box plots correspond to AUROC values for 10 datasets with 100, 200, 500, 2,000, and 5,000 cells, respectively. The gray dotted line indicates the AUROC value for a random predictor (0.5). In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 4 Box plots of AUPRC values for curated models.

Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to AUPRC values for 10 datasets with no dropouts, a dropout rate of ف = 50, and a dropout rate of ف = 70, respectively. The gray dotted line indicates the AUPRC value for a random predictor, i.e., the network density. In every boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 5 Box plots of AUROC values for curated models.

Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to AUROC values for 10 datasets with no dropouts, a dropout rate of ف = 50, and a dropout rate of ف = 70, respectively. The gray dotted line indicates the AUROC value for a random predictor (0.5). In all boxplots, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 6 Box plots of early precision values for curated models.

Each row corresponds to one of the four curated models. Each column corresponds to an algorithm. Red, blue and yellow box plots correspond to early precision values for 10 datasets with no dropouts, a dropout rate of ف = 50, and a dropout rate of ف = 70, respectively. The gray dotted line indicates the early precision value for a random predictor (network density). In each boxplot, the box shows the 1 st and 3 rd quartile, and whiskers denote 1.5 times the interquartile range.

Supplementary Figure 7 Scalability of GRN algorithms on experimental single-cell RNA-Seq datasets.

Variation in running time and memory usage of GRN inference algorithms with respect to number of genes for three experimental single-cell RNA-Seq datasets. Each point represents the mean running time or memory across all three datasets and the shaded regions correspond to one standard deviation around the mean. Missing values indicate that the method either did not complete after one day or gave a runtime error. We did not consider SCNS since it took over a day on the 19-gene GSD Boolean model. We obtained these results on a computer with a 32-core 2.0GHz processor and 32GB of memory running Ubuntu 18.04.

Supplementary Figure 8 Summary of EPR values for experimental single-cell RNA-Seq datasets with 500 and 1000 genes.

Summary of EPR results for experimental single-cell RNA-seq datasets. The left half of the figure (500 genes) shows results for datasets composed of the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report EPR values. The right half (1000 genes) shows results for the 1000 most-varying genes. In both sections, algorithms are sorted by median EPR across the datasets (rows) for the 500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.

Supplementary Figure 9 Summary of AUPRC ratio values for experimental single-cell RNA-Seq datasets with TFs + 500 and TFs + 1000 genes.

Summary of AUPRC ratio results for experimental single-cell RNA-seq datasets. The left half of the figure (TFs+500 genes) shows results for datasets composed of all significantly-varying TFs and the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report AUPRC ratios. The right half (TFs+1000 genes) shows results for all significantly-varying TFs and the 1000 most-varying genes. In both sections, algorithms are sorted by median AUPRC ratio across the datasets (rows) for the TFs+500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.

Supplementary Figure 10 Summary of AUPRC ratio values for experimental single-cell RNA-Seq datasets with 500 and 1000 genes.

Summary of AUPRC ratio values for experimental single-cell RNA-seq datasets. The left half of the figure (500 genes) shows results for datasets composed of the 500 most-varying genes. Each row corresponds to one scRNA-seq dataset. The first three columns report network statistics. The next six columns report AUPRC ratios. The right half (1000 genes) shows results for the 1000 most-varying genes. In both sections, algorithms are sorted by median AUPRC ratios across the datasets (rows) for the 500 gene set. For each dataset, the color in each cell is proportional to the corresponding value scaled between 0 and 1 (ignoring values that are less than that of a random predictor, which are shown as black squares). We display the highest and lowest values for each dataset inside the corresponding cells. Abbreviations: GENI: GENIE3, GRNB: GRNBoost2, PCOR: PPCOR, SINC: SINCERITIES.


شاهد الفيديو: المهارات الرقمية - الأستاذ: عمر الزهراني - الوحدة الثالثة - حل تدريبات سكراتش - صفحة 106 (سبتمبر 2022).