معلومة

الأهمية البيولوجية لمعلمات الشبكة

الأهمية البيولوجية لمعلمات الشبكة


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أعمل حاليًا على الشبكات وقد حسبت معلمات مختلفة للشبكة مثل القطر ومتوسط ​​طول المسار ومتوسط ​​الانحراف والشعاع وما إلى ذلك. الشبكة البيولوجية (شبكة تنظيم الجينات). على سبيل المثال ، ما الذي يقوله القطر الصغير والقطرية وما إلى ذلك فيما يتعلق بالخاصية البيولوجية للشبكة. في البحث لم أجد سوى مقال واحد يمكن أن يكون مفيدًا بعض الشيء. شكرا

تحرير: أفهم أنه تم تحديد هذا السؤال على أنه واسع جدًا ولكن كل ما أطلبه هو روابط لمقالات قد ترشدني إلى حل مناسب. ربما ، يمكن أن تقتصر الإجابة على كيفية تأثير شبكة كبيرة على قيمة الشعاع التي تؤثر على شبكة بيولوجية؟

Edit2: إنها كتلة من شبكة أكبر ، ذات طبيعة ثنائية ، تتكون من عوامل نسخ وجينات بحجم 361 عقدة. هدفي هو التحقق مما إذا كانت المجموعات تختلف عن بعضها البعض وتحديد ما إذا كانت هناك اختلافات كبيرة بين كل مجموعة. كان السؤال هو ما هي الاستدلالات البيولوجية التي يمكن استخلاصها من معلمات الشبكة مثل القطر والشعاع وما إلى ذلك. على سبيل المثال ، تعني الشبكة ذات القطر المنخفض أن معلومات الشبكة يتم تمريرها بشكل أسرع حتى بين العقد الأبعد مما يعني أن المسارات في تلك الشبكة يمكن أن تحتوي على جينات ذات وظائف التي تتطلب إجراءات سريعة ، على سبيل المثال الجينات التي تتحكم في الإدراك الحسي مثل الأفعال المنعكسة.


20.2: تدابير مركزية الشبكة

  • ساهم بها مانوليس كيليس وآخرون.
  • أستاذ (علوم الكمبيوتر) في معهد ماساتشوستس للتكنولوجيا
  • مصدره MIT OpenCourseWare

ناقشنا في الفصل السابق كيف يمكننا أن نأخذ شبكة بيولوجية ونمذجتها رياضيًا. الآن بينما نتخيل هذه الرسوم البيانية ونحاول فهمها ، نحتاج إلى بعض المقاييس لأهمية العقدة / الحافة للخصائص الهيكلية للنظام. هناك العديد من الطرق لقياس أهمية (ما نشير إليه بالمركزية) للعقدة. في هذا الفصل سوف نستكشف هذه الأفكار ونتحرى أهميتها.


الشبكات البيولوجية: من المبادئ الفيزيائية إلى الرؤى البيولوجية

تقرير عن مؤتمر Georgia Tech و UGA الدولي الرابع حول الشبكات البيولوجية للمعلوماتية الحيوية: من علم الجينوم إلى علم الأوبئة ، أتلانتا ، الولايات المتحدة الأمريكية ، 13-16 نوفمبر 2003.

كان مؤتمر جورجيا الدولي الرابع للمعلوماتية الحيوية بعنوان "الشبكات البيولوجية: من علم الجينوم إلى علم الأوبئة" وقد جمع مجموعة متعددة التخصصات من الفيزيائيين والرياضيين وعلماء الكمبيوتر وعلماء الأحياء الذين يعملون جميعًا على فهم الشبكات البيولوجية. تم تنظيم المؤتمر من قبل مارك بورودوفسكي (معهد جورجيا للتكنولوجيا ، أتلانتا ، الولايات المتحدة الأمريكية) ويوجين كونين (المركز الوطني لمعلومات التكنولوجيا الحيوية ، بيثيسدا ، الولايات المتحدة الأمريكية) وغطى بشكل أساسي ثلاثة مجالات بحثية نشطة: إعادة البناء الحسابي ، التحليل ، ومحاكاة الشبكات البيولوجية. يعني سيل من البيانات التجريبية القادمة من مختلف مشاريع الجينوميات و "التفاعل" أن المجالات البؤرية الثلاثة تشهد حاليًا نموًا هائلاً في النتائج والمنشورات. على الرغم من النكهة الحسابية للمؤتمر ، كان التفاعل المثمر بين النظرية والتجربة واضحًا بشكل واضح ، حيث أن غالبية المشاركين إما يتعاونون مع المعامل التجريبية أو يستخدمونها مباشرة.

غطت العروض عدة أنواع من الشبكات البيولوجية: التفاعل البروتيني البروتيني ، الجيني ، التنظيمي ، والتمثيل الغذائي. بينما تمثل هذه الأنواع من الشبكات عمليات خلوية مختلفة ، إلا أنها تشترك جميعها في مبادئ تنظيمية ووظيفية مشتركة. في الاجتماع ، تمت دراسة الشبكات الجزيئية على مستويات مكانية مختلفة ، من مستوى الشبكة بالكامل ، عبر المسارات والوحدات البيولوجية إلى مستوى الأشكال الطوبولوجية الأولية. سلطت العديد من المحادثات المثيرة الضوء على التقدم السريع في هذا المجال.

وصف آدم أركين (جامعة كاليفورنيا ، بيركلي ، الولايات المتحدة الأمريكية) كيف يمكن استخدام أساليب الديناميكيات غير الخطية ونظرية الألعاب لتحديد الاستراتيجيات التطورية المثلى لنمو البكتيريا في البيئات العشوائية. لقد أوضح كيف يمكن للعشوائية المتأصلة في العمليات البيولوجية أن تساعد البكتيريا على البقاء في بيئات غير مؤكدة. قدم Arkin أيضًا تحليلًا مقارنًا شاملاً لوحدات الانجذاب الكيميائي من بكتيريا مختلفة. تؤدي الاختلافات في بنية وحدة الانجذاب الكيميائي بين البكتيريا إلى اختلافات في الحساسية للمعلمات الحركية التي تحدد استجابة الانجذاب الكيميائي. اتضح أن الوحدات عادة ما تكون حساسة لعدد قليل من المعلمات "الحاسمة" فقط ، والتي يمكن أن تزيد من "قابلية التطور" للوحدات ، بينما يضمن عدم الحساسية للمعلمات الأخرى المتانة ، ومقاومة تأثيرات الطفرات الضارة. من المحتمل أن تمثل الدراسات المماثلة ، التي لا تشمل فقط مقارنة قائمة الأجزاء ولكن أيضًا التحليل الديناميكي المفصل ، خطوة تالية مهمة في علم الجينوم المقارن.

وصف ألبرت لازلو باراباسي (جامعة نوتردام ، الولايات المتحدة الأمريكية) ، الرائد في التحليل الإحصائي للشبكات البيولوجية ، كيف يتم مشاركة السلوك الخالي من المقاييس من قبل مجموعة واسعة من الشبكات. تحتوي الشبكات الخالية من النطاق على محاور متصلة للغاية ، والتي عادةً ما تمثل بروتينات أساسية ومحفوظة للغاية. أظهر باراباسي أنه بالإضافة إلى الشبكات الثابتة ، فإن العديد من الشبكات البيولوجية الديناميكية - مثل شبكات التعبير المشترك والشبكات المكونة من التدفقات الأيضية - تعرض أيضًا خصائص خالية من المقاييس. كما أوضح أن الشبكات البيولوجية تعرض درجة عالية من النمطية وأن الوحدات شديدة الترابط منظمة بشكل هرمي في هياكل أكبر. في تحليل ذي صلة ، أظهر Ricard Sol & # x000e9 (جامعة بومبيو فابرا ، برشلونة ، إسبانيا) أن الخصائص المهمة للشبكات البيولوجية ، مثل التوزيعات الخالية من المقاييس والوحدات النمطية ، يمكن أن تظهر كمنتج ثانوي لقواعد تطور الشبكة ، بدلاً من نتيجة الاختيار الوظيفي. أظهر Martijn Huynen (جامعة Nijmegen ، هولندا) أيضًا كيف يمكن لنموذج ميكانيكي بسيط ، بدون اختيار ، أن يفسر الهندسة المعمارية المرصودة للشبكات البيولوجية.

كرس أندرياس واجنر (جامعة نيو مكسيكو ، البوكيرك ، الولايات المتحدة الأمريكية) حديثه للمسألة المثيرة للاهتمام حول تطور وقوة الشبكات البيولوجية. أظهر كيف تتطور شبكات البروتين من حيث التغييرات في شركاء التفاعلات ، والتوطين الخلوي ، والتنظيم. أظهر سيرجي ماسلوف (مختبر بروكهافن الوطني ، أبتون ، الولايات المتحدة الأمريكية) أيضًا اختلافًا مثيرًا للاهتمام في معدلات التطور بين تفاعل البروتين والبروتين والشبكات التنظيمية. من الخصائص المهمة للشبكات البيولوجية المتانة تجاه الطفرات الجينية. يمكن أن يكون سبب القوة تجاه الطفرات الضارة هو ازدواج الجينات - يمكن تعويض فقدان الوظيفة في نسخة واحدة عن طريق النسخة الأخرى - أو عن طريق تأثيرات الشبكة الأكثر تعقيدًا ، مثل استخدام طرق التمثيل الغذائي البديلة. قدم فاغنر عدة أسطر من الأدلة تشير إلى ذلك في خميرة الخميرة يتم تعويض 25-50٪ من عمليات حذف الجينات بواسطة جينات مكررة. أظهر كل من Wagner و Maslov النتائج بناءً على أنواع معينة انيقة تم الحصول على "عمليات الحذف" مؤخرًا باستخدام تداخل RNA (RNAi) ، مما يوضح مدى سرعة استخدام البيانات من المشاريع التجريبية واسعة النطاق حاليًا للتحقيق في مبادئ تنظيم الشبكة البيولوجية.

قدم جويل بدر (جامعة جونز هوبكنز ، بالتيمور ، الولايات المتحدة الأمريكية) عملاً منشورًا مؤخرًا على خريطة تفاعل البروتين الهجين ثنائي البروتين ذبابة الفاكهة سوداء البطن. تحتوي خريطة الطيران هذه على أكثر من 20000 تفاعل وهي أول خريطة تفاعلية لكائن متعدد الخلايا. الأهم من ذلك ، نظرًا لأنه من المعروف أن الطريقتين الهجينتين تحتويان على عدد كبير من الإيجابيات والسلبيات الخاطئة ، قدم بدر طريقة حسابية لاكتشاف التفاعلات عالية الثقة. تحتوي الخريطة الناتجة عالية الثقة على 4679 بروتينًا و 4780 تفاعلًا. ال D. melanogaster تمثل الخريطة التفاعلية مصدرًا غنيًا للمعلومات ، وسيتم بالتأكيد تحليلها لسنوات قادمة. أظهر التحليل الأولي لهذه الشبكة انحرافًا عن توزيع قانون القوة الذي يتم ملاحظته بشكل شائع في الشبكات البيولوجية. بالإضافة إلى ذلك ، يُظهر التحليل الإحصائي تنظيم شبكة من مستويين: هياكل قصيرة المدى ، تمثل مجمعات بروتينية ، ومكونات أكبر يُفترض أنها تمثل اتصالات بين معقدة.

أظهر ليونيد ميرني (معهد ماساتشوستس للتكنولوجيا ، كامبريدج ، الولايات المتحدة الأمريكية) أن هناك تنظيمًا مشابهًا في شبكة تفاعل البروتين والبروتين الخميرة وقدم العديد من الخوارزميات لتحديد مثل هذه الهياكل. الأهم من ذلك ، أن الهياكل المشتقة من البيانات الثابتة مثل تفاعلات البروتين-البروتين يمكن أن تتوافق مع مجمعات البروتين ، حيث تتجمع جميع البروتينات معًا في نفس الوقت (على سبيل المثال ، الريبوسوم أو spliceosome) ، أو إلى وحدات وظيفية ديناميكية حيث يتم تحقيق تفاعلات مختلفة في أوقات مختلفة ، على سبيل المثال ، مسارات الإشارات أو وحدات التحكم في دورة الخلية. قدم ميرني أيضًا عمليات محاكاة عشوائية لمسار إشارات الخلية مؤكدة أنه حتى مثل هذه الوحدة البسيطة يمكنها تحقيق ترشيح غير تافه للإشارة.

بينما نتحرى عن الشبكات التنظيمية المنتشرة في الكائنات الحية الحديثة ، من المثير للاهتمام أيضًا دراسة التفاعلات التنظيمية القديمة. المحولات الريبية هي هياكل مكانية من الرنا المرسال يمكنها ربط الجزيئات الصغيرة وتغيير شكل الرنا المرسال ، وقد تمثل أقدم نظام لتنظيم التعبير الجيني. قدم ميخائيل جيلفاند (مركز GosNIIGenetika ، موسكو ، روسيا) عملًا رائعًا حول المحولات الريبية ، حيث يوضح عمل مجموعته أن المحولات الريبية يبدو أنها تتحكم في تركيزات البروتين من خلال تنظيم كل من النسخ والترجمة. تم العثور على المحولات الريبية لتنظيم عملية التمثيل الغذائي ، على سبيل المثال ، الفيتامينات والأحماض الأمينية والبورينات ، ويتم حفظها على مسافات نسجية كبيرة جدًا. قدم غيلفاند أيضًا بعض الأعمال الأولية حول تطور الشبكات التنظيمية التي تتضمن المحولات الريبية.

أدى الهدف المتمثل في شرح التوزيع الملحوظ لعائلات مجال البروتين في الجينوم المتسلسل إلى قيام كونين وزملائه بتطوير نموذج الولادة والموت والابتكار (BDIM). من خلال تغيير المعلمات في BDIM ، يمكن للباحثين التحقيق في كيفية تشكيل العمليات التطورية المختلفة للتوزيعات المرصودة لعائلات المجال. في حين أن أبسط BDIM الخطي يُظهر ملاءمة ممتازة للتوزيع الملحوظ لأحجام عائلة المجال في الجينوم ، فإن إدخال العشوائية في النموذج يؤدي إلى أوقات تطور كبيرة بشكل مانع. أوضح كونين كيف يمكن للتغييرات في النموذج أن تسرع التطور ، على الأقل في السيليكو.


2 نظرة عامة على النظام

يحسب CentiScaPe العديد من مراكز الشبكة للشبكات غير الموجهة فقط. المعلمات المحسوبة هي: متوسط ​​المسافة ، القطر ، الدرجة ، الإجهاد ، المسافة ، الشعاع ، القرب ، القيمة المركزية واللامركزية. يتم توفير تعليمات المكونات الإضافية والملفات عبر الإنترنت مع التعريف والوصف والأهمية البيولوجية والتعقيد الحسابي لكل مركزية (الجداول التكميلية S2 و S3 ، CentralitiesTutorial). يتم إعطاء قيم الحد الأدنى والحد الأقصى والمتوسط ​​لكل مركزية محسوبة. كما يتم دعم تحليل الشبكات المتعددة. تظهر قيم المركزية في مستعرض سمات Cytoscape ، بحيث يمكن حفظها وتحميلها كسمات عادية ، مما يتيح تصورها باستخدام الميزات الأساسية لرسم خرائط Cytoscape. بمجرد اكتمال الحساب ، يبدأ التحليل الفعلي باستخدام الواجهة الرسومية لـ CentiScaPe. يستخدم CentiScaPe مكتبات Java المجانية JFreeChart (http://jfree.org/jfreechart/) لعرض النتائج كمخرجات رسومية. الخطوة الأولى في التحليل هي لوحة النتائج المستندة إلى المنطق المنطقي لـ CentiScaPe. من الممكن ، باستخدام أشرطة التمرير المتوفرة في لوحة النتائج في Cytoscape ، إبراز العقد التي تحتوي على قيم مركزية أعلى أو ثانوية أو مساوية لقيمة العتبة المحددة من قبل المستخدم (يتم استخدام القيمة المتوسطة بشكل افتراضي). إذا لزم الأمر ، يمكن إلغاء تنشيط مركزية واحدة أو أكثر. يمكن للمستخدم تحديد خيار أكثر / مساواة لبعض المركزية ، وخيار أقل / تساوي للآخرين ويمكنه الانضمام إليها مع مشغلي AND-OR. يمكن لهذه الميزة أن تجيب على الفور على أسئلة مثل: "ما هي العقد التي تحتوي على درجة عالية من التباعد والتوتر ولكنها منخفضة الانحراف؟" بشكل خاص ، يمكن أيضًا تعديل العتبة يدويًا للحصول على الدقة. بمجرد تحديد العقد وفقًا لقيمها الخاصة بالعقدة ، يمكن استخراج الرسم البياني الفرعي المقابل وعرضه باستخدام ميزات Cytoscape الأساسية العادية. يتم دعم نوعين من المخرجات الرسومية: الرسم حسب المركزية والمخطط بواسطة العقدة ، وكلاهما يسمح بالتحليل غير الممكن باستخدام أدوات المركزية الأخرى. يمكن للمستخدم ربط المركزية بينها أو مع البيانات التجريبية ، مثل ، على سبيل المثال ، مستوى التعبير الجيني أو مستوى فسفرة البروتين (مؤامرة حسب المركزية) ، ويمكنه تحليل جميع قيم المركزية عقدة بالعقدة (مؤامرة بالعقدة) (الشكل 1) . يمكن حفظ الرسومات في ملف jpeg.

تحليل شبكة الفوسفات الكينوي البشري. (أ) يُظهر بروتين كيناز MAPK1 قيم مركزية عالية لمعظم المركزية المحسوبة مما يشير إلى دوره المركزي في بنية الشبكة ووظيفتها. لكل مركزية ، يتم عرض قيمة العقدة المحددة (الرمادي) والقيمة المتوسطة (الأسود) والقيمة الدنيا (الرمادي الفاتح) والقيمة القصوى (الأبيض). (ب) العلاقة بين قيمة النقطه الوسطى وكثافة فسفرة البروتين في التيروزين. يمكن التعرف بسهولة على البروتينات ذات القيمة النقطية العالية والمستوى العالي من الفسفرة في الربع العلوي / الأيمن من الرسم البياني. يُظهر توجيه الماوس فوق الأشكال الهندسية في الرسم معرف العقدة المقابلة وقيم السمة (انظر القسم 3 والمواد التكميلية).

تحليل شبكة الفوسفات الكينوي البشري. (أ) يُظهر بروتين كيناز MAPK1 قيم مركزية عالية لمعظم المركزية المحسوبة مما يشير إلى دوره المركزي في بنية الشبكة ووظيفتها. لكل مركزية ، يتم عرض قيمة العقدة المحددة (الرمادي) والقيمة المتوسطة (الأسود) والقيمة الدنيا (الرمادي الفاتح) والقيمة القصوى (الأبيض). (ب) العلاقة بين قيمة النقطه الوسطى وكثافة فسفرة البروتين في التيروزين. يمكن التعرف بسهولة على البروتينات ذات القيمة النقطية العالية والمستوى العالي من الفسفرة في الربع العلوي / الأيمن من الرسم البياني. يُظهر توجيه الماوس فوق الأشكال الهندسية في الرسم معرف العقدة المقابلة وقيم السمة (انظر القسم 3 والمواد التكميلية).

ال مؤامرة من خلال المركزية يعد التصور طريقة سهلة وملائمة للتمييز بين العقد و / أو مجموعة العقد الأكثر صلة وفقًا لمزيج من معلمتين محددتين. يُظهر الارتباط بين المركزية و / أو سمات العقدة الكمية الأخرى ، مثل البيانات التجريبية من التحليل الجيني و / أو البروتيني. نتيجة المخطط بواسطة خيار المركزية هو مخطط حيث يتم تعيين كل عقدة فردية ، ممثلة بشكل هندسي ، على محور ديكارت. في المحور الأفقي والرأسي ، يتم الإبلاغ عن قيم السمات المحددة. يتم تحديد معظم العقد ذات الصلة بسهولة في الربع العلوي الأيمن من الرسم البياني. يوضح الشكل 1 (الشكل التكميلي S1) مخططًا لقيم النقطه الوسطى على شدة بروتين التيروزين فسفرة في شبكة الكينو-فوسفاتوم البشرية المشتقة من تحليل العدلات الأولية البشرية متعددة الأشكال النوى (PMNs) التي تم تحفيزها باستخدام الجاذب الكيميائي IL-8 (القسم 3) . من المحتمل أن تلعب البروتينات التي تحتوي على قيم عالية لكل من المعلمتين دورًا تنظيميًا حاسمًا في الشبكة. يمكن للمستخدم أن يرسم بخمسة طرق مختلفة: المركزية مقابل المركزية ، المركزية مقابل البيانات التجريبية ، البيانات التجريبية مقابل البيانات التجريبية ، المركزية مقابل نفسها والبيانات التجريبية مقابل نفسها. والجدير بالذكر أن إحدى الطرق المحددة لاستخدام وظيفة الرسم هي تصور مخطط التشتت لسمتين من سمات البيانات التجريبية. هذه وظيفة إضافية للمكون الإضافي ويمكن استخدامها بنفس طريقة خيار المركزية / المركزية وخيار السمة المركزية / التجريبية. إذا تم استخدام خيار الرسم حسب المركزية لتحديد نفس المركزية (أو نفس السمة التجريبية) لكل من المحور الأفقي والعمودي ، فإن النتيجة هي تمييز سهل للعقد ذات القيم المنخفضة من العقد ذات القيم العالية للمعلمة المحددة. وبالتالي ، فإن الاستخدام الرئيسي لميزة "الحبكة حسب المركزية" هو تحديد مجموعة العقد المجمعة وفقًا لمجموعة من الخصائص الطوبولوجية و / أو التجريبية المحددة ، من أجل استخراج الشبكات الفرعية لمزيد من التحليل. يُعد الجمع بين الخصائص الطوبولوجية والبيانات التجريبية مفيدًا للسماح بالتنبؤات الأكثر جدوى لوظيفة الشبكة الفرعية للتحقق من صحتها بشكل تجريبي.

ال مؤامرة عن طريق خيار العقدة، وهي ميزة فريدة أخرى من CentiScaPe ، تُظهر لكل عقدة قيمة جميع المركزية المحسوبة الممثلة كرسم بياني شريطي. يتم تمثيل القيم المتوسطة والقيم القصوى والدقيقة بألوان مختلفة. لتسهيل التصور ، يتم تسوية جميع القيم الموجودة في الرسم البياني وتظهر القيم الحقيقية عند توجيه الماوس فوق شريط. يوضح الشكل 1 (الشكل التكميلي S2) ، كمثال ، قيم MAPK1 المحسوبة من فوسفاتوم الكينو البشري العالمي.


تحليل شبكة التمثيل الغذائي

يعتمد التمثيل الغذائي الخلوي على التفاعلات الأنزيمية حيث يتم تحويل الركائز ، مثل الجلوكوز أو الأسيتات ، إلى منتجات بواسطة الإنزيمات. ومع ذلك ، يمكن ترجمة مجموعة التفاعلات الأيضية إلى تمثيل شبكي بعدة طرق مختلفة. يوضح الشكل 4 عدة تمثيلات شبكية محتملة لمجموعة تفاعل أيضي بسيط. يصف الشكل 4 أ العلاقة بين المستقلبات من أ إلى ف. في التفاعل الأول ، A + B → C + D ، نقول أن A و B عبارة عن منتجين و C و D منتجان. يتم عرض تمثيل شبكة شائع في الشكل 4 ج ، حيث تكون المستقلبات عبارة عن عقد ، ويتم توصيل مستقلبين بوصلة غير موجهة إذا كانا يشتركان كمنتج ومنتج ، على التوالي ، في نفس التفاعل. لاحظ أن الارتباط لا يمثل تفاعلًا واحدًا ، أو إنزيمًا ، حيث قد يظهر مستقلبان في تفاعلات متعددة. يظهر مثال على هذا الاحتمال في الشكل 4 أ ، حيث تحدث المستقلبات A و D معًا في التفاعلات R1 و ر3، والرابط بين A و D في الشكل 4C يتوافق مع كلا التفاعلين. لزيادة تعقيد عملية التعيين ، قد يظهر تفاعل واحد أيضًا على شكل روابط متعددة (انظر الشكل 4). التمثيل البديل هو شبكة ثنائية القسم (الشكل 4E) ، حيث يكون نوعا العقد عبارة عن نواتج أيضية أو إنزيمات. في هذه الحالة ، يشير الارتباط الموجه من (إلى) المستقلب إلى (من) إنزيم إلى أن المستقلب يعمل كمستقلب (منتج) في هذا التفاعل. أخيرًا ، يمكن أيضًا تمثيل مجموعة التفاعل الأيضي كشبكة تفاعل - تفاعل (الشكل 4F). هنا ، العقد عبارة عن تفاعلات ويتم تضمين ارتباط (ربما يكون موجهاً) بين عقدتين (تفاعلات) أنا و ي إذا تم استخدام المستقلب كمنتج في التفاعل أنا وكمنتج (مستخرج) في رد فعل ي.

هيكل الشبكة الأيضية

التمثيلات الشبكية المختلفة في الشكل 4 لها خصائص إحصائية مختلفة. استخدام التمثيل الغذائي البكتيري في بكتريا قولونية كمثال ، يوضح الشكل 5 الاختلافات في توزيع الاتصال ، ص(ك) ، المتضمنة في تمثيلات الشبكة الثلاثة المفصلة في الشكل 4B-D. لاحظ أن ص(ك) ذو الذيل الثقيل في جميع لوحات الشكل 5 ، ومع ذلك ، فإن النتيجة ليست بهذه البساطة لتمثيل الشبكة الثنائية (الشكل 4E). في هذه الحالة ، من الممكن التمييز بين المستقلبات والإنزيمات الخاصة بالمستقلبات ، ويكون توزيع الاتصال ذو الذيل الثقيل ، بينما يكون توزيع الإنزيم مناسبًا بشكل أفضل بواسطة الأسي. هذا ليس مفاجئًا ، حيث قد تساهم العوامل المساعدة مثل ATP أو NADP في مئات التفاعلات بينما يحتوي الإنزيم على عدد محدود من المجالات النشطة. لمزيد من التباين والمقارنة بين التحيزات المحتملة لتمثيلات الشبكة المختلفة ، يوضح الجدول 2 التجميع & ltج& gt والتنوع ρ لثلاثة كائنات باستخدام تمثيلات الشبكة في الشكل 4 ب ، ج. كما هو متوقع ، فإن التجميع والتنوع المقابل للشكل 4 ب أعلى بكثير من الشكل 4 ج ، حيث أن تمثيل الشبكة في الشكل الأول يتضمن رسم بياني فرعي متصل بالكامل لكل تفاعل.

متوسط ​​التجميع والتنوع لثلاث شبكات استقلابية عضوية باستخدام تمثيلات الشبكة الموضحة فيالشكل 4 ب ، ج

الكائن الحي. ن . مب . مج . & ltج& GTب . & ltج& GTج . ρب . ρج .
جرثومة المعدة489 4058 1920 0.72 0.28 –0.285 –0.261
بكتريا قولونية540 3753 1867 0.66 0.20 –0.251 –0.217
S. cerevisiae1064 6941 4031 0.67 0.23 –0.182 –0.150
الكائن الحي. ن . مب . مج . & ltج& GTب . & ltج& GTج . ρب . ρج .
جرثومة المعدة489 4058 1920 0.72 0.28 –0.285 –0.261
بكتريا قولونية540 3753 1867 0.66 0.20 –0.251 –0.217
S. cerevisiae1064 6941 4031 0.67 0.23 –0.182 –0.150

الاختصارات: ن، عدد العقد م عدد الروابط & الملازمج& gt ، متوسط ​​التجميع ، تشكيلة متنوعة B و C ، تمثيلات الشبكة الموضحة في الشكل 4 ب والشكل 4 ج ، على التوالي

يمكن تمثيل التمثيل الغذائي الخلوي كشبكة. (أ) مجموعة لعبة التمثيل الغذائي. وصف الشبكة لمجموعة التفاعل: (ب) ربط جميع المستقلبات في تفاعل واحد مع روابط غير موجهة (C) ركائز متصلة فقط بالمنتجات ذات الروابط غير الموجهة و (D) كما هو الحال في C مع الروابط الموجهة. (ه) تمثيل شبكة ثنائية من مجموعة التفاعل. (F) شبكة مع التفاعلات كعقد ، والتفاعلات التي تشترك في المستقلب مثل educt – product متصلة.

يمكن تمثيل التمثيل الغذائي الخلوي كشبكة. (أ) مجموعة لعبة التمثيل الغذائي. وصف الشبكة لمجموعة التفاعل: (ب) ربط جميع المستقلبات في تفاعل واحد مع روابط غير موجهة (C) ركائز متصلة فقط بالمنتجات ذات الروابط غير الموجهة و (D) كما هو الحال في C مع الروابط الموجهة. (ه) تمثيل شبكة ثنائية من مجموعة التفاعل. (F) شبكة مع التفاعلات كعقد ، والتفاعلات التي تشترك في المستقلب مثل educt – product متصلة.

توزيعات التوصيل ص(ك) من بكتريا قولونيةالتمثيل الغذائي باستخدام التمثيلات الثلاثة للشبكة الأيضية في الشكل 4. تتوافق اللوحة A مع الشكل 4B B مع الشكل 4C C يتوافق مع الشكل 4D.

توزيعات التوصيل ص(ك) من بكتريا قولونيةالتمثيل الغذائي باستخدام التمثيلات الثلاثة للشبكة الأيضية في الشكل 4. تتوافق اللوحة A مع الشكل 4B B مع الشكل 4C C يتوافق مع الشكل 4D.

شبكات التمثيل الغذائي المرجح

ركزت غالبية دراسات الشبكة على الخصائص الطوبولوجية وليس على معدل النشاط الأيضي ، والذي يمكن أن يختلف بشكل كبير من رد فعل إلى رد فعل. لم يتم التقاط هذه الوظيفة المهمة من خلال الأساليب الطوبولوجية القياسية. من الضروري تضمين هذه المعلومات في وصف الشبكة لتطوير فهم لكيفية تأثير بنية شبكة التمثيل الغذائي على نشاط التمثيل الغذائي. يتطلب الفهم الهادف منا النظر في الكثافة (أي القوة) والاتجاه (عند الاقتضاء) والجوانب الزمنية للتفاعلات. على الرغم من أن الكثير لا يزال غير معروف عن الجوانب الزمنية للنشاط الأيضي داخل الخلية ، إلا أن النتائج الأخيرة قدمت معلومات حول الشدة النسبية للتفاعلات في التمثيل الغذائي للخلية المفردة (Sauer et al. ، 1999 Canonaco et al. ، 2001 Gombert et al. ، 2001 Emmerling et al.، 2002 Fischer and Sauer، 2003 Cannizzaro et al.، 2004 Blank et al.، 2005 Fischer and Sauer، 2005). قد نقوم بدمج هذه النتائج في تحليل الشبكة من خلال اعتبار الروابط ليس فقط حاضرة أو غائبة ، ولكن بالإضافة إلى ذلك لتحمل "وزن ارتباط" يعكس قوة التفاعل غير المنتظمة بين عقدتين. القياس الطبيعي ، وإن لم يكن فريدًا ، لقوة التفاعل لشبكة التمثيل الغذائي هو مقدار الركيزة التي يتم تحويلها إلى منتج لكل وحدة زمنية ، تسمى "تدفق" التفاعل.

يتيح لنا نهج التحسين الخطي البسيط ، المسمى "تحليل توازن التدفق" (FBA) ، حساب معدل التدفق لكل تفاعل في شبكة التمثيل الغذائي للخلية بأكملها. تعتمد طريقة FBA على افتراض أن تركيز جميع المستقلبات الخلوية ، [أأنا] ، غير خاضعة للنقل عبر غشاء الخلية يجب أن تفي بقيد الحالة المستقرة d [أأنا]/در= Σيساي جايνي= 0 أين ساي جاي هو معامل القياس المتكافئ للمستقلب أأنا في رد فعل ي ، ت حان الوقت و νيهو تدفق الحالة المستقر للتفاعل ي. نحن نتبع الاتفاقية التي ساي جاي& lt0 (ساي جاي& GT0) إذا كان المستقلب أنا هو الركيزة (المنتج) في رد فعل ي. خذ الشكل 4 أ كمثال. معاملات القياس المتكافئ للتفاعل ي= ص3 يتم بعد ذلك سأ ، R3=–2, سE ، R3=–1, سD ، R3= 1 بينما سب ، R3=سج ، R3=سF ، R3= 0. لاحظ أن أي قيمة تدفق νأنا يتوافق تلبية قيود الحالة المستقرة مع حالة الخلية المسموح بها من حيث القياس المتكافئ. لتحديد قيم التدفق ذات الصلة بيولوجيًا ، نقوم بتحسين النمو الخلوي. تدعم التجارب هذه الفرضية في عدة شروط ، ولكن هناك أيضًا أهداف أخرى ذات مغزى. انظر Bonarius et al. (Bonarius et al.، 1997) and Kauffman et al. (Kauffman et al. ، 2003) لمزيد من المناقشة التفصيلية لـ FBA.

توزيع قيم تدفق التفاعل الأيضي (أوزان الارتباط) من تحليل FBA لشبكة التمثيل الغذائي للخميرة الناشئة S. cerevisiaeفي (أ) الهوائية ، محدودة الجلوكوز و (ب) الهوائية ، محدودة الأسيتات.

توزيع قيم تدفق التفاعل الأيضي (أوزان الارتباط) من تحليل FBA لشبكة التمثيل الغذائي للخميرة الناشئة S. cerevisiaeفي (أ) الهوائية ، محدودة الجلوكوز و (ب) الهوائية ، محدودة الأسيتات.

جعلت التطورات الأخيرة في شرح الجينوم الكامل من الممكن إنشاء شبكات التمثيل الغذائي عالية الدقة على مستوى الخلية الكاملة. نماذج التمثيل الغذائي بدائية النواة هيليكوباكتر بيلوري و بكتريا قولونية، وكذلك حقيقيات النوى S. cerevisiae، للتنبؤ بـ "الجينات الأساسية" (Edwards and Palsson ، 2000 Schilling et al. ، 2002 Duarte et al. ، 2004 Papp et al. ، 2004) ، "التفاعلات المعرفية" حيث يتم تعديل عمل جين واحد بواسطة واحد أو جينات متعددة في مواقع مختلفة (Segre et al. ، 2005) ، و "الجينومات الميكروبية الدنيا" الممكنة (Burgard et al. ، 2001 Pal et al. ، 2006). التدفقات الناتجة من FBA تقيس النشاط النسبي لكل تفاعل. على وجه الخصوص ، ألماس وآخرون. إثبات أنه ، على غرار توزيع الدرجات ، فإن توزيع التدفق بكتريا قولونية يُظهر عدم تجانس إجمالي قوي: التفاعلات مع التدفقات التي تمتد لعدة أوامر من حيث الحجم تتعايش في نفس البيئة (Almaas et al. ، 2004). تطبيق نهج FBA الحسابي ، وتوزيع التدفق لـ S. cerevisiae (الشكل 6) ذو الذيل الثقيل ، مما يشير إلى ذلك ص(ν) ∼ν –α مع أس تدفق قدره a = 1.5. في تجربة حديثة ، كانت قوة التدفقات المختلفة لعملية التمثيل الغذائي المركزية بكتريا قولونية تم قياسه باستخدام طرق الرنين المغناطيسي النووي (Emmerling et al. ، 2002) ، مما يكشف عن اعتماد تدفق قانون الطاقة ص(ν) ∼ν –1 (ألمس وآخرون ، 2004). يشير سلوك قانون القوة هذا إلى أن الغالبية العظمى من التفاعلات ذات التدفقات الصغيرة تتعايش مع عدد قليل من التفاعلات التي لها تدفقات كبيرة.

توزيع قيم قوة العقدة لـ S. cerevisiae التمثيل الغذائي في (أ) الهوائية ، محدودة الجلوكوز و (ب) الهوائية ، محدودة الأسيتات.

توزيع قيم قوة العقدة لـ S. cerevisiae التمثيل الغذائي في (أ) الهوائية ، محدودة الجلوكوز و (ب) الهوائية ، محدودة الأسيتات.

يتيح لنا نهج FBA تحليل شبكة التمثيل الغذائي كشبكة مرجحة حيث يتم تعيين قيمة تدفق لكل تفاعل. تم تقديم مثل هذا التعميم لمقاييس الشبكة غير الموزونة في الأصل في سياق النقل الجوي وشبكات التأليف المشترك (Barrat et al.، 2004). يُطلق على أول مقاييس الشبكة المعممة "قوة العقدة" ، سأنا، من العقدة أنا، معرف ك سأنا= Σيثاي جايأاي جاي،أين ثاي جاي هو وزن الارتباط الذي يربط العقد أنا و ي، و أاي جاي هي المصفوفة المجاورة كما كان من قبل. تعمل قوة العقدة كتعميم لدرجة العقدة على الشبكات الموزونة وتجمع الوزن الإجمالي على الروابط المتصلة بالعقدة. يوضح الشكل 7 توزيع قوى العقدة ، ص(س)، ل بكتريا قولونية التمثيل الغذائي مع الجلوكوز كمصدر وحيد للكربون.

نواصل بتعميم معامل التجميع على الشبكات الموزونة. حيث جأنا يشير إلى الكثافة المحلية للمثلثات ، يجب أن يتيح تعريف مشابه باستخدام أوزان الروابط إمكانية تمييز ما إذا كانت الأوزان الكبيرة أو الصغيرة يمكن العثور عليها بشكل أو بآخر متجمعة معًا. نشير إلى تعريف واحد محتمل قدمه Barrat وآخرون (Barrat وآخرون ، 2004) على النحو التالي جث ، أنا، ومتوسط ​​الكتلة المرجحة هو & ltجث& GT = (1 /ن) Σأناجث ، أنا. في حالة عدم وجود ارتباطات بين الأوزان والطوبولوجيا ، فإن هذا التعريف الجديد لمعامل التجميع يساوي تعريف الشبكة غير الموزونة. علاوة على ذلك ، قد نحدد سيناريوهين محتملين. لو & ltCث& GT أكبر من & ltC& gt ، يتم توزيع الأوزان الكبيرة في الغالب في مجموعات محلية ، بينما إذا & ltCث& GT اقل من & ltC& gt ، يتم إنشاء المثلثات باستخدام روابط منخفضة الوزن في الغالب. تم اقتراح تعريفات أخرى محتملة لمعامل التجميع الموزون بخصائص مختلفة نوعًا ما (Onnela et al. ، 2005 Zhang and Horvath ، 2005 Holme et al. ، 2007).

التدفقات وهيكل الشبكة الأيضية

تعتمد توزيعات التدفق لشبكة التمثيل الغذائي على طوبولوجيا الشبكة. يُفهم بعض هذا الاعتماد من خلال دراسة العلاقة بين ثاي جاي، قوة الارتباط الذي يربط العقد أناو ي والصلات الخاصة بهم ، كأنا و كي. مقياس التدفقات الأيضية مثل & ltثاي جاي& gt∼ (كأناكي) θ ، حيث θ = 0.5 في ظل ظروف محدودة الجلوكوز في S. cerevisiae(الشكل 8 أ) و بكتريا قولونية(Macdonald et al.، 2005)، وكذلك شبكة النقل الجوي العالمية (Barrat et al.، 2004). قد نجد أيضًا سلوكًا مشابهًا في نماذج الشبكة. على سبيل المثال ، المركزية - (مقياس لعدد أقصر المسارات التي تستخدم عقدة أو رابطًا معينًا (انظر Brandes، 2001 Freeman، 1977 Newman، 2001 Wasserman and Faust، 1994) على نموذج شبكة Barabási-Albert (الشكل 8C) )]. ومع ذلك ، فإن القيم الأخرى لـ ممكنة ، كما هو موضح في الشكل 8 ب ، حيث نجد = 0.7 للتدفقات الأيضية في ظل ظروف محدودة الأسيتات.

كيف تؤثر بنية الشبكة على أنماط التدفق على مستوى المستقلبات المفردة؟ يتوافق توزيع التدفق الخالي من المقاييس المرصود مع بنيتين مختلفتين تمامًا للتدفق المحلي. قد يعني التنظيم المحلي المتجانس أن جميع التفاعلات التي تنتج (تستهلك) مستقلبًا معينًا لها قيم تدفق قابلة للمقارنة. من ناحية أخرى ، من المتوقع حدوث مزيد من عدم التوطين ، أو "العمود الفقري الساخن" ، إذا كانت منظمة التدفق المحلي غير متجانسة ، بحيث يكون لكل مستقلب تفاعل مصدر (مستهلك) مهيمن. للتمييز بين هذين السيناريوهين ، نحدد المقياس ص(ك ، ط) (Barthelemy et al.، 2003 Almaas et al.، 2004) لكل مستقلب ينتج أو يستهلك بواسطة كردود الفعل ، مع الخصائص التالية. إذا كانت جميع التفاعلات تنتج (مستهلكة) المستقلب أنا لها قيم قابلة للمقارنة ، ص(ك ، ط)≈1/ك. ومع ذلك ، إذا كان نشاط تفاعل واحد هو المسيطر ، إذن ص(ك ، ط) ≈1 ، أي ص(ك ، ط) مستقل عن ك. للحالتين حيث بكتريا قولونية تم تحسين الأداء الأيضي باستخدام الجلوكوز والسكسينات كمصادر الكربون الوحيدة المتاحة ، ص(ك)∼ك –0.27. هذا سلوك وسيط بين الحالتين المتطرفتين الموصوفتين أعلاه. ومع ذلك ، تشير قيمة الأس لـ β = –0.27 إلى أن عدم التجانس الواسع النطاق الذي لوحظ في توزيع التدفق الكلي صالح بشكل متزايد على مستوى المستقلبات الفردية أيضًا.

وبالتالي ، بالنسبة لمعظم المستقلبات ، يمكن تحديد تفاعل واحد يسيطر على إنتاجه أو استهلاكه. خوارزمية بسيطة قادرة على استخراج الشبكة الفرعية التي تتكون فقط من هذه التفاعلات المهيمنة ، والتي تسمى "العمود الفقري عالي التدفق" (HFB) (ألماس وآخرون ، 2004). This algorithm has the following two steps: (1) for each metabolite, discard all incoming and outgoing links except the two links that dominate mass production and (2) from the resulting set of reactions, keep only those reactions that appear as both a maximal producer and a maximal consumer.

Note that the resulting HFB is specific to the particular choice of system boundary conditions (i.e. environment). Interestingly, the HFB mostly consists of reactions linked together, forming a giant component with a star-like topology that includes almost all metabolites produced in a specific growth environment. Only a few pathways are disconnected while these pathways are members of the HFB, their end-products serve only as the second most important source for some other HFB metabolite. One may further analyze the properties of the HFB (Almaas et al.,2004) however, we limit our discussion and simply mention that groups of individual HFB reactions largely agree with the traditional,biochemistry-based partitioning of cellular metabolism into pathways. For example, in the بكتريا قولونية metabolic model, all metabolites of the citric acid cycle are recovered, and so are a considerable fraction of other important pathways, such as those being involved in histidine, murein and purine biosynthesis, to mention a few. While the detailed nature of the HFB depends on the particular growth conditions, the HFB captures the reactions that dominate the metabolic activity for this condition. As such, it offers a complementary approach to elementary flux mode and extreme pathway analyses(Schuster and Hilgetag, 1994 Schilling et al., 2000 Papin et al., 2004), which successfully determine the available modes of operation for smaller metabolic sub-networks.

Metabolic core reactions

Any whole-cell metabolic model contains a number of transport reactions for the uptake of nutrients and excretion of byproducts. Consequently, we may systematically sample among all possible environments captured by the model through varying the constraints on uptake reactions. This analysis suggests that optimal metabolic flows are adjusted to environmental changes through two distinct mechanisms (Almaas et al.,2004). The more common mechanism is `flux plasticity', involving changes in the fluxes of already active reactions when the organism is shifted from one growth condition to another. For example, changing from glucose- to succinate-rich media altered the flux of 264 بكتريا قولونية reactions by more than 20%. Less commonly, environmental changes may induce `structural plasticity', resulting in changes to the metabolism's active wiring diagram,turning on previously zero-flux reactions and inhibiting previously active pathways. For example, when shifting بكتريا قولونية cells from glucose- to succinate-rich media, 11 previously active reactions were turned off completely, while nine previously inactive reactions were turned on.

Correlation between (normalized) link weights and local connectivity for(A) metabolic fluxes in S. cerevisiae in glucose-limited and (B)acetate-limited conditions, as well as (C) betweenness-centrality for the Barabási–Albert model. The broken lines serve as visual guides only.

Correlation between (normalized) link weights and local connectivity for(A) metabolic fluxes in S. cerevisiae in glucose-limited and (B)acetate-limited conditions, as well as (C) betweenness-centrality for the Barabási–Albert model. The broken lines serve as visual guides only.

The `metabolic core' is the set of reactions found to be active (carrying a non-zero metabolic flux) in all tested environments. In recent computational experiments where more than 30 000 possible environments were sampled, the metabolic core contained 138 of the 381 metabolic reactions in the model of جرثومة المعدة (36.2%), 90 of 758 in بكتريا قولونية (11.9%) and 33 of 1172 in S. cerevisiae (2.8%)(Almaas et al., 2005). While these reactions respond to environmental changes only through flux-based plasticity, the remaining reactions are conditionally active, being turned on only in specific growth conditions.

The metabolic core can be further partitioned into two types of reactions. The first type consists of those that are essential for biomass formation under all environmental conditions (81 out of 90 reactions in بكتريا قولونية), while the second type of reaction is required only to assure optimal metabolic performance. In case of the inactivation of the second type,alternative sub-optimal pathways can be used to ensure cellular survival. However, the compact core of S. cerevisiae only contains reactions predicted by FBA to be indispensable for biomass formation under all growth conditions. A similar selection of metabolic reactions was suggested by Burgard et al. (Burgard et al.,2001). Their `minimal reaction' contains the metabolic core as well as all reactions necessary for the sustained growth on any chosen substrate. A different definition of a minimal reaction set was proposed by Reed and Palsson (Reed and Palsson,2004), which consists of the 201 reactions that are always active in بكتريا قولونية for all 136 aerobic and anaerobic single-carbon-source`minimal environments' capable of sustaining optimal growth.

A reasonable speculation is that the reactions in the metabolic core play an important role in the maintenance of crucial metabolic functions since they are active under all environmental conditions. Consequently, the absence of individual core reactions may lead to significant metabolic disruptions. This hypothesis is strengthened through cross-correlation with genome-scale gene-deletion data (Gerdes et al.,2003): 74.7% of those بكتريا قولونية enzymes that catalyze core metabolic reactions (i.e. core enzymes) are essential, compared with a 19.6%lethality fraction for the non-core enzymes. A similar pattern of elevated essentiality is also present when analyzing large-scale deletion data for S. cerevisiae (Giaever et al.,2002). Here, essential enzymes catalyze 84% of the core reactions,whereas the conditionally active enzymes have an average essentiality of only 15.6% (Almaas et al., 2005). The likelihood that the cores contain such a large concentration of essential enzymes by chance is minuscule, with ص-values of 3.3×10 –23 and 9.0×10 –13 for بكتريا قولونية and yeast, respectively.

Metabolic core reactions also stand apart from the conditionally active ones when comparing their evolutionary conservation. In comparing the core enzymes of بكتريا قولونية with a reference set of 32 bacteria, the average core conservation rate is 71.1% (ص<10 –6 ) while the non-core enzymes have a homology matching of only 47.7%. Taking into account correlations between essentiality and evolutionary conservation, one would expect the core enzymes to show a conservation level of 63.4%(Almaas et al., 2005).

These results indicate that an organism's ability to adapt to changing environmental conditions rests largely on the continuous activity of the metabolic core, regardless of the environmental conditions, while the conditionally active metabolic reactions represent the different ways in which a cell is capable of utilizing substrates from its environment. This suggests that the core enzymes that are essential for biomass formation, both for optimal and suboptimal growth, may provide effective antibiotic targets, given the cell's need to maintain the activity of these enzymes in all conditions.


Behavioral Medicine

Perceptive of the factors that sway human health and cause diseases are the chief driving forces of biological research. With advancement in quantitative techniques, large-scale measurement methods and with the close combination between experimental and computational approaches, Biology has lately gained new technological and conceptual tools to investigate, model, and understand living organisms at the system level. The young discipline of Systems Biology is devoted to the study of well-characterized model organisms. It is clear since the days of the human genome project that applications of system-wide approaches to human biology would open up great breaks in medicine.

Recent lessons learned from Systems Biology, when used on simple organisms like bacteria or yeast, predict the kind of understanding that will profit both basic medical research and clinical applications giving deeper appreciation of the genotype–phenotype relationship impact of the interactions between environmental conditions and genotype new mechanistic and functional understanding based on global unbiased approaches explanation of potent predictive models capturing the details of physiological states, progress on these various faces clearly depend on different types of research, ranging from investigations on basic aspects of human biology to the more clinically oriented applications. Appreciably, as techniques and concepts are established, a new discipline is budding at the crossing point between Medicine and Systems Biology.

In fields pertinent to medical research, together with cancer biology, deciphering the mechanisms of disease requires a deep knowledge of how signaling the process of shuffling of genes pathways operates. Quantitative large-scale study of proteins has made possible the simultaneous monitoring of the simultaneous activity of multiple signaling molecules, enabling a broader and unbiased view of cellular signaling proceedings. This type of high-throughput screening can be correlated to biological response like proliferation and cell migration to further understanding of the pathways known to be deregulated in cancer. These approaches reveal the unavoidable fact that biological pathways are highly interrelated, which represents one of the major motivations for adopting a system-level approach in biology. The impact of plugging in on biological outcome is analyzed to explain synergies and other non-intuitive interactions observed between concurrently applied drugs, with vital outcomes for drug design and pharmacology. The concept of linear pathway is confronted by network representations, which highlight the significance of interactions between components of a biological system. This network-based conceptual framework transforms current models in disease classification and treatment. The main practical challenge is how to figure out the structure of complex networks that underlie biological processes and how to characterize their state when disturbed by disease. New calculation strategies combined with the now well-established genome-wide expression profiling techniques provide new tools to reverse-engineer network structure and to identify and track mediators associated with a disease.

In view of the fact of completion of the human genome sequence, research in human genetics has been progressing at a rapid pace. With major achievements including realization of the haplotype map project facilitating the analysis of human genetic variability, the recent flurry of genome-wide associated studies providing a host of potential genetic determinants for major common diseases and the arrival of the first personalized human genome sequences. The power of genetics and genomics to explore the human disease scenery does not need to be demonstrated any more. Beyond genetic determinants, diseases are characterized by a disturbed physiology, and methods providing a wider and deeper window into physiological states will be influential to get hold of an integrated view of human disease. By their proximity to physiological output, metabolite measurements provide such a window, and advances in the associated techniques have led to the development of the field of metabonomics (measuring and mathematically modeling changes in the levels of products of metabolism found in biological fluids and tissues), pioneered by Jeremy Nicholson. The study reveals the deep sway exerted by gut bacterial flora on the metabolic equilibrium of the host and, as a consequence, on its health status. This study demonstrates that the genotype–phenotype relationship is far from being the entire story when dealing with disease, and it emphasizes the vital significance of putting together all aspects of physiology, including contributions from the totality of microbes and environment, thus adopting an even wider scope than the genome-wide model.

Great anticipation generated by the application of high-throughput technologies to human samples is that huge information gathered can lead to more powerful models able to predict susceptibility to disease, response to treatment and even more challenging, help in the prognosis of disease outcome. It is the latter question of prognosis that is addressed in the study by MacBeath and co-workers Knickerbocker et al, 2007, this book is designed to introduce biologists, clinicians and computational researchers to fundamental data analysis principles, techniques and tools for supporting the discovery of biomarkers and the implementation of diagnostic, prognostic systems. It focuses on how fundamental statistical and data mining approaches can support biomarker discovery and evaluation, emphasizing applications based on different types of “omic” data. The work also discusses design factors, requirements and techniques for disease screening, diagnostic and prognostic applications. It imparts knowledge needed to assess the requirements, computational approaches and outputs in disease biomarker research. There are also commentaries from guest experts containing detailed discussions of methodologies and applications based on specific types of “omic” data, as well as their integration. It also covers the main range of data sources currently used for biomarker discovery. It deals with the main range of data sources currently used for biomarker discovery. It emphasizes on concepts, design principles and methodologies that can be extended or tailored to more specific applications. It also offers principles and methods for assessing the bioinformatic-biostatistic limitations, strengths and challenges in biomarker discovery studies. The study discusses systems biology approaches and applications. The work includes expert chapter commentaries to further discuss relevance of techniques, summarize biological/clinical implications and provide alternative interpretations allowing integration of clinical parameters with protein microarray measurements of blood samples permitting improved prediction of early mortality of patients initiating a kidney dialysis treatment. Wider application of these technologies is likely to be instrumental in opening the door to the era of personalized medicine with tailored strategies encircling all aspects of clinical practice, including prevention, diagnosis, treatment and prognosis.

Interpreting the Systems Biology framework to the human ‘system’ is a formidable challenge because of the intimidating intricacy of human physiology and also because the human condition involve serious consideration of ethical, legal, safety, individual and epidemiological issues. Revolutionary technologies, fresh insights, immense digitalization of information will entitle clear thinking and innovation in the formulation of governance policies. These excerpts of recent concrete contribution to the field stimulates reflections and debates, extending beyond the Systems Biology community, enabling to realize full potential and promises of Systems Medicine in harmony with societal standards.


Third Strategy: Use of Novel Centrality Concepts

In addition to the use of individual classical centrality measures and their combinations to identify essential/lethal nodes in biological networks, new indices were designed using other features associated with nodes in biological networks. For instance, Yu et al. in 2004 introduced the notion of marginal essentiality which states that the essentiality of a gene is directly associated to its connectivity and the number of functions of that gene (Yu et al., 2004). Estrada and Rodriguez-Velazquez, in 2005 proposed a new index, subgraph centrality (SC) which characterizes the contribution of each node in all subgraphs of a network. The authors claimed that SC index is better in discriminating the nodes of a network than alternate classical measures such as degree, closeness, betweenness, and eigenvector centralities and is more highly correlated with the lethality of individual proteins removed from the proteome (Estrada and Rodriguez-Velazquez, 2005). Tew et al. defined a functional centrality as the topological centrality within a subnetwork of proteins with similar functions, called neighborhood functional centrality (NFC). NFC predicted the lethal proteins in four S. cerevisiae PPI datasets and was able to detect low connectivity lethal proteins that were previously undetected by conventional methods (Tew et al., 2007). Then, Koschutzki and Schreiber demonstrated that motif-based centralities yield better results in gene regulatory networks (Koschützki and Schreiber, 2008). Efforts were made to better predict and improve the existing methods for new insights of centrality usage in biology. For example, Hart et al. used an unsupervised probabilistic scoring scheme on large-scale yeast mass-spectrometry data, emphasizing that essentiality is the product of protein complexes rather than individual proteins (Hart et al., 2007). Piraveenan et al. used topological connectivity, as well as the percolation states of individual nodes in network percolation scenarios (such as infection transmission in a social network of individuals) to quantify relative impact of nodes (Piraveenan et al., 2013). Simko and Csermely applied game centrality to design more competent interventions in cellular networks (Simko and Csermely, 2013), and Szalay and Csermely developed perturbation centrality to provide a large variety of novel options to assess signaling, drug action, environmental, and social interventions (Szalay and Csermely, 2013). Wuchty recently determined minimum dominating sets (MDSet) as optimized subsets of proteins that play a role in the control of the underlying networks by enabling remaining proteins to be reached in one step. MDSet are enriched with essential, cancer-related, and virus-targeted genes. The author also compared the MDSet proteins with hub proteins and showed a higher impact of MDSet proteins on network resilience (Wuchty, 2014).


Biological significance of network parameters - Biology

Analysis of the structure of biological networks often uses statistical tests to establish the over-representation of motifs, which are thought to be important building blocks of such networks, related to their biological functions. However, there is disagreement as to the statistical significance of these motifs, and there are potential problems with standard methods for estimating this significance. Exponential random graph models (ERGMs) are a class of statistical model that can overcome some of the shortcomings of commonly used methods for testing the statistical significance of motifs. ERGMs were first introduced into the bioinformatics literature over ten years ago but have had limited application to biological networks, possibly due to the practical difficulty of estimating model parameters. Advances in estimation algorithms now afford analysis of much larger networks in practical time. We illustrate the application of ERGM to both an undirected protein-protein interaction (PPI) network and directed gene regulatory networks. ERGM models indicate over-representation of triangles in the PPI network, and confirm results from previous research as to over-representation of transitive triangles (feed-forward loop) in an E. coli and a yeast regulatory network. We also confirm, using ERGMs, previous research showing that under-representation of the cyclic triangle (feedback loop) can be explained as a consequence of other topological features.


Correlation-Based Network Generation, Visualization, and Analysis as a Powerful Tool in Biological Studies: A Case Study in Cancer Cell Metabolism

In the last decade vast data sets are being generated in biological and medical studies. The challenge lies in their summary, complexity reduction, and interpretation. Correlation-based networks and graph-theory based properties of this type of networks can be successfully used during this process. However, the procedure has its pitfalls and requires specific knowledge that often lays beyond classical biology and includes many computational tools and software. Here we introduce one of a series of methods for correlation-based network generation and analysis using freely available software. The pipeline allows the user to control each step of the network generation and provides flexibility in selection of correlation methods and thresholds. The pipeline was implemented on published metabolomics data of a population of human breast carcinoma cell lines MDA-MB-231 under two conditions: normal and hypoxia. The analysis revealed significant differences between the metabolic networks in response to the tested conditions. The network under hypoxia had 1.7 times more significant correlations between metabolites, compared to normal conditions. Unique metabolic interactions were identified which could lead to the identification of improved markers or aid in elucidating the mechanism of regulation between distantly related metabolites induced by the cancer growth.

1 المقدمة

Advanced technology methods for high-throughput biological studies, such as metabolomics and transcriptomics developed during the last decades, are successfully applied in biomedical research [1], plant studies [2], and microbiology [3]. The wide use of these technologies led to the accumulation of data on biological processes at their multiple levels (metabolic, genetic, enzymatic, physiological, phenotypical, etc.) and called for the development of tools to ease the visualization, analysis, and interpretation of an often complex and multidimensional matrix. Furthermore, the readily available “omics” technologies in biological laboratories prompted biologists to enter a field often needing extensive computational knowhow and led to the increased interest in biological interaction networks [4]. Thus, in the recent decades networks describing cellular processes were generated for human [5], yeast [6], and plants [7].

Networks can be presented as graphs, that is, a set of vertices (V) connected by edges (E), and consequently can be analyzed using graph theory, an approach that has been increasingly implemented in biological studies during the last decade. It is commonly accepted that graph theory as a scientific discipline was first used by the Swiss mathematician Leonhard Euler in 1735-1736, tackling the Königsberg bridge problem. Later, in the 19th and 20th centuries, graph theory was formulated and eventually introduced for applied fields, such as physics, computer science, and biology [8]. Today, graph theory consists of many tens of basic definitions and properties [9]. The understanding of the biological networks lies in the nature of the vertices and edges between them that is, the vertices may represent one of the components of the three major molecular levels: genes, proteins, or metabolites, while the edges between them represent gene coexpression, protein-protein interactions, or biochemical conversions of metabolites, respectively [10]. However, molecular networks are not delimited to illustrate single-level component interactions. They can also show cross-level interactions. Alternatively, and perhaps a little counterintuitive, a network may incorporate vertices representing a set of metabolic reactions, where the connection between a pair of vertices is established if the reactions share one or multiple metabolites used or produced by these reactions [11, 12]. In other networks, vertices represent a community of molecular components, especially used with very vast data sets (>1000 of components) such as in weighted gene coexpression network analysis (WGCNA). Here, a single vertex delineates a module of genes and edges between vertices represent the correlation between them. This allows reducing the complexity of the network and simultaneously retains most of the information used for the interpretation of the gene coexpression results [13]. In simple words, vertices and edges represent the information as defined by the creator/user of the network.

In the last decade, correlation-based network analysis (CNA) has become a popular data-mining tool for visualizing and analyzing biological relationships within large data sets [13, 14]. In this type of networks, vertices and edges represent molecular elements (e.g., metabolites or genes) and their correlation coefficient (strength and sign), respectively [10, 15, 16]. Edges inferred by correlation analyses reflect a coordinated behavior between vertices across the data set (treatments, genotypes, conditions, and time). The type of correlation has to be selected based on the parametrical distribution of the data. In large population studies, data has to be tested for normality using existing tests, for example, the Shapiro-Wilk test. The Pearson correlation should be applied to normally distributed data, while Spearman’s rank correlation should be used for data violating the assumption of normal distribution. CNA was successfully applied to various biological systems it revealed, for example, metabolic markers related to plant growth and biomass in نبات الأرابيدوبسيس thaliana recombinant inbred lines (RIL) and introgression lines (IL) [17, 18], the role of gene Col5a2 in myocardial infarction [19], effect of hypoxia on tumor cell biochemistry [20], and recently, identification of genetically based mechanism of the regulation of amino acid metabolism [2].

Graph theory defines a number of network properties that allow successful analysis and interpretation of correlation networks (CN). These properties are a set of measures that describe the graph topology from different vantage points. CNs are undirected graphs, reflecting the coordinated behavior of two or more adjacent vertices (connected vertices) and the biological components they represent and not the effect of one vertex/component onto another, that is, a directed network. Properties that may have biological significance have been reviewed by Toubiana et al. [10] they include (a) vertex degree: the number of edges incident on a given vertex [21], (b) centrality score: reflecting the number of shortest paths between a vertex and any other vertex in the network, (c) network diameter: the maximal shortest path between any two vertices in the graph, (d) network density: the ratio of existing edges to the number of all possible edges of a network, (e) vertex betweenness centrality: the relative number of the shortest paths between any two vertices that pass via a specific vertex, and (f) modules: subgraphs, within a global network characterized by higher connectivity (biologically interpreted as possible tighter coordination) between their components compared to other regions of the network. The analysis of these modules within the obtained network helped in the prediction of diseases [22, 23]. In this contribution we aim at providing an easy-to-implement pipeline for the generation of CNs for biologists without extensive computational skills. To do so, we are demonstrating the potential use of CNs in cancer studies.

Nowadays, there exist a number of software tools that allow researchers to generate networks, visualize them, and analyze their structure, via the calculation of a number of network properties, based on their own experimental data. Commonly known tools are Cytoscape [24], Gephi [25], and iGraph [26]. Each software has its benefits and disadvantages. For example, while iGraph requires programming skills and knowledge of the R programming language syntax, graphical-user-interface (GUI) based programs, such as Gephi and Cytoscape, do not, simplifying the interaction with the user. On the other hand, while script-based programs allow for the extension of existing functions and integration of compatible libraries, increasing the number of potential properties to be calculated, GUI programs are bound to the functionalities of the version of the software the researcher is using. However, Cytoscape and Gephi both offer a greater and easier-to-use set of visualization tools for networks, whereas the visualization functionalities of iGraph are rather limited and difficult to handle. Cytoscape allows for the integration of externally developed plugins, exerting functionality as desired by its developer. However, this option requires knowledge of the Java programming language and an understanding of how to interface it with the Cytoscape software.

The current proposed stepwise pipeline allows the user to control each step of the network creation, as it provides flexibility in selection of correlation methods and thresholds and describes easy-to-handle options to analyze the network topology. The pipeline works irrespective of the nature of the data set and can be implemented by a combined use of the freely distributed Apache OpenOffice software (http://www.openoffice.org/), built-in packages within the R-environment [27], and Cytoscape [24].

2. Method

The construction of correlation-based networks starts form the calculation of the pairwise correlation coefficients between any two pairs of vectors of a given data set. One of the easiest ways to complete this calculation in big sets of data is to exploit the freely available R-software. There are several packages developed for correlation analysis under the R-environment. It is very important for the output matrix to select the proper type of correlation coefficient (Pearson, Spearman, Kendal, etc., represented as the letter “ص”) and its corresponding thresholds (ص و ص). We recommend using the “psych” package under the R-environment [27, 28]. This package allows calculation of two diagonal matrices: (1) a symmetric diagonal r-matrix and (2) a symmetric diagonal p-matrix, where the lower triangle stores the

-القيم and the upper triangle the multiple hypotheses corrected -القيم, corrected either by the Bonferroni correction or by applying a false discovery rate (FDR) correction. The obtained matrix with both ص- and raw/adjusted -القيم can be then transformed to the table view and exported to any spreadsheet software for a supervised selection of significant correlation coefficients. The thresholds of significance should be selected in respect to the nature and size of the data and considering the general suggestions as described in the introduction and elsewhere [29]. The selected significant correlation values can be easily converted to a table, listing in three columns the vertices that are adjacent to each other. This table is subsequently used as a template to illustrate the network using Cytoscape. We have chosen Cytoscape out of the list of network software as it was specifically developed for biological data, because of its intuitively understandable interface, wide range of visualization options, and available additional plugins for calculations of the main network properties. The method’s workflow is presented in Figure 1.

2.1. Method Pipeline
2.1.1. Download R-Environment and Required R-Packages

To start the workflow, first download and install the latest version of R-environment from the following website: https://www.r-project.org/. For the processes described here two R-packages will be used: “psych” [28] and “reshape2” [30]. Both packages are freely available for downloading via the R-environment window. As mentioned above, the R-environment is a freely available powerful statistical software often used to analyze biological data. Its benefits stem from the integration of various built-in functions and libraries/packages, supplemented by its ability to complement these by numerous externally developed packages and the freedom to combine them as necessary. Often, different packages offer different functions tackling the same task. For example, to compute correlation coefficients, one may use the core built-in function “cor” or the “rcorr” function of the Hmisc-package [31]. For the current work we have chosen specifically the “psych” package to perform correlation analysis as it conveniently computes the

coefficients and its corresponding values and also performs آخر مخصص tests to correct for multiple hypothesis testing (MHT). The package “reshape2” allows converting a matrix into a table and was chosen for this work for its easy implementation.

2.1.2. Adjusting the Allocated Memory

Before beginning with the actual analysis, we recommend checking for the size of virtual memory available for R and Cytoscape, considering the potential large size of a data set. To do so for R under Windows OS type memory.limit() and if the result is smaller than the potential amount of your data set, increase the memory by typing memory.limit(size = 4096). This step allocates 4096 MB, equivalent to 4 GB (maximal number for 32 GB systems) of virtual memory, to the R-software. Unix-based OS’s do not offer this function, as their virtual memory management is dynamic, adjusting itself to new and existing processes.

Similarly to the R-software the user may increase the memory allocated to Cytoscape, if, for instance, the size of a network is too large. Cytoscape is a Java-based software, so the first step here will be to access the Configure Java option via the Programs list. Next, select the جافا tab in the displayed window, click on رأي button, and type -Xms4096m داخل ال Runtime parameters line to allocated 4 GB of memory to the Cytoscape software. The amount of allocated memory is editable.

2.1.3. Producing the Matrices (the R Code Necessary to Complete the Steps Described below Can Be Found in Supplementary Figure 1)

After the size of virtual memory is set, the user can start the pipeline according to the protocol presented in Supplementary Figure 1 available online at http://dx.doi.org/10.1155/2016/8313272. The described protocol represents a set of consequent commands (with an exception to the parallel computation of the r- و -القيمة matrices using the “psych” package), where the execution of one step is dependent on the former.

The output of the executed protocol will provide two separate files that can be opened in spreadsheet software. One of the files, “ص_table.csv,” will represent a table view of the correlation matrix, and the second file, “ص_table,” will represent the same table where r-values will be replaced by the correspondent القيم. Probably the single disadvantage of this method is the time of calculation that strongly depends on number of the variables for the analysis and can be problematic for large (more than 500 variables) data sets. Nevertheless, the vast majority of metabolomics data sets does not exceed this amount of variables and usually is much smaller. Thus, the reader should not run into problems when executing the above code.

The obtained files “ص_table.csv” and “ص_table.csv” can be opened in any spreadsheet software (in our case OpenOffice). The next step is to remove the first column in each file and copy the rest to a new multisheet file on separate sheets for the r-values and the -values, على التوالى. This step will provide two tables with two identical columns with the names of the variables, for example, metabolites/genes, and different third column with r- و -values, على التوالى. At this stage the correlation threshold has to be selected.

2.1.4. Selection of Significant Interactions and Arrangement of the Data to the Network Format Spreadsheet Software

Correlation coefficients, ص, are the determining elements in CN construction the threshold of acceptable -value range and the threshold of its statistical significance will greatly affect the output of the network and its interpretation. The significance of a correlation is a two-factor concept. The first factor, the correlation coefficient (ص), is expressed as a value ranging from −1 to 1, where positive and negative values represent a relation, alike or inverse, between the changes in the measure of the two variables. The magnitude of the coefficient reveals the strength of this relationship. However, the reliability of the model also depends on a second factor: the probability (ص) of the detected r-values, reflecting a true relation. This value ranges from 0 to 1 and depends to a great extent on the sample size [32] but also on the experimental setup and the biological system of study. The selection of the threshold for both values depends largely on the researcher. It is trivial that

(perfect positive correlation) or

(perfect negative correlation) represent strong coordinated behaviors, while

shows the absence of a relation between the variables. But what can be said about intermediate r’s؟ The “rule of thumb” suggests that there is no absolute ص-threshold and different scientific disciplines apply different ص-القيمة thresholds. For example, in biology, thresholds from as low as |±0.3| have been proposed to be relevant, for example, for metabolic data in tomato introgression lines seeds and fruits [33], while in physics, an ص-القيمة lower than |±0.9| is often considered insignificant. عادة ص ≥ |±0.5| is considered as “strong” by most of researches in biological systems [34]. The -القيمة that reflects significance of a correlation is usually accepted at three levels: 0.05, 0.01, and 0.001 [32]. However, since correlation analysis is applied on large data sets, -القيم should usually be corrected by one of the آخر مخصص tests for MHT, such as the Bonferroni correction or the false discovery rate (FDR) method, with the aim of avoiding false positives.

After both parameters of significance are decided, create a new sheet and copy the first two columns from any of the sheets (they are identical). In the first cell of the third column input the following formula:


استنتاج

We have reviewed several classes of approaches for network embedding, including spectral-based methods, random-walk based approaches and deep neural network techniques. We have demonstrated the utility of these approaches in a broad set of applications, ranging from network alignment to community detection, protein function prediction, and network denoising. We have also discussed recent embedding approaches in pharmacogenomics. We were interested in seeing whether the field of network embedding indeed enhances the types of questions that can be answered using graph-based approaches and our conclusion is that there is value in both graph-based and graph-embedding-based methods in a variety of applications.

In our experiments we found that depending on the task at hand and metric used, sometimes graph-based methods outperformed network embedding tools. This was the case with, for example, IsoRank beating MuNK with respect to edge conservation in network alignment, whereas MuNK outperformed IsoRank according to the area under the precision recall curve with respect to node mapping. In community detection experiments, our results were reversed, where the embedding method outperformed the graph-based method 3 out of 4 times. In fact, there is no single metric according to which one type of method is consistently better than the other. Even in compute time, where embedding methods outperform graph-based methods most of the time, on the function prediction task graph-based GeneMANIA outperforms the embedding method Mashup. This implies that the choice of graph-based versus embedding-based method will depend on many factors, not just the task at hand, but also the aspect or evaluation measure of highest importance to the user.

The network embedding principles create new opportunities to model large network datasets and move beyond standard prediction tasks of node classification, link prediction, and node clustering. For example, given a partially observed network of interactions between drugs, diseases, and proteins, one might be interested in posing a logical query: “What proteins are likely to be associated with diseases that have both symptoms X and Y?” Such a query requires reasoning about all possible proteins that might be associated with at least two diseases, which, in turn, clinically manifest through symptoms X and Y. Valid answers to such queries correspond to subgraphs. Since edges in the network might be missing because of biotechnological limits and natural variation, naively answering the queries requires enumeration over all possible combinations of diseases (Hamilton et al., 2018) developed a network embedding approach that answers such complex logical queries and achieves a time complexity linear in the size of a query, compared to the exponential complexity required by a naive enumeration-based approach. The approach embeds nodes into a low-dimensional space and represents logical operators as learned geometric operations in this embedding space. They demonstrated the utility of the approach in a study involving a biomedical network of drugs, diseases, proteins, side effects, and protein functions with millions of edges.

We summarize network embedding tools that are used in the biomedical field in Table 2. We expect the importance of these tools to grow with the magnitude and complexity of biomedical data that are being generated.

الجدول 2. A summary of network embedding tools and their applications.


شاهد الفيديو: الأهمية الحيوية للكاربوهيدرات The biological roles of Carbohydrates (شهر فبراير 2023).