معلومة

تصور الملعب - لماذا لا يتم اكتشاف الأساسي المفقود مباشرة في القوقعة؟

تصور الملعب - لماذا لا يتم اكتشاف الأساسي المفقود مباشرة في القوقعة؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا أتعلم عن تصور الملعب ، وتعرفت على حالة الأساسي المفقود.

في الصورة الرئيسية لصفحة ويكيبيديا تلك ، يبدو الرسم البياني السفلي ، مع إزالة التردد الأساسي والثاني التوافقي ، أن الموجة لا تزال دورية للغاية عند 100 هرتز. بما أن عضو كورتي يحتوي على بعض المناطق التي يجب أن تكون متحمسًا عندما تكون هناك موجة صوتية بتردد 100 هرتز ، فلماذا لا تثير هذه الموجة الصوتية ، التي تبدو دورية عند 100 هرتز ، تلك المنطقة من العضو بشكل مباشر؟

هل يمكن لأي شخص أن يشرح طريقة عمل الأذن الداخلية والتفاصيل حول سبب عدم تنشيط الأساسي المفقود للقوقعة؟ بشكل عكسي ، كيف يمكن سماع 100 هرتز عندما لا يتم تنشيط القوقعة عند هذا التردد؟


الغشاء القاعدي في الأذن الداخلية (القوقعة) هو محول فورييه يعتمد على المكان (الشكل 1). هذا يعني أن هناك خريطة لونية منظمة مسقطة على الغشاء القاعدي (BM). يتم فرض موجات السفر على BM عبر سلسلة العظم والنافذة البيضاوية التي تبدأ من القاعدة وتنتقل على طول الطريق إلى القمة. على طول الطريق ، يتناقص تردد الرنين في BM تدريجياً ، حيث يصبح BM أكثر اتساعًا وأكثر مرونة (مثل أوتار البيانو).

الآن ، إذا كان هناك تردد معين مفقودًا ، فإن BM لا يتحرك في موقع التردد هذا ، وبالتالي لا يتم تنشيط خلايا الشعر ، ولا يتم تنشيط الخلايا العصبية التي لها هذه الخاصية المحددة أيضًا. كيف بحق السماء ما زلت تسمع هذا التردد؟

إن البنية التوافقية هي التي تحدد إدراكنا للنغمة ، بدلاً من أدنى مستوى توافقي وحده. أدمغتنا حساسة تجاه فرق التردد من أحد التوافقيين إلى التالي وقم بتأسيس الدرجة "الحقيقية" للنغمة بناءً على هذا الاختلاف. يشار إلى هذا باسم "نغمة الاختلاف". عندما تسمع نغمتين صافيتين ، تطرح الأذن والدماغ ترددًا واحدًا من الآخر ، و "تسمع" نغمة مع تكرار هذا الاختلاف (المصدر: جامعة تايوان الوطنية).

التين. 1. ضبط التردد في القوقعة. المصدر: جامعة نيويورك


تمييز الملعب

بناءً على الأدلة المتاحة ، يتطلب التمييز الدقيق للنغمة قشور سمعية أولية ثنائية ، في حين أن تحديد الفاصل الزمني للنغمة من المرجح أن يكون جانبيًا إلى نصف الكرة الأيسر ويعتمد على المناطق الأمامية والصدغية اليمنى التي تعمل في تصور دقيق لحني كفاف. يبدو أن تصور المقياس والانسجام يعتمد على المناطق الأمامية السفلية الثنائية ، وربما تكون جانبية أكثر إلى اليمين أكثر من نصف الكرة الأيسر. يرتبط تمييز Timbre ارتباطًا وثيقًا بنشاط نصف الكرة الأيمن. كل من الإيقاع والمتر لهما تمثيل نصف كروي ثنائي مع بعض الاعتماد على وظيفة المخيخ والعقد القاعدية. يبدو أن المتغيرات الموسيقية الزمنية يمكن فصلها عن بعضها البعض ويمكن فصلها أيضًا عن المتغيرات اللحنية.


قضية الأساسي المفقود

في حياتنا اليومية ، نأخذ تجربة التواصل المباشر مع العالم كأمر مسلم به: الرؤية ، والسمع ، واللمس ، والتذوق ، والشم. نحن هناك ، حاضرون بينما يتكشف العالم من حولنا.

لكن الاكتشافات الحديثة في علم الأعصاب أظهرت أنه بغض النظر عن مدى إقناع حواسنا بإخبارنا بأننا على اتصال مباشر بالعالم الخارجي ، فإن التجربة في الواقع يتم إنتاجها من خلال بنية عقلية معقدة بنيناها على مدى عمر من التجربة والخطأ. يجب أن تتم معالجة البيانات الواردة من حواسنا بواسطة أدمغتنا باستخدام هذا النموذج قبل أن يصبح إدراكنا للوعي.

عندما نتعلم كيف نلتقط الكرة كأطفال ، فإن جزءًا من الصعوبة التي نواجهها هو أنه بحلول الوقت الذي تتم فيه معالجة البيانات المرئية والتعرف عليها من قبل دماغنا ، تكون الكرة قد تحركت بالفعل من حيث نراها. أصبحت صورة الدماغ قديمة بحوالي ربع ثانية ، لذا لكي نلتقطها بنجاح ، علينا أن نتعلم من خلال التجربة كيفية الإسقاط في الوقت المناسب إلى المكان الذي ستكون فيه الكرة.

نحن لسنا على اتصال مباشر مع العالم على الإطلاق.

كما أشار عالم الأعصاب بجامعة ديوك ، ديل بيرفيس ، [1] ، فإن تجربتنا مع الصوت هي أيضًا بناء عقلي. يعمل الاختبار على نفس المبدأ الأساسي للرؤية: فهو يأخذ البيانات من خلال زوج من الأعضاء الحسية ويعالجها من خلال نموذج اختبار معقد قبل أن يصبح تجربة واعية.

ال الفيزياء يحدث الاهتزاز والرنين والموجات الصوتية في العالم الحقيقي.

لنا المعرفة من هذا الواقع هو تجربة داخل أذهاننا.

بصفتنا كائنات حية ناجحة (أي لا تزال على قيد الحياة!) ، يمكننا أن نفترض أن نموذجنا السمعي يتوافق مع الواقع المادي بدقة كافية لنا للبقاء على قيد الحياة في العالم الحقيقي.

العلاقة بين نموذجنا والعالم الحقيقي هي العلاقة بين الخريطة والتضاريس التي تحددها لتمثيلها. الخريطة ليست التضاريس.

هذا له بعض النتائج المثيرة للاهتمام. الفرق بين تردد و ملعب كورة قدم مثال جيد.

التردد و الملعب

التردد هو مقياس لمدى سرعة اهتزاز شيء ما.

الاهتزاز دوري. فكر في طفل يتأرجح - يتحرك المقعد المتأرجح للخلف وللأمام ، ويمر من خلال وضع الراحة المركزي في بداية كل دورة ومرة ​​أخرى في النهاية ، في طريقه مرة أخرى لبدء الدورة التالية.

التردد هو عدد الدورات المنجزة في ثانية واحدة. الوحدة جycles في الثانية يطلق عليه اسم هيرتز (هرتز). 10 هرتز هي 10 دورات / ثانية. 0.1 هرتز هي دورة بطيئة كل 10 ثوان.

التردد هو خاصية للموجات الصوتية التي تصل أذنك. النغمة هي نتيجة إعادة بناء دماغك لبيانات التردد التي تتلقاها الأذن في تجربة حسية.

النغمة هي الإحساس بـ "السمو" أو "الضعف" الذي نشعر به عندما نسمع نغمة. الملعب هو تصور وليس واقعًا ماديًا خارجيًا.

يمكنك مقارنة درجة الصوت في الاختبار بالألوان في الرؤية. إن إدراك اللون هو الطريقة التي تمثل بها أدمغتنا البيانات من العالم الخارجي والتي تتعلق بتكرار الضوء الذي تلتقطه أعيننا. "الأحمر" هو استجابتنا الحسية لترددات الضوء المنخفضة و "البنفسجي" للترددات الأعلى.

الملعب الذي ستسمعه في مقطع الصوت هذا هو مستوى منخفض من البيانو:

ملف صوتي 1: بيانو منخفض ملاحظة

(استخدم سماعات رأس عالية الجودة إن أمكن.)

يمكنك أن تدندن بهذه النغمة ، وكلنا نختبر نغمات مثلها كنغمات فردية. حتى أننا نلاحظ الأسماء: هذه ، على سبيل المثال ، تسمى أ2.

المزيد عن التردد

يوضح الرسم البياني أدناه تحليل تردد نوتة البيانو التي استمعت إليها للتو.

الشكل 1: طيف الطاقة لوتر بيانو منخفض

يسمى هذا الرسم البياني أ طيف طاقة التردد، وما يُظهره هو كيف تُشع الطاقة من وتر اهتزاز البيانو ، وتضخيمها بواسطة لوحة صوت الآلة.

ستكون النغمة النقية الواحدة مجرد واحدة من النغمات على الطيف.

هذا هو أول مؤشر على الفرق بين التردد - كمية قابلة للقياس - والنغمة ، وهو إحساس يصنعه الدماغ. نسمع نغمة واحدة ، ونختبر ارتفاعات التردد الأخرى مثل طابع الصوت من النوتة الموسيقية ، مما يسهل التعرف عليها على أنها بيانو.

في بعض الترددات ، لا يشع البيانو أي طاقة على الإطلاق ، بينما يضخ الطاقة الصوتية في نطاقات تردد ضيقة منفصلة. تسمى هذه السلسلة من طفرات الطيف أ سلسلة متناسقةوهو ينبع من الطرق الخاصة التي يمكن بها للوتر أن يهتز ولا يمكنه أن يهتز.

سأقوم الآن بالتبديل من نوتات البيانو إلى نوتات الجيتار [2].

ملف الصوت التالي هو ما تبدو عليه سلسلة الجيتار المفتوحة 5 عند التقطيع:

ملف صوتي 2: سلسلة الغيتار 5 (أ)

هذا هو طيف النوتة الموسيقية من وتر 110 هرتز للغيتار:

الرسم البياني 2: طيف الجيتار أ وتر 110 هرتز

قمم التردد التي تشكل هذه النغمة هي 110 و 220 و 330 و 440 و 550 و 660 و 770 و 880 و 990 هرتز.

هذه كلها مضاعفات الأساسية ، 110 هرتز. رياضياً ، يمكن توقع القمم باستخدام:

حيث يسمى n بالرقم التوافقي (1 ، 2 ، 3 ، إلخ).

لاحظ ، بالمناسبة ، أن المزيج التوافقي لأوتار الجيتار ليس غنيًا مثل نغمة البيانو. تسمع الفرق بين النغمات من حيث الجرس الذي ينبع من المزيج التوافقي الذي يتكون منه النغمات.

الفاصل الزمني OCTAVE

يُظهر الرسم البياني التالي طيف سلسلة غيتار G يتم عزفها على Fret 2 ، مع إعطاء ملاحظة ثانية.

استمع إلى الملاحظة أولاً:

ملف الصوت 3: سلسلة الغيتار G لعبت على الحنق الثاني

إليك ما يبدو عليه الطيف:

الرسم التخطيطي 3: طيف من الغيتار G الوتر يتم عزفه عند الحنق الثاني

القمم هنا عند 220 و 440 و 660 و 880 هرتز [3].

كنت تتوقع أن يبدو هذا مختلفًا عن نغمة A الأصلية مع الأساسي عند 110 هرتز ، وهو كذلك. يتعرف معظم الناس على اختلاف طبقة الصوت على أنه قفزة بمقدار جواب واحد.

الأساسيات المفقودة

أنت على وشك تجربة شيء غريب ومثير للاهتمام. يوجد ملفان صوتيان أدناه ، أولهما هو ببساطة ملاحظة سلسلة A (سلسلة 5) للغيتار.

ملف صوتي 4: جيتار ملاحظة

نعلم أن جوهرها هو 110 هرتز ، وأن سلسلتها التوافقية تعطى بواسطة fن= ن × 110.

الملف الصوتي الثاني هو نفس الملاحظة ، لكنني استخدمت مرشحًا لإزالة ارتفاع التردد الأول عند 110 هرتز ، تاركًا بقية الملاحظة دون مساس.

ملف صوتي 5: Doctored guitar ملاحظة مع الأساسي تمت إزالته

هذا هو طيف تلك الملاحظة المعدلة بشكل مصطنع:

الشكل 4: طيف الجيتار A وتر مع الأساسي (110 هرتز) إزالتها

هنا لدينا شيء غير طبيعي تمامًا - سلسلة توافقية 220 ، 330 ، 440 ، 550 هرتز. سلسلة طبيعية تبدأ من 220 هرتز ، كما هو موضح في الرسم التخطيطي 3، سوف تذهب 220 ، 440 ، 660 ، 880 هرتز.

قارن أصوات النغمتين (ملفات الصوت 4 و 5). بالنظر إلى أن النغمة المُعالجة لديها الآن أدنى ذروة لها عند 220 هرتز ، فقد تتوقع سماع النغمة كأوكتاف أعلى - لكنك لا تفعل ذلك!

اضطررت إلى إزالة الاستخدام الأساسي بشكل مصطنع الجرأةمرشح الشق. لا يوجد صوت طبيعي في العالم يتوافق مع ملاحظتي الطبية ، لذا فإن عقلك يعيد التردد المفقود مرة أخرى.

إن التعرف على النغمة هو إلى حد ما متصل بالدماغ ، وهناك مراكز مخصصة للنغمة ، والأذن بالتأكيد تزود الدماغ ببيانات ممتازة عن الملعب. نحن "نعلم" أنه ، باستثناء ذلك الأساسي المفقود ، فإن الترددات الموجودة في الملاحظة المعالجة تشكل سلسلة توافقية مماثلة لـ A 110Hz.

لا يضيع دماغنا أي وقت في الحيرة حول سبب عدم وجود الأساسيات - بدلاً من ذلك ، يملأ الفجوة فقط.

ماذا يمكننا أن نتعلم من هذا؟

بصرف النظر عن الإشارة إلى العلاقة المعقدة بين الفيزياء والإدراك ، فإن النقطة الأساسية هي أهمية علم الصوتيات في تحديد ما نسمعه. على سبيل المثال ، يمكننا التركيز على محادثة واحدة في غرفة صاخبة عن طريق تصفية الخلفية.

تستوعب علم الصوتيات النفسية أكثر بكثير من مجرد نموذجنا الصوتي للإدراك الذاتي. تغذي معرفتنا وافتراضاتنا الأوسع العملية أيضًا.

على سبيل المثال ، يعرف الجميع أن كمان Stradivarius هو الأفضل على الإطلاق ، على الرغم من حقيقة أن عددًا من الاختبارات العمياء قد أظهرت أن عازفي الكمان الخبراء غالبًا ما يفشلون في اختيار Strad من مجموعة أخرى من الآلات عالية الجودة. ربما تنبع خبرة أولئك الذين يعزفون ويستمعون إلى آلات Stradivarius من افتراضاتنا بقدر ما تنبع من الجودة الفائقة حقًا للآلات نفسها.

لأولئك المهتمين بالقيثارات ، يمكنني أن أوصي بشكل خاص بقطعة غور أند جيليت الضخمة مجلدات الغيتار الصوتية المعاصرة 1 و 2. تتعمق الأقسام 1.1.2 إلى 1.1.3 في كيفية عمل الأذن من حيث الهجوم والانحلال والخشونة والإخفاء على وجه الخصوص.

هذه الأحجام رائعة ولا يمكنني أن أوصي بها بدرجة كافية.

الموسيقى كعلم الأحياءبورفس ، مطبعة جامعة ديل هارفارد 2017

الغيتار الصوتي المعاصر المجلد 1 & أمبير 2جور ، تريفور وجيليت ، جيرارد تريفور جور للنشر 2011

يوجد أيضًا مقطع فيديو على موقع يوتيوب تريفور يشارك معرفته بفيزياء القيثارات الصوتية:

[1] الموسيقى كعلم الأحياءبورفس ، مطبعة جامعة ديل هارفارد 2017

[2] سبب التبديل هو أن البيانو يحتوي على عدد كبير من الأوتار غير المخمد التي يمكن أن يتردد صداها بحرية عندما تضغط على مفتاح معين. أظهر طيف الأوكتاف A بقوة 220 هرتز ارتفاعًا عند 110 هرتز لأن هذه السلسلة تردد صدى عندما بدت سلسلة 220 هرتز.

[3] بالنسبة لأولئك الذين يتساءلون عن الذروة الحادة للغاية عند 50 هرتز ، فإن هذا يأتي من مصدر الطاقة الكهربائية لدورة 50 في الغرفة.


الإحساس والإدراك (إجابات الاختبار)

المعيار: القيمة المحسوبة لأي قيمة على طول النطاق هي المكان الذي تقوم فيه بتبديل استجابتك من بديل إلى آخر (عندما يرن الهاتف بصوت أعلى بحيث تكون واثقًا من أنه يرن بالفعل)

العدسة: جهاز بصري قابل للتعديل خلف القرنية والحدقة يساعد في تركيز الضوء على شبكية العين

الخلط الزجاجي: سائل شفاف يملأ معظم حجم العين ويساعد على ثني الضوء في طريقه إلى الشبكية

شبكية العين: في الجزء الخلفي من العين وتحتوي على خلايا تكتشف الضوء وترسل إشارات إلى الخلايا العصبية التي ترسل المعلومات إلى الدماغ.

- تأتي المستقبلات الضوئية في شكلين: قضبان وأقماع

- القضبان: توجد بالدرجة الأولى في الجزء المحيطي من الشبكية وتتخصص في الكشف عن كميات صغيرة من الضوء ذات حدة مكانية منخفضة. يرسل معظمهم معلوماتهم لنشر الخلايا ثنائية القطب التي تتلقى مدخلات من أعداد كبيرة من القضبان ، مما يعزز القدرة على اكتشاف الإشارات الخافتة للغاية.

- المخاريط: تقع بشكل أساسي في مركز الشبكية وهي متخصصة في الكشف عن كميات كبيرة من الضوء ، مع حدة مكانية عالية ، ويمكن أن يكون لها ثلاث حساسيات مختلفة للأطوال الموجية (قصيرة ، متوسطة ، طويلة) ، والتي تشكل الأساس لإدراكنا لطول الموجة ولون. عادةً ما يرسلون معلوماتهم إلى الخلايا ثنائية القطب القزمة بأعداد صغيرة ، وبالتالي الحفاظ على الحدة المكانية العالية للمخاريط.

- ترسل الخلايا ثنائية القطب المنتشرة المعلومات إلى الخلايا العقدية المظلية (M) ، بينما ترسل الخلايا ثنائية القطب القزمة المعلومات إلى الخلايا القزمة أو الخلايا العقدية (P)


شكر وتقدير

تم دعم هذا العمل من خلال منح المعاهد الوطنية للصحة إلى X.W. و دي. نشكر ب.ديلجوت ، ود. االاعتناء بالحيوان. ساهم عيسى بالبيانات في خرائط التردد المميزة. و X.W. صمم التجربة وشارك في كتابة الورقة. ب. إجراء التسجيلات الكهربية وتحليل البيانات.


المواد والأساليب

الموضوعات التجريبية

Ferrets (Mustela putorius furo)

تم تدريب خمس إناث قوارض مصطبغة (تتراوح أعمارهن بين 6-24 شهرًا) في هذه الدراسة. قدرت حسابات القوة أن خمسة حيوانات كانت الحد الأدنى المناسب لحجم العينة للمقارنات المزدوجة الذيل مع ألفا = 5٪ ، حجم تأثير متوسط ​​(0.5) ، وبيتا = 20٪. تم إيواء Ferrets في مجموعات من 2-3 ، مع حرية الوصول إلى كريات الطعام. كان التدريب يحدث عادةً على مدار 5 أيام متتالية ، يليها يومين راحة. يمكن أن يشرب Ferrets الماء بحرية من الزجاجات الموجودة في صناديق المنزل في أيام الراحة. في أيام التدريب ، تم تلقي مياه الشرب كتعزيز إيجابي للمهمة ، وتم استكمالها كطعام رطب في المساء لضمان حصول كل نمس على 60 مل / كجم من الماء على الأقل يوميًا. تم إجراء فحوصات تنظير الأذن والنوع للتأكد من أن آذان الحيوانات نظيفة وصحية ، كما أكدت الفحوصات البيطرية عند الوصول وبعد ذلك سنويًا أن الحيوانات كانت بصحة جيدة. تمت الموافقة على الإجراءات المتعلقة بالحيوانات من قبل لجنة جامعة أكسفورد لرعاية الحيوان والمراجعة الأخلاقية وتم تنفيذها بموجب ترخيص من وزارة الداخلية في المملكة المتحدة ، وفقًا لقانون الحيوانات (الإجراءات العلمية) لعام 1986.

البشر

تم أيضًا فحص أداء تصنيف الملعب لـ16 شخصًا بالغًا (تسعة ذكور ، تتراوح أعمارهم بين 18 و 53 عامًا متوسط ​​العمر = 25.3 عامًا) ، والتي قدمت 60٪ بيتا في حسابات القوة الموصوفة للقوارض. أفاد جميع الأشخاص بأنهم يتمتعون بسمع طبيعي. تمت الموافقة على جميع الإجراءات التجريبية على البشر من قبل لجنة استخدام البشر كموضوعات تجريبية في معهد ماساتشوستس للتكنولوجيا.

تفاصيل الطريقة

محاكاة مرشح Cochlear

استخدمنا مصرفًا لفلتر القوقعة تم تطويره مسبقًا بواسطة باترسون وآخرون. (1992) ونفذها Slaney (1993) لمحاكاة تمثيلات الأصوات على الغشاء القاعدي. يحاكي النموذج استجابة الغشاء القاعدي للأصوات المعقدة كمجموعة من مرشحات Gammatone المتوازية ، ولكل منها تردد مميز مختلف ونطاق ترددي مستطيل مكافئ (ERB). من أجل مقارنة تمثيل معقدات النغمة التوافقية في قوقعة الإنسان وقوقعة النمس ، قمنا بتعديل هذا النموذج لاستخدام ثوابت الترشيح المشتقة إما من التقديرات النفسية الفيزيائية لمرشحات القوقعة البشرية (جلاسبيرج ومور ، 1990) ، أو تسجيلات العصب السمعي للنمس (سومنر و بالمر ، 2012). بناءً على هذه المصادر ، تم حساب عرض النطاق الترددي المستطيل المكافئ للمرشح i في القوقعة البشرية على النحو التالي:

حيث f i هو التردد المركزي للمرشح بوحدة هرتز.

بالنسبة لقوقعة النمس ، تم تقدير عرض النطاق الترددي المستطيل المكافئ لكل مرشح باستخدام التوافق الخطي التالي للبيانات في Sumner and Palmer (2012):

تم تصحيح خرج كل قناة في بنك مرشح جاماتون أعلاه بنصف موجة ثم ضغطها (إلى قوة 0.3) لمحاكاة نقل الصوت بواسطة خلايا الشعر الداخلية. أخيرًا ، تم ترشيح الخرج بتمرير منخفض عند 3 كيلو هرتز (مرشح FIR ، نطاق التمرير 3 كيلو هرتز ، نطاق التوقف 4 كيلو هرتز ، التوهين 60 ديسيبل) ليعكس حد قفل الطور للألياف العصبية السمعية. تشبه بنية النموذج تلك المستخدمة في الدراسات السابقة (مثل Karajalainen ، 1996 Roman et al. ، 2003).

جهاز التدريب

تم تدريب Ferrets على تمييز الأصوات في غرف الاختبار المصممة خصيصًا ، والتي تم إنشاؤها من قفص شبكي سلكي (44 × 56 × 49 سم) بأرضية بلاستيكية صلبة ، موضوعة داخل صندوق معزول الصوت مبطن بالرغوة الصوتية لتخفيف الصدى. تم تركيب ثلاثة أنابيب كزة بلاستيكية تحتوي على صنبور ماء داخلي على طول أحد جدران القفص: "فوهة البداية" المركزية و "فتحات الاستجابة" على اليسار واليمين (الشكل 2 أ). تم الكشف عن وخزات أنف Ferrets عن طريق كسر شعاع LED بالأشعة تحت الحمراء عبر فتحة الأنبوب ، وتم توصيل الماء من الأنبوب باستخدام ملفات لولبية. تم تقديم محفزات الصوت ، بما في ذلك إشارات التغذية المرتدة الصوتية ، عبر مكبر صوت (FRS 8 Visaton ، Crewe ، المملكة المتحدة) مركب فوق الفوهة المركزية ، والتي كانت لها استجابة مسطحة (± 2 ديسيبل) من 0.2 إلى 20 كيلو هرتز. تم أتمتة المهام السلوكية والحصول على البيانات وتوليد التحفيز باستخدام كمبيوتر محمول يعمل برمز MATLAB المخصص (The Mathworks ، Natick ، ​​MA ، الولايات المتحدة الأمريكية) ، ومعالج في الوقت الفعلي (RP2 Tucker-Davis Technologies ، Alachua ، FL ، الولايات المتحدة الأمريكية ).

التدريب قبل

أجرت Ferrets دورتين تدريبيتين يوميًا ، وأكملت عادةً 94 ± 24 تجربة لكل جلسة (يعني ± الانحراف المعياري). تم تنفيذ عدة مراحل ما قبل التدريب لتشكيل سلوك الحيوانات لمهمة التصنيف لدينا. في الجلسة الأولى ، تلقت الحيوانات مكافأة مائية كلما نقرت أنفها في أي من الفوهة. بعد ذلك ، حصلوا على مكافآت مائية فقط عندما تناوبوا بين الأنبوب المركزي والمحيطي. كانت مكافأة الماء المقدمة من أنابيب الاستجابة المحيطية (0.3-0.5 مل لكل تجربة) أكبر من المكافأة المقدمة في صنبور البدء المركزي (0.1-0.2 مل لكل تجربة). كان مطلوبًا من الحيوان البقاء في كزة الأنف المركزي لمدة 300 مللي ثانية لتلقي مكافأة مائية من هذا الفوهة.

بمجرد أن تؤدي الحيوانات هذه المهمة بكفاءة ، تم تقديم المنبهات الصوتية في الجلسة التالية. في بداية كل تجربة ، تم تقديم "مرجع" متكرر للنغمة النقية (مدة 200 مللي ثانية ، فاصل بين نغمات 200 مللي ثانية ، و 60 ديسيبل SPL) للإشارة إلى إمكانية تنشيط الفوهة المركزية. نتج عن ثقب الأنف في الفوهة المركزية عرض "هدف" متكرر لهجة معقدة (مدة 200 مللي ثانية ، فاصل 200 مللي ثانية بين النغمات ، 70 ديسيبل SPL) بعد تأخير 100 مللي ثانية. طُلب من الحيوان مرة أخرى أن يظل في المركز لمدة 300 مللي ثانية ، وأدت الإصدارات المبكرة الآن إلى عرض انفجار ضوضاء عريض النطاق "خطأ" (مدة 200 مللي ثانية ، و 60 ديسيبل SPL) ومهلة 3 ثوانٍ قبل بدء تجربة جديدة . يمكن أن تأخذ النغمة المستهدفة إحدى قيمتي F0 المحتملتين ، والتي تتوافق مع المكافآت في أحد النقطتين المحيطيتين (المكافآت اليمنى لأهداف F0 العالية ، وتترك لـ F0s المنخفضة). لجميع مراحل التدريب والاختبار ، احتوت النغمات المستهدفة على التوافقيات داخل نفس نطاق التردد ، بحيث لا يمكن للحيوانات استخدام القطع الطيفية لتصنيف الأصوات. استمرت النغمة المستهدفة في اللعب حتى استجاب الحيوان عند الفوهة المحيطية الصحيحة ، مما أدى إلى مكافأة الماء. بمجرد أن تتمكن الحيوانات من أداء مهمة الاختبار النهائي هذه بدقة تصل إلى 70٪ عبر التجارب ، تقدموا إلى اختبار تصنيف الملعب.

مراحل الاختبار والمحفزات

تم تقديم هدف النغمة المعقدة مرة واحدة فقط لكل تجربة ، وأدت خيارات صنبور المحيطية غير الصحيحة إلى حدوث ضوضاء خطأ وانتهاء مهلة 10 ثوانٍ (الشكل 2 ب). بعد مثل هذا الخطأ ، كانت التجربة التالية عبارة عن تجربة لتصحيح الخطأ ، حيث كان F0 المقدم هو نفسه تجربة التجربة السابقة. تم تضمين هذه التجارب لثني القوارض عن الاستجابة دائمًا في نفس الفوهة المحيطية. إذا فشل النمس في الاستجابة عند أي من الفوهة الطرفية لمدة 14 ثانية بعد العرض التقديمي المستهدف ، فقد تمت إعادة تشغيل التجربة.

تم ضبط تردد النغمة المرجعية على منتصف المسافة بين F0s المستهدفة المنخفضة والعالية على مقياس لوغاريتمي. قمنا بفحص أداء تصنيف النغمة باستخدام زوجين من أهداف النغمة المعقدة في كتل تجريبية منفصلة: الأول مع F0s من 500 و 1000 هرتز (مرجع 707 هرتز) ، والثاني بأهداف 150 و 450 هرتز (مرجع 260 هرتز). تم اختيار الأهداف 150 و 450 هرتز للتداخل مع نطاق F0 الذي اختبرناه في المستمعين من البشر (أدناه). تم تضمين الشرط 500 و 1000 هرتز لأن القوارض غالبًا ما تؤدي أداءً أفضل في مهام تمييز الملعب في هذا النطاق مقارنة بالأصوات ذات F0s الأقل (Walker et al. ، 2009). تم تدريب أربعة قوارض على إشارة 707 هرتز. تم تدريب اثنين من هذه الحيوانات ، بالإضافة إلى حيوان ساذج إضافي ، على إشارة 260 هرتز. في كل حالة ، تم إجراء الاختبار على ثلاث مراحل ، حيث ظلت مهمة النمس كما هي ولكن تم تغيير مجموعة فريدة من معلمات التحفيز (الشكلان 3 و 4) ، كما هو موضح أدناه. تم تخصيص Ferrets للظروف المرجعية 260 و 707 هرتز بناءً على توفرها في وقت الاختبار.

المرحلة 1: كانت الأصوات المستهدفة عبارة عن مجمعات لهجة تحتوي على جميع التوافقيات ضمن نطاق تردد واسع (المحدد في الشكل 4 ب). تم اختيار أزواج المحفزات المستهدفة لتكون إما أوكتاف واحد (عامل اثنين 500 و 1000 هرتز) أو عامل من ثلاثة (150 و 450 هرتز) على حدة بحيث يمكن مطابقة نطاقات التوافقيات الخاصة بهم في النطاق الطيفي تمامًا. عندما قام حيوان بهذه المهمة وصحح 75٪ في ثلاث جلسات متتالية ، (32.8 ± 7.1 جلسة من بداية التدريب يعني ± الانحراف المعياري n = 4 قوارض) ، انتقلوا إلى المرحلة 2.

المرحلة الثانية: في 80٪ من التجارب ، تم تقديم نفس النغمات المستهدفة القياسية من المرحلة الأولى. 20٪ الأخرى من التجارب كانت "تجارب مسبار" ، حيث تمت مكافأة النمس بغض النظر عن الفوهة المحيطية التي اختارها ، دون مهلة أو تجربة تصحيح الخطأ. تم تشذير التجارب المسبار بشكل عشوائي مع التجارب المعيارية. اختلفت محفزات المسبار فقط عن طريق إضافة الضوضاء الوردية (0.1-10 كيلو هرتز) إلى الأصوات المستهدفة ، من أجل إخفاء منتجات تشوه القوقعة المحتملة عند F0. تم ضبط مستوى حاجب الضوضاء بحيث تكون الطاقة عند خرج مرشح Gammatone المتمركز في F0 (مع عرض النطاق الترددي المطابق لقياسات العصب السمعي في هذا النطاق [Sumner and Palmer ، 2012]) أقل بمقدار 5 ديسيبل من مستوى مكونات النغمة النقية للهدف. يعد هذا تحفظًا لأنه من المتوقع أن تكون منتجات التشويه أقل من مستوى مكونات التحفيز بمقدار 15 ديسيبل على الأقل بناءً على القياسات عند البشر (نورمان هاينيري وماكدرموت ، 2016 Pressnitzer and Patterson ، 2001). عندما قام حيوان بهذه المهمة و gt 75٪ صحيح في ثلاث جلسات متتالية ، انتقلوا إلى المرحلة 3.

المرحلة 3: خدم منبه المسبار من المرحلة الثانية كصوت "قياسي" في 80٪ من التجارب ، وتضمنت جميع المحفزات (سواء المعيارية أو المسابير) حاجب الضوضاء الوردي الموصوف أعلاه. كانت عشرون في المائة من التجارب عبارة عن تجارب مسبار ، كما في المرحلة 2 ، ولكن هذه المرحلة احتوت على نغمات تم التلاعب بها لتغيير إشارات النغمة المتاحة. لقد قدرنا قابلية حل التوافقيات الفردية باستخدام قياسات ERB المتوفرة في تسجيلات العصب السمعي المنشورة مسبقًا (Sumner and Palmer ، 2012). بالنسبة إلى F0 ، تم تقريب عدد التوافقيات التي تم حلها كنسبة F0 وعرض النطاق الترددي لألياف العصب السمعي بتردد مميز عند ذلك F0 ، كما وصفه Moore و Ohgushi (1993) ، وطبقه Osmanski et al. (2013). نتج عن هذا المقياس بين 1 و 8 التوافقيات التي تم حلها للقوارض ، اعتمادًا على F0 (الشكل 4 أ). تم تقديم أربعة أنواع من محفزات المسبار: (1) "التوافقيات المنخفضة" ، والتي تحتوي فقط على التوافقيات المفترض حلها (2) "التوافقيات العالية" ، التي تتألف من التوافقيات التي يُفترض أنها لم يتم حلها (3) "كل التوافقيات العشوائية المرحلة" ، والتي تحتوي على نفس مجموعة التوافقيات مثل المعيار ، ولكن تم اختيار أطوارها بشكل عشوائي بشكل مستقل من أجل تقليل إشارات الغلاف الزمني للنغمة و (4) `` مرحلة التوافقيات العشوائية العالية '' ، والتي تحتوي على التوافقيات الموجودة في محفزات `` التوافقيات العالية '' ، ولكن مع مراحل عشوائية. تم اختيار قطع ممر الموجة لمحفزات المسبار بحيث تحتوي تحقيقات "التوافقية المنخفضة" ، ولكن ليس "التوافقية العالية" ، على التوافقيات التي تم حلها لمستمعي النمس. تم تقديم كل محفز مسبار في 40 تجربة على الأقل لكل نمس ، بينما تم اختبار المعيار على أكثر من 1000 تجربة لكل نمس.

مهمة بشرية نفسية فيزيائية

تم اختبار العناصر البشرية في مهمة تصنيف الملعب التي تم تصميمها لتكون مشابهة قدر الإمكان للمرحلة 3 من مهمة ابن مقرض (انظر أعلاه). قام 16 موضوعًا بتمييز الهدف F0s من 180 و 220 هرتز. نظرًا لاختلاف F0 الأصغر المطلوب لجعل المهمة صعبة بما يكفي لتحدي المستمعين من البشر (Walker et al. ، 2009) ، لم يكن من الممكن مطابقة الحافة الطيفية السفلية لمحفزات 'Low Harmonic' و 'All Harmonic' كما نحن فعل للقوارض. ومع ذلك ، تم تعيين المحفزات بحيث يكون لهدف F0 الأعلى حافة طيفية أقل. نتيجة لذلك ، كانت إشارات الحافة هذه غير متوافقة مع F0. نظرًا لعدم تقديم التعليقات ، فمن غير المرجح أن يتعلم الأشخاص ربط حافة طيفية أقل مع F0 الأعلى والعكس صحيح. وبالتالي ، فإن هذا التحفيز يربك إذا كان من المحتمل أن يؤدي أي شيء إلى جعل المهمة أكثر صعوبة في ظروف "التوافقية المنخفضة" و "جميع التوافقيات". نظرًا لأن اكتشافنا الرئيسي هو أن الأداء النسبي للبشر كان أفضل من أداء القوارض في هذه الظروف ، فمن غير المرجح أن يكون قد أثر على النتائج الرئيسية.

في المهمة النفسية الجسدية ، قُدم للمستمع من البشر نفس فئات المحفزات الموصوفة أعلاه للقوارض. يتم سرد نطاقات التردد المضمنة في محفزات المسبار في الشكل 4 ب. تم تقديم الأصوات عبر سماعات الرأس (Sennheiser HD280) في حجرة مخففة للصوت (Industrial Acoustics ، الولايات المتحدة الأمريكية). تم تقديم نغمة مرجعية نقية متكررة (مدة 200 مللي ثانية ، فاصل زمني 200 مللي ثانية ، 60 ديسيبل SPL) في بداية التجربة ، وبدأ الموضوع عرض مجمع النغمة التوافقية المستهدفة (مدة 200 مللي ثانية ، 70 ديسيبل SPL) مع بضغطة مفتاح. ثم سأل النص على شاشة الكمبيوتر الموضوع عما إذا كان الصوت المسموع هو طبقة الصوت المنخفضة أو العالية ، والتي أجاب عليها الأشخاص بضغطة زر أخرى (1 = منخفض ، 0 = مرتفع). تم تقديم التعليقات على الشاشة بعد كل تجربة للإشارة إلى ما إذا كان الموضوع قد استجاب بشكل صحيح أم لا. نتج عن الاستجابات غير الصحيحة للمنبهات القياسية تقديم انفجار ضوضاء عريض النطاق (مدة 200 مللي ثانية ، و 60 ديسيبل SPL) ومهلة 3 ثوانٍ قبل بدء التجربة التالية. لم يتم استخدام تجارب تصحيح الخطأ مع الأشخاص ، حيث لم يكن لديهم تحيزات قوية في الاستجابة. تم تقديم النغمات المعقدة التوافقية القياسية في 80٪ من التجارب ، وتم تقديم المجسات الأربعة ("التوافقيات المنخفضة" و "التوافقيات العالية" و "المرحلة العشوائية لجميع التوافقيات" و "المرحلة العشوائية العالية التوافقية") على 20٪ من المشذرات العشوائية محاكمات. كانت التعليقات على المحاكمات "صحيحة" دائمًا ، بغض النظر عن ردود المستمعين. أُعطي البشر 10 تجارب تدريبية مع المحفزات القياسية قبل الاختبار ، حتى يتمكنوا من معرفة أي المحفزات كانت منخفضة وعالية ، وكيفية الاستجابة باستخدام لوحة المفاتيح. تم اختبار كل محفز مسبار على 40 تجربة لكل موضوع ، بينما تم اختبار المعيار على 680 تجربة لكل موضوع.

القياس الكمي والتحليل الإحصائي

تحليل البيانات النفسية الفيزيائية

تم استبعاد تجارب تصحيح الخطأ من جميع تحليلات البيانات ، وكذلك البيانات من أي جلسة اختبار سجل فيها الموضوع أقل من 60٪ في التجارب القياسية. تم استخدام اختبارات T و ANOVAs مع ألفا بنسبة 5 ٪ طوال الوقت لتقييم الأهمية الإحصائية.

نظرًا لأن 3 فقط من القوارض الأربعة تم تدريبها على كلا المرجعين (تم تدريب النمس الأخير فقط على الحالة المرجعية 707 هرتز) ، فإن القياسات المتكررة ANOVA المستخدمة لتحليل بيانات النمس اقتصرت على هذه القوارض الثلاثة. أشار ANOVA هذا إلى أن تأثيرات الأداء لم تختلف بشكل كبير عبر الحيوانات. لذلك أجرينا بقية تحليلنا أثناء معاملة القوارض كتدابير مستقلة في الحالتين ، مما يسمح لنا بتضمين جميع القوارض الأربعة (وإلا فإن ANOVA سيكون غير متوازن). نظرًا لأن سلوك الحيوان يتطلب عمالة مكثفة للغاية لجمعه ، فقد قررنا التضحية بتحليل القياس المتكرر ليشمل النمس الرابع. على أي حال ، كانت نتائجنا قوية بما فيه الكفاية بحيث لا تتطلب حساسية إضافية لتحليل المقاييس المتكررة.

تظهر أشرطة الخطأ في الشكلين 1 و 5 تعني ± أخطاء معيارية. يتم توفير مزيد من التفاصيل حول جميع الاختبارات الإحصائية الموضحة هنا كجداول (ملفات تكميلية 1 أ -1 ك).

نظرًا لأن البشر حققوا أعلى نسبة مئوية من الدرجات الصحيحة بشكل عام من القوارض في المهمة السلوكية ، قمنا بتطبيع درجات المسبار مقابل الدرجات القياسية عند المقارنة المباشرة للأداء بين الأنواع. تم تمثيل درجة كل نوع في كل حالة مسبار على النحو التالي:

حيث P n o r m هي درجة المسبار المعيارية للأنواع a في المسبار i ، و P a i هي النسبة المئوية الصحيحة للأنواع a على المسبار i ، و S a هي النسبة المئوية الصحيحة للأنواع a في التجارب القياسية. إذا كان أداء الأنواع a غير معطوب بالنسبة لمحفز مسبار معين i بالنسبة إلى المنبه القياسي ، فإن P n o r m a i يساوي 1. إذا كان المستمعون غير قادرين تمامًا على تمييز F0 للمسبار ، فعندئذٍ P n o r m a i = 0.

البيانات والبرامج المخصصة المطورة في هذه المخطوطة متاحة في أرشيف درياد.


2 إجابات 2

هذا ما نسميه في مجال الكشف عن درجة الصوت ، & quotمشكلة اوكتاف& مثل.

بادئ ذي بدء ، أود تغيير AMDF إلى ASDF. ولن أقوم بتقليل حجم النافذة مع زيادة التأخير. (أيضًا ، أقوم بتغيير الترميز إلى ما أعتبره أكثر تقليدية. & quot $ x [n] $ & quot هي إشارة زمنية منفصلة.)

دالة متوسط ​​الفرق التربيعي (ASDF) البالغة $ x [n] $ في المنطقة المجاورة للعينة $ x [n_0] $ هي:

$ Q_x [k، n_0] triangleq frac <1> مجموع حدود_^ يسار (x [n + n_0- يسار l دور tfrac<2> right rfloor] - x [n + n_0- left lfloor tfrac<2> right rfloor + k] right) ^ 2 $

$leftlfloor cdot ight floor$ is the floor() function and, if $k$ is even then $ leftlfloor frac<2> ight floor = leftlfloor frac<2> ight floor = frac <2>$ .

Now, expand the square and consider what the summations look like as $N o infty$ (not that $N$ يكون going to infinity, but to give you an idea if $N$ is large). The ASDF is directly related to the autocorrelation. It is essentially the autocorrelation turned upside down. These steps I will leave to you. take a look at this answer.

So now consider this finite-length "autocorrelation" (in the neighborhood of sample $x[n_0]$ ) defined from the ASDF:

$ R_x[k,n_0] = R_x[0,n_0] - frac12 Q_x[k, n_0] $

$ R_x[0, n_0] riangleq frac<1> sumlimits_^ Big(x[n+n_0-leftlfloor frac<2> ight floor]Big)^2 $

This value $R_x[0,n_0]$ is a measure of the mean power of the signal $x[n]$ in the neighborhood of $n approx n_0$ . Since $Q_x[0,n_0]=0$ and $Q_x[k,n_0] ge 0$ for all lags $k$ , that means that $ R_x[k,n_0] le R_x[0,n_0] $ for all lags $k$ .

Another useful way to look at this autocorrelation taking place in the neighborhood centered at sample $x[n_0]$ is to normalize $R_x[k, n_0]$ with $R_x[0, n_0]$ :

This normalized autocorrelation has $r_x[0,n_0]=1$ and $r_x[k,n_0] le 1$ for all other $k$ .

Suppose for a minute that $x[n]$ is periodic with period $P$ (and $P$ happens to be an integer), then

and $Q_x[mP, n_0] = 0$ and $R_x[mP, n_0] = R_x[0, n_0] ge R_x[k, n_0]$ for any integer number of periods ( $m$ is an integer). So you get a peak at $k=0$ and at $k$ equal to any other multiple of $P$ if $x[n]$ is periodic. If $x[n]$ is ليس perfectly periodic, what we might expect is the biggest peak at $k=0$ , another peak (but slightly smaller) at $k=P$ (the period we are looking for) and progressively smaller peaks for larger multiples of $P$ .

We can then expect that the value of the normalized autocorrelation, $r_x[k,n_0]$ evaluated at a lag of $k=P$ or other multiples of $P$ should be pretty close to 1. That value $r_x[P,n_0]$ can be thought of as a measure of the degree of periodicity (sometimes called the pitch confidence) of the estimated period $P$ for the quasiperiodic $x[n]$ in the neighborhood of $n approx n_0$ . If $r_x[P,n_0]=1$ , we can say that $x[n]$ is perfectly periodic with period $P$ . If the best $r_x[k,n_0]$ you can get (with $k$ that's not close to $k=0$ ) is very small, then $x[n]$ shows لا periodicity and your pitch confidence is low.

لذلك octave problem comes about because of a couple of reasons. First of all, $P$ is not necessarily an integer. That is an interpolation problem, not a big deal.

The second reason and more difficult problem is that of subharmonics. Consider that you're listening to a nice periodic tone at exactly A-440 Hz and it sounds like an A that is 9 semitones above middle C. Now suppose someone adds to that tone a very tiny-amplitude (like down 60 dB) A-220? What will it sound like and mathematically what is the "true" period?

Choosing the "right" peak for the period.

Let's say you run your note through a DC-blocking filter, so that the mean of $x[n]$ is zero. It turns out that causes the mean of the autocorrelation $R_x[k, n_0]$ for every $n_0$ to also be zero (or close to it if $N$ is large). That means $R_x[k, n_0]$ must sum (over $k$ ) to be about zero which means there is as much area above zero as below.

Okay, so $R_x[0, n_0]$ represents the power of $x[n]$ in the vicinity around $n=n_0$ and must be non-negative. $R_x[k, n_0]$ never exceeds $R_x[0, n_0]$ but can get as large as it when $x[n]$ is periodic. $R_x[P, n_0] = R_x[0, n_0]$ if $x[n+P]=x[n]$ . So if $x[n]$ is periodic with period $P$ and you have a bunch of peaks spaced apart by $P$ and you have an idea for how high those peaks should be. And if the DC component of $R_x[k, n_0]$ is zero, that means in-between the peaks, it يجب have negative values.

If $x[n]$ was "quasi-periodic", one cycle of $x[n]$ will look a lot like an adjacent cycle, but not so much like a cycle of $x[n]$ farther down the signal in time. That means the first peak $R_x[P, n_0]$ will be higher than the second at $R_x[2P, n_0]$ or the third $R_x[3P, n_0]$ . One could use the rule to always pick the highest peak and expect the highest peak to always be the first one. But, because of inaudible subharmonics, sometimes that is not the case. sometimes the second or possibly the third peak is oh-so-slightly higher. Also, because the period $P$ is likely not an integer number of samples but $k$ in $R_x[k, n_0]$ is always an integer, so the true peak will likely be in-between integer values of $k$ . Even if you were to interpolate where the smooth peak is (which I recommend and quadratic interpolation is good enough), and how high it really is between integer $k$ , your interpolation alg could make a peak slightly higher or slightly lower than it really is. So choosing the absolutely highest peak can result in spuriously picking the second over the first peak (or vise versa) when you really wanted the other.

So somehow you have to handicap the peaks at increasing $k$ so that the first peak has a slight advantage over the second, and the second over the fourth (the next octave down), etc. How do you do that?

You do that by multiplying $R_x[k, n_0]$ with a decreasing function of $k$ so that the peak at $k=2P$ is reduced by some factor, relative to an identical peak at $k=P$ . Turns out that the power function (not the exponential) does that. so compute

So, if $x[n]$ were perfectly periodic with period $P$ , and ignoring interpolation issues for non-integer $P$ , then

The factor by which the peak for a pitch of one octave lower is reduced is the ratio

So if you want to give your first peak a 1% boost over the second peak, which means you will not choose the pitch to be the sub-harmonic pitch, unless the sub-harmonic pitch autocorrelation is at least 1% more than the first peak, you would solve for $alpha$ from

That is the consistent way to weight or de-emphasize or handicap the peak corresponding to the subharmonic pitch one octave below.

It still leaves you with a thresholding issue. You have to choose $alpha$ well. But this is a consistent way emphasize the first peak over the second, which is an octave lower, but not so much that if the note really يكون an octave lower, but the energy in all of the even harmonics was strong, compared to the odd harmonics, this will still leave a possibility for the second peak being chosen.


الملخص

Pitch is one of the most important features of natural sounds, underlying the perception of melody in music and prosody in speech. However, the temporal dynamics of pitch processing are still poorly understood. Previous studies suggest that the auditory system uses a wide range of time scales to integrate pitch-related information and that the effective integration time is both task- and stimulus-dependent. None of the existing models of pitch processing can account for such task- and stimulus-dependent variations in processing time scales. This study presents an idealized neurocomputational model, which provides a unified account of the multiple time scales observed in pitch perception. The model is evaluated using a range of perceptual studies, which have not previously been accounted for by a single model, and new results from a neurophysiological experiment. In contrast to other approaches, the current model contains a hierarchy of integration stages and uses feedback to adapt the effective time scales of processing at each stage in response to changes in the input stimulus. The model has features in common with a hierarchical generative process and suggests a key role for efferent connections from central to sub-cortical areas in controlling the temporal dynamics of pitch processing.


Perception - Lecture notes 1-6

“Out there” (outside of our mental state) there is only الفيزياء and “In here” there is only علم النفس (i.e., neural activity). Physical stimuli are “transduced” into nerve impulses by our sense organs. We experience these as a reconstruction or representation of the world: sounds, shapes, colours, smells, heat, etc. Perception (also Psychophysics) deals with the relationship between physical stimuli &amp their subjective, or psychological correlates. There is no other way for information to enter the brain. Perception determines what we believe is real and mediates everything we have ever learned. An understanding of Perception is crucial to Psychology.

Five Is that it? (Additional?)  Sight (Visual - eyes)  Hearing (Auditory - ears)  Smell (Olfactory - nose)  Taste (Gustatory - tongue)  Touch (Tactile, also Haptic - skin)

 Balance (Equilibrioception, vestibular system)  Body awareness (Proprioception, joints)  Heat (Thermoception, skin/internal)  more? (Debatable)

 Vision  Audition  The Chemical Senses - Gustation - Olfaction  The Body Senses - Somatosensation o Taction/Haptics o Proprioception - Equilibrioception

Areas of Psychology impacted by Perception

  • Apperceptive/Associative Agnosia
    • Inability to recognise objects
    • Due to a perceptual problem, or higher?
    • See also agnosias in other senses (auditory, tactile, etc)
    • Weapons Focus
    • Facial Identification
      • Police Identity Parades
      • Other Race Effect

      Illusions &amp aftereffects

       Illusions of Spatial Vision o Simultaneous brightness contrast o Craik O’Brien/ Corn sweet Illusion o Adelson Checkerboard o Café Wall illusion o The Fraser Spiral  Illusions of Colour Vision o “The Dress” o Colour aftereffects  Illusions of Depth o Perspective (Ames Room) o Julian Beever – pavement art o Steropsis (3D movies) o Autostereograms  AKA “SIRDS” (Single Image Random Dot Stereograms)  AKA “MagicEye™”  Illusions in Faces o Thatcher illusion  Illusions of Motion o Rotating snakes o Motion aftereffect – MAE “Waterfall illusion”

      Transduction  First stage of any sensory process  Receptors turn energy into neural signals  Impulses travel along axons, to terminals which release neurotransmitters across synapses to be received by another cell

      Hierarchical Processing  Neural impulses travel “up” the system to the cortex  “Relay station” in the Thalamus (except for olfaction)  Higher cortical areas also involve lateral &amp feedback connections  Bottom-up o Flow of information from sensory receptors towards “higher” cortical areas with increasing levels of complexity  Top-down o Prior knowledge influences what is perceived  It is ليس a dichotomy – bottom-up and top-down must happen together  Both undeniably exist o There MUST be bottom-up, otherwise how would information get in? o Patients in a coma, or anaesthetised animals show substantial activation through the visual pathway o Top-down influences are clear in the dolphin example,

      successful discrimination o Sometimes called the “just noticeable difference” (JND) o E.g., How different in brightness do 2 circles have to be before we can reliably tell them apart? o Lower is better – means you don’t need much light Adaption: consequences for detection, consequences for perceived intensity &amp discrimination

       Prolonged stimulation results in a decrease in the rate of firing (physiology)  Various perceptual consequences o Increased detection thresholds for same/similar stimuli o Reduction of perceived intensity for similar suprathreshold stimuli o Perceived properties of other similar stimuli can appear biased e.g., the motion aftereffect that you saw in the first hour

      Anatomical Methods (dead brains)

       Visible Differences o White/Grey Matter  Staining o Reveals axons/connections o Reveals cell body density &amp size o Reveals activity (cytochrome oxidase)

      Recording Techniques (live brain)

       Invasive (mostly animals) o Single Cell Recording - Anaesthetised or awake - Microstimulation (awake) - High spatial &amp temporal resolution - Difficult to get the “big picture” o Optical Imaging - Blood flow dependent changes - Small area of cortical surface - Slow response  Non-invasive (mostly human) o Visually Evoked Potential (VEP) &amp Magnetoencephalography (MEG) - Measures electric currents or magnetic fields from cortex with sensors on the scalp - But which cells are responsible? - Fast responses o Positron Emission Tomography (PET) &amp Functional Magnetic Resonance Imaging (fMRI) - PET: inject radioactive glucose &amp track it around the brain - fMRI: differences between oxygenated &amp deoxygenated blood - Slow responses

       Animal studies - Neurotoxins (specific pathway) or surgery (specific area)  Human Neuropsychology - Usually diffuse damage, and often varying patterns of deficit  Problems:

      • Damage to fibres passing through can affect areas far from lesion
      • Brains recover from damage (“plasticity”)
      • Need to know the right test  Transcranial Magnetic Stimulation (TMS)
      • مؤقت
      • Magnetic field “knocks out” cells over a broad area
      • Temporally precise, spatially imprecise

      Sound, Ear &amp Brain Auditory Perception

      Sound Sound consists of pressure waves carried by vibrating air molecules.

      Complex Sounds: Adding Waves Together

      Sound waves are “Linear”, i.e., they add together logically (sum the values at each point in time). Natural sounds are a collection of simple sine waves added together. The waveform of any sound can be expressed as a sum of sine waves with different frequencies, amplitudes, and phases. Just as you can add sine waves to make more complex waveforms, you can do the opposite too. Decomposing a complex sound into its component frequencies is called “ Fourier analysis ”.

      We can re-plot the sound as amplitude ضد. frequency called a spectrum. The component with the lowest frequency is called the التردد الأساسى , which gives the sound its characteristic pitch. Harmonic frequencies are components of sound that have a frequency that is an integer multiple of the fundamental frequency

      Fourier Analysis: to decompose a complex sound into its frequency (sine- wave) components. This ‘decomposition’ is usually displayed visually in a spectrogram – a graphical representation of changes in the frequency content of a signal over time. Time is plotted horizontally, frequency is plotted vertically, and amplitude is represented by the darkness of the plot.

      Time is plotted horizontally, frequency is plotted vertically, and amplitude is represented by the darkness of the plot.

      Far more complex than simple sine waves.

      Filters separate things on the basis of a given property e.g., a coffee filter separates things on the basis of particle size. Let’s the liquid through (small particles), but “filters out” the granules (large particles). “Low-pass filter”.

      Fourier filters allow certain frequency components of a sound to pass while blocking others e.g., sound travelling pass the head. Head obstructs high frequencies, thus acts as a low-pass filter.

      Outer Ear Pinna: the flexible flap on the outside of the ear. Focuses sound waves into the ear canal (meatus). Shape &amp size of outer ear have the effect of amplifying medium sound frequencies (1500-7000 Hz).

      Middle Ear The small bones (ossicles) in the middle ear transmit sound energy from the eardrum (tympanic membrane) to the oval window in the inner ear.

      Inner Ear The inner ear contains a small, coiled tube (cochlea), filled with fluid. The oval window is situated at one end of the cochlea. The cochlea is divided in two along its length by the basilar membrane. Sound waves impinging on the oval window displace fluid along the cochlea &amp cause a travelling wave along the basilar membrane.

      Transduction: Inner Hair Cells

      3500 inner hair cells protrude from the basilar membrane. Fluid displacement causes vibration in basilar membrane. This deflects the stereocilia of inner hair cells, generating impulses. The base of each inner hair cell makes

      contact with afferent fibres of the auditory nerve (50,000 nerve fibres).

      Frequency-to-Place Conversion in the Cochlear

      The fluid displacement in the cochlear takes the form of a wave travelling along the basilar membrane. The wave peaks at a particular location, due to the width &amp stiffness gradient along the basilar membrane. High frequencies show largest vibration near the stapes, at the base of the cochlea. Low frequencies show the largest vibration near the apex of the cochlea. This is known as ‘frequency-to-place conversion’.

      Note: fibres still fire a little to frequencies close to their characteristic

      “Frequency-tuned auditory filters”

      Auditory nerve cells filter on the basis of frequency. They let the neural signal through for frequencies that they are tuned to and filter it out for others.

       “ Band-pass filter

      Ascending Auditory Pathway

      Auditory nerve fibres terminate in the cochlear nucleus (one on each side).

      Binaural neurons found in superior olive, taking inputs from both ears.

      Thalamic relay is called the medial geniculate nucleus.

      Tonotopic Organisation: Primary auditory cortex is organised in terms of sound frequency - there is an orderly progression of cell’s preferred frequency across the cortex.

      Outer Hair Cells &amp the Descending Auditory Pathway

       Descending fibres run from auditory cortex to cochlea, with synapses in reverse order to ascending projections.

       Descending projections may be involved in auditory attention and outer hair cell amplification functions.

       More outer hair cells (3 rows) than inner hair cells ( row) yet only 5- 10% of them send signals “upwards”

       Many outer hair cells receive impulses from higher areas, and respond by changing their length - known as their “motile response”

       This serves as a “cochlear amplifier”, making the early auditory processes highly non-linear

      Audition

      Pitch is the perceptual attribute of a sound that corresponds most closely to its frequency.

      Auditory nerve responses are phase-locked to a sound-wave’s frequency below 4-5kHz. Response rate of neural impulses carries information about sound frequency. Assumes the listener discriminated the pitch of sine waves by means of differences in response rate or time intervals between neural firings. Evidence suggests:  Timing theory and rate coding important for pitch of low/mid-range frequency sine waves.

       For high frequencies, place

      Pitch of sine waves.

      Pitch Perception of Complex Tones Contains a series of harmonic frequency components spaced at intervals equal to the frequency or repetition rate of the fundamental. The pitch heard in a complex tone is usually determined by the fundamental frequency.

      A phenomenon known as the “missing fundamental” presents a basic problem for place theory as an explanation of pitch in complex tones.

      The Case of the Missing Fundamental If the fundamental frequency of a complex tone is removed, its pitch is still heard at a frequency that corresponds to the fundamental. Even when the fundamental frequency component is removed. Place theory cannot account for this.

      Pitch Perception: Temporal Theory Phase locking for tones up to 1kHz for individual fibres. Volley principle important for tones up to 4kHz. For higher frequencies, two harmonics should fit into the wider bandwidths of single auditory filters. These “unresolved harmonics” can produce “beats” as their waveforms overlap.

      The frequency of beats from unresolved harmonics is the same as the fundamental. This is known as “residue pitch”. If nerve firing becomes phase locked to this frequency, perhaps temporal theory can account for the missing fundamental? But when lower (resolved) harmonics and higher (unresolved) harmonics specify different fundamentals, human rely more on the resolved harmonics (Plomp, 1967).

      Pitch Perception: Pattern Recognition Theory Goldstein (1973):  Auditory system resolves individual sine wave components and analyses frequencies using place code  Then tries to find a series of harmonically related frequencies that first the resolved components.  Pitch is determined by the fundamental of the best-fitting harmonic series.  Can explain missing fundamental effect, since the pitch of the fundamental is defined by the harmonics present in the stimulus, even when the fundamental is not present. Where does this leave us? For simple sine waves For complex sound waves 1. Place theory : Explains pitch for sine waves very well but not how we discriminate two sine waves at high frequencies. Can’t explain missing fundamental. 2. Timing (rate) theory : Explains pitch for low/ mid frequencies very well.

      1. Temporal theory : Explains low frequencies very well – frequencies up to 4kHz explained by volley principle.
      2. Pattern Recognition Theory : Explains pitch for sine waves similar to place theory. Can explain the “missing fundamental” effect.

      Loudness Perception Loudness is the perceptual attribute thar corresponds to intensity. Different intensities can have equal loudness due to frequency. In loudness matching, adjust the intensity of a comparison or “probe” tone until it matches the loudness of a fixed standard pure tone – method of adjustment (Moore, 1997).  Plot equal-loudness contours  Sensitivity is poor at low frequency  At mid-intensity, low frequency sounds lack loudness compared to high frequency  This is why some stereos have a “base boost”  As intensity increases, the curves flatten out. Models of Loudness Individual Auditory Nerve Fibres: Auditory nerve fibres are tuned to a characteristic frequency (CF), but respond a little to neighbouring frequencies. For a given auditory nerve fibre, you need more intensity at frequencies other than the CF to get the same amount of firing as you would to a CF sound.

      Interaural Time Difference (ITD) Interaural Level Difference (ILD) Difference in time of arrival at each ear depends on azimuth. ITD = time (L ear) – time (R ear) Maximum ITD is approximately 650 microseconds for a stimulus directly to the right or left. For a stimulus directly in front (or behind), ITD = 0. Any given time difference could be either of two possible azimuths (e.g., 0.4msec delay could be 50º or 130º). Processed in Medial Superior Olive in the brainstem.

      The ear furthest from the sound source lies in an “acoustic shadow” cast by the listener’s head.  Intensity is lower at the further ear Difference in intensity at each ear depends on frequency  For low frequencies, differences are small so not useful  For high frequencies, differences are large, so very useful For a stimulus directly in front (or behind), ILD=0. Processes in Lateral Superior Olive in the brainstorm.

      The Cone of Confusion ITD &amp ILD can be ambiguous. Each ITD &amp ILD corresponds to two possible azimuths (i.e., can’t tell front from behind). Also, binaural cues give no information on elevation. As a result, a sound producing a particular ILD &amp ITD could originate from anywhere on the surface of a cone.

      How do we resolve the cone of confusion?

      Head movements for pure tones. Frequency filtering at the pinna also helps resolve complex tones.

      Monaural Sound Localisation Pinnae filter incoming sound waves. Important for sound source localisation on the vertical plane.


      المواد والأساليب

      Stimuli

      In Experiment 1, 5 different stimuli were created which each evoked a pitch corresponding to that of a 200-Hz pure tone ( Supplementary Fig. 1 ):

      (1) T: A 200-Hz single-frequency tone

      (2) WB: Wideband complex consisting of the harmonics of a 200-Hz F0 added in cosine phase and low-pass filtered at 2 kHz

      (3) Res: Resolved complex without an F0 component consisting of the harmonics of a 200-Hz F0 added in cosine phase and bandpass filtered between 1 and 2 kHz

      (4) Unres: Unresolved complex without an F0 component consisting of the harmonics of a 100-Hz F0 added in alternating sine and cosine phase and bandpass filtered between 1 and 2 kHz to produce a pitch corresponding to 200 Hz

      (5) Huggins: Huggins pitch stimulus consisting of a Gaussian noise low-pass filtered at 2 kHz and presented diotically, except for a frequency region from 190 to 210 Hz (200 Hz ± 5%). This region was given a progressive phase shift, linear in frequency between 0 and 2Π, in the left ear only. Huggins pitch stimuli contain no distinctive spectro-temporal features at either ear and so offer stringent experimental control to rule out the possibility that an F0 component is introduced via peripheral nonlinearity ( Pressnitzer and Patterson 2001 McAlpine 2004).

      Signals were generated digitally with 16-bit resolution at a sampling rate of 48 kHz. A low-pass noise (filtered at 1 kHz) was added to the missing F0 complexes to mask cochlear distortions. The single-frequency tone 1) included a bandpass noise (filtered between 500 Hz and 2 kHz) in order to match its gross spectral envelope to that of the other stimuli. A “nonpitch” control stimulus was also generated and, to match for the acoustic energy in each pitch stimulus, it consisted of a Gaussian noise low-pass filtered at 2 kHz. Low-pass noise has been the control stimulus of choice for most neuroimaging studies of pitch processing. All the stimuli were matched in terms of gross spectral envelope and overall level (83-dB SPL for the behavioral measurements and 90-dB SPL for the fMRI measurements, measured at the ear). For the behavioral measurements, the noise, when present, had a spectrum level (level in each 1-Hz wide band) of 50 dB (re. 2 × 10 −5 N/m 2 ), the single-frequency tone had a level of 77 dB SPL [50 + 10 log10(500)], the harmonics of the 200-Hz complexes had a level of 73 dB SPL [50 + 10 log10(200)], and the harmonics of the 100-Hz complex had a level of 70 dB SPL [50 + 10 log10100)]. Hence the overall level of each stimulus was the same, and the gross spectral density (i.e., the average power per Hz) was constant from 0 to 2 kHz. With the exception of the Huggins stimulus, stimuli were presented diotically (i.e., the same stimulus to both ears). Stimuli had a total duration of 200 ms with 10-ms raised-cosine onset and offset ramps and were delivered via Sennheiser HD580 headphones. For the fMRI measurements the levels were increased by 7 dB and the stimulus duration was 500 ms, including 10-ms raised-cosine onset and offset ramps. Stimuli of one class were repeated in a 15.5-s sequence, with 50-ms gaps between each stimulus. The order of the stimulus conditions was fully counterbalanced. Listeners completed 2 h of psychophysical testing and a 50-min scanning session.

      In Experiment 2, diotic IRN was generated by a delay-and-add process performed on a bandpass-filtered (1–2 kHz) Gaussian noise. A copy of the noise segment was added back onto the original after a delay of 10 ms had been imposed onto the copy. The delay-and-add process was repeated for 16 iterations to generate a salient pitch percept. Because many earlier neuroimaging studies have failed to adequately rule out the contribution of neural responses to low-frequency distortions for spectrally complex stimuli (but see Hall et al. 2006), here IRN was presented with and without a low-pass (0–1 kHz) Gaussian noise masker with the same spectrum level as the IRN to quantify the effects of cochlear distortion in temporal pitch coding ( Supplementary Fig. 1 ). The low-pass noise masks distortion products at F0 and its harmonics and so it is more conservative than narrowband maskers centered on the peak of the distortion product ( Hall et al. 2006). For comparison with each IRN stimulus, a control Gaussian noise with an equivalent bandwidth was also generated. Listeners completed a 30-min scanning session in which the stimulus duration and sound level were the same as in the fMRI session for Experiment 1.

      Psychophysical Estimates of Pitch Salience

      Pitch salience was estimated in a sound-proofed booth using a measure of individual pitch discrimination threshold. On each trial there were 2 observation intervals separated by 500 ms, containing a standard and a comparison tone, assigned at random. The frequency, F0, or (in the case of Huggins) center frequency of the phase-shifted region, of the standard was fixed to produce a nominal pitch corresponding to 200 Hz. The frequency of the comparison was greater than this. The discrimination task was pitch direction (“in which interval was the pitch higher?”). Discrimination thresholds were measured using a two-down, one-up, adaptive procedure that estimates the 71% correct point on the psychometric function ( Levitt 1971) for every 2 consecutive correct responses, the frequency difference was decreased for the subsequent trial, and for every incorrect response the frequency difference was increased. The frequency difference between the standard and comparison intervals was varied using a geometric step size of 2 for the first 4 reversals (transitions between decreasing and increasing portions of the adaptive track), and 1.414 thereafter. In each block of trials, 16 reversals were measured and the threshold taken as the geometric mean frequency difference at the last 12. Five such estimates were made for each condition, and the final estimate was taken as the geometric mean of the last 4. Two of the subjects (#10 and #12) could not hear the Huggins pitch and had thresholds greater than 100%. The thresholds for these subjects were assumed to be 100% for the purpose of subsequent analysis.

      FMRI Protocol

      Scanning was performed on a Philips 3 T Intera using an 8-channel SENSE receiver head coil and a SENSE factor of 2 to reduce image distortions. For each listener, a 4.5-min تي1-weighted image (1-mm 3 resolution) was acquired first magnetization prepared rapid acquisition gradient echo (sequence matrix = 256 × 256 × 160 time repetition [TR] = 8.2 ms time echo [TE] = 3.7 ms flip angle = 8°). This whole-head anatomical scan was used to position the subsequent functional scan centrally on HG. Functional scans consisted of 20 slices taken in an oblique-axial plane, with a voxel size of 3 mm 3 (single shot fast field echo sequence matrix = 64 × 64 × 20 TR = 8000 ms TE = 36 ms flip angle = 90°). We took care to include the superior temporal plane and superior temporal sulcus and to exclude the eyes. To eliminate the effect of the scanner noise on patterns of auditory cortical activation, functional scanning used a modification to the pulse sequence (SofTone factor 2) to reduce the background scanner noise level (by 9 dB) and scans were collected at regular 8-s intervals, with the stimulus presented predominantly in the quiet periods between each scan. To equate the within-subject statistical power across the 2 experiments, each one comprised a total of 44 scans for each stimulus type and an additional 46 silent baseline scans, with the order of conditions randomized. Listeners were requested to attend to the sounds and to listen out for the pitch, but were not required to perform any task.

      Analysis of the imaging data was conducted using SPM2 (www.fil.ion.ucl.ac.uk/spm) separately for each listener. Preprocessing steps included within-subject realignment and spatial normalization. For each subject, normalized images were up-sampled to a voxel resolution of 2 mm 3 and smoothed by 4 mm full width at half maximum. This procedure meets the smoothness assumptions of the statistical model without compromising much of the original spatial resolution, so preserving the precise mapping between structure and function. Pitch-related brain activation was identified using the principal of the general linear model applied to the smoothed normalized images for each listener using standard procedures implemented in SPM2. The first-level individual analysis used a model that partitioned the observed response according to a sum of 6 weighted variables (the 5 pitch conditions and the noise control). Low-frequency artifacts in the time series, associated with physiological fluctuations, were handled by applying a high-pass filter with a cut-off of 0.002 Hz. After model estimation, statistical contrasts between each pitch condition and the noise control were specified by a linear combination of the corresponding variables and the significance of each contrast was determined relative to the scan-to-scan residual variability. Individual contrasts were combined across the group using 2 approaches that each underpinned a different class of inference about the general pattern of pitch-related activation. A random-effects analysis expresses the typical characteristics of the population (ص < 0.05, corrected for multiple comparisons) and it assesses the statistical significance of activity by comparing its mean value to its variability across subjects ( Friston et al. 1999). However, when the between-subject variance is high and the mean activation signal is weak, this approach can prove rather unreliable and insensitive ( Thirion et al. 2007). In such circumstances, an alternative and informative way to express the results is to plot an incidence (“probability”) map. This is a descriptive statistic that depicts the percentage of subjects that exhibit activity at a particular brain location and is generated by summing individual, thresholded statistical maps, typically thresholded between ص < 0.05 ( Keilholz et al. 2004 Moylan Governo et al. 2006) and ص < 0.001 ( Hall et al. 2005), uncorrected for multiple comparisons. In the present study, a probability threshold of ص < 0.01 was chosen because it contributed information about the distribution of weak pitch-related activation for every listener (see also Hall and Plack 2007).

      Listeners

      Sixteen normally hearing listeners (≤25 dB hearing level between 250 Hz and 6 kHz) participated in Experiment 1. Their mean age was 24.5 years old, ranging from 18 to 40 years, and the group comprised 7 females and 9 males. A majority of listeners were musically trained with only 2 listeners unable to read music or play an instrument (#10 and #14). All except one listener (#03) were right handed. Nine of these listeners volunteered to return and participate in Experiment 2. Recruitment of the same listeners reduces the effect of between-subject variability in functional neuroanatomy enabling more precise comparison of results across experiments. The study was approved by the University Medical School Ethics Committee and written informed consent was obtained from all participants.


      الملخص

      This paper reviews the contributions of von Békésy to psychoacoustics, comparing his findings and interpretations to those that have emerged since his work. The areas covered include the perception of pitch for pure tones and complex tones, the effect of frequency on the apparent location of pure tones, estimation of the velocity of the traveling wave on the basilar membrane using judgments of lateralization, and the relative loudness of monaural and diotic sounds. While subsequent research has failed to replicate some of his findings, other findings have stood the test of time. There is no doubt that von Békésy made very substantial contributions to psychoacoustic research.

      يسلط الضوء

      ► Selected work of von Békésy on psychoacoustics is described. ► von Békésy's results are compared to more recent results. ► Some of von Békésy's results on pitch perception have been hard to replicate. ► von Békésy's work on the diotic/monaural loudness ratio has been replicated.


      شاهد الفيديو: لقطات تصوير رائعة باستخدام طائرة بدون طيار (سبتمبر 2022).