بقلم د. إيمان يسري
بصمة الصوت من أهم البصمات البيولوجية التي تؤخذ من صوت الإنسان، وذلك من خلال التحدث أو التكلم، بأي لغة يتقنها الإنسان أو يتحدث بها، سواء كانت لغة الأم التي اكتسبها منذ الصغر أم لغة أخرى مكتسبة خلال مراحل حياته المختلفة. وتستخدم بصمة الصوت للكشف عن المجرم في الجرائم المختلفة، مثل الاغتصاب، الإرهاب الدولي، الابتزاز، السب والقذف، وغيرها من القضايا المختلفة التي يمكن فيها التسجيل الصوتي للمجرم أثناء أو قبل فعل جريمته.
بصمة الصوت تؤخذ عن طريق تسجيل صوتي للشخص المتكلم في حالاته المختلفة، ويتم تفريغها وتحليلها طيفيا بمساعدة أجهزة التحليل الصوتي، حيث تعود بصمة للبنية التشريحية لأعضاء النطق والكلام التي يستخدمها المتكلم أثناء الكلام. كما أن بصمة الصوت تحمل في طياتها الحالة الشعورية والمزاجية والصحية التي تسيطر على المتكلم أثناء التسجيل.
وفي سنوات قليلة، أصبحنا نعيش في عصر الذكاء الاصطناعي، الذي نتج عنه روبوتات تتحدث مثل الإنسان، وربما تطابق صوته. ووجدنا ذلك بالفعل من خلال عدة تطبيقات مجانية ومفتوحة لجمهور المستخدمين، والتي تستخدم في تغير صوت شخص إلى شخص أخر. بحيث تجعلك أنت صديقي القارئ، تنطق جمل وكلمات بصوت شخص مشهور، مثل مغني مشهور أو ممثل مشهور، وتقول أي شيء تريده بصوت ذلك الشخص المشهور، مما قد يتسبب في عدة مصائب لذلك الشخص المشهور، قالها بصوته، لكنه لا يدري عنها شيء!
في مقال سابق قد تطرقنا لتحليل صوت الفنان المشهور خالد النبوي وولده نور خالد النبوي، خاصة بعد مدى التشابه الصوتي، الملحوظ سمعيا، بين الأب وابنه، سواء في التمثيل أو في الحياة العادية. وقمنا بعمل دراسة تحليلية مقارنة لنستنتج مدى التشابه بين الصوتين. وتبين لدى بالتحليل والأدلة والنتائج والإحصاءات، مدى الاختلاف الفيزيائي بين الصوتي، حتى مع وجود جانب من التشابه السمعي، ولكنه بمثابة تشابه ظاهري في طريقة الكلام، وليس في بصمة الصوت الفزيائية.
ولكن دور بصمة الصوت أكبر بكثير من مجرد تحليل التشابه الصوتي بين أصوات الفنانين والمشاهير. فبصمة الصوت من البصمات التي قد يؤدي التلاعب بها إلى الإضرار بالأمن القومي للبلاد. تخيل معي إذا تم تقليد صوت أحد رؤساء الدول، وتم تسريب هذا التقليد الصوتي، والذي يأمر فيه بإطلاق قنبلة نووية على إحدى الدول، فلك أن تتخيل صديقي القارئ ما قد يحدث بسبب انتشار مثل هذا التقليد الصوتي. وهنا، لا أتحدث عن تقليد صوتي من شخص لشخص أخر، مثل الممثلين والأدوار الفنية المختلفة. ولكني أتحدث عن تقليد صوتي عميق باستخدام الذكاء الاصطناعي (Deep Faking)، أو استنساخ صوتي (Voice cloning)، لأحد رؤساء الدول، والذي يمكن استخدامه ليقول أي شيء، ربما لإطلاق حرب نووية!
وما نلقي الضوء عليه ليس ببعيد، أنما هو أمر حاضر وواقع بالفعل، مؤخرا منذ عدة أشهر، أنتشر تسريب صوتي للسيد الرئيس عبد الفتاح السيسي، رئيس جمهورية مصر العربية، وانتشر تسريبه تحت عنوان " تسريب صوتي للسيسي لبيع قناة السويس بمبلغ تريليون دولار لدولة أجنبية لمدة 99 عام"، وانتشر التسريب بشكل واسع من خلال مواقع التواصل المختلفة، وجدير بالذكر أن خلف انتشار التسجيل الجهات المعادية للدولة وجماعة الإخوان الإرهابية، ولكن العنوان صادم لأي مواطن مصري يحب بلاده، وربما عندما يستمع إلى التسجيل تتزعزع ثقته في الدولة وفي رئيس الدولة. ومن ناحية أخرى، فانتشار مثل هذا التسريب قد يزيد من الأطماع الخارجية.
ومن هنا فكان لابد من تحليل هذا التسريب الصوتي، مقارنة ببصمة الصوت الحقيقية للسيد الرئيس عبد الفتاح السيسي، لنبرز أهمية التحليل الصوتي ودور بصمة الصوت في الكشف عن مثل هذه الأكاذيب والشائعات، التي تضر بالأمن القومي للبلاد.
عندما حصلت على التسريب الصوتي، وجدت أن مدته بالكامل دقيقة و45 ثانية، وينقسم إلى مقطعين يفصل بينهما موسيقى، قومت بتقطيع أفضل الأجزاء لمدة 34 ثانية فقط من الكلام المتواصل (غير المفصول وبه طلاقة)، وذلك بعد حذف المقدمة والخاتمة الموسيقية. وعند الاستماع لأول مرة لهذا التسريب فوجدت أن الكلام غير واضح وغير مفهوم وعليه نوع من التغيير الصوتي من خلال مؤثر ما، يظهر في صورة تشويش على الصوت وجعله يبدو صوت أكثر خشونة من صوت السيد الرئيس. وجدير بالذكر أنه يوجد ترجمة أسفل الفيديو لتوضح محتوى الكلام المنطوق، ولكن يبدو أن مدى الطلاقة الصوتية للترسيب الصوتي ليس طبيعي، حيث إن نهايات الكلمات والجمل ليست ثابتة ولا مركزة، وأيضا يوجد بعض الكلمات تبدو أنها مقطوعة من سياق ومضافة إلى هذا التسريب، وخاصة في نهايات الجمل، ويظهر ذلك بشكل دقيق في أول مقطع وأخر مقطع من الكلمة. كما أن في نهاية الفيديو يوجد مقطع صوتي للسيد الرئيس بجودة صوتية مختلفة وشدة صوت أعلى، عن باقي الفيديو، ومأخوذة بشكل واضح من أحد خطاباته ولكن خاتمتها مقطوعة (أي أن الجملة تبدو غير مكتملة). كل تلك الملاحظات استنتجتها بصفتي خبيرة صوتية ومن خلال التحليل الاستماعي والإدراكي من خلال أذن الخبير، حيث تختلف أذن الخبير الصوتي عن أذن الشخص العادي من حيث دقة التمييز في الصوت والكلام.
وأما من ناحية التحليل الصوتي الفيزيائي أو التحليل الطيفي للصوت، فكان لابد من عمل مقارنة بين صوت الرئيس عبد الفتاح السيسي في التسريبات، وصوته الحقيقي من خلال المؤتمرات المختلفة وهو يتحدث بطلاقة وعفوية مع المواطنين. وبالفعل قمت بالحصول على مقطع صوتي للسيد الرئيس من احتفالية قادرون باختلاف، وقمت بقص جزء من حديث الرئيس الأخير في الاحتفالية، وهو يتحدث بطلاقة وسط الأطفال من ذوي القدرات الخاصة. وكانت مدة المقطع 34 ثانية فقط من الحديث المتواصل، أي مدة زمنية تطابق المدة الزمنة للعينة المأخوذة من التسريب.
وبدأت التحليل الصوتي باستخدام برامج التحليل الصوتي المعتمدة عالميا، وقمت بتحديد بعض الظواهر الصوتية المميزة للبصمة الصوتية، والتي تختلف من شخص إلى أخر، لأنها تعود للبنية التشريحية للمتكلم، مثل: تردد الصوت الأساسي (أي عدد اهتزازات الأحبال الصوتية في الحنجرة في الثانية الواحدة)، وشدة الصوت، بالإضافة إلى تحليل صوت \م\ في كلمة \عمل\ حيث إنها كلمة مشتكة في المقطعيين الصوتيين (مقطع التسريب، ومقطع الاحتفالية)، بالإضافة إلى أن صوت \م\ هو من أصوات الغنية التي تُعد من أهم الأصوات المميزة للبصمة الصوتية للإنسان، وتختلف كليا من شخص إلى أخر.
وكانت النتائج، أنظر الرسم (1)، توضح مدى الاختلاف الواسع على مستوى العينتين الصوتيين، والذي من المفترض أنهم لنفس صوت شخص السيد الرئيس، ولكن التحليل الطيفي للصوت أثبت مدى الاختلاف بين الصوتين، مما يؤكد أن هذه التسريبات مزيفة وليست مطابقة لصوت شخص السيد الرئيس. فبمجرد النظر نجد أن ترتيب دورات الموجة الصوتية مختلف تماما بين الصوت الحقيقي (صوت السيد الرئيس في ختام احتفالية قادرون باختلاف) والصوت المزور (صوت السيد الرئيس في فيديو التسريب)، وذلك من حيث التردد الأساسي للصوت (أي عدد اهتزازات الأحبال الصوتية في الثانية الواحدة)، وأيضا من حيث شدة الصوت، التي تعكس قوة الصوت ومدى وضوحه وثقته. وجدير بالذكر أن مدى الاختلاف بين العينتين الصوتيتين، يُعد اختلاف قوي من حيث الجودة والشدة والوضوح، حتى إذا كان في مواقف مختلفة.
وأيضاً، أوضحت نتائج تحليل صوت الـ\م\، أنظر الرسم (2 و3)، مدى الاختلاف بين العينتين الصوتيتين، وذلك بالأرقام والبراهين والقياسات الفيزيائية. حيث إن صوت الـ\م\ يخرج من التجويف الأنفي للشخص المتكلم، وهذا التجويف هو مكان ثابت تشريحيا في مقدمة وجه الإنسان، ويمتد حول الأنف، وعند نطق صوت الـ\م\ في سياقات مختلفة يهتز هذا التجويف ليصدر موجات صوتية، واهتزازات مختلفة الشدة، تختلف شدتها من شخص إلى أخر.
رسم (1) التحليل الطيفي للعينتين الصوتين (الصوت الحقيقي في الاحتفالية، والصوت المزور في التسريب)، ومدة العينة التي تم تحليلها 34 ثانية.
رسم (2)، يوضح التحليل الطيفي لكلمة \عمل\ من العينتين الصوتين للسيد الرئيس في الصوت الحقيقي والصوت المزور، مما يوضح مدى الاختلاف بينهما بمجرد النظر. الصوت الحقيقي يمين الرسم، والصوت المزيف يسار الرسم.
رسم (3)، يوضح نظرة أقرب لصوت الـ\م\ في الصوت الحقيقي والصوت المزور وأرقام قياسات الموجات الطيفية للصوت. مما يعكس اختلاف صوتي كلي، بين العينتين الصوتيين، ويؤكد أن الصوت بالتسريب، هو ليس صوت السيد الرئيس عبد الفتاح السيسي وإنما هو تسريب مزور ومصنوع بفعل بفاعل.
ومن هنا عزيزي القارئ نستنتج أن هذا التسريب الصوتي للسيد الرئيس حول بيع قناة السويس، ما هو إلا تسريب مزور، وهو عبارة عن مجموعة من الكلمات والجمل تم استخراجها من سياقات مختلفة في مناسبات مختلفة، وتم تركيبها بطريقة ما لتوصل معنى معين، بهدف تجميع مقطع صوتي مزيف، بحيث تكون معلومات ليست حقيقية، كما تم إضافة بعض المؤثرات الصوتية التي تجعل الصوت يبدو أكثر خشونة، وأكثر تشويشا، كما يبدو من خلال السواد الكبير في خلفية التحليل الصوتي (أنظرالمقطع السفلي من الرسم 1، و2)، بالإضافة إلى أرقام التحليل الطيفي التي تبرهن على أن العينتين مختلفتين تماما من حيث الشدة ومدى اهتزازات الأحبال الصوتية، ومدى وضوح الكلام، إضافة إلى صوت الـ\م\ الذي اختلف تماما من حيث الشكل والقياسات بين العينتين.
ومن هنا تظهر أهمية دور تحليل البصمة الصوتية وأهمية استخدامها حفاظا على أمن البلاد، وإظهار الحقيقة، ولتكون بمثابة جبهة علم قوية للتصدي للشائعات والحد من انتشارها بسلاح العلم والمعرفة والخبرة الحقيقة في المجالات المتميزة والهامة.
فلا تنخدع صديقي القارئ، بكل ما يتم نشره على مواقع التواصل وأبحث بجهد وتعلم كيف تميز بين الحقيقي والمزور، في ظل عصر أصبح كل شيء قابل للتزوير والتزييف، حتى وإن كان صوتك الذي يخرج من بين أحشائك ومن داخل حنجرتك.