شناخت احساسات گفتار (SER) از طریق یادگیری ماشین

آخرین مطالب

امکانات وب

شناخت احساسات گفتار (SER) از طریق یادگیری ماشین

همانطور که گفتار انسان جزو طبیعی ترین راه برای بیان خودمان است. ما آنقدر به آن وابسته هستیم که هنگام استفاده از سایر فرم های ارتباطی مانند ایمیل و پیام های متنی که در آن اغلب از ایموجی ها برای بیان احساسات مرتبط با پیام ها استفاده می کنیم ، اهمیت آن را تشخیص می دهیم. از آنجا که احساسات نقش مهمی در برقراری ارتباط دارند ، تشخیص و تجزیه و تحلیل همان از اهمیت حیاتی در دنیای دیجیتال امروز ارتباطات از راه دور برخوردار است. تشخیص احساسات یک کار چالش برانگیز است ، زیرا احساسات ذهنی هستند. هیچ اجماع مشترکی در مورد چگونگی اندازه گیری یا طبقه بندی آنها وجود ندارد. ما یک سیستم SER را به عنوان مجموعه ای از روش شناسی تعریف می کنیم که سیگنال های گفتار را پردازش و طبقه بندی می کند تا احساسات تعبیه شده در آنها را تشخیص دهد. چنین سیستمی می تواند در طیف گسترده ای از مناطق کاربردی مانند تجزیه و تحلیل مکالمه مبتنی بر صدای تعاملی یا تماس گیرنده ، استفاده کند. در این مطالعه ما سعی می کنیم با تجزیه و تحلیل ویژگی های صوتی داده های صوتی ضبط ها ، احساسات اساسی در گفتار ضبط شده را تشخیص دهیم.

2. بررسی اجمالی راه حل

طبقه بندی گسسته: طبقه بندی احساسات در برچسب های گسسته مانند عصبانیت ، خوشبختی ، کسالت و غیره.
نمایندگی بعدی: نمایندگی احساسات با ابعادی مانند ظرفیت (در مقیاس منفی تا مثبت) ، فعال سازی یا انرژی (در مقیاس کم تا بالا) و تسلط (در مقیاس فعال تا غیرفعال)

3. منابع داده

تس (مجموعه گفتار عاطفی تورنتو): 2 بلندگو زن (جوان و پیر) ، 2800 پرونده صوتی ، کلمات تصادفی در 7 احساسات مختلف صحبت شد.
SAVE (Surrey Audio Visual Empication Empication): 4 بلندگو مرد ، 480 پرونده صوتی ، جملات مشابه در 7 احساسات مختلف صحبت شد.
Ravdess: 2452 پرونده های صوتی ، با 12 بلندگو مرد و 12 بلندگو زن ، ویژگی های واژگانی (واژگان) گفته ها با صحبت کردن فقط 2 بیانیه با طول مساوی در 8 احساسات مختلف توسط همه بلندگوها ثابت نگه داشته می شوند.
CREAM-D (مجموعه داده های بازیگران چند حالته عاطفی با جمعیت): 7442 پرونده صوتی ، 91 بلندگو مختلف (48 مرد و 43 زن بین 20 تا 74 سال) از نژادها و قومیت های مختلف ، اظهارات مختلف در 6 احساسات مختلف و 4 صحبت می شودسطح عاطفی (پایین ، میانی ، زیاد و نامشخص).
برلین: 5 بلندگو مرد و 5 زن ، 535 پرونده صوتی ، 10 جمله مختلف در 6 احساسات مختلف صحبت شد.

4- ویژگی های مورد استفاده در این مطالعه

از داده های صوتی ما سه ویژگی اصلی را که در این مطالعه استفاده شده است ، یعنی MFCC (ضرایب Cepstral فرکانس MEL) ، طیف سنجی MEL و Chroma استخراج کرده ایم. از اجرای پایتون بسته Librosa در استخراج آنها استفاده شد.

انتخاب ویژگی ها

MFCC تاکنون بیشترین تحقیق در مورد و استفاده از ویژگی ها در مقالات تحقیقاتی و پروژه های منبع باز بود.
دامنه طیف سنجی MEL دامنه در فرکانس در مقابل نمودار زمان در مقیاس "MEL". از آنجا که این پروژه در تشخیص احساسات ، یک مورد کاملاً ذهنی است ، ما بهتر بود که دامنه را در مقیاس MEL ترسیم کنیم زیرا مقیاس MEL فرکانس ضبط شده را به "فرکانس درک شده" تغییر می دهد.
محققان همچنین طبق ادبیات از Chroma در پروژه های خود استفاده کرده اند ، بنابراین ما همچنین مدل سازی اساسی را فقط با MFCC و MEL و با تمام MFCC ، MEL ، Chroma امتحان کردیم. این مدل با تمام ویژگی ها نتایج کمی بهتر به دست آورد ، از این رو ما تصمیم گرفتیم که هر سه ویژگی را حفظ کنیم

MFCC (ضرایب Cepstral فرکانس MEL)

در تجزیه و تحلیل متعارف سیگنال های زمانی ، هر مؤلفه دوره ای (به عنوان مثال ، اکو) به عنوان قله های تیز در طیف فرکانس مربوطه (یعنی طیف فوریه. هر ویژگی cepstrum با استفاده از تبدیل فوریه در طیف سنجی بدست می آید. ویژگی ویژه MFCC این است که در مقیاس MEL گرفته می شود که مقیاس است که فرکانس درک شده یک تن را به فرکانس اندازه گیری شده واقعی مرتبط می کند. این فرکانس را مقیاس می دهد تا با نزدیک تر آنچه گوش انسان می تواند بشنود مطابقت داشته باشد. پاکت طیف قدرت زمانی سیگنال گفتار نماینده دستگاه صوتی است و MFCC به طور دقیق این پاکت را نشان می دهد.

طیف سنج

یک تبدیل سریع فوریه بر روی بخش های پنجره ای با هم همپوشانی سیگنال محاسبه می شود ، و ما آنچه را طیف سنجی نامیده می شود ، می گیریم. این فقط یک طیف سنجی است که دامنه را نشان می دهد که در مقیاس MEL نقشه برداری می شود.

کروما

یک بردار کروما به طور معمول یک بردار ویژگی 12 عنصر است که نشان می دهد میزان انرژی هر کلاس زمین در سیگنال در یک مقیاس کروماتیک استاندارد وجود دارد.

5. قبل از پردازش

از آنجا که خروجی معمولی از ویژگی استخراج شده به شکل 2D بود ، ما تصمیم گرفتیم با استفاده از یک فرم ورودی 1D و یک فرم 2D از ورودی ، همانطور که در زیر مورد بحث قرار گرفت ، یک روش دو جهته انجام دهیم

قالب داده 1D

این ویژگی های به دست آمده از استخراج از کلیپ های صوتی در قالب ماتریس هستند. برای مدل سازی آن ها بر روی الگوریتم های سنتی ML مانند SVM و XGBoost یا در CNN 1 بعدی، ماتریس ها را با استفاده از میانگین های ردیف و ستون ها به فرمت 1-D تبدیل کردیم. پس از مدل سازی اولیه، نتایج به دست آمده از آرایه میانگین ردیف ها بهتر از آرایه میانگین ستون ها بود، بنابراین با آرایه 1-D به دست آمده از میانگین ردیف های ماتریس های ویژگی پیش رفتیم.

فرمت داده 2 بعدی

ویژگی های دو بعدی در مدل یادگیری عمیق (CNN) استفاده شد. محور y ماتریس های ویژگی به دست آمده به پارامتر n_mfcc یا n_mels بستگی دارد که هنگام استخراج داده ها انتخاب می کنیم. محور x به مدت زمان صدا و نرخ نمونه برداری که هنگام استخراج ویژگی انتخاب می کنیم بستگی دارد. از آنجایی که کلیپ های صوتی در مجموعه داده های ما دارای طول های متفاوتی بودند، از کمتر از ۲ ثانیه تا بیش از ۶ ثانیه، مراحلی مانند انتخاب یک طول متوسط که در آن همه فایل های صوتی را کلیپ می کنیم و برای حفظ ابعاد، همه فایل های کوتاه تر را با صفر اضافه می کنیم، انجام نمی شوند. شدنی. این به این دلیل است که این امر منجر به از دست رفتن اطلاعات برای کلیپ های طولانی تر می شود و کلیپ های کوتاه تر صرفاً برای نیمه دوم طول صوتی خود سکوت می کنند. برای بررسی این مشکل، تصمیم گرفتیم از نرخ های نمونه گیری مختلف در استخراج متناسب با طول صوتی آنها استفاده کنیم. در رویکرد ما، هر فایل صوتی بزرگتر یا مساوی 5 ثانیه در 5 ثانیه برش داده شد و در فرکانس 16000 هرتز نمونه برداری شد و از کلیپ های کوتاه تر نمونه برداری شد به طوری که مدت زمان صدا * نرخ نمونه برداری چند برابری 80000 باقی می ماند. به این ترتیب، ما توانستیم آن را حفظ کنیم. ابعاد ماتریس برای همه کلیپ های صوتی بدون از دست دادن اطلاعات زیادی.

6. تجزیه و تحلیل داده های اکتشافی

توزیع احساسات بر اساس جنسیت
تنوع انرژی در بین احساسات
تنوع سرعت و قدرت نسبی در بین احساسات

توزیع عاطفه جنسیت

با توجه به توزیع جنسیت، تعداد سخنرانان زن کمی بیشتر از سخنرانان مرد بود، اما عدم تعادل به اندازه کافی بزرگ نبود که توجه خاصی را به خود جلب کند. به شکل مراجعه کنید. 1 شکل. 1 توزیع احساسات با توجه به جنسیت

تنوع انرژی در میان احساسات

برای اطمینان از یکنواختی در مطالعه ما در مورد تغییر انرژی به عنوان کلیپ های صوتی در مجموعه داده های ما از طول های مختلف برخوردار بودند ، نیرویی که انرژی در هر واحد زمان است ، یک اندازه گیری دقیق تر است. این متریک با توجه به احساسات مختلف ترسیم شد. از نمودار شکل 2) کاملاً آشکار است که روش اصلی بیان عصبانیت یا ترس در افراد ، تحویل انرژی بالاتری است. ما همچنین مشاهده می کنیم که انزجار و غم و اندوه با توجه به انرژی نزدیک به خنثی است ، اگرچه استثنائاتی وجود دارد. شکل 2 توزیع احساسات با توجه به جنسیت

تنوع سرعت و قدرت نسبی با توجه به احساسات

یک قطعه پراکنده از قدرت در مقابل سرعت نسبی کلیپ های صوتی مورد تجزیه و تحلیل قرار گرفت و مشاهده شد که احساسات "انزجار" به سمت سرعت کم سرعت گرفته شده است در حالی که احساسات "غافلگیرانه" بیشتر به سمت سرعت بالاتر می چرخید. همانطور که قبلاً ذکر شد ، عصبانیت و ترس فضای قدرت بالا و غم و اندوه و خنثی را اشغال می کند و در حالی که پراکنده است ، فضای کم انرژی را اشغال می کند. فقط ، از مجموعه داده های Ravdess برای ترسیم در اینجا استفاده شده است زیرا فقط شامل دو جمله با طول مساوی است که در احساسات مختلف صحبت می شود ، بنابراین ویژگی های واژگانی متفاوت نیستند و سرعت نسبی قابل اعتماد است.

شکل 3 پراکندگی قدرت در مقابل سرعت نسبی کلیپ های صوتی

7. مدل سازی

خط لوله راه حل

خط لوله راه حل برای این مطالعه در شماتیک نشان داده شده در شکل 4 نشان داده شده است. سیگنال خام ورودی است که همانطور که نشان داده شده است پردازش می شود. در ابتدا ویژگی های 2D از مجموعه داده ها استخراج و با استفاده از معنی ردیف به فرم 1-D تبدیل شدند. اندازه گیری نویز برای 4 مورد از مجموعه داده های ما به صدای خام اضافه شد (به جز Crema-D به عنوان سایرین ضبط استودیو و در نتیجه پاک تر بودند). سپس این ویژگی ها از آن پرونده های پر سر و صدا استخراج شد و مجموعه داده ما با آنها تقویت شد. استخراج ویژگی های پست ما از الگوریتم های مختلف ML مانند SVM ، XGB ، CNN-1D (کم عمق) و CNN-1D در قاب داده 1D و CNN-2D ما در 2D-Tensor استفاده کردیم. از آنجا که برخی از مدل ها داده ها را بیش از حد قرار می دادند ، و با در نظر گرفتن تعداد زیادی از ویژگی ها (181 در 1D) ، ما سعی کردیم کاهش ابعاد را بررسی کنیم و دوباره مدل ها را آموزش دهیم. شکل 4: شماتیک خط لوله راه حل

انتخاب داده های تست قطار

ما یک منطق تقسیم سفارشی را برای مدلهای مختلف ML مورد استفاده انتخاب کردیم. برای مدل های SVM و XGB ، این مدل به سادگی به داده های آزمون قطار در نسبت 80:20 تقسیم شد و با استفاده از اعتبارسنجی متقاطع با 5 برابر اعتبار یافت. برای CNN هر دو 1D و 2D ، تست-تست قطار به طور متوالی مورد استفاده قرار گرفت ، به گونه ای که در ابتدا داده ها در نسبت 90:10 تقسیم شد که در آن 10 ٪ آزمون بود ، 90 ٪ باقی مانده دوباره در نسبت 80:20 تقسیم شدمجموعه قطار و اعتبار سنجی.

معماری مدل CNN

CNN-1D (کم عمق)

این مدل شامل 1 لایه حلقوی 64 کانال و همان بالشتک و به دنبال آن یک لایه متراکم و لایه خروجی بود.

CNN-2D (عمیق)

2 لایه حلقوی 64 کانال ، اندازه 3 3 3 3 و همان بالشتک و به دنبال آن یک لایه حداکثر استخر از اندازه 2 × 2 و 2 × 2 قدم.
2 لایه حلقوی 128 کانال ، اندازه 3 3 3 3 و همان بالشتک و به دنبال آن یک لایه حداکثر استخر از اندازه 2 × 2 و 2 × 2 قدم.
3 لایه حلقوی 256 کانال ، اندازه 3 3 3 3 و همان بالشتک و به دنبال آن یک لایه حداکثر استخر از اندازه 2 × 2 و 2 × 2 قدم.
هر لایه Convolution عملکرد فعال سازی "RELU" را داشت.
پس از صاف کردن ، دو لایه متراکم از 512 واحد هرکدام اضافه شد و لایه های ترکیبی 0. 1 و 0. 2 بعد از هر لایه متراکم اضافه شد.
سرانجام ، لایه خروجی با یک عملکرد فعال سازی "softmax" اضافه شد.

مقایسه نتایج مدل

نتیجه بر اساس معیارهای دقت است که در آن مقایسه ای بین مقادیر پیش بینی شده و مقادیر واقعی وجود دارد. یک ماتریس سردرگمی ایجاد شده است که شامل مثبت مثبت (TP) ، منفی واقعی (TN) ، مثبت کاذب (FP) و منفی کاذب (FN) است. از معیارهای سردرگمی ، ما صحت را به شرح زیر محاسبه کرده ایم: این مدل بر روی داده های آموزش آموزش داده شده و بر روی داده های آزمون با تعداد مختلف دوره هایی که از 50 تا 100 ، 150 و 200 شروع می شود ، آزمایش شد. شبکه عصبی SVM ، XGBoost و Convolution (کم عمق و عمیق) برای ویژگی های 1D و ویژگی های 2D. شکل 5 عملکرد مقایسه ای را در مدلهای مختلف نشان می دهد. شکل 5: نتایج مقایسه ای از مدلهای مختلف ما از شکل 5 می یابیم که اگرچه مدل عمیق CNN-1D بهترین دقت را در مجموعه آزمون ارائه می دهد ، مدلهای CNN-1D Deep و CNN-2D به وضوح بیش از حد مجموعه داده ها را با دقت آموزش خود در اختیار دارند. به ترتیب 99 ٪ و 98. 38 ٪ در برابر دقت و دقت بسیار پایین تر است. از طرف دیگر ، CNN-1D کم عمق به دلیل اینکه با قطار ، اعتبار سنجی و دقت آزمایش به یکدیگر نزدیکتر است ، نتایج بسیار بهتری به دست آورد ، اگرچه دقت آزمایش آن کمی پایین تر از CNN-1D بود.

رویکرد کاهش ابعاد

به منظور اصلاح بیش از حد مدل ها ، ما از یک روش کاهش ابعاد استفاده کردیم. تکنیک PCA برای کاهش ابعاد در ویژگی های 1D استفاده شد و ابعاد از 180 به 120 با واریانس توضیح داده شده 98. 3 ٪ کاهش یافت. کاهش ابعاد باعث شده مدل کمی دقیق تر اما زمان آموزش را کاهش دهد ، اما این کار برای کاهش بیش از حد در مدل یادگیری عمیق کار زیادی انجام نداد. از این طریق ما نتیجه گرفتیم که مجموعه داده های ما به اندازه کافی بزرگ نیست که یک مدل پیچیده بتواند عملکرد خوبی داشته باشد و فهمیدیم که این راه حل به دلیل عدم وجود حجم داده بزرگتر محدود شده است. شکل 6 نتایج را برای مدلهای مختلف کاهش بعد پس از آن خلاصه می کند. شکل 6: نتایج مقایسه ای از مدلهای مختلف پس از کاهش ابعاد مبتنی بر PCA

بینش از آزمایش ضبط های کاربر

گروهی از CNN-2D و CNN-1D (کم عمق و عمیق) بر اساس رای گیری نرم بهترین نتیجه را در ضبط های کاربر به دست آورد.
این مدل اغلب بین عصبانیت و انزجار اشتباه گرفته می شود.
این مدل همچنین در بین احساسات کم انرژی که غم ، کسالت و خنثی است ، گیج شد.
اگر یک یا دو کلمه در حجم بالاتر از کلمات دیگر صحبت شود ، به خصوص در شروع یا پایان یک جمله ، تقریباً همیشه به عنوان ترس یا تعجب طبقه بندی می شود.
این مدل به ندرت احساسات را خوشحال می کند.
این مدل بسیار حساس به سر و صدا نیست ، به این معنی که تا زمانی که سر و صدای پس زمینه خیلی زیاد نباشد ، خراب نمی شود.

گروه بندی احساسات مشابه

از آنجایی که این مدل بین احساسات مشابه مانند عصبانیت و عصبانیت ناراحت کننده بود ، سعی کردیم آن برچسب ها را ترکیب کنیم و مدل را در 6 کلاس که خنثی ، غم و اندوه ، خوشحال ، عصبانیت/انزجار ، غافلگیرکننده و ترس بودند ، آموزش دهیم. این دقت مطمئناً در کاهش تعداد کلاس ها بهبود یافته است ، اما این مسئله مشکل دیگری را در رابطه با عدم تعادل کلاس ایجاد کرد. پس از آن ، با ترکیب عصبانیت و ناراحتی و غم و اندوه ، این مدل تعصب بالایی را نسبت به عصبانیت ایجاد کرد. این ممکن است اتفاق بیفتد زیرا تعداد موارد عصبانیت بیش از سایر برچسب ها به طور نامتناسب تبدیل شده است. بنابراین ، تصمیم گرفته شد تا با مدل قدیمی تر بچسبید.

خط لوله پیش بینی نهایی

خط لوله پیش بینی نهایی به صورت شماتیک در شکل 7 در زیر نشان داده شده است. شکل 7 خط لوله پیش بینی نهایی

8. نتیجه گیری و دامنه آینده

اجرای دقیق سرعت صحبت کردن را می توان بررسی کرد تا بررسی کند که آیا می تواند برخی از نواقص مدل را برطرف کند.
فهمیدن راهی برای پاک کردن سکوت تصادفی از کلیپ صوتی.
بررسی سایر ویژگی های صوتی داده های صوتی برای بررسی کاربرد آنها در حوزه تشخیص احساسات گفتار. این ویژگی ها به سادگی می توانند برخی از پسوندهای پیشنهادی MFCC مانند RAS-MFCC باشند یا می توانند ویژگی های دیگری کاملاً مانند LPCC ، PLP یا Cepstrum هارمونیک باشند.
رویکرد مبتنی بر ویژگی های واژگانی به سمت SER و استفاده از مجموعه ای از مدل های واژگانی و آکوستیک. این امر صحت سیستم را بهبود می بخشد زیرا در بعضی موارد بیان احساسات به جای آواز ، زمینه ای است.
اضافه کردن حجم داده بیشتر یا با سایر تکنیک های تقویت کننده مانند تغییر زمان یا سرعت بخشیدن به/کاهش سرعت صوتی یا پیدا کردن کلیپ های صوتی حاشیه نویسی تر.

9. تصدیق

نویسندگان آرزو می کنند که از پاولامی داس ، رئیس علوم داده Coe @ Brillio و آنیش Roychowdhury ، رهبر ارشد تجزیه و تحلیل @ Brillio بخاطر مربیگری و راهنمایی خود در جهت شکل گیری این مطالعه ، قدردانی کنند.

-منابع-

وبلاگ ها و مستندات:

librosa - https://librosa. org/librosa/tutorial. html

MFCC

https://medium. com/prathena/the-dummys-guide-to-mfcc-aceab2450fd
http://practicalcryptography. com/miscelloens/machine-leaing/guide-mel-frequency-cepstral-coefficients-mfccs/
طیف سنجی MEL- https://towardsdatascience. com/getting-to-know-the-mel-pectrogram-31bca3e2d9d0

منابع مجموعه داده ها:

ذخیره: http://kahlan. eps. surrey. ac. uk/savee/download. html
تس: https://tspace. library. utoronto. ca/handle/1807/24487
Ravdess: https://zenodo. org/record/1188976#. xvbvzuds_iu
برلین: http://www. emodb. bilderbar. info/download/
crema-d: https://github. com/cheyneycomputerscience/crema-d

اشاراتی ادبیات

Ittichaichareon ، C. (2012). تشخیص گفتار با استفاده از MFCC.… کنفرانس در رایانه ... ، 135-138. https://doi. org/10. 13140/rg. 2. 1. 2598. 3208
Al-Talabani ، A. ، Sellahewa ، H. ، & Jassim ، S. A. (2015). شناخت احساسات از گفتار: ابزارها و چالش ها. موبایل چندرسانه ای/پردازش تصویر ، امنیت و برنامه های 2015 ، 9497 (مه 2020) ، 94970N. https://doi. org/10. 1117/12. 2191623
Sezgin ، M. C. ، Gunsel ، B. ، & Kurt ، G. K. (2012). ویژگی های صوتی ادراکی برای تشخیص احساسات. مجله EuRasip در مورد صوتی ، گفتار و پردازش موسیقی ، 2012 (1) ، 16. https://doi. org/10. 1186/1687-4722-2012-16

مراجع هسته

https://github. com/marcogdepinto/emotion-classification-audio-files؟fbclid=iwar2t4hhtwwfkdu4fwls8loanf5sbwnmfc6pqhtgidzlall1uuvovicx7tvwwwwwww
https://data-flair. training/blogs/python-mini-project-s-s-seemotion-emociation-recognition/

نویسندگان:

Prateek Kumar Pandey Prateek Kumar Pandey یک کارشناسی ارشد است که در IIT Kharagpur ثبت نام کرده و دارای مدرک دوگانه (Btech.+Mtech.) در وزارت مهندسی عمران است و هم اکنون در سال چهارم خود است. او به عنوان کارآموز علوم داده برای برلیو کار کرده است و در آنجا روی یک پروژه تشخیص احساسات گفتار کار کرده است. وی در برنامه نویسی پایتون مهارت دارد و پیش از این در زمینه هایی در زمینه های NLP و پیش بینی سری زمانی کار کرده است. Anurag Gupta Anurag Gupta یک دانشجوی کارشناسی ارشد قبل از سال است که در دوره دوگانه (B. Tech+M. Tech) در گروه مهندسی عمران ، IIT Kharagpur ثبت نام کرده است. وی به زمینه علوم داده ، پردازش زبان طبیعی ، مدل سازی داده های پیش بینی و حل مشکلات دنیای واقعی با کمک این فناوری ها علاقه مند است. او دوست دارد با داده ها بازی کند و بینش های ارزشمندی و نتایج حاصل از آنها را به دست آورد ، خواه به داده های ساختار یافته یا بدون ساختار باشد. او مشتاق کار روی پروژه هایی است که می تواند به او در پرورش مهارت ها و دانش کمک کند. پیش از این او در برلیو به عنوان کارآموز علوم داده کار کرده بود و در آنجا بر اساس تشخیص احساسات گفتار در پروژه یادگیری ماشین کار می کرد. او در IISC Bangalore در یک پروژه زندگی واقعی برای پیش بینی حمل و نقل حمل و نقل از اتوبوس های BMTC کار کرده است. Mohit Wadhwa Mohit Washwa در حال حاضر دانشمند داده در برلیو است. وی در مجموع 3+ سال تجربه صنعت دارد. پیش از این ، او بخشی از تیم راه حل های AI در Infosys بود. او بر روی پروژه های مبتنی بر یادگیری ماشین ، یادگیری عمیق و دید رایانه کار کرده است. مهارت های وی به برخی از مشتریان در دستیابی به بهینه سازی کد پیرامون مفاهیمی مانند الگوریتم ژنتیکی کمک کرد. او با ارائه یک راه حل جالب دید رایانه ای که نشان می دهد چگونه مشتریان در یک فروشگاه خرده فروشی می توانند به طور خودکار برای مواردی که از قفسه ها انتخاب شده اند ، درک خود را از الگوریتم های تشخیص شیء مانند YOLO اعمال کرده است. این راه حل در NRF (فدراسیون ملی خرده فروشی) در نیویورک ارائه شد. وی تجربه کار در پروژه های پیش بینی تقاضا را دارد که هدف از آن پیش بینی تقاضای SKU است و برخی از راه حل های مشتری دیگر را شامل می شود که شامل الگوریتم های یادگیری عمیق مانند CNN ، RNN ، LSTM است. او دست خوبی در پایتون دارد و Btech را دنبال کرده است. در مهندسی کامپیوتر از دانشگاه پنجابی ، پاتیالا.

اخبار رمز ارزها...

ما را در سایت اخبار رمز ارزها دنبال می کنید

برچسب : نویسنده : علی‌محمد افغانی بازدید : 27 تاريخ : پنجشنبه 19 مرداد 1402 ساعت: 17:43

شناخت احساسات گفتار (SER) از طریق یادگیری ماشین

آخرین مطالب

امکانات وب