برچسب گفتار - فایلکو

سمینار کارشناسی ارشد برق سنتز کننده های گفتار

اختصاصی از فایلکو سمینار کارشناسی ارشد برق سنتز کننده های گفتار دانلود با لینک مستقیم و پر سرعت .

سمینار کارشناسی ارشد برق سنتز کننده های گفتار

این محصول در قالب پی دی اف و 52 صفحه می باشد.

این سمینار جهت ارائه در مقطع کارشناسی ارشد رشته مهندسی برق-الکترونیک طراحی و تدوین گردیده است . و شامل کلیه مباحث مورد نیاز سمینار ارشد این رشته می باشد.نمونه های مشابه این عنوان با قیمت های بسیار بالایی در اینترنت به فروش می رسد.گروه تخصصی ما این سمینار را با قیمت ناچیزی جهت استفاده دانشجویان عزیز در رابطه با منبع اطلاعاتی در اختیار شما قرار می دهند. حق مالکیت معنوی این اثر مربوط به نگارنده است. و فقط جهت استفاده ازمنابع اطلاعاتی و بالابردن سطح علمی شما در این سایت ارائه گردیده است.

چکیده

در این پژوهش، چگونگی طرح و پیاده سازی سنتز کننده گفتار ارائه شده است. در سنتز کننده گفتار ابتدا پردازش زبان طبیعی (NLP) بر روی متن ورودی انجام می گیرد در این قسمت جملات ورودی به فهرستی از کلمات تبدیل می شوند سپس صورت واجی متن به وسیله مبدل حروف به صدا و یا با استفاده از فرهنگ لغت استخراج می شود.

مرحله بعدی مولد نوای گفتار می باشد، در واقع یکی از عوامل اصلی برای به دست آوردن یک گفتار مصنوعی با کیفیت بالا، مولد نوای گفتار است که اعمال آن به سیستم سنتز گفتار نقش بسزایی در تولید گفتار طبیعی در زبان های مختلف دارد. نوا یکی از فاکتورهای اصلی برای به دست آوردن یک گفتار مصنوعی با کیفیت زیاد می باشد. مفهوم نوا، زیر و بم کردن صدا و ریتم گفتار که باعث تلفظ و برداشت مفهوم های مختلفی از گفتار می شود، می باشد.

حال در این مرحله روش سنتز گفتار (سنتز شمرده به شمرده لغات، سنتز فرمنت، سنتز الحاقی)، را باید تعیین کنیم. در دو روش اول پارامترهای مشخصه گفتار در هر بازه زمانی توسط مجموعه ای از قواعد تولید می شوند، اما در روش سوم واحدهای گفتار ذخیره شده طبیعی برای تولید گفتار خروجی در کنارهم قرار می گیرند. در این رویکرد گفتار ذخیره شده طبیعی به صورت تکه تکه در کنار هم قرار می گیرند تا تولید یک گفتار خروجی کنند که یکی از مهم ترین جنبه ها در سنتز الحاقی انتخاب طول واحد صحیح است.

مقدمه

سنتز گفتار یک فناوری است که به وسیله آن متن به گفتار مصنوعی تبدیل می شود. در موضوع سنتز گفتار، ذخیره سازی کلمات یک زبان غیرممکن (و اغلب بی فایده) است. در واقع سنتز گفتار، تولید گفتار از طریق رونویسی حروف به آوا، به منظور گفتن جملات می باشد. در فصل 1 کلیات این پژوهش شامل هدف، تحقیقات انجام شده و نحوه انجام پژوهش بررسی شده است. در فصل 2 توضیحاتی در خصوص سنتز کننده گفتار ارائه شده است. در فصل 3 مدل تولید گفتار بررسی شده است. در فصل 4 به بررسی سنتز گفتار پرداخته شده است. پایان فصل 5 به نتیجه گیری و بیان پیشنهادات ارائه شده است.

دانلود با لینک مستقیم

سمینار کارشناسی ارشد برق سنتز کننده های گفتار

yarafile دوشنبه 7 تیر 1395 ساعت 05:56

0 نظر

دانلود مقاله زبان آموزی و رشد گفتار

اختصاصی از فایلکو دانلود مقاله زبان آموزی و رشد گفتار دانلود با لینک مستقیم و پر سرعت .

دانلود مقاله زبان آموزی و رشد گفتار

یافته های زبان آموزی همچنین در بررسی چگونگی گسترش مهارت های زبانی نیز وزبان پریشی مورد توجه بوده است به علاوه یافته های یاد شده در زمینه بررسی آموزش زبان دوم وهمچنین زبان خارجی وارائه فرضیه ها وروش های آموزش زبان دوم تأثیر به سزایی داشته است. زبان آموزی هم از لحاظ نظریه های یادگیری وهم از لحاظ بررسی مراحل رشد زبانی قابل توجه است. زبان آموزی درزمانی پس از یک سالگی شروع می شود وتا پنج سالگی تقریباً به حالت ثابت نزدیک می شود. دوره زبان آموزی درحدود 5/3 به طول می انجامد.(مشکوه الدینی، 1376، ص 272) بررسی زبان آموزی به چگونگی رشد مهارت های گفتاری وشنیداری را مشخص می سازد . از یافته های موضوع می توان درآموزش مهارت های زبان استفاده کرد. کودک تا پیش از سواد آموزی قادر است از زبان بطور مناسب دربرقراری ارتباط زبانی استفاده نماید. بعلاوه هر سخنگوی زبان علاوه برقواعد دستوری ، قواعد کاربردی زبان را نیز به تدریج می آموزد؛ یعنی از طریق تعامل با محیط واطرافیان اصول کاربرد شناختی زبان را نیز فرامی گیرد.زبان آموزی تنها به توانایی های آوایی، واژگانی، دستوری وسبکی محدود نمی شود؛ بلکه به ویژگی های کاربردی زبان نیزشامل می گردد. البته دانش زبانی کودک ناخودآگاه است بکارگیری وقضاوت ناخود آگاه زبان توسط کودک شم زبانی نامیده می شود.
نتیجه تسلط کودک برمهارت های زبانی کسب توانایی به کارگیری زبان است . درصورتی که کودک توانایی زبان را داشته باشد نه تنها دانش ومهارت های زبانی وارتباطی خود را بکار می برد بلکه خواهد توانست درآینده نیز براین خلاقیت زبانی تکیه کند .
به نظر انسترون وبلیایف زبان آموزی برافزایش وتقویت توانش زبانی، توانش ارتباطی، خلاقیت زبانی، تفکر درباره زبان وهمچنین مهارت های آمادگی خواندن ونوشتن درآینده تأثیر می گذارد (بلیایف ، 1368 ،ص77) .

فصل اول
زبان آموزی ورشد گفتار
1-1 : زبان آموزی
1-2 : نظریه های زبان آموزی
1-3. مهارت های گفتاری
مراحل رشد گفتاری کودک
1-1-3. مرحله اول: پیش زبانی
2-3-3. مرحله سوم، گفتار دو واژه ای یا تلگرافی
1-4-3. مرحله چهارم، گفتار پیشرفتی
1-5-3. مرحله پنجم: گفتاری تلفظ صحیح صداها (صداها در گفتار)
1-4. گفتار ثابت
1-5. مهارت شنیداری

شامل 18 صفحه فایل word

دانلود با لینک مستقیم

دانلود مقاله زبان آموزی و رشد گفتار

دانلود مقاله زبان آموزی رشد گفتار

yarafile سه‌شنبه 1 تیر 1395 ساعت 00:01

0 نظر

مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز

اختصاصی از فایلکو مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز دانلود با لینک مستقیم و پر سرعت .

مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز

لینک پرداخت و دانلود *پایین مطلب*

فرمت فایل:Word (قابل ویرایش و آماده پرینت)

تعداد صفحه:16

فهرست مطالب

چکیده

1-مقدمه

2-بتزشماسی چندباندی گفتار

3-تقسیم گفتار به زیرباندهای فرکانسی با استفاده از تدبیل موجک

4-معیار تصویر دهی وزن دار

5-آزمایشها و نتایج

6-جمع بندی و نتیجه گیری

چکیده: سیستمهای بازشناسی چندباندی گفتار که بر اساس مکانیزم شنوایی انسان عمل می کنند، نرخ بازشناسی را نسبت به سیستم تمام باند به ویژه در حضور نویز بهبود می بخشند. در بازشناسی چندباندی گفتار، سیگنال گفتار ابتدا به چند زیرباند فرکامسی تقسیم می شود و پس از استخراج بردارهای ویژگی از هر زیرباند، این بردارها یا احتمال تخمینی برای آنها با یکدیگر ترکیب می شوند. در کار حاضر سیستم چندباندی بازشناسی گفتار بر مبنای ترکیب ویژگیها مد نظر قرار گرفته است و ترکیب این شیوه با یک شیوه مبتنی بر مدل موسوم به معیار تصویردهی وزن دار پیشنهاد گردیده است. نتایج آزمایشها نشان می دهند که علاوه بر بهتر بودن کارآیی شیوه ترکیب ویژگیها نسبت به سیستم تمام باند، روش پیشنهادی نیز سبب بهبود چشمگیر کارآیی روش ترکیب ویژگیها می گردد.

کلمات کلیدی: باشناسی چندباندی گفتار، زیرباند، ترکیب ویژگیها، تبدیل موجک، معیار تصویردهی وزن دار

1-مقدمه

مسئله مقاوم سازی سیستمهای بازشناسی گفتار در برابر نویز را می توان به صورت کاهش میزان عدم تطبیق میان شرایط آموزش و آزمون سیستم درنظر گرفت. روشهایی را که برای کاهش این عدم تطبیق بکار یم روند، می توان به سه گروه اصلی تقسیم کرد: روشهای مبتنی بر داده، روشهای مبتنی بر مدل و شیوه های پردازش چندباندی. روشهای مبتنی بر داده تلاش می کنند تا تاثیرات نویز را بر سیگنالهای گفتار یا ویژگیهای آن کاهش دهند، حال آنکه روشهای مبتنی بر مدل بحای خود سیگنال گفتار یا ویژگیهای آن مدل آلکوستیک گفتار را اصلاح می نمایند. شیوه پردازش چندباندی معمولاً در مورد نویزهایی بکار گرفته می شود که سبب تخریب بخشی از طیف فرکانسی سیگنال گفتار می شوند. در شیوه بازشناسی چندباندی، گفتار تمام باند به چندین زیرباند فرکانسی تقسیم می شود و پس از استخراج بردارهای ویژگی از هر زیرباند، بردارهای ویژگی زیرباندها یا احتمال تخمینی برای آنها توسط بازشناس متناظر با هر زیرباند، با یکدیگر ترکیب می شوند و به این ترتیب پاسخ بازشناسی بدست می آید.روشهای مبتین بر داده را می توان معمولاً به دو گروه عمده تقسیم کرد: شیوه بهبود گفتار و روشهای جبران ویژگی. شیوه های بهبود گفتار مستقیماً با سیگنال نویزی گفتار سر و کار دارند و با تخمین سیگنال تمیز از سیگنال نویزی در جهت کاهش میزان عدم تطبیق تلاش می کنند. روش تفاضل طیف و آستانه گذاری ضرایب تبدیل موجک سیگنال گفتار نمونه هایی از این دسته هستند. روشهای جبران ویژگی معمولاً عدم تطبیق را به دو طریق کاهش می دهند. در طریق اول، یک تبدیل به ویژگیها اعمال یم شود تا اثر نویز از آنها حذف گردد. تفاضل میانگین ضرایب کپسترال (CMS) و RASTA PLP از جمله چنین روشهایی هتسند. در طریق دیگر، ویژگیهای جدیدی استخراج می شوند که نسبت به تاثیرات نویز مقاوم باشند، همانند ویژگیهای خود همبستگی فاز.

دانلود با لینک مستقیم

مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز

مقاله ترکیب روشهای مبتنی مدل پردازش چندباندی گفتار برای مقاوم

yarafile یکشنبه 16 خرداد 1395 ساعت 16:38

0 نظر

سورس تشخیص گفتار

اختصاصی از فایلکو سورس تشخیص گفتار دانلود با لینک مستقیم و پر سرعت .

سورس تشخیص گفتار

سورس تشخیص گفتار هوشمند برای افراد مبتدی پیشنهاد نمی شود

شما می توانید از کدهای این برنامه برای ایجاد برنامه های خود استفاده کنید

سورس Eclipse

خروجی برنامه به زبان چینی می باشد مانند منوها و کلیدها که به راحتی می توانید به زبان فارسی تغییر دهید.

ارائه فن آوری سخنرانی رایگان برای توسعه دهندگان،

در فن آوری گفتار از جمله تشخیص گفتار آنلاین و سنتز گفتار باز شده است.

تابع تشخیص صدا است که در برنامه هایی مانند WeChat استفاده می شود با برنده های متعددی وجود دارد

دقت تشخیص صدا 90 درصد می باشد

دانلود با لینک مستقیم

سورس تشخیص گفتار

yarafile یکشنبه 9 خرداد 1395 ساعت 15:31

0 نظر

دانلود مقاله مروری بر سیستم تشخیص گفتار و کاربرد آن

اختصاصی از فایلکو دانلود مقاله مروری بر سیستم تشخیص گفتار و کاربرد آن دانلود با لینک مستقیم و پر سرعت .

چکیده:
سیستم تشخیص گفتار نوعی فناوری است که به یک رایانه این امکان را می دهد که گفتار و کلمات گوینده را بازشناسی و خروجی آنرا به قالب مورد نظر، مانند "متن"، ارائه کند. در این مقاله پس از معرفی و ذکر تاریخچه‌ای ازفناوری سیستم ها تشخیص گفتار، دو نوع تقسیم بندی از سیستمها ارائه می شود، و سپس به برخی ضعف ها و نهایتاً کاربرد این فناوری اشاره می شود.
کلید واژه ها: سیستمهای تشخیص گفتار، فناوری اطلاعات، بازشناسی گفتار

1. مقدمه
گفتار برای بشر طبیعی ترین و کارآمدترین ابزار مبادله اطلاعات است. کنترل محیط و ارتباط با ماشین بوسیله گفتار از آرزوهای او بوده است.طراحی و تولید سیستم های تشخیص گفتار هدف تحقیقاتی مراکز بسیاری در نیم قرن اخیر بوده است.یکی از اهداف انسانها در تولید چنین سیستم هایی مسلماً توجه به این نکته بوده است که "ورود اطلاعات به صورت صوتی ،اجرای دستورات علاوه بر صرفه جویی در وقت و هزینه ،به طرق مختلف کیفیت زندگی ما را افزایش می دهند.امروزه دامنه ای از نرم افزارها (که تحت عنوانSpeech Recognition Systems معرفی می شوند) وجود دارند که این امکان را برای ما فراهم کرده اند.با استفاده از این تکنولوژی می توانیم امیدوار باشیم که چالش های ارتباطی خود را با محیط پیرامون به حداقل برسانیم.

2.تعریف
قبل از پرداختن به به سیستم های تشخیص گفتار لازم است که فناوری تولید گفتار و تشخیص گفتار با تعریفی ساده از هم متمایز شوند:
● فناوری تولید گفتار(Text To Speech):تبدیل اطلاعاتی مثل متن یا سایر کدهای رایانه ای به گفتاراست.مثل ماشین های متن خوان برای نابینایان،سیستم های پیغام رسانی عمومی. سیستم های تولید گفتار به خاطر سادگی ساختارشان زودتر ابداع شدند. این نوع از فناوری پردازش گفتار موضوع مورد بحث در این مقاله نیستند.

● فناوری تشخیص گفتار(Speech Recognition System ): نوعی فناوری است که به یک کامپیوتراین امکان را می دهد که گفتارو کلمات گوینده ای را که از طریق میکروفن یا پشت گوشی تلفن صحبت می کند،بازشناسی نماید. به عبارت دیگر در این فناوری هدف خلق ماشینی است که گفتار را به عنوان ورودی دریافت کند و آنرا به اطلاعات مورد نیاز (مثل متن)تبدیل کند.

3.تاریخچه فناوری تشخیص گفتار
اولین سیستم های مبتنی بر فناوری تشخیص گفتار در سال 1952 در"آزمایشگاههای بل"طراحی شد.این سیستم به شیوه گفتار گسسته و به صورت وابسته به گوینده و با تعداد لغت محدود 10 لغت عمل می کرد.در اوایل دهه 80 میلادی برای اولین بار الگوریتم مدلهای مخفی مارکوف "Hidden Markov Model" ارائه شد.این الگوریتم گامی مهم در طراحی سیستم های مبتنی بر گفتار پیوسته به حساب می آمد.همچنین در طراحی این سیستم از مدل شبکه عصبی و نهایتاً ازهوش مصنوعی نیز استفاده می شود.در ابتدا شرکتهای تجاری این فناوری را برای کاربردهای خاصی طراحی کردند.به عنوان مثال شرکت Kurzweil در زمینه پزشکی و مخصوصاً برای کمک به معلولان و نابینایان و شرکت Dragon در زمینه خودکارسازی سیستمهای اداری محصولات اولیه وارد بازارکردند. توانجویان در واقع اولین گروهی بودند که از این دسته محصولات به عنوان یک فناوری انطباقی و یاریگر،عمدتاً برای دو عملکرد کنترل محیط و واژه پردازی استفاده کردند.
جیمز بیکر James K.Baker یکی از محققان شرکت IBM که در اواخر دهه 1970 در مورد این فناوری مقالات زیادی نوشت، یکی از پیشگامان این طرح بود.او و همکارانش یک شرکت خصوصی به نام Dragon Systems تاسیس کردند.این شرکت ابتدا در دهه 1990 نرم افزاری به نام Dragon Dictate تولید کرد که یک سیستم مبتنی بر گفتار گسسته بود.در سال 1997 این شرکت محصولی را تولید کرد که به جای استفاده از گفتارگسسته ،مبتنی بر گفتار پیوسته بود.در واقع این شرکت با ارائه نرم افزار Dragon Naturally Speaking (DNS) اولین سیستم تشخیص گفتار پیوسته را ارائه نمود.این سیستم توانایی تشخیص گفتار با سرعت 160 کلمه در دقیقه را داشت.همچنین شرکت تجاری IBM هم در این زمینه برای سالهای متمادی فعالیت می کرد که با طراحی بسته نرم افزاری Via Voice به ارائه سیستم های تشخیص گفتار پرداخت که در حال حاضر Scansoft محصولات IBM Via Voice راتوزیع و پشتیبانی می کند.شرکت مایکروسافت نیز فعالیتهایی درجهت تولید و کاربرد این فناوری داشته است،و بیل گیتس Bill Gates در کتابها و سخنرانی هایش به کرات در مورد آینده درخشان استفاده از سیستم های تشخیص گفتار تاکید کرده است. البته عملاً تا قبل از ارائه نرم افزار office XP وword 2002 این تکنولوژی در محصولات این شرکت بکاربرده نشد.گرچه در ابتدا عمده موارد استفاده این تکنولوژی ،برای افراد توانجو پیش بینی شده بود اما بعدها پذیرش استفاده از آن گسترده تر شد و گروههای بسیاری در مدارس و دانشگاهها علاقه مند به استفاده ازاین فناوری شدند. بطوریکه Seton Hall University نیز برای تشویق دانشجویان به آشنایی با این سیستم به دانجشویان جدید الورود نرم افزار IBM Via Voice را اهدا می کرد.

4.عملکرد سیستم های تشخیص گفتار
سیستم های تشخیص گفتار به هر منظور که بکار برده شوند، عملکرد نسبتاً مشابهی دارند که عبارت است از:تبدیل گفتاربه داده و تحلیل آن توسط مدلهای آماری.

شکل 1

1.4 تبدیل گفتاربه داده
برای تبدیل گفتار به یک متن روی صفحه یا یک فرمان کامپیوتری، یک سیستم باید راه دشواری را طی کند.وقتی که گوینده صحبت می کند،لرزشهایی در هوا ایجاد می شود،سیستم تشخیص گفتار ابتدا امواج صوتی آنالوگ را دریافت می کند،مبدل آنالوگ به دیجیتال Analog-to-digital converter (ADC) این امواج آنالوگ را به داده های دیجیتالی تبدیل می کند. سپس سیگنال به سگمنت های کوچکی که به اندازه چند صدم ثانیه یا در مورد صداهای Plosive Consonant چند هزارم یک ثانیه هستند،تقسیم می شود. در مرحله بعد برنامه این سگمنت ها را به phoneme های شناخته شده در زبان تبدیل می کند.Phoneme ،کوچکترین عنصریک زبان است (ارائه ای از صداهایی که ما می سازیم و برای شکل دادن واژه های معنی دار آنها را در کنار هم قرار می دهیم).گام بعدی ساده به نظر می رسد اما در واقع انجام آن بسیار دشوار است .برنامه Phoneme های موجود را با سایر Phoneme هایی که درکنار آن قرار دارد،امتحان می کند و Phonemeهای هم بافت را از طریق یک مدل آماری بسیار پیچیده نقطه (plot) می کندو آنها را با مجموعه بزرگی متشکل از واژه های شناخته شده،عبارات و جملات مقایسه می کند.برنامه سپس چیزی را که کاربر احتمالاً گفته است مشخص می کند و آن را به عنوان متن یا شکل یک فرمان کامپیوتری یا صوت بیرون می دهد.

2.4 تشخیص گفتار با استفاده از مدل(الگوریتم)آماری
سیستم های تشخیص گفتار اولیه سعی داشتند مجوعه ای از قوانین گرامری و دستوری را با گفتار ورودی منطبق کنند. به این صورت که اگر کلمه های گفته شده در داخل مجموعه ای از قواعد و قوانین جای می گرفتند و با آن سازگار می شدند،برنامه می توانست کلمه را تشخیص دهد. تنوع لهجه ها ونوع گفتار افراد مختلف در این حالت از تشخیص می توانست تاثیر منفی بر روی دقت این سیستم ها بگذارد. به عنون مثال تلفظ کلمه barn توسط فردی از بوستون و لندن متفاوت است در حالی که هر دو یک لغت را بکار برده اند.سیستم ها مبتنی بر قواعد و قوانین دستوری به این دلیل موفق نبودند که نمی توانستند گفتار ممتد را با حداقل میزان اشتباه تشخیص دهند.
سیستم های تشخیص گفتار امروزی از سیستم های مدل آماری بسیار قدرتمند و پیچیده ای استفاده می کنند.این سیستم ها از قواعد احتمالات وریای برای تشخیص نتیجه استفاده می کنند. دو مدل مسلط امروز در این حوزه مدل مخفی مارکوف "Hidden Markov Model" و مدل شبکه عصبی"Neural Netwok Model" هستند.این روشها اساساً برای مشخص کردن اطلاعات پنهان از سیستم،از اطلاعاتی که برای سیستم شناخته شده هستند استفاده می کنند. مدل Hidden Markov رایج ترین مدل است.در این مدل هرPhoneme مثل یک پیوند در یک زنجیره است و هنگامی این زنجیره تکمیل می شود،یک کلمه بوجود می آید.در طی این فرایند، برنامه یک score احتمالات را بر اساس دیکشنری توکار و آموزش کاربر به هر Phoneme اختصاص می دهد. این فرایند برای عبارات و جملات،حتی از این هم پیچیده تر است. (سیستم مجبور است مشخص کند که هر کلمه کجا شروع می شود و کجا به اتمام می رسد). گاهی برنامه ناچار است عباراتی را که شنیده است را با عبارت یا عبارت های قبل ار آن که در بافت جمله هستند مقایسه کند،آنرا تجزیه و تحلیل کند تا بتواند آنرا به درستی تشخیص دهد.بنابراین اگر یک برنامه دارای 60000 کلمه باشد ترتیبی از سه کلمه می تواند هر یک از 216 تریلیون احتمال ممکن باشد.بدیهی است که حتی قدرتمندترین سیستم هم نمی تواند بدون کمک،تمام این احتمالات را جستجو کند. این کمک به شکل"آموزش"برنامه ارائه می شود.با وجود اینکه توسعه دهندگان و طراحان نرم افزار که دستگاه واژگانی اصل سیستم را تنظیم می کنند،بخش اعظمی از این آموزش را انجام می دهند اما کاربر نهایی نیز باید زمان زیادی را صرف این آموزش کند.

5.سیستم های تشخیص گفتار:تقسیم بندی بر اساس عملکرد
فناوری تشخیص گفتار بر اساس سه معیارقابل بررسی و طبقه بندی است:
الف.تعدادگویندگان
ب.شیوه صحبت کردن
ج.اندازه بانک واژگان
که در ادامه به توضیح هر یک پرداخته می شود.

1.5 تعداد گویندگان
همانطور که قبلاً نیز اشاره شد،درونداد اطلاعات در این سیستم به صورت صوتی-گفتار انسان- است.بسته به اینکه سیستم برای استفاده تعداد محدودی گوینده طراحی شده باشد یا نه ،این سسیستم به دو دسته"وابسته به گوینده" و "مستقل از گوینده" تقسیم می شوند.
در سیستم های وابسته به گوینده،سیستم هر صدایی را تشخیص نمی دهد بلکه فقط صداهایی که قبلاً آنها را آموزش دیده است را تشخیص می دهد.بدین صورت که شخص با ایجاد یک پروفایل صوتی از صدای خود،صدای خود را به سیستم آموزش می دهد و سیستم نیز با مراجعه به این پروفایل بار دیگر آن را تشخیص می دهد.این سیستم ها دقیق ترند. اما سیستم های مستقل از گوینده طوری طراحی می شوند که سیستم قادر باشد هر نوع صدایی را تشخیص دهد.

2.5 شیوه صحبت کردن
نحوه صحبت کردن گوینده می تواند به دو صورت "گفتار گسسته" و یا "گفتار پیوسته" باشد. در سیستم های مبتنی بر گفتار گسسته گوینده کلمات را جدا جدا و با مکث حداقل 200 میلی ثانیه بین آنها ادا می کند تا سیستم کلمات را بصورت مجزا تشخیص دهد. در این نوع از سیستم بانک واژگان شامل کلماتی است که برای سیستم از قبل تعریف شده است. وقتی که سیستم مبتنی بر گفتار پیوسته باشد،مرز کلمات گوینده واضح نیست که در این صورت برای انطباق گفتار با بانک واژگان، بانک واژگان از "واجهای" زبان تعریف شده تشکیل شده است.

3.5 اندازه بانک واژگان
اندازه بانک واژگان ، از نظر واژگان ذخیره شده در سیستم " محدود" ویا "بزرگ" است. که بین نوع سیستم از نظر وابستگی به گوینده و اندازه بانک واژگان رابطه معکوس وجود دارد.در سیستم های وابسته به گوینده اندازه بانک واژگان بزرگ و تعداد کاربر کم است. این نوع سیستم ها که معمولا در محیط های تجاری بکار گرفته می شوند و تعداد کمی کاربر با این برنامه کار می کنند به بهترین نحو ممکن جوابگو هستند. در حالی که این سیستم ها با سطح دقتی مناسب کار می کنند و دارای هزاران کلمه هستند باید طوری تنظیم شوند که با تعداد کوچکی از کاربران اصلی کار کنند و میزان دقت این سیستم ها تا حد بسیار زیادی به کاربر بستگی دارد. در سیستم هایی که مستقل از گوینده عمل می کنند،تعداد کاربران زیاد است اما تعداد واژاگان اندک است. در این سیستم ها کاربران می توانند با لهجه ها و الگوهای گوناگون تلفظ صحبت کنند هرچند،استفاده از این سیستم ها محدود به تعداد اندکی از فرامین و ورودی های از پیش تعریف شده نظیر گزینه های ابتدایی و اعداد است.

6.سیستم های تشخیص گفتار:تقسیم بندی بر اساس برونداد
سیستم های تشخیص گفتار همگی در یک ویژگی مشترک هستند و آن "لزوم درونداد به صورت صوتی" در این گونه سیستم هاست.این سیستم ها را بر اساس بروندادی که ارائه می کنند می توانیم به سه دسته تقسیم بندی کنیم:
الف.سیستم های گفتار به متنSpeech To Text
ب. سیستم های گفتار به گفتارSpeech To Speech
ج.سیستم های گفتار به فرامین Speech To Command
که در ادامه هریک به طور مختصر معرفی می شوند.

1.6 گفتار به متن Speech To Text
این دسته از سیستم ها توانایی تبدیل گفتار به متن یا تشخیص خودکار گفتار را دارند.از این تکنولوژی برای "دیکته کردن و ایجاد مدرک" استفاده می شود.از آنجایی که تایپ کامپیوتری از کارهای متداول و وقت گیربرای کاربرهای عادی و پیشرفته می باشد بنابراین اولین موارد استفاده از این تکنولوژی ،تایپ کامپیوتری بوده است که باعث افزایش سهولت و سرعت تایپ می شده است مثل کاربرد این سیستم برای روزنامه نگاران و حقوقدانان. این امر به ویژه زمانی که افراد ملزم به تایپ مکرر هستند اهمیت پیدا می کند زیرا بیماری Carpal Tunnel Syndrome (سندرم کانال مچی) که یکی از انواع آسیب های ناشی از تکرار می باشد در اثر استفاده تکرار شونده از کیبورد برای تایپ پدید می آید. با استفاده از سیستم های تشخیص صدا و تایپ با کیبورد به طور همزمان می توان از بروز اینگونه آسیب ها جلوگیری کرد.همچنین افراد توانجو یا کسانی که به هر نحو قادر به تایپ کردن نمی باشند، می توانند خود را با یان سیستم ها تطبیق دهند و از آنها بطور موثری استفاده کنند(به عنوان مثال افرادی که قادر به استفاده از دستان خود نیستند،یا از لحاظ بینایی دچار مشکل هستند). حتی گزارش شده است که استفاده از یک نرم افزار تشخیص صدا به یک مرد مبتلا به بیماری "زبان پریشی" کمک کرده است که بتواند عقایدش را در قالب زبان نوشتاری بیان کند و با اطرافیان خود ارتباط برقرار کند.برخی نرم افزارها در زیر برای آشنایی معرفی می شوند:

شکل 2

IBM Via Voice (IBM Voice Dictation for Linux)
● تنها نرم افزاری است که سیستم عامل لینوکس را پشتیبانی می کند

Myers Hidden Markov Model Software
● نرم افزاری است که توسط ریچارد می یر با الگوی HMM نوشته و طراحی شده است و برای کاربران حرفه ای کاربرد دارد.
فناوری استفاده شده در ویندوز ویستا
فناوری استفاده شده در ویندوز XP
● که در قالب برنامه های word xp و word 2002 به بعد، ارائه شده است.

نرم افزار دیکته خودکار فارسی/انگلیسی نویسا
● یک نرم افزار تشخیص گفتار به دو زبان فارسی و انگلیسی بدون وابستگی به گوینده است که توسط گروه SPl (Speech processing Lab) در دانشگاه صنعتی شریف طراحی و تولید شده است. کاربرمی تواند از این نرم افزار در هر ویرایشگری در محیط ویندوز استفاده کند.

2.6 گفتار به گفتار Speech To Speech
سیستم های گفتار به گفتار شامل استفاده از فناوری تشخیص گفتارعمدتاً در تولید نرم افزارهای ترجمه گفتار به گفتار می باشد.شرکت Via یک تولید کننده کامپیوترهای پوشیدنی است. این شرکت یک مترجم زبانی را توسعه داده است که در اختیار انگلیسی زبانان قرار گرفته است که البته این محصول در تعداد انبوه وارد بازارنشده است.نام این ابزار که نوعی سخت افزار است ،"ابزار مترجم جهانی Via II" می باشد ،وسیله ای است به اندازه یک گوشی تلفن با عملکرد PC که به کمر کاربر متصل می شود یا در جیب لباس وی قرار می گیرد.Via II با یک نرم افزار تشخیص صدا سازگار است و با داشتن در گاه USB حتی امکان اتصال به ادوات جانبی را هم دارا است.این ابزار با قدرت شناسایی مجموعه گسترده ای از زبانها نظیر کره ای،صربستانی،عربی،تایلندی،چینی،و... ارائه می شود .این سیستم برای کاربران انگلیسی زبان طراحی شده است که قادر است صدای کاربر را شناسایی کندو به زبان مقصد ترجمه کندو از طریق بلندگو پخش کند و همچنین در مدت زمان کوتاهی قادر است که پاسخ فرد مخاطب را به انگلیسی ترجمه کند که به این ترتیب یک ترجمه دو طرفه انجام می شود.

شکل 3

آژانس پروژه های تحقیقاتی پیشرفته دفاعی دارای سه تیم از محققانی است که بر روی Global Autonomous Language Exploitation یا (GALE) که برنامه ای که اطلاعات روزنامه ها و اخبار پخش شده در زبانهای خارجی را ترجمه می کند،کار می کنند. این پروژه امیدوار است که بتواند نرم افزاری ایجاد کند که بتواند دو زبان را با حداقل 90 درصد دقت به یکدیگر ترجمه کند.این آژانس همچنین بر روی یک پروژه تحقیقی و توسعه به نام TRANSTAC سرمایه گذاری کرده است که سربازان ایالات متحده امریکا را قادر می کند به شکل موثرتری با جمعیت غیر نظامی کشورهای غیر انگلیسی زبان به تعامل بپردازند.
موارد بالا نمونه هایی از تلاش محققان جهان برای توسعه این فناوری بودند.در ایران و برای کاربران فارسی زبان نیر "نرم افزار پارسیا" طراحی و تولید شده است که یک نرم افزار ترجمه صوتی(گفتار به گفتار) زبان فارسی است و عبارات رایج و مکالمات روزمره فارسی را به زبانهای مقصد (انگلیسی و عربی) ترجمه می کند. این نرم افزار توسط گروه SPL دانشگاه صنعتی شریف طراحی و تولید شده است.

3.6 گفتار به دستور Speech To Command
از این نوع فناوری برای کنترل برنامه ها (computer control) استفاده می شود. با استفاده از این فناوری کاربر می تواند با ادا کردن دستورات آنها را انجام دهد. تقریباً اولین گروهی که روی به استفاده از این فناوری آوردند خلبانان بودند. خلبانان در اتاقک پرواز با استفاده از این سیستم ها علاوه کمک به کنترل امور پرواز بدون نیاز به دست، استرس ناشی از پرواز را کاهش می دادند. همچنین استفاده از این فناوری درحوزه های مشابه مانند فضا نوردی وهوانوردی نیزآزمایش شده است. علاوه بر این توانجویان به طور وسیع این فناوری را به عنوان ابزاری برای کنترل محیط و انطباق بیشتر با آن بکار بردند. به عنوان مثال توانجویان حرکتی قادر خواهند بود با کمک این فناوری دستورات حرکتی به صندلی چرخدار خود بدهند.یا حتی -در ایده ال ترین وضعیت- به کمک کار گذاشتن تراشه های هوشمند و سازگار با فناوری تشخیص صدا در عضو مصنوعی به دست و پای مصنوعی خود فرمانهای حرکتی متنوع صادرکنند.

شکل 4

با استفاده از این فناوری کاربر می تواند با گفتن جملات دستوری مانند" فایل را باز کن" یا "صفحه راببند" برنامه های مختلف کامپیوتری رانیزکنترل کند. از این فناوری به همراه قابلیت Speech To Text در برخی سیستم های عامل استفاده شده است. برخی از نرم افزارها در زیر آورده شده اند:

C Voice Control (Consol Voice Control)
در سیستم عامل لینوکس استفاده می شود و امکان اجرای دستورات را بوسیله فرامین صوتی فراهم می کند.
Game Commander
برنامه ای است مستقل از گوینده و بدون نیاز به آموزش که با ایجاد فرمانهای صوتی برخی بازی های مشهور ویندوز را کنترل می کند.

7.کاربرد فناوری تشخیص گفتار در کتابخانه
سیستم های تشخیص گفتار آنچنان که در حوزه های دیگر مثل پزشکی و انجمن های حقوقی مورد استفاده قرار گرفتند در کتابخانه ها بکار گرفته نشده اند و کتابخانه ها بیشتر موضعی منفعلانه نسبت به بکارگیری این فناوری از خود نشان داده اند.اما با توجه به ماهیت خدمات کتابخانه ای و همچنین تنوع کاربرانی که تمایل به استفاده ازکتابخانه دارند مطمئناً وجود چنین فناوری کمک فراوانی به کتابداران در تسریع و بهبود خدمات کتابخانه ای می کند.به عنوان مثال در کارهای خدماتی –فعالیت هایی که کتابدار به یک ابزار ارتباطی غیر از چشم ها و دست ها نیاز دارد- مثل رف خوانی و فهرست نویسی پیوسته، ویا در فعالیتهای مربوط به سرویسهای کتابخانه ای مثل بازیابی اطلاعات و کنترل فرایند امانت، و نهایتاً در ایجاد امکان دسترسی به پایگاههای اطلاعاتی از راه دور می تواند کاربرد موثری داشته باشد. همچنین با استفاده از اینگونه سیستم ها می توان به نمایه سازی چند رسانه ای ها (مانند فیلم و ویدئو ) پرداخت که دراین حالت کلمات کلیدی در قالب گفتار وارد می شوند و به صورت گفتارنیز بازیابی می شوند. از سوی دیگر با ورود این فناوری به کتابخانه ها و فعالیتهای آن می توان انتظار داشت که کاربران کتابخانه بطور چشمگیری افزایش یابند،چرا که همیشه کاربرانی هستند که نمی توانند با سیستم معمول کتابخانه کار کنند و از منابع اطلاعاتی آن استفاده کنند.این گروه کاربران می توانند کم سوادان ویا طیف وسیعی از توانجویان باشند که در صورت بکارگیری این فناوری آنها نیز با امکان دسترسی به منابع جزو کاربران همیشگی کتابخانه ها می شوند.

فرمت این مقاله به صورت Word و با قابلیت ویرایش میباشد

تعداد صفحات این مقاله 21 صفحه

پس از پرداخت ، میتوانید مقاله را به صورت انلاین دانلود کنید

دانلود با لینک مستقیم

دانلود مقاله مروری بر سیستم تشخیص گفتار و کاربرد آن

دانلود مقاله مروری سیستم تشخیص گفتار کاربرد

yarafile سه‌شنبه 21 اردیبهشت 1395 ساعت 14:01

0 نظر

فایلکو

پیوندها

دسته‌ها

ابر برجسب

جدیدترین یادداشت‌ها

بایگانی

جستجو

سمینار کارشناسی ارشد برق سنتز کننده های گفتار

دانلود مقاله زبان آموزی و رشد گفتار

مقاله ترکیب روشهای مبتنی بر مدل و پردازش چندباندی گفتار برای مقاوم سازی بازشناسی گفتار نسبت به نویز

سورس تشخیص گفتار

دانلود مقاله مروری بر سیستم تشخیص گفتار و کاربرد آن