جست وجو در تصاوير حاوى متن

واضح آرشیو وب فارسی:سایت ریسک: View Full Version : جست وجو در تصاوير حاوى متن Arashi16-10-2005, 07:54 PMسلام مجدد خدمت همه دوستان گل آن لاين جست وجو در تصاوير حاوى متن برنامه تشخيص دهنده متن كه به آن OCR نيز گفته مى شود (مخفف Optical Character Recognition _ به معناى تشخيص نورى حروف) برنامه اى است كه با استفاده از روش هاى گوناگون هوش مصنوعى، تصاوير حاوى متن را به متن قابل ويرايش تبديل مى كند. تصاوير كامپيوترى از ميليون ها نقطه (Pixel) تشكيل شده اند و رايانه دركى نسبت به محتواى تصوير نداشته و تنها رنگ و شدت روشنايى نقاط تصوير به عنوان عناصر تشكيل دهنده تصوير براى رايانه تعريف شده است. حال اگر اين تصاوير حاوى متن باشند (مثلاً صفحات كتابى را كه چاپ شده است اسكن نموده و به صورت تصوير به كامپيوتر منتقل نماييم) بدون استفاده از برنامه تشخيص دهنده متن، كامپيوتر قادر به شناسايى متن درون تصاوير نبوده و بنابراين عملياتى همانند جست وجوى كلمات كتاب و يا ويرايش متن درون كتاب امكان پذير نخواهد بود. حال آنكه با به كارگيرى برنامه تشخيص دهنده متن، تصاوير صفحات كتاب به متن كامپيوترى تبديل شده و امكان ويرايش متن، جست وجوى متن، چاپ مجدد متن با كيفيت بالا و انتقال الكترونيكى سريع آن (با توجه به آنكه حجم اطلاعات متنى بسيار كمتر از اطلاعات تصويرى است) فراهم مى شود. با تجسم نمودن آن كه به منظور ايجاد نسخ الكترونيكى كتاب هاى كتابخانه اى كه ده ها هزار كتاب و ميليون ها صفحه مطلب در آن قرار دارد چه هزينه مالى و زمانى هنگفتى را بايد براى تايپ كامپيوترى اين كتاب ها بپردازيم مى توان به گوشه اى از اهميت برنامه OCR پى برد. علاوه بر كاربرد برنامه تشخيص دهنده متن در كتابخانه هاى ديجيتال، از اين برنامه در سيستم هاى مكاتبات ادارى، مراكز مكانيزه ورود اطلاعات، سيستم هاى آرشيو اسناد و بسيارى از سيستم هاى مكانيزه ديگر استفاده مى شود. بدين ترتيب مى توان از برنامه تشخيص دهنده متن (OCR) به عنوان يكى از عناصر اصلى يك دولت الكترونيك كارآمد نام برد. • تاريخچه برنامه تشخيص دهنده متن بيش از ۴۰ سال از كار بر روى برنامه هاى تشخيص دهنده متن مى گذرد و به جرات مى توان گفت كه صدها ميليون دلار هزينه صرف توسعه اين برنامه ها و دانش مرتبط با آنها شده است و هنوز هم كارايى اين برنامه ها فاصله بسيار زيادى با كارايى تشخيص متن سيستم بينايى و مغز انسان دارد. تاكنون بيشترين كارهاى انجام شده در اين مقوله بر روى حروف لاتين و حروف ژاپنى و چينى بوده است. هرچند كارهاى انجام شده بر روى تشخيص دهنده هاى متن فارسى و عربى نيز نسبتاً قابل توجه است و هزينه هاى قابل توجهى نيز (البته در مقام مقايسه با كشورهاى پيشرفته هزينه هاى اندكى) صرف توسعه اين برنامه ها در كشور شده است، ولى به دليل پيچيدگى هاى بسيار زياد تشخيص اين متون (از جمله چسبيدگى حروف، استفاده گسترده از نقاط و تغيير ظاهرى حروف با توجه به محل قرارگيرى آنها)، نتايج گرفته شده پيش از اين از دقت بالايى برخوردار نبوده و فاصله زيادى با نمونه هاى لاتين و نيز نمونه هاى ژاپنى و چينى دارد. طراحى و پياده سازى اين برنامه از سال ۱۳۸۲ براساس تجربيات بسيار زياد گذشته در زمينه پردازش تصوير و سيستم هاى هوشمند آغاز شد. نخستين حامى اين پروژه طرح تكفا بود و حاصل كار شبانه روزى بر روى اين پروژه، برنامه اى است كه با توجه به آزمايشات گوناگون انجام شده، از نظر دقت تشخيص بسيار برتر از كليه نمونه هاى عربى و فارسى موجود است. اين برنامه قابليت تشخيص متون پيوسته تايپى فارسى را با دقت بسيار بالا دارا است. اين پروژه موفق به احراز رتبه منتخب در نخستين دوره حمايت از محصولات ICT بخش خصوصى و تعاونى شده و در ميان OCRهاى ارائه شده با توجه به دقت تشخيص بسيار بالا و ويژگى هاى منحصر به فرد خود به عنوان OCR برتر شناخته شده است. با توجه به آنكه سيستم هوشمند تشخيص دهنده متن در اين برنامه تماماً توسط متخصصان داخلى طراحى و پياده سازى شده است، اين برنامه انطباق كامل با نحوه نگارش فارسى داشته و علاوه بر دارا بودن پشتيبانى كامل، براساس نيازهاى خاص مشتريان قابل سفارشى سازى است.برخى از ويژگى هاى اين برنامه عبارتند از: ۱- قابليت تشخيص با دقت بسيار بالا (بيش از ۹۸ درصد حروف و بيش از ۹۹ درصد كلمات براى متون با اسكن مناسب) ۲- سرعت بازشناسى بالا ۳- قابليت اصلاح خودكار زاويه چرخش (تا ۳۶۰ درجه) ۴- آموزش پذيرى دوگانه (هم از طريق تصوير اسكن شده و هم از طريق فايل فونت) ۵- پس پردازش هوشمند مبتنى بر خطاهاى متداول در بازشناسى حروف فارسى ۶- سازگار با كليه اسكنرهاى پشتيبان پروتكل Twain ۷- قابليت پردازش دسته اى بر روى مجموعه اى از فايل هاى ورودى ۸- قابليت تعريف مجموعه واژه نامه به منظور غلط يابى و تصحيح املايى خروجى ۹- قابليت تعريف مجموعه فونت به منظور بازشناسى با سرعت و دقت بالا ۱۰- امكان تعريف گردش كار منطبق بر نيازهاى كاربر و ذخيره سازى آن براى ارجاعات بعدى ۱۱- قابليت تشخيص متون چندفونتى و ايجاد خروجى با قالب rtf. و .txt و ارسال خروجى به .Microsoft Word منبع : روزنامه شرق خيلي موفق باشيد :happy: :happy: Lovelyman16-10-2005, 08:31 PMممنون به درد بخوره لينك دانلودش چيه؟؟؟ موفق باشي جيگر:d سایت ما را در گوگل محبوب کنید با کلیک روی دکمه ای که در سمت چپ این منو با عنوان +1 قرار داده شده شما به این سایت مهر تأیید میزنید و به دوستانتان در صفحه جستجوی گوگل دیدن این سایت را پیشنهاد میکنید که این امر خود باعث افزایش رتبه سایت در گوگل میشود

این صفحه را در گوگل محبوب کنید

[ارسال شده از: سایت ریسک]

[مشاهده در: www.ri3k.eu]

[تعداد بازديد از اين مطلب: 481]