واضح آرشیو وب فارسی:باشگاه خبرنگاران جوان: نرمافزار توليد درخت بانك نحوي جملات فارسي تهيه شد
نرمافزار توليد درخت بانك پيكره متني زبان فارسي به عنوان يكي از زيرساختهاي مدلسازي نحو جملات زبان فارسي جهت توليد و توسعه نرمافزارهاي كاربردي پردازش متون و گفتار فارسي با همكاري دانشگاه تهران تهيه شد.
به گزارش سرويس علمي پزشكي باشگاه خبرنگاران به نقل از واحد ارتباطات دبيرخانه شوراي عالي اطلاعرساني، با توجه به اهميت توسعه خط و زبان فارسي در محيط رايانهاي و مورد توجه قرار گرفتن آن در برنامههاي راهبردي كشور از جمله سند چشمانداز بيستساله و نقشه جامع علمي كشور، توليد زيرساختها و نرمافزارهايي كه بتوانند اين موضوع را تحقق بخشند، حائز اهميت فراوان است.
در اين ميان يكي از اين زيرساختها، درختبانك گروههاي نحوي متون فارسي است تا امكان تعبير و تفسير جملات زبان فارسي در سطح نحو را براي توليد و توسعه نرمافزارهاي كاربردي پردازش متون و گفتار فارسي در محيط رايانهاي ايجاد كند.
با توجه به اين كه در سال 1384 بخشي از زيرساختهاي موردنظر در چارچوب طرح دادگان ملي زبان فارسي در دبيرخانه شوراي عالي اطلاعرساني پيشبيني و طراحي شد و در سال 1386 در جهت استانداردسازي بخشي از اين دادگان تحت عنوان "پيكره متني زبان فارسي" گام اوليه برداشته شد، توليد درختبانك متون اين پيكره در دستور كار كارگروه خط و زبان فارسي در دبيرخانه قرار گرفت.
هدف از طرح فعلي نوشتن نرمافزاري بود كه بتواند با دقت قابلقبولي متون پيكره را در قالب يك نظريه زبانشناختي تجزيه و تحليل نحوي كند تا از ميزان كار دستي به ميزان زيادي بكاهد.
مسئله اصلي استخراج قواعد دستوري زبان نوشتاري فارسي است كه با استفاده از سيستم برچسبهاي نحوي-معنايي پيكره متني زبان فارسي به دست ميآيد.
دستاوردهاي اين طرح نرمافزاري است كه متون پيكره متني زبان فارسي را تقطيع، كلمات چندقطعهاي را استخراج و قطعههاي چندواحدي را شناسايي ميكند و در نهايت گروهبندي نحوي اجزاي تشكيلدهنده جملات را با بررسي برچسبهاي اجزاي كلام پيكره انجام ميدهد. براي صحتسنجي و بررسي چالشهاي موجود در توليد نرمافزار خودكار درختبانك نحوي جملات فارسي اصلاح دستي درختبانك يكصد پرونده متني كم حجم نيز صورت گرفته است.
اين نرمافزار اكنون توسط شورا در اختيار پژوهشكده پردازش هوشمند علائم قرار گرفته و به زودي بصورت رايگان به متقاضيان ارائه خواهد شد. در ضمن متقاضيان استفاده از اين نرمافزار نياز به فايلهاي پيكره متني زبان فارسي به عنوان ورودي و محتواي نرمافزار دارند كه بر اساس تفاهمنامه دبيرخانه شوراي عالي اطلاعرساني با پژوهشكده پردازش هوشمند علائم كه گردآورنده اصلي فايلهاي پيكره متني است، فايلهاي مذكور با تخفيف ويژه به مراكز علمي و دانشگاهها ارائه ميشود. بديهي است خروجي اين نرمافزار ، همان درخت بانك نحوي جملات پيكره متني زبان فارسي خواهد بود.
گفتني است اجزاي نظام توليد درختبانك نحوي جملات فارسي و تحليل نتايج نيز در قالب دو گزارش تشريح شده است كه در آينده در قالب كتابي به چاپ خواهد رسيد./ع
يکشنبه|ا|21|ا|اسفند|ا|1390
این صفحه را در گوگل محبوب کنید
[ارسال شده از: باشگاه خبرنگاران جوان]
[تعداد بازديد از اين مطلب: 96]