پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد
به گزارش زعفران، به گزارش خبرنگاران، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با بیان اینکه پیکره متنی بزرگ یکی از مهم ترین نیازهای آموزش مدل های شبکه عصبی عمیق به خصوص شبکه های بر پایه ترنسفورمر است، گفت: استفاده از پیکره متنی برای زبان های با منابع کمتر مانند فارسی بیشتر احساس می گردد.
وی اضافه کرد: بدین منظور تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری یک شرکت دانش بنیان برای این مساله راه چاره پیکره ناب را معرفی کردند. این پیکره، مجموعه پاک سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است.
حسینیان با بیان اینکه این مجموعه شامل حدود 130 گیگابایت دیتا متنی شامل 250 میلیون پاراگراف و 15 میلیارد کلمه است، گفت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به یاری آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
وی اضافه کرد: مرکز نوآوری این شرکت دانش بنیان واقع در دانشگاه صنعتی شریف آماده است تا با یاری این پیکره و تامین بستر مناسب، ایده های پژوهشی محققان را به عرصه واقعیت پرورش دهد.
در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه گفت: از این پیکره می توان برای روان کردن مدل های زبانی، که در اصل برای زبان انگلیسی تهیه شده اند نیز استفاده کرد. از جمله این مدل های زبانی می توان به BERT, BART, T5 و ... اشاره نمود.
منبع: خبرگزاری مهر