خلاصه متن خودکار – لینکلن ، مقدمه ای برای خلاصه خودکار – وبلاگ داده

یک وبلاگ در مورد داده ها ، هوش مصنوعی و پروژه های من

خلاصه خودکار این است که یک متن طولانی یا حتی مجموعه ای از متن ها را تهیه کنید و به طور خودکار متن بسیار کوتاه تری تولید کنید که حاوی اکثر اطلاعات است. ساده ? نه چندان. اول ، شما باید موافقت کنید که چه اطلاعاتی واقعاً مهم است. سپس ، ما باید بتوانیم آنها را به درستی استخراج کنیم ، آنها را دوباره سازماندهی کنیم ، همه در یک متن دستوری و بدون مداخله انسانی. و این بدون شمارش تعداد زیادی از انواع خلاصه های احتمالی است !

خلاصه متن خودکار

با انفجار جمع آوری و ذخیره سازی بافت ، نیاز به تجزیه و تحلیل و استخراج اطلاعات مربوطه از این توده بیشتر و بیشتر وجود دارد.

علاوه بر این ، رونق در مدل های یادگیری عمیق برای پردازش خودکار زبان طبیعی (TALN) استفاده از داده های متنی را در مسائل عملیاتی تسهیل می کند. خلاصه متن خودکار ، به همان روشی که سؤال پاسخ دهنده ، تجزیه و تحلیل شباهت ، طبقه بندی سند و سایر کارهای مرتبط با TALN بخشی از این موضوعات است.

در این زمینه است که نوآوری آزمایشگاه د لینکلن تصمیم گرفته است کار را بر روی خلاصه متن خودکار انجام دهد. این آثار امکان ایجاد معیار مدل های خلاصه اتوماتیک موجود برای زبان را فراهم کرده است فرانسوی, تا الگوی خودمان را ایجاد کنیم و در نهایت آن را در تولید قرار دهیم.

�� آموزش مدل

خلاصه اتوماتیک جهان

داده ها

قبل از اینکه بتوانیم کار خود را شروع کنیم ، ابتدا مجبور شدیم یک پایگاه داده برای یادگیری مدل های خلاصه خودکار بسازیم. ما موارد مطبوعاتی را از چندین سایت خبری فرانسوی بازیابی کرده ایم. این پایه شامل مقاله 60K پوند است و به طور مداوم به روز می شود.

مدرن

الگوریتم های خلاصه خودکار را می توان به دو دسته جدا کرد: خلاصه استخراج کننده و خلاصه ها انتزاعی. در قاب استخراج کننده, خلاصه ها از جملات استخراج شده از متن در حالی که خلاصه ها ساخته شده است انتزاعی از جملات جدید تولید می شوند.

مدل های خلاصه اتوماتیک در انگلیسی کاملاً متداول است ، اما به زبان فرانسوی بسیار کمتر است.

معیارهای

برای ارزیابی مدل ها از معیارهای زیر استفاده کردیم:

قرمز : بدون شک اندازه گیری که اغلب در کارهای خلاصه گزارش شده است ، فراخوان گرا برای ارزیابی گیست (لین ، 2004) تعداد N-GRAM های مشابه بین خلاصه ارزیابی شده و خلاصه مرجع انسانی را محاسبه می کند.

شهاب سنگ: متریک برای ارزیابی ترجمه با سفارش صریح (Banerjee and Lavie ، 2005) برای ارزیابی نتایج ترجمه خودکار طراحی شده است. این مبتنی بر میانگین هارمونیک دقت و فراخوان در unigrams است ، فراخوان دارای وزن بیشتر از دقت است. شهاب سنگ اغلب در نشریات خلاصه اتوماتیک استفاده می شود (نگاه کنید به و همکاران., 2017 ؛ دونگ و همکاران., 2019) ، علاوه بر قرمز.

تازگی: متوجه شده است که برخی از مدل های انتزاعی بیش از حد روی استخراج قرار دارند (نگاه کنید به و همکاران., 2017 ؛ Krysci ‘Nski و همکاران.‘، 2018). بنابراین ، اندازه گیری درصد N-GRAM های جدید تولید شده در خلاصه های تولید شده مشترک است.

منبع: ترجمه از مقاله MLSUM [2].

استقرار مدل ها

برای آموزش مدل ، ما از سرویس Cloud Azure ML استفاده کردیم که محیط کاملی را برای آموزش ، نظارت و استقرار مدل ها فراهم می کند.

مدل خلاصه خودکار

ما به طور دقیق تر از Python SDK استفاده کرده ایم که به شما امکان می دهد کل محیط Azureml را به روش برنامه ای مدیریت کنید ، از راه اندازی “مشاغل” گرفته تا استقرار مدل ها.

با این حال ، ما مدل نهایی خود را در یک برنامه فلاسک کانتینر شده قرار دادیم و سپس از طریق خطوط لوله CI/CD در یک خوشه Kubernetes مستقر شدیم

نتایج

اول از همه ، ما چندین تلاش انجام دادیم که مدل ها را بر روی مقالات 10K هدایت کردیم و تعداد نشانه های داده شده در شروع مدل (512 یا 1024) و معماری های مختلف را تغییر دادیم.

مشاهده اول: معیارهای قرمز و شهاب سنگ برای ارزیابی عملکرد مدل های ما بسیار مناسب به نظر نمی رسد. بنابراین ما تصمیم گرفتیم که مقایسه های خود را فقط بر اساس نمره جدید و انتخاب کنیم و انتخاب کردیم معماری به نفع خلاصه های انتزاعی تر.

پس از فشار دادن آموزش مدل ما روی موارد 700K ، ما به طور قابل توجهی نتایج را بهبود بخشیدیم و نسخه اول را که در زیر پیدا خواهید کرد تأیید کردیم.

نقاط توجه

فراتر از عملکرد ، این آزمایش به ما امکان برجسته کردن برخی را داد مرزها خلاصه خودکار:

در حال حاضر ، اندازه متن در ورودی های مدل های نوع تبدیل با ظرفیت در حافظه GPU محدود است. هزینه حافظه با اندازه متن به عنوان ورودی ، درجه دوم است ، این یک مشکل واقعی برای کارهای خلاصه خودکار است که در آن متن خلاصه می شود اغلب به اندازه کافی طولانی است.

یافتن معیارهای مربوطه برای ارزیابی وظایف تولید متن بسیار دشوار است.

مراقب باش وزن استخراج کننده : ما همچنین با چندین مشکل مربوط به داده ها به خودی خود روبرو شده ایم. مشکل اصلی این است که ماده مقاله اغلب یک پاراگراف یا حتی کپی از اولین جملات مقاله بود. این نتیجه این بود که با بازگرداندن نخستین جملات مقاله ، مدلهای ما را ترغیب به استخراج تر از انتزاعی تر کنند. بنابراین برای جلوگیری از این نوع تعصب ، انجام یک کار درمانی با حذف مقالاتی لازم بود.

یک وبلاگ در مورد داده ها ، هوش مصنوعی و پروژه های من.

خلاصه خودکار این است که یک متن طولانی یا حتی مجموعه ای از متن ها را تهیه کنید و به طور خودکار متن بسیار کوتاه تری تولید کنید که حاوی اکثر اطلاعات است. ساده ? نه چندان. اول ، شما باید موافقت کنید که چه اطلاعاتی واقعاً مهم است. سپس ، ما باید بتوانیم آنها را به درستی استخراج کنیم ، آنها را دوباره سازماندهی کنیم ، همه در یک متن دستوری و بدون مداخله انسانی. و این بدون شمارش تعداد زیادی از انواع خلاصه های احتمالی است !

من توانستم حدود یک سال در این موضوع هیجان انگیز درست قبل از دکترا کار کنم ، بنابراین این پست فرصتی برای من است که بتوانم خودم را در این موضوع غوطه ور کنم و از آخرین نوآوری ها در دامنه استفاده کنم.

بنابراین بیایید قبل از اینکه بر روی دو نوع سیستم اندکی با جزئیات زندگی کنیم ، با توصیف انواع مختلف خلاصه ای که وجود دارد ، با توصیف انواع مختلف خلاصه ای که وجود دارد ، بررسی کنیم: آنهایی که از شبکه های هوش مصنوعی و عصبی هستند ، و مواردی که نسبت به استخراج بهینه متمرکز شده اند اطلاعات.

انواع مختلف خلاصه

وقتی در مورد خلاصه صحبت می کنیم ، اغلب به پوشش پشت یک کتاب یا توضیحات فیلمنامه برای یک فیلم فکر می کنیم. به طور کلی ، آنها از خراب کردن پایان خودداری می کنند ، هنگامی که این دقیقاً همان چیزی است که شخص می خواهد ابزاری از خلاصه خودکار کلاسیک را بخواهد: برای گفتن فتنه ، تا خلاصه ممکن است برای دانستن ملزومات کافی باشد. اینجا در مورد است خلاصه های یکنواختی, یعنی ما فقط یک سند واحد را خلاصه می کنیم (یک فیلم ، یک کتاب ، یک مقاله ، …).

در مقابل ، ما می توانستیم خلاصه چند مستند, که ما بیشتر در زمینه بررسی های مطبوعاتی ملاقات می کنیم: ما می خواهیم خلاصه ای از مهمترین اطلاعات را که توسط سازمان های مختلف مطبوعات گزارش شده است ، داشته باشیم.

هنگامی که ما در مورد نوع داده هایی که می خواهیم خلاصه کنیم ، مونو یا چند مستند تصمیم گرفتیم ، بین دو رویکرد انتخاب داریم:استخراج کننده, که شامل استخراج به عنوان اطلاعات قبل از قرار دادن آن برای ایجاد خلاصه و رویکرد است مولد, که شامل ایجاد جملات جدید است که در ابتدا در اسناد ظاهر نمی شوند ، تا خلاصه روانتر و آزادتری داشته باشند.

علاوه بر این معیارها ، سبک های مختلفی از خلاصه ها وجود دارد که ما در اینجا به آنها نزدیک نخواهیم شد: خلاصه های به روزرسانی که شامل خلاصه اطلاعات موجود در یک سند جدید است و تاکنون ذکر نشده است ، خلاصه شده است که شامل اتخاذ یک زاویه دقیق است. داده شده توسط کاربر ، ..

هوش مصنوعی و شبکه های عصبی خلاصه خودکار را متحول می کنند

تا اواسط دهه 2010 ، بیشتر خلاصه ها استخراج شده بودند. با این حال ، تنوع زیادی در حال حاضر در این الگوریتم ها وجود داشته است که می تواند از انتخاب و استخراج جملات کامل تا استخراج اطلاعات دقیق که در متون با سوراخ های تهیه شده از قبل به نام الگوهای تهیه شده است ، متغیر باشد. ورود رویکردهای جدید مبتنی بر شبکه های عصبی به طور قابل توجهی اوضاع را تغییر داده است. این الگوریتم ها برای تولید متن دستوری و سیال بسیار مؤثرتر از موارد قبلی هستند ، مانند آنچه می توان با این نسخه ی نمایشی GPT انجام داد.

با این حال ، شبکه های عصبی به مقادیر زیادی از داده ها نیاز دارند تا آموزش داده شوند و نسبتاً ناخوشایند هستند. آنها کاملاً کار می کنند تا نظرات را ایجاد کنند که صحت آن از اهمیت کمی برخوردار است ، اما به شدت ممکن است اطلاعات متناقض یا به سادگی نادرست ایجاد کند که در زمینه خلاصه مقالات مطبوعاتی به عنوان مثال مشکل ساز است. بسیاری از مقالات تحقیقاتی به این “توهمات” شبکه های عصبی علاقه مند هستند.

نمونه ای از ابزار ترکیبی: Potara

خلاصه اتوماتیک اولین موضوع تحقیقاتی بود که من در آن علاقه مند شدم و من این فرصت را داشتم که در طول استاد خود یک سیستم ترکیبی خلاصه با استخراج/تولید برای یک رویکرد چند مستند توسعه دهم ، یعنی خلاصه مجموعه ای از اسناد صحبت کردن از همان موضوع.

ایده این بود که از یک استخراج کلاسیک شروع کنیم ، یعنی شناسایی مهمترین جملات و جمع آوری آنها برای تولید خلاصه. مشکل این رویکرد این است که مهمترین جملات اغلب می توانند بیشتر بهبود یابند. به عنوان مثال ، در مقاله ای از جابجایی ریاست جمهوری ، عبارت “امانوئل ماکرون با همتای آمریکایی خود ملاقات کرد و در مورد اقتصاد بحث کرد” می تواند در “امانوئل ماکرون با جو بایدن و بحث در مورد اقتصاد” بهبود یابد “. روزنامه نگاران با دقت از تمرینات خودداری می کنند ، ما خودمان را که اغلب با این نوع پدیده ها روبرو می شویم ، می یابیم.

برای غلبه بر این نقص ، می توانیم جملات مشابه موجود در اسناد مختلف را شناسایی کنیم و سعی کنیم آنها را برای به دست آوردن یک جمله بهتر ادغام کنیم. ANSI ، از دو جمله زیر:

  • امانوئل ماکرون با همتای آمریکایی خود در واشنگتن ملاقات کرد و به طور طولانی در مورد اقتصاد صحبت کرد.
  • رئیس جمهور فرانسه با جو بایدن ملاقات کرد و در مورد اقتصاد بحث کرد.

ما می توانیم یک جمله کوتاه و آموزنده ایجاد کنیم:

  • امانوئل ماکرون با جو بایدن در واشنگتن ملاقات کرد و در مورد اقتصاد بحث کرد.

برای دستیابی به این نتیجه چندین مرحله لازم است: یافتن جملات مشابه ، یافتن بهترین فیوژن ، بررسی اینکه همجوشی بسیار بهتر از یک جمله اصلی است. آنها بخشی از فناوری های بسیاری را به دست می آورند: Word2 با شبکه های عصبی برای یافتن جملات مشابه ، نمودارهای همزمان برای ادغام آنها ، بهینه سازی ILP برای انتخاب بهترین ادغام.

اگر می خواهید بیشتر ببینید ، پوتارا منبع باز است ، اما مدتی حفظ نشده است. این پروژه به ویژه در هنگام انتشار من به عنوان ویترین خدمت کرده بود و به همین دلیل مستندات ، آزمایشات ، ادغام مداوم ، استقرار در PYPI ، ..

خلاصه اتوماتیک خوب چیست ?

اگر معیارهای خاص ارزیابی آشکار و نسبتاً ساده به نظر برسد (به عنوان مثال دستوری جملات) ، دیگران بسیار پیچیده تر هستند. تصمیم گیری در مورد مهمترین اطلاعات یک متن در حال حاضر یک کار بسیار ذهنی به خودی خود است. ارزیابی سیالیت ، انتخاب صحیح کلمات مورد استفاده ، به کار انتشار بر می گردد و اجازه نمی دهیم در مورد جهت گیری سیاسی که یک خلاصه می تواند صحبت کند !

مدل های جدید تولیدی مبتنی بر شبکه های عصبی احتمالاً داوری یا مقدماتی (یا کاربر دوستانه) را معرفی می کنند ، اثری که هنگام ایجاد یک انتقاد از فیلم به دست می آید ، اما هنگام صحبت در مورد برنامه یک نامزد ریاست جمهوری بسیار کمتر است !

خلاصه خودکار بنابراین یک موضوع بسیار فعال در تحقیق باقی مانده است ، و ممکن است برای یک لحظه ، به ویژه با توجه به توانایی هدایت نتیجه الگوریتم ، دقیقاً به سمت یک احساس خاص ، یک سبک خاص ، یک رنگ سیاسی داده شود. در صنعت ، او تازه شروع به ورود مدیران بسیار خاص می کند (به عنوان مثال خلاصه جلسات).

ریاست جمهوری 2022: به داده های شما !

3 نمونه از پروژه های داده ای که برای انتخابات ریاست جمهوری 2022 انجام می شود.