تجزیه و تحلیل احساسات یادگیری ماشین ، اخبار COVID-19 و واکنش های بازار سهام

ساخت وبلاگ

از ژانویه سال 2020 Elsevier یک مرکز منابع COVID-19 با اطلاعات رایگان به زبان انگلیسی و ماندارین در مورد رمان Coronavirus Covid-19 ایجاد کرده است. مرکز منابع Covid-19 در وب سایت اخبار و اطلاعات عمومی شرکت Elsevier Connect میزبان است. Elsevier بدین وسیله اجازه می دهد تا تمام تحقیقات مربوط به COVID-19 خود را که در مرکز منابع COVID-19 موجود است-از جمله این محتوای تحقیق-که بلافاصله در مخازن PubMed Central و سایر سرمایه گذاری های عمومی در دسترس است ، مانند پایگاه داده WHO COVID با حقوق برایتحقیقات بدون محدودیت دوباره استفاده و تجزیه و تحلیل به هر شکلی یا به هر وسیله ای با تأیید منبع اصلی. این مجوزها تا زمانی که مرکز منابع COVID-19 فعال باشد ، توسط Elsevier به صورت رایگان اعطا می شود.

داده های مرتبط

MMC S1. MMC1. pdf (177K) GUID: B13512FD-0F43-4E67-8880-3F3F00347A95

نویسندگان اجازه به اشتراک گذاری داده ها را ندارند.

خلاصه

همه گیر اخیر Covid-19 نشان دهنده یک رویداد بی سابقه در سراسر جهان برای بررسی تأثیر اخبار مرتبط در بازارهای مالی است ، به خصوص در مرحله اولیه همه گیر هنگامی که اطلاعات مربوط به تهدید جدید به سرعت پیش آمد و برای پردازش سرمایه گذاران پیچیده بود. در این مقاله ، ما بررسی می کنیم که آیا جریان اخبار در COVID-19 تاثیری در شکل گیری انتظارات بازار داشته است. ما در دوره ژانویه تا ژوئن 2020 ، 203،886 مقاله آنلاین راجع به COVID-19 و در سه سیستم عامل خبری (marketwatch. com ، nytimes. com و reuters. com) منتشر می کنیم. با استفاده از تکنیک های یادگیری ماشین ، احساسات اخبار را از طریق آن استخراج می کنیمیک مدل BERT با سازگار با بازار مالی که امکان شناخت زمینه هر کلمه را در یک مورد خاص فراهم می کند. نتایج ما نشان می دهد که بین نمرات احساسات و بازار S& P 500 رابطه آماری معنی دار و مثبت وجود دارد. علاوه بر این ، ما شواهدی ارائه می دهیم که مؤلفه های احساسات و دسته های خبری در NYTimes. com متفاوت با بازده بازار بودند.

کلمات کلیدی: اخبار Covid-19 ، تجزیه و تحلیل احساسات ، بازارهای سهام

چکیده گرافیکی

An exteal file that holds a picture, illustration, etc. Object name is ga1_lrg.jpg

1. معرفی

اخبار می تواند در بورس سهام تأثیر بگذارد زیرا اطلاعات مالی مربوط به ارزش دارایی را ارائه می دهد یا به این دلیل که با روانشناسی سرمایه گذار مرتبط است ، همانطور که توسط مدلهای نظری معامله گران نویز و نقدینگی توضیح داده شده است (DeLong et al. ، 1987). انتشار اخبار عمومی باعث کاهش عدم تقارن اطلاعات می شود و جریان جدید اطلاعات به سرعت در قیمت های بازار جذب می شود (یعنی مارت و همکاران ، 2020).

مطالعات متعددی شواهد تجربی در مورد رابطه بین واکنشهای بازار و انواع مختلف اخبار مانند کلان اقتصادی ، محیط زیست ، مدیریت شرکتها و اخبار کسب شده ارائه داد (به جمله دیگران ، همیلتون ، 1995 ، ژانگ و همکاران ، 2013 ، هوانگ ، 2018 ، کاپورین را ببینید. و همکاران ، 2019 ، کارلی و همکاران ، 2020). توانایی بررسی تأثیر اخبار بر قیمت سهام اخیراً به لطف استفاده از پردازش زبان طبیعی (NLP) در امور مالی و اقتصاد افزایش یافته است (Xing et al. ، 2018 ، Wan et al. ، 2021). در مواقع پریشانی در بازار ، واکنش قیمت سهام به اخبار حتی بیشتر قابل توجه است ، و همه گیر اخیر Covid-19 که از سال 2020 آغاز شد ، جزو اولین موارد آشفتگی مالی جهانی و پیش بینی نشده است که توسط یک رویداد غیر مالی ایجاد شده است که می تواند باشدبا NLP و تجزیه و تحلیل احساسات مورد مطالعه قرار گرفت. برخی از اقتصاددانان مالی COVID-19 را به عنوان "شوک برون زا" یا حتی "قو سیاه" تعریف کرده اند. یعنی یک رویداد نادر که تأثیرات قابل توجهی در بازارهای سهام دارد و به طور منطقی نمی تواند پیش بینی شود (به عنوان مثال ، احمد و همکاران ، 2021 ، یاروایا و همکاران ، 2021).

حجم فزاینده ای از تحقیقات تأثیر COVID-19 بر بازار سهام را بررسی کرده است. به عنوان مثال، بیکر و همکاران.(2020) نشان می دهد که هیچ بیماری همه گیر قبلی، مانند آنفولانزای اسپانیایی و سارس، بازارهای مالی را به شدت کووید-19 تحت تاثیر قرار نداده است. تأثیر همه گیری در بازار سهام چین نیز ثبت شده است (لیو و همکاران، 2022). ارزیابی ادراک عمومی که توسط کاربران اینترنتی ارائه شده است، کاستولا و همکاران.(2020) و Smales (2021) شواهدی از رابطه بین حجم جستجوی Google در ویروس کرونا جدید و بازارهای مالی ارائه می دهند. گورمسن و کویجن (2020) نشان می دهند که معاملات آتی سود سهام نشان دهنده یک معیار آینده نگر برای استخراج انتظارات سرمایه گذاران در مورد رشد در طول همه گیری COVID-19 است. Rebucci و همکاران(2022) واکنش بازار به مداخلات سیاست پولی ناشی از بحران همه گیری COVID-19 را تحلیل کرده و اثربخشی تسهیل کمی را نشان می دهد. در حالی که رابطه بین معیارهای عمومی توجه COVID-19 و بازارهای مالی در تحقیقات قبلی نشان داده شده است، شواهدی مبنی بر تأثیر منابع خبری در بازار گسترده تر نسبتاً کمیاب است.

یک استثنای قابل توجه توسط اختروززمان و همکاران ارائه شده است.(2022) و Huynh و همکاران.(2021). اختروز زمان و همکاران.(2022) رابطه بین شاخص پوشش رسانه ای COVID-19 (MCI) و شاخص رهبر اتحادیه بازار اروپا ESG را مطالعه کرد. نویسندگان نشان می دهند که اخبار نقش مهمی در انتقال سرایت مالی در طول همه گیری دارد. 1 با استفاده از تحلیل مؤلفه های اصلی، Huynh و همکاران.(2021) احساس «تب» را پیشنهاد می کند که بر اساس شش شاخص رفتاری مانند پوشش رسانه ای، اخبار جعلی، وحشت، احساسات، تبلیغات رسانه ای، و بیماری های اطلاعاتی بازیابی شده توسط پایگاه داده RavenPack ساخته شده است. یافته ها نشان می دهد که احساسات پیشنهادی پیش بینی کننده معناداری برای نوسانات و بازده سهام در بزرگترین اقتصادها در طول شیوع COVID-19 است. جدول 1 یافته های اصلی مطالعات تجربی فوق الذکر مربوط به همه گیری COVID-19 و بازارهای مالی را خلاصه می کند.

میز 1

فهرست زمانی از ادبیات مربوط به کووید-19 و بازارهای مالی.

نویسندگان مطالعه منبع داده اصلی استراتژی تجربی یافته اصلی
بیکر و همکاران(2020) واکنش بی سابقه بازار سهام به COVID-19 روزنامه ها روش های مبتنی بر متن توسعه یافته در بیکر و همکاران.(2018) هیچ بیماری همه گیر قبلی مانند کووید-19 بر بازارهای مالی تأثیری نداشته است
چیا و ژونگ (2020) تجارت از خانه: تأثیر COVID-19 بر حجم معاملات در سراسر جهان حجم معاملات در بازارهای سهام بین المللی اقدامات گردش مالی برای فعالیت های تجاری فعالیت های معاملاتی سهام شدید در طول همه گیر COVID-19
Costola و همکاران.(2020) حجم جستجوی Google و بازارهای مالی در هنگام شیوع COVID-19 داده های Google Trends در Covid-19 رویکرد اقتصاد سنجی داده های GT-COVID-19 مربوط به بازده بازارهای مالی است
گورمسن و کویجن (2020) Coronavirus: تأثیر بر قیمت سهام و انتظارات رشد داده ها از بازارهای آینده سهام و سود سهام رویکرد اقتصاد سنجی آینده سود سهام اقدامات آینده نگر برای اقتصاد است
هارون و ریزوی (2020) COVID-19: پوشش رسانه ای و رفتار بازارهای مالی-یک تحقیق بخشی شاخص های وحشت ، جهانی ، احساسات و پوشش رسانه ای از Ravenpack مدلهای نوع یک متغیره گارچ Covid-19 بر شوک احساسات رسانه ای که باعث نوسانات بالاتری در بازار مالی شد ، تأثیر گذاشت
Salisu and Vo (2020) پیش بینی بازده سهام در حضور همه گیر Covid-19: نقش اخبار بهداشت Google Trends Data در مورد Covid-19 و داده های مربوط به بیماری COVID-19 رویکرد اقتصاد سنجی اخبار بهداشتی همراه با پیش بینی بازده سهام بهبود مالی
احمد و همکاران.(2021) وقایع قو سیاه و شیوع Covid-19: شواهد سطح بخش از بازارهای سهام ایالات متحده ، انگلیس و اروپا اطلاعات مربوط به بیماری COVID-19 و اطلاعات مربوط به قیمت سهام مدل های شکستن ساختاری و روش مطالعه رویداد با ضریب توجیه شیوع Covid-19 به عنوان یک رویداد قو سیاه در مارس 2020
اخترروزامان و همکاران.(2021) مسری مالی در طول بحران Covid-19 اطلاعات مربوط به بیماری COVID-19 و اطلاعات مربوط به قیمت سهام مدل های گارچ چند متغیره و اتصال پویا بنگاههای مالی بیشتر از شرکتهای غیر مالی فرستنده های مسری هستند
Biktimirov و همکاران.(2021) احساسات و اعتیاد به مواد رسانه ای تجاری و بازده بازار سهام در طول همه گیر COVID-19 مقالات وال استریت ژورنال نسخه چاپی در سال 2020 روشهای مبتنی بر متن در هو و لیو (2004) توسعه یافته است وسعت و شدت پوشش به طور قابل توجهی با بازده S& P 500 مرتبط است
Huynh و همکاران.(2021) احساسات تب و بازارهای جهانی در طول همه گیر Covid-19 پایگاه داده Ravenpack احساسات تب با استفاده از PCA ، اتصال پویا احساسات تب مثبت (منفی) نوسانات سهام (بازگشت) را در طول همه گیر Covid-19 پیش بینی می کند
لو و همکاران.(2021) پاسخ های شرکت های مختلف به شوک های همه گیر Covid-19: شواهد یادگیری ماشین در بازار کار ویتنامی نظرسنجی در مورد 16000 شرکت متعلق به 82 صنعت در شهر هوشی مین ML به چنین رگرسیون لجستیک ، درخت تصمیم گیری ، جنگل تصادفی و افزایش طبقه بندی ها نزدیک می شود COVID-19 بر بازار کار به طور ناهمگن در صنایع و مناطق تأثیر گذاشت
Rebucci و همکاران.(2022) یک مطالعه رویداد از کاهش کمی بانک مرکزی Covid-19 در اقتصادهای پیشرفته و نوظهور 30 اعلامیه QE توسط 21 بانک مرکزی ساخته شده است مطالعه حادثه QE یک اقدامات مؤثر در مورد بازده اوراق است
smales (2021) توجه سرمایه گذار و بازده بازار جهانی در طول بحران COVID-19 داده های Google Trends در Covid-19 رویکرد اقتصاد سنجی داده های GT-COVID-19 با بازار سهام در سراسر کشورهای G7 و G20 همراه است
یاروایا و همکاران.(2021) تأثیر یک رویداد "قو سیاه" (Covid-19) بر رفتار گله دار در بازارهای رمزنگاری داده های رمزنگاری ساعتی انحراف مطلق مقطعی با یک رویکرد اقتصاد سنجی COVID-19 در بازارهای رمزنگاری گله ای را تقویت نکرد
اخترروزامان و همکاران.(2022) پوشش رسانه ای Covi d-19 و شاخص های رهبر ESG شاخص پوشش رسانه ای Ravenpack و شاخص های رهبر ESG اتصال پویا MCI به ویژه در مارس و آوریل 2020 ، مسری مالی را در طول Covi d-19 منتقل می کند
دی و همکاران.(2022) تأثیرات COVID-19 محلی گسترش و روند جستجوی گوگل در بازار سهام ایالات متحده Google Trends Data در مورد Covid-19 و داده های مربوط به بیماری COVID-19 رویکردهای جنگل اقتصادی و تصادفی موارد COVID-19 و مرگ و میر و GT-COVID-19 در دوره ژانویه-مه 2020 بر قیمت سهام غیر طبیعی تأثیر گذاشت

به طور کلی ، دیدگاه غالب در ادبیات این است که محتوای آنلاین بینش ها را منتشر می کند و اطلاعاتی که از اخبار مالی ، تابلوهای پیام سهام آنلاین یا شبکه های اجتماعی استخراج می شود می توانند تحولات بازار سهام را پیش بینی کنند (به عنوان مثال ، میچل و مولین ، 1994 ، Antweiler و Frank ، 2004، Casarin and Squazzoni ، 2013). به عنوان مثال ، Tetlock (2007) تأثیر احساسات منفی رسانه ای را مشاهده می کند که توسط مقالات وال استریت ژورنال در بازده میانگین صنعتی داو جونز اندازه گیری می شود. داس و چن (2007) تابلوهای پیام سهام را مطالعه می کنند و بین احساسات آنلاین در مورد شرکت های فناوری و سهام آنها رابطه ای پیدا می کنند. Xu و همکاران.(2022) احساساتی مدیر مبتنی بر خبرها را پیشنهاد کنید که بر اساس لحن گزارش های خبری مدیران ساخته شود و توانایی پیش بینی قوی در بازده ها را به صورت درون و خارج از نمونه پیدا کند. کوچ و همکاران.(2022) تأثیر احساسات خبری را در بیش از 34،000 مقاله خبری در مورد Brexit بررسی کرده و وجود سرریز محدود از احساسات خبری تا بازارهای سهام را نشان می دهد. Nofer و Hinz (2015) نشان می دهند که سطح وزنه برداری اجتماعی در توییتر نیز ارزش پیش بینی ای برای تحولات بازار سهام دارد.

با این حال ، همه گیر اخیر یک واقعه بسیار نادر را نشان می دهد و بنابراین اطلاعات ناشناخته قبلاً را برای سرمایه گذاران و مردم فراهم می کند. در مورد COVID-19 ، مشخص نیست که آیا قیمت دارایی تحت تأثیر اخبار تخصصی مالی و تجاری آنلاین و چگونگی شرکت کنندگان در بازار این نوع احساسات خبری را در نظر می گیرد. در این مقاله ، ما به اخبار مربوط به COVID-19 در رسانه های آنلاین مالی و تجاری می پردازیم و تأثیر احساسات خبرنگار را در تحولات بازار سهام بررسی می کنیم. ما شیوع بیماری همه گیر را در دوره از ژانویه تا ژوئن 2020 در نظر می گیریم و 203،886 مقاله مربوط به Covid-19 را که در سه سیستم عامل رسانه ای منتشر شده است ، تجزیه و تحلیل می کنیم: MarketWatch. com ، Reuters. com و Nytimes. com. با توجه به اینکه هر سه منبع خبری در ایالات متحده مستقر هستند ، ما بررسی می کنیم که آیا ما هرگونه واکنش آماری معنی داری در بازده شاخص S& P 500 مشاهده می کنیم ، نوسانات تحقق یافته و تغییر در حجم معاملات پس از اخبار مربوط به COVID-19 بر روی سیستم عامل ها منتشر شد.

ما سه مؤلفه احساسات خبری را تجزیه و تحلیل می کنیم: (i) نمره احساسات ، که نشان دهنده احساسات اخبار مثبت و منفی در یک روز خاص است.(ب) واریانس این اندازه ؛و (iii) تعداد اخبار مربوط به Covid-19 در آن روز. بنابراین ما روی مراحل اولیه همه گیر هنگامی که اطلاعات مربوط به COVID-19 به سرعت پدیدار شد و تفسیر برای شرکت کنندگان در بازار دشوار بود ، تمرکز می کنیم. اگرچه این بیماری همه گیر بیش از دو سال و مختلف پزشکی (به عنوان مثال ، واکسیناسیون) و مداخلات غیر پزشکی (به عنوان مثال ، قفل و محدودیت سفر) توسط دولت های سراسر جهان انجام شده است و تأثیر طولانی مدت COVID-19 را تجزیه و تحلیل می کند. در بازارهای سهام از محدوده این مقاله خارج است. درعوض ، ما هدف ما بررسی اینكه آیا تجزیه و تحلیل احساسات توسط مدل های یادگیری ماشین می تواند به پیش بینی واکنش بازار مالی در صورت بروز یک واقعه نادر که ناگهان ظهور می کند ، مانند ویروس مسری که باعث بیماری COVID-19 می شود ، کمک کند. برای تجزیه و تحلیل احساسات ، ما یک مدل BERT با بازار مالی سازگار با بازار را اعمال می کنیم ، که اخیراً توسط Google تهیه شده است (Devlin et al. ، 2019).

بر خلاف مدل های قبلی ، BERT به دلیل معماری دو طرفه خود قادر به تشخیص زمینه هر کلمه است. با این حال ، آیا مدل های BERT می توانند برای آشکار کردن احساسات مربوط به COVID-19 استفاده شوند و بنابراین پیش بینی تحولات گسترده تر بازار سهام هنوز نامشخص است. به بهترین دانش ما ، مقاله ما اولین مطالعه ای است که بر شیوع همه گیر با استفاده از یک دامنه مالی اقتباس شده از BERT برای تجزیه و تحلیل احساسات جمع آوری شده از منابع اصلی خبری آنلاین متمرکز است. از دیگر رویکردهای یادگیری ماشین غیر Bert در اقتصاد ، اقتصاد انرژی ، امور مالی و سری زمانی استفاده شده است (برای بررسی Athey and Imbens ، 2019 ، Ghoddusi et al. ، 2019 ، Masini et al. ، 2021 ، Ahmed et al.. ، 2022). به عنوان مثال ، De Spiegeleer و همکاران.(2018) رگرسیون فرآیند گاوسی را در مشکلات مالی کمی مانند اتصالات منحنی ، قیمت گذاری مشتق و پرچین اعمال کنید. بیانچی و همکاران.(2021) پیش بینی قوی اوراق قرضه با استفاده از درختان شدید و شبکه های عصبی را نشان می دهد. ما این رویکردهای قبلی را در ادبیات با استفاده از مدل BERT برای تجزیه و تحلیل احساسات بازار سهام گسترش می دهیم.

مطالعه ما سه گانه در ادبیات نقش دارد. اول ، ما نشان می دهیم که بین نمرات احساسات و بازده بازار رابطه آماری معنی دار و مثبت وجود دارد. این نشان می دهد که افزایش (کاهش) در نمره احساسات حاکی از افزایش اخبار مثبت (منفی) است و با بازده بازار مثبت (منفی) مطابقت دارد. ما همچنین می یابیم که واریانس احساسات و حجم منابع خبری برای رویترز و MarketWatch با بازده بازار منفی است و این نشان می دهد که افزایش عدم اطمینان از احساسات و افزایش در ورود اخبار تأثیرات منفی بر روی آن داردبازار سهام. nytimes. com تنها منبع خبری است که با نوسانات تحقق یافته نتیجه آماری قابل توجهی را ارائه می دهد.

یافته های ما نشان می دهد که احساسات بالا با نوسانات کم در بازار همراه است. حجم احساسات NYTimes نیز از نظر آماری معنی دار است و با نوسانات بازار همراه است. از آنجا که NYTimes یک انتشار عمومی است ، این پیوند ممکن است به سادگی منعکس کننده زمان متفاوتی باشد که توسط COVID-19 نشان داده شده است. در حقیقت ، در آغاز بیماری همه گیر ، بازار به دلیل تغییر در انتظارات سرمایه گذار ، سریع و منفی پاسخ داد ، در حالی که تعداد اخبار مربوط به این موضوع با گذشت زمان به ناچار افزایش یافت.

با توجه به تغییرات در حجم معاملات S& P 500 ، می فهمیم که احساسات و متغیرهای کنترل تقریباً قدرت توضیحی تهی دارند. همچنین ، در این مورد ، NYTimes تنها منبع خبری است که نتیجه آماری معنی داری را ارائه می دهد که با تغییرات مثبت حجم ها منفی است. این ممکن است نشان دهد که افزایش اخبار مثبت COVID-19 می تواند تعداد معاملات را با توجه به روز معاملاتی قبلی کاهش دهد. دوم ، ما بیشتر ماهیت خاص اخبار NYTimes را تجزیه و تحلیل می کنیم. با جدا کردن مؤلفه های مثبت ، منفی و خنثی ، ما نشان می دهیم که کاهش خبرهای بد در نهایت منجر به تأثیر آماری قابل توجهی در بازده مالی می شود ، اما این برای افزایش خبرهای خوب صادق نیست.

سرانجام ، ما بر روی نوع اخبار منتشر شده توسط NYTimes تمرکز می کنیم و نشان می دهیم که گروه اخبار تجاری نشان دهنده اصلی ترین درایور احساسات در توضیح بازده بازار سهام است. این نتیجه تأیید می کند که جریان اطلاعاتی که به شکل گیری انتظارات بازار کمک می کند ، به اخبار تجاری بستگی دارد ، حتی در یک رویداد بی سابقه مانند شیوع Covid-19. گروه خبری دیگر که نتیجه آماری قابل توجهی را ارائه می دهد ، علم است. با توجه به اینکه این گروه در انتشار علمی مهم است ، انتظار می رود مقالاتی که به همه گیر Covid-19 پاسخ می دهند ممکن است بر افکار عمومی در مورد این بیماری تأثیر بگذارد. نتایج پس از کنترل مجموعه ای از متغیرهای کنترل مانند شاخص نوسانات (VIX) ، که یک تخمین آینده نگر از نوسانات بازار سهام آینده است ، شاخص استرس مالی OFR به عنوان معیار استرس در بازار جهانی ،نرخ رشد برای موارد COVID-19 که روند همه گیر را اندازه گیری می کند ، و در سراسر جهان Google Web برای موضوع Coronavirus به عنوان نماینده ای برای توجه عمومی جستجو می کند.

مقاله بصورت زیر مرتب شده است. بخش 2 ساخت و ساز احساسات COVID-19 را از طریق جمع آوری داده ها و روش انتخاب شده توصیف می کند. ما همچنین تحقیقات قبلی را در مورد تجزیه و تحلیل احساسات ارائه می دهیم ، به ویژه با توجه به مدلهای یادگیری ماشین اخیراً توسعه یافته مانند BERT. بخش 3 رابطه بین احساسات اخبار COVID-19 و بازارهای مالی را بررسی می کند. ما هم نمای کلی و هم یک سطح ریز دانه را مطالعه می کنیم که ارزشهای مثبت و منفی را در نظر می گیرد و مقولات خبری مختلف را در نظر می گیرد. سرانجام ، بخش 4 مقاله را با بحث و پیشنهاد برای پروژه های تحقیقاتی آینده نتیجه می گیرد.

2. ساخت و ساز احساسات COVID-19

در این بخش ، روش جمع آوری داده ها ، منابع مرتبط و روش اجرا شده برای استخراج شاخص های خبری COVID-19 را ارائه می دهیم.

2. 1جمع آوری داده ها

به طور کلی ، ما 203. 886 مقاله آنلاین را جمع آوری کردیم که در سه سیستم عامل رسانه ای بین 23 ژانویه 2020 و 22 ژوئن 2020 منتشر شد. جدول 2 آمار خلاصه ای از مقالات جمع آوری شده را ارائه می دهد. reuters. com و nytimes. com وب سایت های شرکت های خبری بین المللی مربوطه متعلق به تامسون رویترز و شرکت نیویورک تایمز هستند. مباحث تحت پوشش شامل تجارت ، سیاست ، بازارهای مالی ، علوم و بهداشت است. علاوه بر این ، ما داده ها را از marketwatch. com جمع آوری کردیم ، که فقط بر اخبار مالی و داده های بازار سهام متمرکز است. به طور متوسط ، مقالات MarketWatch شامل بیشترین کلمات (706) و کمترین تعداد حداکثر کلمه در یک مقاله واحد (3857) است.

جدول 2

آمار خلاصه در مورد مقالات جمع آوری شده از MarketWatch. com ، nytimes. com و reuters. com.

منبع به طور کلی مقالات Covid-19 کلمات متوسط حداکثر کلمات روش
MarketWatch. com 65،336 588 706 3857 خزنده
nytimes. com 43،172 1710 381 5859 API
reiters. com 95،378 4801 461 4607 خزنده

توجه: منبع به منبع رسانه مربوطه اشاره دارد ، به طور کلی تعداد کل مقالات جمع آوری شده را نشان می دهد ، مقالات COVID-19 به ترتیب مباحث مربوط به کرونوویروس را نشان می دهد ، و میانگین کلمات و حداکثر کلمات به ترتیب متوسط و حداکثر تعداد کلمات در هر مقاله. روش به روش استفاده شده برای به دست آوردن مقالات در یک منبع معین اشاره دارد.

فرآیند جمع آوری داده ها شامل سه مرحله بود. ابتدا URL های مقالات آنلاین را از طریق رابط برنامه نویسی برنامه (API) برای NYTimes و خزیدن وب برای رویترز و MarketWatch جمع آوری کردیم. خزنده های وب با استفاده از یک استخراج کننده پیوندی که در Python Scrapy نوشته شده اند ، توسعه داده شدند. هدف اصلی خراش وب استخراج داده های ساختار یافته از صفحات وب بدون ساختار است. Scrapy شامل کلاس عنکبوتی است که می تواند برای تعریف نحوه خزیدن و تجزیه صفحات برای استخراج موارد از یک سایت خاص (به عنوان مثال ، با مشخص کردن پیوندها) استفاده شود.

علاوه بر این ، کلاس مورد از ایجاد یک ظرف برای جمع آوری داده های خراشیده پشتیبانی می کند. اول ، ما ابرداده مانند عنوان ، نویسنده ، تاریخ منتشر شده و URL را در یک پایگاه داده ذخیره کردیم. از طریق API NYTimes ، ما همچنین توانستیم دسته هر مورد خبری را بازیابی کنیم (به عنوان مثال ، تجارت ، سلامت). سپس با تمرکز بر کلمات کلیدی مربوطه ، مانند "Covid" و "Corona" ، URL های Covid-19 را جستجو کردیم. در مرحله آخر ، همه عناصر متنی (برچسب های P) را از URL های باقیمانده جمع آوری کردیم. یعنی تاریخ ، عنوان ، نویسنده و متن. شکل 1 تعداد هفتگی مقالات جمع آوری شده از Nytimes ، رویترز و MarketWatch را در شش ماه اول این همه گیر نشان می دهد.

بهترین استراتژی معاملات...
ما را در سایت بهترین استراتژی معاملات دنبال می کنید

برچسب : نویسنده : صدرا ذوالریاستین بازدید : 34 تاريخ : شنبه 31 تير 1402 ساعت: 18:11