آموزش کلمه چینی

ساخت وبلاگ

بر خلاف زبانهای غربی ، چینی بدون فاصله بین کلمات نوشته شده است. بنابراین برای اجرای هر پردازش زبانی مبتنی بر کلمه یا نشانه بر روی چینی ، ابتدا برای تعیین مرزهای کلمه لازم است. این آموزش نشان می دهد که چگونه می توان چینی ها را بر اساس اصلاح کننده املای لینگپپ به کلمات تقسیم کرد.

چگونه این کار انجام شده است؟

ایده اصلی این است که با کمبود فضای بین نشانه ها به عنوان "اشتباه" املایی که اصلاح کننده املا با درج فضاها "تصحیح" می کند ، رفتار کنیم.

چه کسی فکر کرده است که این کار را از این طریق انجام دهد؟

این فقط روش دیگری برای بررسی رویکرد مبتنی بر فشرده سازی بیل Teahan و همکاران است. برای جزئیات بیشتر به منابع مراجعه کنید.

1. بارگیری شرکت آموزش

خوشبختانه برای ما ، سه شرکت آموزش عمومی در دسترس برای تقسیم چینی وجود دارد که به عنوان بخشی از اولین تقسیم بندی بین المللی کلمات چینی Bakeoff در دسترس است. Bakeoff دوم در سال 2005 برگزار شد ، اما داده های آموزش در دسترس عموم نیست. همه بحث های بیشتر مربوط به اولین Bakeoff خواهد بود. این Bakeoffs توسط Sighan ، گروه علاقه ویژه چین (SIG) از انجمن زبانشناسی محاسباتی (ACL) حمایت مالی می شود.

مرحله اول برای آموزش ، بارگیری داده های آزمون و آموزش از شش لینک زیر است (پس از ذکر اینکه داده ها فقط برای اهداف تحقیق در دسترس هستند فقط در این صفحه):

 

اولین لینک داده های تقسیم بندی کلمات بین المللی چینی بین المللی و محتوا
خالق آموزش آزمایش کردن رمز # کلمات قطار # کلمات تست
آکادمی سینیکا (AS) داده های آموزش (11. 8m) (آینه) داده های آزمایش (60K) (آینه) CP950 5. 8M 12K
HK Cityu (HK) داده های آموزش (500K) (آینه) داده های آزمایش (150K) (آینه) CP936 240K 35K
دانشگاه پکن (PK) داده های آموزش (2. 3m) [دیگر زنده نیست] داده های آزمایش (90K) [دیگر زنده نیست] big5_hkscs 1. 1m 17k

هر شش مورد از این پرونده ها (بدون از بین بردن پرونده های . zip) را در یک فهرست قرار دهید. ما پس از ویژگی مورچه که برای مشخص کردن آن استفاده خواهیم کرد ، دایرکتوری حاوی داده DataDir را فراخوانی خواهیم کرد.

2. اجرای ارزیابی ها

پس از تهیه کد ، سه کار ANT وجود دارد که می توان برای اجرای ارزیابی ها استفاده کرد. اجرای این اسکریپت ها خروجی استاندارد و همچنین پرونده ای از نتایج ارزیابی رسمی را تولید می کند.

برای اجرای مجموعه آموزش دانشگاه هنگ کنگ سیتی ، اولین سی دی به فهرست نسخه ی نمایشی:

سپس می توانید با مشخص کردن محل فهرست داده ها در خط فرمان ، ارزیابی را از ANT اجرا کنید

یا مستقیماً از طریق دستور زیر (با نامی که برای دایرکتوری داده خود جایگزین Datadir کرده اید ، و جایگزین کردن Colons ":" با Semicolons "؛" اگر از ویندوز استفاده می کنید): "اگر از ویندوز استفاده می کنید):

به عنوان مثال ، در دستگاه من ، شش پرونده را به E: Data WrinualWordseGbakeOff03 بارگیری کردیم ، بنابراین می توانیم به شرح زیر اجرا کنیم (لطفاً در هنگام تدوین صبور باشید - هشت دقیقه یا بیشتر در دسک تاپ من طول می کشد):

خواندن خروجی

امیدوارم این خروجی تفسیر نسبتاً آسان باشد. چند خط اول فقط پارامترهای ورودی را طوطی می کنند. ما این موارد را با استفاده از کد در نسخه ی نمایشی توصیف خواهیم کرد. سپس یک یادداشت وجود دارد که می گوید این آموزش با استفاده از پرونده ZIP مشخص شده انجام می شود. آموزش مدل زبان نسبتاً سریع است. کمی انتظار بعد از پیام است که می گوید طلسم در حال گردآوری است. دلیل این امر این است که مدل های زبان شخصیت بسیار شاخه ای مانند مدل های چینی برای کامپایل در Lingpipe آهسته هستند (این ممکن است در نسخه بعدی بهینه شود - کندی ناشی از جمع آوری مکرر شمارش دختر یک گره است). سپس یک یادداشت وجود دارد که می گوید آزمایش در حال انجام است و پرونده آزمایش را تکرار می کند.

آمار توکن توصیفی

دو خط بعدی گزارشی از تعداد نشانه های آموزش و شخصیت ها ، به همراه تعداد نشانه های تست ناشناخته و کاراکترهای تست ارائه می دهند. گفته می شود که اگر در داده های آزمون بدون حضور در داده های آموزشی ظاهر شود ، یک نشانه "ناشناخته" است. 89 شخصیت ناشناخته و 1855 نشانه ناشناخته در داده های آزمون دانشگاه هنگ کنگ سیتی وجود داشت.

یک پرونده همچنین با نشانه های شناخته شده ، یک در هر خط جمع شده است. اینها در پرونده مندرج در خروجی قرار داده شده است ، که با پسوند در فهرست داده ها می رود.

چند خط بعدی هیستوگرام از طول توکن را در مرجع (داده های آموزشی) و پاسخ (خروجی سیستم) و همچنین تفاوت ارائه می دهد. به عنوان مثال ، داده های آموزش شامل 15،058 توکن طول دو بود ، در حالی که خروجی تنها 14،740 توکن تولید می کند ، تفاو ت-318. سیستم ما در حال تولید بیش از حد زیادی از طول 1 و تعداد کمی از خروجی های طول 2 و 3 است و سپس بیش از حد بیش از حد خروجی ها را دوباره از طول بیشتر از 3.

نتایج دقیق و فراخوان

علاوه بر همه این آمار توصیفی، دو مجموعه از نمرات دقت، یادآوری و f-measure برای اجرا ارائه شده است. اولین مورد از این موارد دقت و یادآوری نقاط پایانی را اندازه گیری می کند. دوم دقت و یادآوری خود کلمات را می سنجد.(این همان جفت ارزیابی است که در نسخه نمایشی جمله استفاده کردیم. نمرات تکه ما به همان روشی محاسبه می شود که اسکریپت امتیازدهی رسمی از bakeoff محاسبه می شود، که سیستم امتیازدهی برتر در این مجموعه دارای امتیازهای P=0. 934, R است. 0. 947 =، 0. 940 = F (در مقابل P=0. 936، R=0. 939، F=0. 937). جالب توجه است که محاسبه فواصل اطمینان دوجمله ای برای این نتایج، فاصله اطمینان 95% 0. 003+/- را به دست می دهد. بنابراین نتیجه می گیریم که رویکرد ما منطقی است (اگرچه ما درباره مقاله بیل تیهان که در منابع زیر ذکر شده نیز می دانستیم).

اسکریپت امتیازدهی رسمی

اجرا همچنین یک فایل خروجی cityu. out تولید می کند، همانطور که در خط فرمان مشخص شده است. این فایل به عنوان خروجی رسمی عمل می کند. این همان چیزی است که اگر ما به موقع وارد بیک آف می شدیم، به برگزارکنندگان بازگردانده می شد.

ما متن اصلی امتیازدهی را با این توزیع اضافه کرده ایم. می توان آن را بر روی خروجی نسبت به فرهنگ لغت کلمات شناخته شده و ناشناخته اجرا کرد. برای اجرای آن، فراخوانی زیر کار می کند، با فرض اینکه زبان برنامه نویسی Perl را همراه با دستور diff نصب کرده اید (اینها معمولاً با توزیع های لینوکس نصب می شوند؛ ما توزیع CygWin ابزارهای یونیکس را برای کاربران MS Windows توصیه می کنیم).

با نصب پرل، اجرای اسکریپت رسمی آسان است. این فقط:

که برای خروجی ما به نام cityu. out و دایرکتوری داده e:datachineseWordSegBakeoff03 این دستور را می دهد:

این یک تحلیل در هر جمله آزمایشی با تفاوت واقعی بخش های پاسخ و مرجع چاپ می کند. چینی صحبت کنید، بنابراین برای ما یونانی است. نگاه کردن به دم فایل این را به ما نشان می دهد:

به طور خاص، توجه داشته باشید که ارقام فراخوان و دقت گزارش شده در اینجا با معیارهای دقت، فراخوان و f در سطح تکه ما مطابقت دارد، یعنی P=0. 930، R=0. 939 و F=0. 937. اسکریپت بیشتر به محاسبه عملکرد در کلمات خارج از واژگان می پردازد. نرخ خارج از واژگان 7 درصد است (همان چیزی که ما محاسبه کردیم)، و عملکرد در نشانه های خارج از واژگان تنها 54. 2٪ است. سیستم امتیازدهی برتر برای بیک آف، یادآوری خارج از واژگان 62. 5٪ داشت.

اجرای سایر شرکت ها

مجموعه های دیگر را می توان دقیقاً به همین روش اجرا کرد. تنها چیزی که برای تغییر لازم است نام پیکره ها، نام رمزگذاری کاراکترها و فایل های خروجی در دستور است. توجه داشته باشید که بدنه های دیگر بزرگتر هستند و پردازش آنها به زمان بیشتری نیاز دارد. در اینجا نتایج اجرای این مجموعه ها با هزینه های ویرایش صفر، n-best به اندازه کافی بزرگ برای خطای جستجو و طول 5 نانوگرم (بهترین اندازه n-گرم در ارزیابی انجام شده توسط Bill Teahan؛ به منابع مراجعه کنید) آمده است.). به عبارت دیگر، این تنظیمات کاملاً "خارج از جعبه" هستند. بعداً در مورد تنظیم بحث خواهیم کرد.

 

امتیاز دهی در سطح تکه ای
مجموعه نوشته ها نتایج پیش فرض LingPipe برنده شدن نتیجه بیک آف بسته
پیش ضبط F پیش ضبط F سایت برنده
دانشگاه شهر هنگ کنگ 0. 936 0. 937 0. 937 0. 934 0. 947 0. 940 Ac Sinica
پکن U 0. 930 0. 926 0. 928 0. 940 0. 962 0. 951 Inst. از Comp. فناوری، CAS
آکادمی سینیکا 0. 960 0. 969 0. 964 0. 966 0. 956 0. 961 یو سی برکلی

نتایج با حروف برجسته بهترین امتیاز برای دسته مربوطه است. نتایج دارای فاصله اطمینان 95 درصدی تقریباً 0. 003+/- هستند (که بر اساس عملکرد و میزان داده های تمرینی کمی متفاوت است همانطور که در مقاله Sproat و Emerson ذکر شده در زیر توضیح داده شده است). برای دو تا از سه گروه، دانشگاه شهر هنگ کنگ و آکادمی سینیکا، امتیاز F LingPipe تفاوت قابل توجهی با امتیاز برنده بیک آف نداشت.

بیک آف رسمی آنها همچنین دارای یک دسته "باز" بود که امکان استفاده از منابع خارجی برای آموزش را فراهم می کرد. سیستم باز ارسال شده برای مجموعه آکادمی سینیکا وجود نداشت که بهتر از ارسال های بسته شده باشد. بهترین F-Measures سیستم باز برای پیکره HK 0. 956 و بهترین برای پیکره PK 0. 959 بود که هر دو به طور قابل توجهی بهتر از ورودی های بسته بودند.

Academia Sinica بزرگترین مجموعه با داده های آموزشی 5. 1M است، و نتایج مربوط به آن پیکره مشابه آنچه در مقاله بیل تیهان (که در منابع ذکر شده است) برای پیکره اختصاصی RocLing گزارش شده است. نتیجه گیری ما این است که عملکرد خارج از جعبه LingPipe برای سیستم های مبتنی بر یادگیری خالص، جدیدترین هنر است.

3. بازرسی کد

کد نسخه ی نمایشی در یک فایل موجود است: src/ChineseTokens. java.

اصلی و اجرا

برنامه اصلی به سادگی یک نمونه جدید از آرگومان ها ایجاد می کند و متد اجرای خود را فراخوانی می کند:

پرتاب پذیرها دستگیر می شوند و ردپای پشته آن ها برای اشکال زدایی رها می شوند.

ما به جای استفاده از یک چارچوب خط فرمان پیچیده تر ، مانند استفاده از Lingpipe. abstractcommand ، ما فقط تمام آرگومان ها را برای تجزیه و تحلیل به سازنده منتقل می کنیم که فقط یک دسته از متغیرهای عضو از نوع مناسب را تنظیم می کند:

روش RUN فقط سه روش کارگر را به ترتیب فراخوانی می کند:

آموزش و تدوین

اولین روش کارگر ، آموزش و تدوین یک چکر طلسم را محاصره می کند.

ساختن یک مربی

به منظور آموزش و تدوین چکر هجی ، ابتدا یک نمونه آموزشی را از یک مدل زبان فرآیند N-GRAM و یک فاصله ویرایش وزنی می سازیم:

مدل زبان فرآیند N-GRAM نشان دهنده مدل منبع برای رمزگشایی هجی کانال پر سر و صدا است. با اندازه N-Gram ، تعداد کاراکترهای موجود در مجموعه آموزش و آزمایش زیربنایی و یک عامل درون یابی پارامتر می شود. اینها همه در آموزش مدل سازی زبان شرح داده شده است. هر یک از آنها ممکن است برای تنظیم عملکرد همانطور که در زیر آمده است استفاده شود.

مربی بررسی طلسم از مدل زبان و فاصله ویرایش وزنی ساخته شده است. در این حالت ، فاصله ویرایش نمونه ای از کلاس داخلی chinesetokens. chinesetokenizing است. این فقط تعمیم بخش Lingpipe CompileDspellChecker. Tokenizing است که امکان درج غیر صفر را درج و حذف می کند. تا زمانی که در بخش آخر تونلینگ را در نظر نگیریم ، از نمونه ای از ChineseTokenizing استفاده خواهیم کرد که با CompileSpellchecker. tokenizing یکسان است. یعنی هزینه تطبیق صفر است ، هزینه درج یک شخصیت فضایی واحد صفر است و سایر هزینه های ویرایش دیگر بی نهایت منفی است. در فاصله ویرایش عمومی ، وزنهای مربوط به تطبیق (ادامه یک نشانه) و درج یک فضا (پایان دادن به یک نشانه) ممکن است اعداد منفی غیر صفر باشد.

استدلال نهایی برای سازنده TrainspellChecker تهی است ، به این معنی که ویرایش ها به تولید نشانه ها در داده های آموزش محدود نمی شوند.

ارائه نمونه های آموزشی

فرآیند آموزش خود فقط مسئله ای است که از طریق خطوط ورودی های موجود در پرونده ZIP حلقه می زند:

Extractlines (InputStream ، Set ، Set) جریان ورودی را برای خواندن خطوط و دو مجموعه می گیرد. این مجموعه ها برای جمع آوری کاراکترها و نشانه های موجود در مجموعه های آموزش (و بعداً در مجموعه های آزمون) استفاده می شوند. استخراج کننده همچنین مسئول عادی سازی فضای سفید به شخصیت های فضایی مجرد بین نشانه ها و یک شخصیت فضایی خط نهایی است:

نکته این است که ضمن جمع آوری برخی از آمار ، خطوط عادی شده را به مربی برسانید.

گردآوری و پیکربندی طلسم

بعد از اینکه مربی در تمام خطوط آموزش دیده است ، طلسم Checker در یک خط با استفاده از روش کامپایل (قابل کامپایل) در UTIL. ABSTRATTEREXTERNALIZABLE در یک خط گردآوری می شود:

چکر طلسم توسط سری زیر از تماس های روش تنظیم شده تنظیم شده است:

این به چکر طلسم می گوید که فقط ویرایش های درج و مطابقت مجاز هستند ، بنابراین زمان بازرسی از ویرایش های دیگر را ذخیره می کند. روش دوم به آخرین تماس تعداد درج های متوالی را به یک محدود می کند. این امر به این دلیل است که ما فقط به درج های تک شخصیت فضاها اهمیت می دهیم. آخرین فراخوانی ، حداکثر تعداد فرضیه های حمل شده پس از اتمام پردازش یک کاراکتر را تعیین می کند. مقادیر بالاتر باعث ایجاد خطاهای جستجوی کمتر می شوند در حالی که مقادیر پایین تر سریعتر هستند. این مقدار به طور معمول با تنظیم تجربی تنظیم می شود تا بدون ایجاد خطای جستجو تا حد ممکن کم باشد.

گردآوری و خواندن از یک پرونده

اگر حافظه در حق بیمه باشد یا اگر مدل مورد استفاده مجدد قرار گیرد ، ممکن است به جای تهیه در حافظه ، به یک پرونده نوشته شود. برای نوشتن یک مدل به یک پرونده ، باید در یک جریان خروجی شیء پیچیده شود:

سپس ممکن است مدل با معکوس کردن روند خوانده شود:

پس از خواندن دوباره ، می تواند پارامترهای زمان اجرا خود را همانطور که در بالا نشان داده شده است تنظیم کند.

نشانه کننده

اجرای واحد اصلی در Chinesetokens یک ارزیابی عملکرد را پس از آموزش مدل ها انجام می دهد. داده های اصلی Sighan Bakeoff به یک فایل زیپ از پرونده های داده های آموزشی و یک فایل آزمایشی واحد در همان قالب تقسیم می شوند. خطوط از پرونده آزمون به همان روش فایلهای آموزشی استخراج می شوند و سپس یک به یک را به تست روش (رشته) تحویل می دهند. روش تست به شرح زیر شروع می شود:

این به سادگی تمام فضاها را از TestInput با استفاده از روش java string ansplaceall حذف می کند. سپس آن را به طلسم Checker عرضه می شود و اولین "تصحیح" بازگردانده می شود و به یک متغیر تبدیل می شود. فضای نهایی برای مطابقت با قالب ورودی و ارزیابی ساده تر اضافه شده است.

ارزیابی

کد زیر تکرار سه خط اول تست (رشته) است:

خروجی پخت

دو خط بعدی به سادگی خروجی را در قالب خروجی "رسمی" می نویسند.

این فرمی است که به عنوان ورودی به اسکریپت امتیاز دهی رسمی خدمت می کند. توجه داشته باشید که نویسنده خروجی برای استفاده از همان کاراکتر رمزگذاری به عنوان corpus ، الزام به فرمت Bakeoff اختصاص یافته است.

ارزیابی نقطه شکست

اولین ارزیابی در نسخه ی نمایشی از نقاط شکست است.

این سه خط فقط مجموعه ای از شاخص های عدد صحیح از نویسه های نهایی را در ورودی یا خروجی اصلی دریافت می کنند. مثلا:

فراخوانی به روش preEval در خط سوم تعداد مثبت های درست، مثبت کاذب و منفی های کاذب را به ارزیابی شکست اضافه می کند. این روش است:

این ابتدا روی موارد مرجع حلقه می زند و آزمایش می کند که آیا مورد در مجموعه پاسخ قرار دارد یا خیر. یا eval. addCase(true, true) را فراخوانی می کند و یک مورد مثبت واقعی را که در مرجع و پاسخ ظاهر می شود اضافه می کند، یا eval. addCase (true, false) را فراخوانی می کند و یک مورد منفی نادرست که در مرجع ظاهر می شود اما پاسخ را اضافه نمی کند. آخرین حلقه از طریق مجموعه پاسخ است، و یک case eval. addCase(false, true) برای مثبت کاذب برای موردی که در مجموعه پاسخ است اما در مجموعه مرجع نیست اضافه می کند.

در پایان اجرا، شی ارزیابی دقیق فراخوان را می توان برای دقت، فراخوانی و اندازه گیری f (در میان سایر آمارها) جستجو کرد:

روش استخراج تکه ها کمی پیچیده تر است زیرا همچنین هیستوگرام طول نشانه ها را برای مرجع و پاسخ محاسبه می کند، همانطور که در فراخوانی های روش در بالا مشاهده می شود:

در اینجا ما فقط ورودی اصلی را روی فضاهای منفرد تقسیم می کنیم و سپس چند تاپل را به مجموعه بازگشتی متشکل از تاپل ها (جفت های مرتب شده از اشیاء) با مقادیر داده شده توسط شاخص های شروع و پایان قطعه اضافه می کنیم. برای مثال:

در این حالت یک مثبت درست، (7،9)، سه منفی کاذب، (0،2)، (2،3) و (3،7) و دو مثبت کاذب، (0،5) و(5،7).

توجه داشته باشید که متغیر index ایندکس را در دنباله کاراکتر اصلی بدون فاصله نگه می دارد.

هیستوگرام طول توکن

در نهایت به افزایش شمارنده طول توجه کنید که خروجی هیستوگرام نهایی طول توکن را فراهم می کند. این در چاپ نهایی برای چاپ هیستوگرام های طول نشانه با استفاده از کد زیر استفاده می شود:

این تعداد مرجع، تعداد پاسخ و خطا را بر حسب تفاوت چاپ می کند.

یک کارخانه توکنایزر آماری

نسخه ی نمایشی تا این مرحله فقط به ارزیابی در حافظه مربوط می شود. فایل src/StatisticalTokenizerFactory. java شامل یک پیاده سازی ساده از یک کارخانه توکن ساز بر اساس یک غلطگیر املای کامپایل شده است. پیاده سازی ساده است، اما بسیار کارآمد نیست، زیرا به کارخانه توکن ساز مبتنی بر بیان منظم وابسته است. کد فقط چند خط است:

این یک چکر طلسم کامپایل شده را در یک متغیر عضو که در سازنده اختصاص داده شده است ، نگه می دارد. این کلاس RegextokenizerFactory را گسترش می دهد ، و تماس فوق العاده ("\ s+") در سازنده به والدین می گوید که با شکستن توالی های غیر خالی از مکان های سفید ، نشانه ها را بسازند. Tokenizer واقعی فقط ورودی را به یک رشته تبدیل می کند ، چکر طلسم را روی آن اجرا می کند ، خروجی را به یک آرایه کاراکتر تبدیل می کند و نتیجه کارخانه توکینر والدین را برمی گرداند. این نتیجه یک توکین کننده است که به فضاهای درج شده توسط چکر طلسم به عنوان بخشی از خروجی جدا می شود.

جبران شخصیت در توکینیزر به موقعیت های متغیر خروجی اشاره خواهد کرد. این می تواند با اجرای سخت تر از یک کارخانه آماری نشان دهد که با شکستن مستقیم بر روی مکان های سفید ، از بیان منظم نیز جلوگیری می کند. خروجی تضمین می شود که فقط دارای فضاهای منفرد در خروجی است.

یک کلمه هشدار در مورد استفاده از این توکن ساز برای کارهایی مانند بازیابی اطلاعات است. از آنجا که به متن آماری متکی است ، ممکن است همان دنباله شخصیت ها همیشه به همان روش نشانه گذاری نشود. در صورتی که یک پرس و جو و جسد دارای نشانه های مختلف باشد ، می تواند عواقب وخیمی در کارهایی مانند بازیابی اطلاعات داشته باشد.

تنظیم نشانه های آماری

تعدادی از گزینه های تنظیم عملکرد وجود دارد که هم سرعت و هم دقت را کنترل می کند.

اندازه N بهترین

مهمترین عامل تنظیم سرعت اندازه لیست N بهترین است. این باید بدون ایجاد خطای جستجو بیش از حد ، به جایی که ممکن است کوچک باشد.

مدل های زبان هرس

با مجموعه داده های آموزشی بزرگ ، مدل ها بسیار بزرگ می شوند. مدل های زبان کاراکتر که زیربنای چکر طلسم است ممکن است مانند سایر مدل های زبانی هرس شود.

مدل زبان N-Gram

مهمترین پارامتر تنظیم که بر دقت و عملکرد تأثیر می گذارد ، اندازه N-Grams ذخیره شده در مدل زبان منبع است. به نظر می رسد پنج تنظیم خوب برای این پارامتر است. N-Grams طولانی تر دقیق تر نیست ، کوتاه تر از آنها دقیق تر است. N-Grams کوتاه تر منجر به پرونده های مدل کوچکتر خواهد شد که می تواند به طور جدی بر مصرف حافظه زمان اجرا شود.

درون یابی مدل زبان

پارامتر درون یابی در مدل زبان بر میزان وزن بیشتر در برابر زمینه های کوتاه تر در طول درون یابی مدل زبان تأثیر می گذارد. این تعداد فقط یک پارامتر در فرمول صاف کننده Witten-Bell است که همچنین تعداد نتایج احتمالی و تعداد موارد دیده شده را در نظر می گیرد. به طور کلی ، هرچه این مقدار پایین تر باشد ، هموار سازی کمتری خواهد داشت. با هموار سازی کمتر ، جسد آموزش بر آمار حاکم است. با ارزش بالاتر ، صافی بیشتری وجود دارد و وزن بیشتری به امکاناتی داده می شود که در داده های آموزش دیده نمی شود.

وزنه ها را ویرایش کنید

وسوسه انگیز است که سعی کنید وزن ویرایش را تنظیم کنید. با ایجاد درج فضا پرهزینه تر از 0. 0 ، می توانیم شکستگی ها را مجبور کنیم نسبتاً گران تر از ادامه (تطبیق) باشند و در نتیجه از نشانه های طولانی تر حمایت کنیم. به همین ترتیب ، با تطبیق پرهزینه تر از 0. 0 ، استراحت نسبتاً ارزان تر از ادامه است و بنابراین ما از نشانه های کوتاه تر حمایت می کنیم. اجرای این موارد با پیروی از الگوی ارائه شده توسط Spell.compileSpellChecker. Tokenizing بسیار آسان است.

به عنوان نمونه ، ما به عنوان یک کلاس تعبیه شده به نام ChineseTokenizing در نسخه ی نمایشی ، یک اجرای کلی را اضافه کرده ایم. نسخه ی نمایشی به گونه ای پیکربندی شده است که ممکن است وزن درج و مطابقت با دو آرگومان خط فرمان آخر پیکربندی شود.

متأسفانه ، خطاهای طول توکن ما تمایل به بیش از حد نشانه های یک شخصیت ، دست کم گرفتن از نشانه های دو و سه شخصیت ، و سپس توکن های بیش از سه کاراکتر را بیش از حد ارزیابی می کنند. یک مدل با طول ساده تر ممکن است در اینجا کمک کند ، اما چنین مدلی برای ادغام با رمزگشایی همانطور که هست ، مشکل است.

مسئله دیگری که در مورد اصلاح وزن ویرایش به طور قابل توجهی استدلال می کند ، دقت و فراخوان نقطه پایانی است که تقریباً متعادل هستند. با افزایش هزینه درج (شکست) ، یادآوری نقطه پایان حتی اگر دقت افزایش یابد ، کاهش می یابد. به طور مشابه ، با افزایش هزینه مسابقه (ادامه) ، احتمالاً دقت نقطه پایان با هزینه فراخوان افزایش می یابد.

آموزش فرهنگ لغت

با توجه به فرهنگ لغت نشانه ها ، ممکن است آنها (به دنبال یک فضای واحد) به عنوان داده های آموزش درست مانند داده های آموزش از بدن ، با استفاده از روش (رشته) اضافه شوند. عادی سازی در اینجا باید همان اندازه باشد که برای سایر خطوط ، همه فضاها را به فضاهای منفرد کاهش می دهد و اطمینان حاصل می شود که فضای اولیه و یک فضای نهایی وجود ندارد.

با تنظیمات بهتر به ما ایمیل بزنید

اگر تنظیماتی را پیدا کردید که بهتر از ما باشد ، لطفاً در [email protected] به ما اطلاع دهید.

Sighan 2005 Bakeoff

یک هفته پس از نوشتن نسخه ی نمایشی Sighan 2003 ،

برگزار شد. برگزارکنندگان دوباره داده ها را برای اهداف تحقیق پس از Bakeoff توزیع کردند. در این بخش در حال اجرا Lingpipe در آن داده ها توضیح داده شده است.

استانداردهای تقسیم بندی

استانداردهای تقسیم بندی برای چهار گروه از جدول زیر مرتبط است.

 

خالق استانداردهای تقسیم کلمه
آکادمی سینیکا استاندارد تقسیم (PDF)
دانشگاه سیتی هنگ کنگ استاندارد تقسیم (PDF)
دانشگاه پکن استاندارد تقسیم (PDF)
تحقیقات مایکروسافت استاندارد تقسیم (PDF)

بارگیری داده ها

داده ها به عنوان یک پرونده . zip واحد موجود است:

این بار ، سازمان دهندگان نسخه های UTF8 را از پرونده های ورودی رمزگذاری کردند. کد ما مستقیماً از زیپ اجرا می شود ، بنابراین شما حتی نیازی به باز کردن آن ندارید.

پرونده ZIP شامل شرکت های زیر است:

 

2005 فایل زیپ داده Bakeoff Sighan
خالق قطار - تعلیم دادن تست
جمله ها کلمات uniq کاراکتر جمله ها کلمات ناشناخته uniq uniq کاراکتر ناشناخته
آکادمی سینیکا 708. 953 141،338 6115 14432 3227 85
مایکروسافت 86،924 88،119 5167 3985 1991 12
دانشگاه شهر هنگ کنگ 54،019 69،085 4923 1493 1670 60
یونیت پکن 19،056 55،303 4698 1945 2863 91

رمز منبع

کد منبع برای اجرای نمونه های 2005 در:

این تنها با کد قبلی در نحوه ساخت جریان های ورودی برای خواندن داده های آموزش و آزمایش متفاوت است.

اجرای تست ها

یک کار مورچه برای هر شرکت در کار وجود دارد. آنها با پسوند 05 از دیگران متمایز می شوند.

نتایج

در جدول زیر نتایج LingPipe ارائه شده است که توسط شخصیت 5 گرم در Lingpipe به دست می آید. این نتایج ما را در گروه "بسته" برای رقابت قرار می دهد ، به این معنی که تنها اطلاعات زبانی که برای ساخت سیستم استفاده می شود ، داده های آموزش بود (به عنوان مثال هیچ فرهنگ لغت ، هیچ مورفولوژی اکتشافی ، بدون برچسب POS که در شرکت های دیگر آموزش داده نشده است).

 

2005 Sighan Bakeoff رده بندی سطح
مجموعه نوشته ها نتایج پیش فرض LingPipe برنده نتیجه Bakeoff
پیش ضبط F پیش ضبط F بسته سایت برنده
آکادمی سینیکا 0. 956 0. 979 0. 968 0. 951 0. 952 0. 952 آره Nara Inst
0. 950 0. 962 0. 956 No نات یونی سنگاپور
مایکروسافت Res 0. 962 0. 967 0. 965 0. 966 0. 962 0. 964 آره استنفورد
0. 965 0. 980 0. 972 No Harbin Inst
دانشگاه شهر هنگ کنگ 0. 927 0. 928 0. 928 0. 946 0. 941 0. 943 آره استنفورد
0. 956 0. 967 0. 962 No نات یونی سنگاپور
یونیت پکن 0. 935 0. 925 0. 930 0. 946 0. 953 0. 950 آره یاهو
0. 969 0. 968 0. 969 No نات یونی سنگاپور

این نتایج نشان می دهد میزان قابل توجهی از تغییرات در شرکت ها. از آنجا که بیشتر سیستم ها برای اکثر شرکت ها اعمال می شد ، این همچنین نشان دهنده طیف بسیار متنوعی از رویکردهای "بهترین" است. با داده های آموزش بیشتر ، فواصل اطمینان آماری بسیار کوچکتر ، به ویژه است

این یک لباس خوب بود که بسیاری از آشپزها می توانند به موارد غنائم خود اضافه کنند. بهترین سیستم کلی ، ورود بسته وی برای موسسه هاربین در Microsoft Corpus بود ، با اندازه گیری F 0. 972 (و همچنین نشان دهنده کاهش خطای بزرگی نسبت به ارسال بسته خود جانگ برای آن جسد است). Hwee Tou ng از دانشگاه ملی سنگاپور برای هر سه شرکت دیگر گروه بسته را به دست آورد. Huihsin Tseng ، دانشجوی U. Colorado ، همچنین یک نمایش عالی را به نمایش گذاشت و در حالی که برای تیم مشاور خود (استنفورد) بازی می کرد ، دو دسته از بسته ها را به دست آورد.

Lingpipe برای دو نفر از شرکت ها: Academia Sinica و Microsoft Research در رده بسته قرار گرفت. شاید به طور تصادفی ، این دو شرکت بزرگ هستند. با کمال تعجب ، نتایج بسته Lingpipe برای AS Corpus بهتر از بهترین نتایج باز ارسال شده به Bakeoff است. من نمی دانم که آیا برخی از سیستم های دیگر ممکن است با مخلوط فضاهای نیمه عرض یونیکد (0x3000) و فضاهای یکپارچه ASCII (0x0020) در AS Corpus اشتباه گرفته شوند؟این امر ما را ملزم به تعمیم بیان منظم فضای بین المللی ما به "(\ s | u3000)+".

بهترین استراتژی معاملات...
ما را در سایت بهترین استراتژی معاملات دنبال می کنید

برچسب : نویسنده : صدرا ذوالریاستین بازدید : 61 تاريخ : سه شنبه 22 فروردين 1402 ساعت: 13:52