چکیده
یک الگوریتم تقسیم بندی جدید بر اساس برچسب گذاری مشروط حد فاصل فوقانی ارائه شده است. یک روش پیش پردازش پیشنهاد شده است که خط مبنای موضعی برای هر زیرکلمه تنظیم می کند. این الگوریتم روی یک مجموعه داده ها از متون فارسی چاپ شده در 20 فونت مورد آزمایش قرار گرفت. 98.5% از کاراکترهای متصل شده به درستی تقسیم بندی شدند.
1. مقدمه
تشخیص کاراکتر نوری، شاخه جذابی از تشخیص الگو با کاربردهای زیادی در واسطه انسان-ماشین و پردازش اسناد است. تحقیقات فشرده ای انجام شده است و سیستم های تجاری در حال حاضر موجود هستند (Mori و همکاران، 1992). با این حال، چند آثار گزارش شده در تشخیص متون عربی و فارسی (به عنوان مثال، Amin، 1998؛ Parhami و Taraghi، 1981؛ Massruri و Kabir، 1995؛ Azmi و Kabir، 1996) وجود دارد.
فارسی از چپ به راست نوشته می شود. هر کلمه، چاپی و یا دست نوشته، ممکن است شامل چند زیرکلمه جدا از هم باشد. یک زیرکلمه، یک کاراکتر و یا مجموعه ای از کاراکترهای متصل است. اگر چه، هفت کاراکتر از از 32 کاراکتر فارسی، به کاراکترهای مجاور سمت چپ خود پیوسته نمی شوند، دیگر کاراکترها به کاراکترهای مجاور می پیوندند تا یک کلمه و یا یک زیرکلمه را بسازند. هر کاراکتر ممکن است چهار شکل مختلف را به خود بگیرد که این وابسته به موقعیت آن در زیرکلمه است. کاراکترهای مجاور، از هم جدا و یا متصل، ممکن است به صورت عمودی با هم همپوشانی داشته باشند. کاراکترهای مشابهی وجود دارند که فقط در نقاط خود متفاوت اند. این ویژگی دست خط فارسی در شکل 1 نشان داده شده است.
Abstract
A new segmentation algorithm based on the conditional labeling of the upper contour is presented. A pre-processing technique is proposed that adjusts the local base line for each subword. The algorithm was tested on a data set of printed Farsi texts in 20 fonts. 98.5% of the connected characters were correctly segmented.
1. Introduction
Optical character recognition is an attractive branch of pattern recognition with many applications in man±machine interface and document processing. Intensive research has been done and commercial systems are now available (Mori et al., 1992). However, there are a few works reported on the recognition of Arabic and Farsi texts (e.g., Amin, 1998; Parhami and Taraghi, 1981; Massruri and Kabir, 1995; Azmi and Kabir, 1996).
Farsi is written from left to right. Each word, machine-printed or handwritten, may consist of several separated subwords. A subword is either a single character or a set of connected characters. Although, seven Farsi characters out of 32, do not join to their left neighbors, others join to the neighboring characters to make a word or a subword. Each character may take up to four dierent shapes, depending on its position in the subword. The neighboring characters, separated or connected, may overlap vertically. There are similar characters that only dier in their dots. These characteristics of Farsi script are shown in Fig. 1.
چکیده
1. مقدمه
2. پیش پردازش
2.1. محاسبه اندازه قلم
2.2 تشخیص خط مبنای کلی
2.3. تنظیم خط مبنای موضعی
3. الگوریتم تقسیم بندی
3. 1. برچسب گذاری حد فاصل
3.2 تقسیم بندی کاراکتر
4. پس از پردازش
5. نتایج تجربی
6. نتیجه گیری
Abstract
1. Introduction
2. Pre-processing
3. Segmentation algorithm
4. Post-processing
5. Experimental results
6. Conclusion