چکیده
بیش تر روش های تشخیص بصری فونت (OFR) برای تشخیص فونت در اسناد غیر شکسته طراحی شده اند. با این حال، تشخیص اسکریپت های فونت شکسته، مانند متن های فارسی / عربی، چالش های خاص خود را دارد. بنابراین، اکثر الگوریتم های ارائه شده، موفق به نمایش یک سرعت تشخیص مناسب در زمان مواجهه با اسناد روان نمی شوند. در این مقاله، یک روش جدید برای تشخیص خودکار فونت فارسی / عربی ارائه شده است که بر اساس روش تبدیل مستقل از مقیاس ویژگی (SIFT) قرار دارد. از آن جا که ویژگی های SIFT ثابت مقیاس هستند، سیستم نهایی در برابر تغییر اندازه، مقیاس و چرخش قوی است. این سیستم به مرحله پیش پردازش نیازی ندارد، اما در مورد تصاویری که کیفیت پایینی دارند، فرآیند های حذف نویز می توانند مورد استفاده قرار گیرند. با استفاده از یک پایگاه داده متشکل از تصویر متنی، سرعت تشخیص عالی تقریبا 100% به دست آمد.
مقدمه
تشخیص فونت فرآیندی برای شناسایی سبک فونت یک تصویر متنی است. این تشخیص می تواند طبقه بندی خودکار اسناد را ارتقا دهد و نیز می تواند برای بهبود تشخیص ماهیت از نظر دقت و عملکرد با استفاده از یک پایگاه داده مناسب برای استفاده در فرآیند تشخیص ماهیت بصری (OCR) مورد استفاده قرار گیرد [1]. تشخیص فونت یک مسئله اساسی در تجزیه و تحلیل اسناد است و به عنوان یک کار پیچیده و وقت گیر در نظر گرفته می شود [2]. در مقایسه با تحقیقات گسترده در زمینه OCR ، فقط چند تحقیق در رابطه با تشخیص طرح حروف با نام تشخیص بصری فونت (OFR) انجام شده اند. در بیش تر روش ها، یک قانون تصمیم Bayes به عنوان ابزار طبقه بندی برای پیدا کردن بهترین تطبیق بین فونت ناشناخته در تصویر متن ارائه شده و فونت های شناخته شده قبلی مورد استفاده قرار می گیرد [1-5].
Abstract
Most optical font recognition (OFR) methods have been designed to recognize the font in non-cursive documents. However, the recognition of cursive font scripts like Farsi/Arabic texts has its own challenges. Thus, most of the currently proposed algorithms fail to exhibit an appropriate recognition rate when facing cursive documents. In this paper, a new method for Farsi/Arabic automatic font recognition is proposed which is based on scale invariant feature transform (SIFT) method. As SIFT features are scale-invariant, the final system is robust against variation of size, scale and rotation. The system does not need a pre-processing stage but in the case of low quality images some noise removal processes can be used. Using a database of 1400 text images, an excellent recognition rate of nearly 100% is obtained.
1. Introduction
Font recognition is a process to identify the font style of a text image. It can promote automatic classification of documents and can also be used to improve character recognition in terms of accuracy and performance by selecting a suitable database to use in the optical character recognition (OCR) process [1]. Font recognition is a basic issue in document analysis and is considered to be a complicated and time-consuming task [2]. Only a few researches have been done on the recognition of the typeface named optical font recognition (OFR) compared to the vast researches in the OCR domain. In most approaches a Bayes decision rule is employed as a classifier to find the best match between the unknown font in the given text image and the previously recognized fonts [1-5].
چکیده
مقدمه
OFR فارسی / عربی
تغییر ویژگی ثابت مقیاس
الگوریتم مطرح شده
نتایج تجربی
نتیجه گیری و چشم انداز
منابع
Abstract
1. Introduction
2. Farsi/Arabic OFR
3. Scale Invariant Feature Transform
4. Proposed Algorithm
5. Experimental Results
6. Conclusion and Outlook