دانلود رایگان مقاله طرح ترکیبی کارآمد برای استخراج فریم کلیدی
ترجمه رایگان

دانلود رایگان مقاله طرح ترکیبی کارآمد برای استخراج فریم کلیدی

عنوان فارسی مقاله: یک طرح ترکیبی کارآمد برای استخراج فریم کلیدی و موقعیت یابی متن در ویدئو
عنوان انگلیسی مقاله: An Efficient Hybrid Scheme for Key Frame Extraction and Text Localization in Video
کیفیت ترجمه فارسی: مبتدی (مناسب برای درک مفهوم کلی مطلب)
مجله/کنفرانس: کنفرانس بین المللی پیشرفت در محاسبات، ارتباطات و انفورماتیک (ICACCI) - International Conference on Advances in Computing, Communications and Informatics (ICACCI)
رشته های تحصیلی مرتبط: مهندسی کامپیوتر
گرایش های تحصیلی مرتبط: هوش مصنوعی - مهندسی الگوریتم ها و محاسبات
کلمات کلیدی فارسی: شناسایی عکس - حالات رنگی - استخراج فریم های کلیدی - تبدیل موج گسسته - لاپلاس فیلتر گاوسی - تفاوت گرادیان
کلمات کلیدی انگلیسی: Shot detection - Color Moments - Key Frame Extraction - Discrete Wavelet Transform - Laplacian of Gaussian Filter - Gradient Difference
نوع نگارش مقاله: مقاله پژوهشی (Research Article)
شناسه دیجیتال (DOI): https://doi.org/10.1109/ICACCI.2015.7275784
لینک سایت مرجع: https://ieeexplore.ieee.org/document/7275784
دانشگاه: گروه مهندسی برق و الکترونیک و ارتباطات دانشگاه ITM، گورگان، هند
صفحات مقاله انگلیسی: 5
صفحات مقاله فارسی: 14
ناشر: آی تریپل ای - IEEE
نوع ارائه مقاله: کنفرانس
سال انتشار مقاله: 2015
مبلغ ترجمه مقاله: رایگان
ترجمه شده از: انگلیسی به فارسی
کد محصول: F2323
نمونه ترجمه فارسی مقاله

خلاصه 

          الگوریتم های بهینه برای ثبت متن و موقعیت یابی آن در سکانس های ویدئویی در بازار چند رسانه ای و استخراج داده امروز بسیار پرطرفدار هستند. به خاطر چالش هایی از قبیل وضوح تصویر پایین، کنتراست پایین، پیش زمینه پیچیده و متنون با استایل، جهت، رنگ و چینش مختلف، استخراج متن از تصویر ویدئویی یک کار چالش بر انگیز است. در این مقاله روشی برای استخراج بهینه و کارآمد فریم های کلیدی از ویدئو بر اساس لحظات رنگی و پس از آن موقعیت یابی متن تنها بر روی همین فریم های کلیدی انجام میشود. به این خاطر که اطلاعات متن با هر فریم تغییر نمیکند، استخراج متن تنها از این فریم های کلیدی میتواند به کاهش هزینه محاسباتی و زمانی الگوریتم کمک شایانی بکند. علاوه بر این، این مقاله یک روش کارآمد هایبرید برای محلی کردن صحنه و متن گرافیکی در فریم های ویدئویی آن هم با استفاده از DWT (تبدیل موج دو بعدی هار)  ، لاپلاس فیلتر گاوسی و روش تفاوت حداکثری گرادیان ارائه میکند. DWT یک روش تجزیه سریع تصویر ارائه میکند که تصویر را به سه بخش جزئیات تخمینی میشکند. این سه جزء اطلاعاتی درباره لبه های عمودی، افقی، محوری از تصویر در خود دارند که باعث میشود متن سریعتر تشخیص داده شود. روش تفاوت گرادیان حداکثری نیز برای موقعیت یابی و محلی کردن بیشتر متن در تصویر به کار میرود، دامنه تفاوت گرادیان هم در فرآیند حد نصاب سنجی  به کار میرود. یک تکنیک حد نصاب سنجی پویا برای تبدیل نوع تصویر به فرم باینری مورد استفاده قرار گرفته است. از آنجایی که این تکنیک مقادیر متنوعی برای تصاویر مختلف حاصل میکند، میتواند برای موقعیت یابی اتوماتیک متن در تصاویر ویدئویی به کار رود. دو عملگر ماسک هم برای به دست آوردن یک معادله به کار رفته اند و زمانی استفاده میشوند که پیکسل ها مساوی با مقدار حد نصاب تعیین شده باشند. مثبت و منفی ها با استفاده از عملگرهای مورفولوژیکی حذف میشوند و آنالیز اجزای به هم پیوسته صورت میگیرد تا در نهایت جایگاه متن مشخص گردد. معیارهای مقایسه در نتایج نشان میدهند که روش ارائه شده عملکرد مناسبی در نرخ شناسایی، نرخ هشدار نادرست و نرخ شناسایی نادرست ارائه میکند.

1. معرفی

           با پیشرفت های اخیر در تکنولوژی چند رسانه ای، افزایش قابل توجهی در پایگاه داده تصاویر و ویدئوهای دیجیتالی بوجود آمده است. در نتیجه آن نیاز به شاخص گذاری چند رسانه ای کارآمد و تکنیک های استخراج حس میشود. برچسب گذاری ویدئو بر اساس محتوا یکی از حوزه های در حال رشد از تحقیقات گذشته است. محتوای ویدئو را میتوان به صورت زیر دسته بندی کرد: الف. محتوای ادراکی، مبتنی بر ویژگی هایی از جمله شکل، شدت، رنگ، بافت و تغییرات موقت و ب. محتوای معنایی – بر اساس اشیا موجود در ویدئو، دسته بندی کرد. متون قرار گرفته در ویدئوها اطلاعات ارزشمندی دارند و به سادگی میتوانند برای منظور برچسب گذاری معنایی ویدئو به کار روند. متاسفانه روشی مستحکم و قوی برای اینکار وجود ندارد تا بتواند متون را از تمامی انواع ویدئوها استخراج کند. متنون ویدئویی را میتوان به دسته های زیر تقسیم کرد: الف. متون صحنه که به صورت طبیعی از ویدئو ثبت میشوند، ب. متن زیرنویس که به صورت مجزا در ویدئو جاسازی شده اند. خصوصیات نامطلوب دیگری هم در ویدئو وجود دارد از جمله: پس زمینه پیچیده، وضوح پایین، شدت پایین، و اندازه ها، استایلها، رنگ ها و جهات متنوع متن در ویدئو چالش هایی هستند که پیش راه محققان این حوزه قرار گرفته اند. در بین متون صحنه و متن زیرنویس، کاملا واضح است که استخراج متون صحنه بسیار دشوارتر است.

           در این مقاله، یک شمای کارآمد برای استخراج اولیه فریم های کلیدی از ویدئو با استفاده از لحظات رنگی و پس از آن تبدیل موج گسسته، تفاوت حداکثر گرادیان و عملگر های مورفولوژیکی برای موقعیت یابی متن در فریم های کلیدی ویدئو استفاده میشوند. باقی مطالب مقاله به صورت زیر تنظیم شده اند، بخش دوم، یک چشم انداز کلی از روش های بکار رفته و کارهای مرتبط با این حوزه ارائه میکند. روش پیشنهادی در بخش سوم نمایش داده شده است. نتایج آزمایشی و معیارهای مقایسه در بخش چهارم ارائه شده اند. در نهایت، نتایج در بخش پنجم مشخص شده اند.

2. کارهای قبلی

            الگوریتم های بیشماری برای موقعیت یابی، استخراج و تشخیص متن در سکانس های تصویری ویدئو در سال های اخیر ارائه شده اند. شناسایی متن و تکنیک های موقعیت یابی را میتوان به دو دسته متفاوت دسته بندی کرد: الف. بر اساس منطقه، ب. تکنیک های مبتنی بر بافت.

            روش های مبتنی بر منطقه بر ویژگی های مناطق تصویر برای استخراج متن استفاده میکند با این فرض که تفاوت عمده ای بین خصوصیات ویدئو/تصویر و متن و پس زمینه کنارش وجود دارد. ویژگی های لبه ها، رنگها و روش های اجزای متصل از جمله تکنیک های به کار رفته عمده در پیاده سازی این دسته موقعیت یابی هستند. روش های مبتنی بر مناطق تصویر به شیوه ای از پایین به بالا کار میکنند. در ابتدا تصویر به مناطق محتمل حاوی کاراکتر متون تقسیم میشود؛ این مناطق در ادامه بیشتر تقسیم شده و خطوط حاوی متن را حاصل میکنند. قدم نهایی مشخص کردن مناطق حاوی متن و فاقد متن است.

            روش های مبتنی بر بافت از معیارهای کمی برای تنظیم شدت/رنگ زیر عناصر در منطقه ای از ویدئو استفاده میکنند تا آن محدوده را از پس زمینه جدا کنند. این تکنیک ها معمولا از فیلترهای گابور استفاده میکنند، همچنین از تجزیه موج، تبدیل کسینوسی گسسته، FFT، واریانس فضایی و غیره. در ابتدا ویژگی های بافت ار تصویر/ویدئو جدا میشوند و پس از آن محدوده های تصویر با استفاده از این روش مشخص میگردند. با اینکه روش های مبتنی بر بافت تصویر بسیار قوی و کارآمد هستند برای پس زمینه های پیچیده تصاویر در مقایسه با روش مبتنی بر منطقه تصویر پیچیدگی محاسباتی بیشتری دارند. 

           چونگ-وی لیانگ از DWT و عملگرهای مورفولوژیکی در کار خود استفاده کرده بود، برای استخراج متن به صورت منطقه ای در تصاویر استاتیک یا سکانس های ویدئو با استفاده از DWT و عملگرهای ذکر شده. وی یک شمای هرمی برای شناسایی متن در تصاویر استفاده کرده است. دی. چن هم یک روش دو مرحله مشابه هم برای تشخیص و شناسایی متن در تصاویر پیچیده و فریم های ویدئویی ارائه کرده است. این روش شامل مراحل زیر میشود: الف. فرآیند موقعیت یابی متن سریع باعث میشود نرمالیزه شدن اندازه متن انجام شود و ب. یک روش قوی یادگیری  ماشین برای فرآیند اعتبار سنجی اعمال میشود که بر ویژگی های مستقل در پس زمینه دلالت دارد. شیواکومارا هم روشی ارائه کرده است که با استفاده از روش تمایز گرادیان برای جدا کردن بخش های محتمل متن به کار میرود. 

            روش پیشنهادی زمان محاسبه را کاهش میدهد. با استفاده از استخراج متن تنها از فریم های کلیدی به جای کل فریم های ویدئو که میتواند بسیار زمان بر باشند. علاوه بر این، متون ویدئویی معمولا چندین جهت گیری و چینش متفاوت دارند و با استفاده از DWT میتواند جزئیات لبه را به صورت همزمان در جنبه های افقی، عمودی و روی محورهای اصلی مشخص کرد.

نمونه متن انگلیسی مقاله

Abstract

           Efficient algorithms for caption text and scene text detection in video sequences are highly in-demand in the area of multimedia indexing and data retrieval. Due to challenges like, low resolution, low contrast, complex background and texts with multiple orientation/style/color/alignment, scene text extraction from video images is undoubtedly more challenging task. In this paper, a method has been proposed to efficiently extract the key frames from the videos based on color moments and then text localization is done only on the key frames. Since the text information does not change with each frame, text extraction is performed only on key frames which help in reducing the computational/processing time of the algorithm. Further, this paper proposes a hybrid robust method to localize scene and graphic text in the video frames using 2-D haar discrete wavelet transform (DWT), Laplacian of Gaussian filter and maximum gradient difference method. DWT provides a fast decomposition of the images into an approximate and three detail components. The three detail components contain the information about the vertical, horizontal and diagonal edges of the image which are used to easily differentiate texts from image. Maximum gradient difference method is used to further refine the text localization process and the gradient difference magnitude is used in the thresholding process. A dynamic thresholding technique has been used to convert the images into binary form. Since this thresholding technique obtains different threshold values for different images, it can be used for automatic text localization in video sequences. Two mask operators has been employed to obtain an equation which when applied on each pixel provides the intended threshold value. False positives are eliminated using morphological operations and connected component analysis is done to finally localize the text. The comparison metrics in the results show that the proposed method gives a good performance of detection rate, false alarm rate and misdetection rate.

I. INTRODUCTION

          With the advancement in multimedia technology, there has been a tremendous increase in the multimedia database comprising of digital images and videos. Consequently, this has led to a requirement for efficient multimedia indexing and retrieval techniques. Video labeling and annotation based on content has been an emerging area of research in recent past. Video content can be categorized as: (i) Perceptual content -based on attributes like shape, intensity, color, texture and temporal changes and (ii) Semantic content - based on objects present in the video. Embedded text in the videos contains valuable information and could be easily used for semantic content based video annotation. Unfortunately, there isn't any one robust and consistent approach that can extract text from all kinds of videos. Video texts can be classified as: (i) Scene text are naturally captured in the video and (ii) Caption text, are embedded superficially in the video. Certain undesirable characteristics of videos like: complex background, low resolution, low intensity and various sizes, styles, colors and orientation of the video text pose a challenge to the researchers in this field. Amongst scene text and caption text, it is quite apparent that extraction of scene text is more difficult task to achieve.

          In this paper, an efficient scheme is proposed to first extract key frames from the video using color moments and then discrete wavelet transform (DWT), maximum gradient difference and morphological operations are used to localize the text in the video key frames. Rest of the paper is organized as follows. Section II, provides an overview of the methodologies used and related work in this field. Proposed method is elaborated in Section III. Experimental results and comparison metrics are discussed in Section IV. Finally, the conclusions are summarized in Section V.

II. PREVIOUS WORK

         Innumerous algorithms for localization, extraction and recognition of text in video image sequence had been proposed in past few years. Text detection and localization techniques can be broadly classified into: (i) Region based and (ii) Texture based techniques.

          Region based methodology focuses on the region properties to extract the text, based on the verity that there is a considerable distinction in video/image text properties and its neighboring background. Edge features, color features, and connected component methods are most commonly used in the implementation of this technique. Region based methods work in downside-up fashion. Firstly, the image is segmented into small candidate character regions; these regions are further grouped/segregated to form text lines. Last step is to classify text and non-text regions.

        Texture based methods utilize the quantitative measure of the arrangement of intensities/color sub elements in a region of the video text to segregate it from the background. These techniques mostly use Gabor filters, wavelet decomposition, discrete cosine transform, FFT, spatial variance etc. to achieve the task. Firstly, the texture features are extracted from the video/image and then the text regions are located in this technique. Although texture based techniques are quite robust for complex background images as compared to region based techniques, they have a high computational complexity.

        Chung-Wei Liang [1] used DWT and morphological operations in his work, for text region extraction in static images or video sequences using DWT and morphological operation. Wei et al. [2] defined a pyramidal scheme to detect text in images. D. Chen et al. [3] presented a twin-step method for detecting and recognizing text in complex images and video frames. The method consists of: (i) Fast text localization process which enables normalization of text size and (ii) a vigorous machine learning text verification process which is applied on the independent features in the background. Shivakumara et al. [4] proposed a method which used gradient difference method to segregate the candidate text regions.

          The proposed method, reduces the computation time by extracting text from only the selected key frames instead of all the frames which would be rather time consuming. Further, the video texts are usually multi-oriented and using DWT helps to find the edge details in the horizontal, vertical and diagonal simultaneously.

فهرست مطالب (ترجمه)

خلاصه 

1. معرفی

2. کارهای قبلی

3. روش پیشنهادی

A. استخراج فریم کلیدی

B. استخراج لبه

C. تمایز گرادیان ماکزیمم

D. فرآیند باینری کردن

E. موقعیت یابی متن

4. نتایج آزمایشی و معیارهای مقایسه و ارزیابی

5. نتیجه گیری

منابع

فهرست مطالب (انگلیسی)

Abstract

1. INTRODUCTION

2. PREVIOUS WORK

3. PROPOSED METHODOLOGY

A. Key Frame Extraction

B. Edge Map Extraction

C. Maximum Gradient Differe

D. Binarization

E. Text Localization

4. EXPERIMENTAL RESUL

5. CONCLUSIONS

REFERENCES