استخراج متن بصورت آنلاین از فایلهای PDF، تصاویر، اسناد اسکن شده و ...
در دوران دانشجویی همیشه شاهد این هستم که برای بسیاری از منابع فارسی مکتوب و شبیه به آن (مانند PDFها)، نسخه دیجیتالی آن که قابل جستجو و ویرایش باشد وجود ندارد. از طرفی برای یک محقق، دانشجو و دانش آموز پیدا کردن بخش مشخصی از یک محتوا یا ویرایش آن بسیار زمان بر و البته پر هزینه است.
اغلب OCR (تشخیص کاراکترها از تصویر) فارسی مورد توسعه قرار نمیگیرد و آن هم به دلیل پیچیدگی و چسبان بودن زبان فارسی است. البته نرم افزارهایی موجود هستند که با هزینه بسیار بالا برای کاربران عادی، عمل OCR را انجام میدهند.
از این رو ما سرویسی را طراحی کردیم که محتوای اسکن شده و PDFها را با موتورهای مختلف بررسی کرده و محتوای آنها را با خطای قابل قبولی استخراج کند. این سرویس میتواند جایگزین مناسبی برای اپراتورهایی باشد که کار آنها تایپ کردن از روی نوشتههای قبلاً تایپ شده است. تحت وب بودن این سرویس به کاربران این اجازه را میدهد تا بدون هیچ گونه نصب نرم افزار خاصی و فقط با داشتن یک مرورگر اینترنتی، بتوانند فایلهای خود را پردازش کنند.
ما نام سرویس خود را دلیکس (Delix) گذاشتیم که از دو کلمه Document Elixir به معنی "اکسیر (جان بخش) اسناد" ساخته شده است. دلیکس فعالیت نسخه آزمایشیاش را از تابستان 95 شروع کرد و با دریافت فیدبکهای مناسب از کاربران، کار بر روی نسخه نهایی را از بهار 96 شروع کرد.
در تابستان 96، نسخه نهایی دلیکس آماده سرویس دهی به کاربران شد. این سرویسها عبارت اند از ارائه OCR فارسی، استخراج کننده باینری، ویرایش کننده PDF، ادغام کننده و جداساز فایلهای PDF است.