دلیکس

استخراج متن بصورت آنلاین از فایل‌های PDF، تصاویر، اسناد اسکن شده و ...

در دوران دانشجویی همیشه شاهد این هستم که برای بسیاری از منابع فارسی مکتوب و شبیه به آن (مانند PDFها)، نسخه دیجیتالی آن که قابل جستجو و ویرایش باشد وجود ندارد. از طرفی برای یک محقق، دانشجو و دانش آموز پیدا کردن بخش مشخصی از یک محتوا یا ویرایش آن بسیار زمان بر و البته پر هزینه است. 

اغلب OCR (تشخیص کاراکترها از تصویر) فارسی مورد توسعه قرار نمی‌گیرد و آن هم به دلیل پیچیدگی و چسبان بودن زبان فارسی است. البته نرم افزارهایی موجود هستند که با هزینه بسیار بالا برای کاربران عادی، عمل OCR را انجام می‌دهند. 

از این رو ما سرویسی را طراحی کردیم که محتوای اسکن شده و PDFها را با موتورهای مختلف بررسی کرده و محتوای آن‌ها را با خطای قابل قبولی استخراج کند. این سرویس می‌تواند جایگزین مناسبی برای اپراتورهایی باشد که کار آن‌ها تایپ کردن از روی نوشته‌های قبلاً تایپ شده است. تحت وب بودن این سرویس به کاربران این اجازه را می‌دهد تا بدون هیچ گونه نصب نرم افزار خاصی و فقط با داشتن یک مرورگر اینترنتی، بتوانند فایل‌های خود را پردازش کنند. 

ما نام سرویس خود را دلیکس (Delix) گذاشتیم که از دو کلمه Document Elixir به معنی "اکسیر (جان بخش) اسناد" ساخته شده است. دلیکس فعالیت نسخه آزمایشی‌اش را از تابستان 95 شروع کرد و با دریافت فیدبک‌های مناسب از کاربران، کار بر روی نسخه نهایی را از بهار 96 شروع کرد. 

در تابستان 96، نسخه نهایی دلیکس آماده سرویس دهی به کاربران شد. این سرویس‌ها عبارت اند از ارائه OCR فارسی، استخراج کننده باینری، ویرایش کننده PDF، ادغام کننده و جداساز فایل‌های PDF است.

امیررضا  نصیری

امیررضا نصیری

  • بنیان گذار
علیرضا  نصیری

علیرضا نصیری

  • توسعه دهنده کسب و کار