Count Words Java

شمارش کلمات در اسناد یک وظیفه اساسی در بسیاری از زمینه‌ها، از جمله فناوری حقوقی، آموزش، تحقیق و خودکارسازی فرآیندهای کسب و کار است. چه شما در حال تجزیه و تحلیل متن برای بینش‌ها باشید، چه سیاست‌های طول محتوا را اجرا کنید، یا فقط در حال تهیه گزارش‌ها باشید، دانستن تعداد کل کلمات و فراوانی هر کلمه زمینه ارزشمندی ارائه می‌دهد. خودکارسازی این فرآیند با Java به ساده‌سازی جریان‌های کاری و از بین بردن نیاز به شمارش دستی کمک می‌کند. با کمک Conholdate.Total برای Java SDK، توسعه‌دهندگان می‌توانند به‌طور برنامه‌نویسی متن را از انواع مختلف اسناد استخراج کرده و تحلیل فراوانی و شمارش کلمات را در درون برنامه‌های Java خود به‌طور کارآمد انجام دهند. این پست وبلاگی شما را از طریق چ

چرا شمارش کلمات در اسناد؟

در اینجا دلایل متعددی وجود دارد که چرا شمارش کلمات در پردازش اسناد حیاتی است:

  1. تحلیل محتوا و قابل خواندن بودن: کمک می‌کند تا تعیین شود آیا یک سند با استانداردهای مورد انتظار برای طول و قابل خواندن بودن مطابقت دارد.

  2. بازبینی مدرک قانونی: اطمینان از اینکه مدارک قانونی شامل یا حذف بندهای خاصی بر اساس حضور کلمات است.

  3. تحقیقات علمی: از ارزیابی خودکار، تحلیل فراوانی اصطلاحات و شناسایی سرقت ادبی پشتیبانی می‌کند.

  4. جستجو و فهرست‌گذاری: دقت بازیابی را با فهرست‌گذاری اصطلاحات با فرکانس بالا و کلمات کلیدی مرتبط افزایش می‌دهد.

شمارش کلمات در فایل‌های PDF یا Word با استفاده از Java

شما نیاز به پیکربندی Conholdate.Total for Java SDK در محیط خود دارید. این به شما این امکان را می‌دهد که به طور یکپارچه با انواع فرمت‌های سند از جمله PDF، DOCX، TXT و موارد دیگر کار کنید. با استفاده از قابلیت‌های تجزیه سند آن، می‌توانید متن را استخراج کرده و فرکانس کلمات را بدون وابستگی‌های پیچیده محاسبه کنید. در زیر یک نمونه کد کامل Java آورده شده است که نشان می‌دهد چگونه کلمات را شمارش کرده و یک گزارش فرکانس کلمه از یک فایل PDF ایجاد کنید. رویکرد زیر نشان می‌دهد که چگونه صفحات انتخابی را از یک PDF استخراج کرده و آنها را به عنوان فایل‌های جداگانه ذخیره کنید.

try (com.groupdocs.parser.Parser parser = new com.groupdocs.parser.Parser("document.pdf")) {

    com.groupdocs.parser.data.TextReader reader = parser.getText();
    String text = reader.readToEnd();

    String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
    System.out.println("Length:" + words.length);

    Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

    int minWordLength = 2;
   for (String word : words) {
        String uniqueWord = word.toLowerCase();
        if (uniqueWord.length() > minWordLength) {
            if (wordCountTable.containsKey(uniqueWord)) {
                wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
                        wordCountTable.get(uniqueWord).intValue() + 1);
            } else {
                wordCountTable.put(uniqueWord, 1);
            }
        }
    }

    wordCountTable.entrySet().forEach(entry ->{
        System.out.println(entry.getKey() + ": " + entry.getValue());
    });
}

این کد اقدامات زیر را انجام می‌دهد:

  • متن را از سند PDF ورودی استخراج می‌کند.

  • محتوا را با استفاده از فاصله‌ها و نشانه‌گذاری به کلمات تقسیم می‌کند.

  • کلمات کوتاه و غیرمعنایی را فیلتر می‌کند و فراوانی هر کلمه معنادار را محاسبه می‌کند.

  • خروجی‌ها تعداد کل کلمات و شمارش کلمات فردی را برای تحلیل بیشتر ارائه می‌دهند.

این راه حل می‌تواند برای پشتیبانی از فرمت‌های فایل متعدد که توسط Conholdate.Total برای Java پشتیبانی می‌شود، مانند DOCX، RTF، و TXT، با استفاده از منطق مشابه گسترش یابد.

نتیجه گیری

شمارش کلمات فراتر از یک معیار ساده است، این یک ابزار قدرتمند برای تحلیل، انطباق، بهینه‌سازی و تصمیم‌گیری است. با ادغام این قابلیت به برنامه‌های Java خود با استفاده از Conholdate.Total for Java SDK، شما توانایی استخراج محتوای متنی به‌صورت برنامه‌نویسی و انجام تحلیل‌های تفصیلی فرکانس کلمات را به‌دست می‌آورید. چه در حال ساخت یک تحلیل‌گر سند، نرم‌افزار آموزشی یا موتور جستجو باشید، دسترسی به داده‌های دقیق شمارش کلمات، برنامه شما را با هوش و بینش توانمند می‌سازد. امروز این عملکرد را ادغام کنید و در را به سوی پردازش هوشمندتر اسناد باز کنید.

به همین ترتیب