
Counting words in documents is a fundamental task across many fields, including legal tech, education, research, and business process automation. Whether you’re analyzing text for insights, enforcing content length policies, or simply preparing reports, knowing the total word count and frequency of each word offers valuable context. Automating this process with Java helps streamline workflows and eliminate the need for manual counting. With the help of Conholdate.Total for Java SDK, developers can programmatically extract text from various document types and perform efficient word count and frequency analysis within their Java applications. This blog post will guide you through how to achieve this functionality using a practical code example.
لماذا العد الكلمات في الوثائق؟
هنا عدة أسباب لماذا يعد حساب الكلمات أمرًا حيويًا في معالجة الوثائق:
تحليل المحتوى وقابلية القراءة: يساعد في تحديد ما إذا كان المستند يلبي المعايير المتوقعة من حيث الطول وقابلية القراءة.
مراجعة الوثائق القانونية: يضمن أن تحتوي الوثائق القانونية على فقرات محددة أو تحذفها بناءً على وجود الكلمات.
البحث الأكاديمي: يدعم التقييم الآلي، تحليل تكرار الكلمات، والكشف عن الانتحال.
البحث والفهرسة: يعزز دقة الاسترجاع من خلال فهرسة المصطلحات عالية التكرار والكلمات الرئيسية ذات الصلة.
احسب الكلمات في مستندات PDF أو Word باستخدام Java
تحتاج إلى تكوين Conholdate.Total for Java SDK في بيئتك. يتيح لك العمل بدون مشاكل مع مجموعة متنوعة من تنسيقات المستندات بما في ذلك PDF و DOCX و TXT والمزيد. باستخدام قدراته في تحليل المستندات، يمكنك استخراج النص وحساب تكرارات الكلمات دون الاعتماد على مكونات معقدة. أدناه هو نموذج كامل من شفرة Java يوضح كيف يمكنك عد الكلمات وتوليد تقرير عن تكرار الكلمات من ملف PDF. توضح الطريقة التالية كيف يمكنك استخراج الصفحات المختارة من ملف PDF وحفظها كملفات منفصلة.
try (com.groupdocs.parser.Parser parser = new com.groupdocs.parser.Parser("document.pdf")) {
com.groupdocs.parser.data.TextReader reader = parser.getText();
String text = reader.readToEnd();
String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
System.out.println("Length:" + words.length);
Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();
int minWordLength = 2;
for (String word : words) {
String uniqueWord = word.toLowerCase();
if (uniqueWord.length() > minWordLength) {
if (wordCountTable.containsKey(uniqueWord)) {
wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
wordCountTable.get(uniqueWord).intValue() + 1);
} else {
wordCountTable.put(uniqueWord, 1);
}
}
}
wordCountTable.entrySet().forEach(entry ->{
System.out.println(entry.getKey() + ": " + entry.getValue());
});
}
هذا الرمز ينفذ الإجراءات التالية:
Parses the input PDF document to extract text.
يقوم بتقسيم المحتوى إلى كلمات باستخدام المسافات البيضاء وعلامات الترقيم كفواصل.
يقوم بتصفية الكلمات القصيرة وغير المعنوية ويحسب تردد كل كلمة مهمة.
Outputs the total number of words and individual word counts for further analysis.
يمكن تمديد هذا الحل لدعم تنسيقات الملفات المتعددة المدعومة من قبل Conholdate.Total لـ Java، مثل DOCX و RTF و TXT، باستخدام منطق مشابه.
خاتمة
عد الكلمات هو أكثر بكثير من مجرد مقياس، إنه أداة قوية للتحليل، والامتثال، والتحسين، واتخاذ القرارات. من خلال دمج هذه القدرة في تطبيقات Java الخاصة بك باستخدام Conholdate.Total for Java SDK، تحصل على القدرة على استخراج المحتوى النصي برمجيًا وإجراء تحليل تفصيلي لتردد الكلمات. سواء كنت تبني محلل مستندات، أو برنامج تعليمي، أو محرك بحث، فإن الوصول إلى بيانات عدد الكلمات الدقيقة يمكّن تطبيقك من الذكاء والرؤية. ابدأ في دمج هذه الوظيفة اليوم وافتَح الباب لمعالجة مستندات أكثر ذكاءً.