นับคำ Java

การนับคำในเอกสารเป็นงานพื้นฐานในหลาย ๆ สาขา รวมถึงเทคโนโลยีกฎหมาย การศึกษา การวิจัย และการทำงานอัตโนมัติในธุรกิจ ไม่ว่าคุณจะกำลังวิเคราะห์ข้อความเพื่อหาข้อมูลเชิงลึก บังคับใช้นโยบายความยาวของเนื้อหา หรือเพียงแค่เตรียมรายงาน การทราบจำนวนคำทั้งหมดและความถี่ของแต่ละคำจะมอบบริบทที่มีค่า การทำให้กระบวนการนี้เป็นอัตโนมัติโดยใช้ Java จะช่วยให้การทำงานมีประสิทธิภาพมากขึ้นและกำจัดความจำเป็นในการนับแบบแมนนวล ด้วยความช่วยเหลือจาก Conholdate.Total สำหรับ Java SDK นักพัฒนาสามารถดึงข้อมูลข้อความจากประเภทเอกสารต่าง ๆ ได้อย่างมีประสิทธิภาพ และทำการวิเคราะห์จำนวนคำและ

ทำไมต้องนับคำในเอกสาร?

นี่คือเหตุผลหลายประการว่าทำไมการนับจำนวนคำจึงมีความสำคัญในกระบวนการเอกสาร:

  1. การวิเคราะห์เนื้อหาและความสามารถในการอ่าน: ช่วยในการกำหนดว่าเอกสารตรงตามมาตรฐานที่คาดหวังสำหรับความยาวและความสามารถในการอ่านหรือไม่

  2. การตรวจสอบเอกสารทางกฎหมาย: ตรวจสอบว่าเอกสารทางกฎหมายมีหรือไม่มีมาตราที่เฉพาะเจาะจงตามการมีอยู่ของคำ

  3. การวิจัยทางวิชาการ: สนับสนุนการประเมินผลโดยอัตโนมัติ, การวิเคราะห์ความถี่ของคำ, และการตรวจจับการคัดลอกผลงาน.

  4. การค้นหาและการดัชนี: เพิ่มความถูกต้องในการดึงข้อมูลโดยการสร้างดัชนีของคำที่มีความถี่สูงและคำสำคัญที่เกี่ยวข้อง.

นับจำนวนคำในเอกสาร PDF หรือ Word โดยใช้ Java

คุณจำเป็นต้องกำหนดค่า Conholdate.Total for Java SDK ในสภาพแวดล้อมของคุณ มันช่วยให้คุณทำงานได้อย่างราบรื่นกับรูปแบบเอกสารหลากหลายประเภท รวมถึง PDF, DOCX, TXT และอื่น ๆ ด้วยความสามารถในการวิเคราะห์เอกสารของมัน คุณสามารถดึงข้อความและคำนวณความถี่ของคำโดยไม่ต้องพึ่งพาอะไรที่ซับซ้อน ด้านล่างนี้คือตัวอย่างรหัส Java แบบครบถ้วนที่แสดงวิธีการนับคำและสร้างรายงานความถี่ของคำจากไฟล์ PDF วิธีการต่อไปนี้จะแสดงวิธีการดึงหน้าที่เลือกจาก PDF และบันทึกเป็นไฟล์แยกต่างหาก

try (com.groupdocs.parser.Parser parser = new com.groupdocs.parser.Parser("document.pdf")) {

    com.groupdocs.parser.data.TextReader reader = parser.getText();
    String text = reader.readToEnd();

    String[] words = text.split("\\s+|\\.|\\,|\\?|\\:|\\;");
    System.out.println("Length:" + words.length);

    Hashtable<String, Integer> wordCountTable = new Hashtable<String, Integer>();

    int minWordLength = 2;
   for (String word : words) {
        String uniqueWord = word.toLowerCase();
        if (uniqueWord.length() > minWordLength) {
            if (wordCountTable.containsKey(uniqueWord)) {
                wordCountTable.replace(uniqueWord, wordCountTable.get(uniqueWord),
                        wordCountTable.get(uniqueWord).intValue() + 1);
            } else {
                wordCountTable.put(uniqueWord, 1);
            }
        }
    }

    wordCountTable.entrySet().forEach(entry ->{
        System.out.println(entry.getKey() + ": " + entry.getValue());
    });
}

รหัสนี้ทำงานดังต่อไปนี้:

  • Parses the input PDF document to extract text.

  • แยกเนื้อหาเป็นคำโดยใช้ช่องว่างและเครื่องหมายวรรคตอนเป็นตัวแบ่ง

  • กรองคำสั้น ๆ ที่ไม่มีความหมายและคำนวณความถี่ของแต่ละคำที่มีความหมายสำคัญ

  • ส่งออกจำนวนคำรวมและนับคำแต่ละคำเพื่อการวิเคราะห์เพิ่มเติม

โซลูชันนี้สามารถขยายเพื่อรองรับรูปแบบไฟล์หลายรูปแบบที่รองรับโดย Conholdate.Total สำหรับ Java เช่น DOCX, RTF และ TXT โดยใช้หลักการที่คล้ายกัน

ข้อสรุป

การนับคำมีความหมายมากกว่าตัวชี้วัดเพียงอย่างเดียว มันเป็นเครื่องมือที่ทรงพลังสำหรับการวิเคราะห์, การปฏิบัติตามกฎระเบียบ, การเพิ่มประสิทธิภาพ, และการตัดสินใจ โดยการบูรณาการความสามารถนี้เข้าไปในแอปพลิเคชัน Java ของคุณโดยใช้ Conholdate.Total for Java SDK คุณจะมีความสามารถในการดึงข้อมูลเนื้อหาเชิงพรรณนาออกมาได้ในลักษณะโปรแกรม และทำการวิเคราะห์ความถี่ของคำอย่างละเอียด ไม่ว่าคุณจะกำลังสร้างโปรแกรมวิเคราะห์เอกสาร, ซอฟต์แวร์การศึกษา, หรือเครื่องมือค้นหา การเข้าถึงข้อมูลการนับคำที่ถูกต้องจะช่วยเสริมพลังให้กับแอปพลิเคชันของคุณด้วยข้อมูลเชิงลึกและความ

ดูเพิ่มเติม