| النص :: deduper. بالقرب من وحدة الكشف عن التكرارات |
التحميل الان |
النص :: deduper. الترتيب والملخص
- رخصة:
- Perl Artistic License
- اسم الناشر:
- Jan Pomikalek
- موقع ويب الناشر:
- http://search.cpan.org/~janpom/
النص :: deduper. العلامات
النص :: deduper. وصف
بالقرب من وحدة الكشف عن التكرارات النص :: deduper هو وحدة بيرل التي تستخدم قياس التشابه كما اقترحها Andrei Z. Broder في Al (http://www.ra.ethz.ch/cdstore/www6/technical/paper205/paper205.html) للكشف عن ما شابه ذلك (شبه مكررة) المستندات المستندة إلى نصها. ملاحظة الحذر: تعمل الوحدة النمطية فقط مع اللغات التي يمكن فيها تلقي النصوص على الكلمات عن طريق اكتشاف تسلسل الأحرف الأبجدية. لذلك قد لا توفر نتائج جيدة جدا ل E.G. chinese.synopsis استخدام النص :: deduper؛ $ deduper = نص جديد :: deduper ()؛ $ deduper-> add_doc ("doc1"، $ doc1text)؛ $ deduper-> add_doc ("doc2"، $ doc2text)؛ similar_docs = $ deduper-> find_similar (doc3text $)؛ ... # حذف بالقرب من المكرر من مجموعة من النصوص $ deduper = نص جديد :: deduper ()؛ foreach $ Text (@ التصوير) {التالي إذا كانت $ deduper-> find_similar (نص $)؛ $ deduper-> add_doc ($ i ++، نص $)؛ دفع no_near_duplicates، نص $؛ } متطلبات: perl.
النص :: deduper. برامج ذات صلة