النص :: deduper.

بالقرب من وحدة الكشف عن التكرارات
التحميل الان

النص :: deduper. الترتيب والملخص

الإعلانات

  • Rating:
  • رخصة:
  • Perl Artistic License
  • السعر:
  • FREE
  • اسم الناشر:
  • Jan Pomikalek
  • موقع ويب الناشر:
  • http://search.cpan.org/~janpom/

النص :: deduper. العلامات


النص :: deduper. وصف

بالقرب من وحدة الكشف عن التكرارات النص :: deduper هو وحدة بيرل التي تستخدم قياس التشابه كما اقترحها Andrei Z. Broder في Al (http://www.ra.ethz.ch/cdstore/www6/technical/paper205/paper205.html) للكشف عن ما شابه ذلك (شبه مكررة) المستندات المستندة إلى نصها. ملاحظة الحذر: تعمل الوحدة النمطية فقط مع اللغات التي يمكن فيها تلقي النصوص على الكلمات عن طريق اكتشاف تسلسل الأحرف الأبجدية. لذلك قد لا توفر نتائج جيدة جدا ل E.G. chinese.synopsis استخدام النص :: deduper؛ $ deduper = نص جديد :: deduper ()؛ $ deduper-> add_doc ("doc1"، $ doc1text)؛ $ deduper-> add_doc ("doc2"، $ doc2text)؛ similar_docs = $ deduper-> find_similar (doc3text $)؛ ... # حذف بالقرب من المكرر من مجموعة من النصوص $ deduper = نص جديد :: deduper ()؛ foreach $ Text (@ التصوير) {التالي إذا كانت $ deduper-> find_similar (نص $)؛ $ deduper-> add_doc ($ i ++، نص $)؛ دفع no_near_duplicates، نص $؛ } متطلبات: perl.


النص :: deduper. برامج ذات صلة

ccnx.

المسامين المضيفين مع المحتوى المسمى ...

194

تحميل