النص :: ngrams.

النص :: Ngrams هو تحليل نجرام مرن (للشخصيات والكلمات والمزيد).
التحميل الان

النص :: ngrams. الترتيب والملخص

الإعلانات

  • Rating:
  • رخصة:
  • Perl Artistic License
  • السعر:
  • FREE
  • اسم الناشر:
  • Simon Cozens
  • موقع ويب الناشر:
  • http://search.cpan.org/~simon/Sub-Versive-0.01/Versive.pm

النص :: ngrams. العلامات


النص :: ngrams. وصف

النص :: Ngrams هو تحليل نجرام مرن (للشخصيات والكلمات والمزيد). النص :: Ngrams عبارة عن تحليل نجرام مرن (للشخصيات والكلمات والمزيد) .Synopsissfor حرف الافتراضي N-Gram تحليل السلسلة: استخدم النص :: Ngrams؛ بلدي NG3 $ = النص :: Ngrams-> جديد؛ $ ng3-> process_text ('abcdefg1235678hijklmnop')؛ طباعة $ ng3-> to_string؛ بلدي ngramsarray = $ ng3-> get_ngrams؛ يمكن للمرء أيضا إطعام الرموز يدويا: استخدم النص :: Ngrams؛ بلدي NG3 $ = النص :: Ngrams-> جديد؛ NG3-> Feed_Tokens ('A')؛ $ ng3-> feed_tokens ('b')؛ $ ng3-> feed_tokens ('c')؛ $ ng3-> feed_tokens ('d')؛ NG3-> Feed_Tokens ('E')؛ NG3-> Feed_Tokens ('F')؛ $ ng3-> feed_tokens ('g')؛ NG3-> Feed_Tokens ('h')؛ يمكننا اختيار N-Grams من مختلف الأحجام، على سبيل المثال: بلدي $ ng = النص :: Ngrams-> جديد (نضيف => 6)؛ أو أنواع مختلفة من n-gram، على سبيل المثال : بلدي NG = نص :: Ngrams-> جديد (Type => بايت)؛ بلدي $ ng = النص :: ngrams-> جديد (type => word)؛ My $ NG = Text :: Ngrams-> جديد (Type => UTF8)؛ لمعالجة قائمة الملفات: $ ng-> process_files ('somefile.txt'، 'otherfile.txt')؛ هذه الوحدة النمطية تنفذ النص N- تحليل غرام، ودعم عدة أنواع من التحليل، بما في ذلك الشخصية والكلمة N- غرام. نص الوحدة النمطية :: Ngrams مرنة للغاية. على سبيل المثال، يسمح للمستخدم بإطعام تسلسل يدويا لأي رموز. يتعامل مع عدة أنواع من الرموز (الشخصية، الكلمة)، كما يسمح الكثير من المرونة في التعرف التلقائي وإعادته الرموز والطريقة التي يتم دمجها في غرام N. يحسب كل ترددات N-Gram حتى الطول الأقصى المحدد. من المفترض أن يكون تنسيق الإخراج مقروءا كبيرا للإنسان، مع قابل للتحميل أيضا من خلال الوحدة النمطية. يمكن استخدام الوحدة النمطية من سطر الأوامر من خلال البرنامج النصي Ngrams.pl المزود بالحزمة. من الممكن أن تكون غرام ناتجة ناتجة غامضة. وبهذه الطريقة، قد يتم حساب N- غرام مختلفة كواحد. مع أنواع محددة مسبقا من N-grams، لا ينبغي أن يحدث هذا. على سبيل المثال، إذا اختار المستخدم أن يمكن للمستخدم أن يحتوي على مساحة واستخدام المساحة كفاصل غرام، فإن Trigram مثل هذا "x x x x" غامضة. طريقة Process_File لا تتعامل مع الرموز متعددة الخطوط بشكل افتراضي. يمكن إصلاح هذا، لكن لا يبدو أنه يستحق مضاعفات التعليمات البرمجية. هناك طرق مختلفة حول هذا إذا احتاج المرء حقا مثل هذه الرموز: طريقة واحدة هي لمعالجة ما قبلها. هناك طريقة أخرى هي قراءة أكبر قدر ممكن من النص حسب المرة الواحدة لاستخدام Process_Text، والذي يتعامل مع الرموز المتعددة الخط. متطلبات: perl.


النص :: ngrams. برامج ذات صلة

TK :: الضابط

TK :: وحدة الضبط سوف تسمح بحجم الحاجيات المعبأة لتعديلها من قبل المستخدم. ...

112

تحميل