إدارة غيغابايت ل Java

التحميل الان

إدارة غيغابايت ل Java الترتيب والملخص

الإعلانات

  • Rating:
  • رخصة:
  • LGPL
  • السعر:
  • FREE
  • اسم الناشر:
  • Sebastiano Vigna
  • موقع ويب الناشر:
  • http://archive4j.dsi.unimi.it/

إدارة غيغابايت ل Java العلامات


إدارة غيغابايت ل Java وصف

إدارة غيغابايت ل Java هو نظام فهرسة مجاني مجاني لمجموعات المستندات الكبيرة المكتوبة في جافا. إدارة غيغابايت ل Java (MG4J) هو نظام فهرسة كاملة النص الكامل لمجموعات المستندات الكبيرة المكتوبة في جافا. كمنتج ثانوي، يوفر العديد من الطبقات المحسنة للأغراض العامة، بما في ذلك سلاسل قابلة للتغيير الصيام والمدمجة، وتدفقات مخزنة من مستوى البت، وتدفقات مخزنة سريعة لا تنجح، (ربما تم توقيعها) الحد الأدنى من التجزئة المثالية لمجموعات سلاسل كبيرة جدا، وما إلى ذلك الافراج عن 1.1، تصبح MG4J نظام فهرسة نصوص قابلة للتخصيص للغاية، عالية الأداء، حيث يوفر ميزات نصية كاملة توفر ميزات الحديثة (مثل سجل BM25) وخوارزميات البحث الجديدة. إنها بعض الملامح الرئيسية "إدارة جيجابايت ل جافا ": - فهرسة قوية. يجعل دعم مجموعات المستندات والمصانع التحليل والفهرس والاستعلام عن مجموعات وثائق كبيرة باستمرار، مما يوفر مقتطفات سهلة فهم تسليط الضوء على الممرات ذات الصلة في المستندات المستردة. - كفاءة. نحن لا نقدم بيانات لا معنى لها مثل "نحن فهرسة x gib في الثانية" (مع أي تكوين؟ ما هي اللغة التي مصدر البيانات؟) - نحن ندعوك لمحاولة ذلك. يمكن MG4J الفهرس دون جهد مجموعة TREC GOV2 (يتم توفير مصانع المستندات لهذا الغرض) والموازين إلى مئات الملايين من المستندات. - دلالات فاصل متعددة المؤشرات. عند تقديم استعلام، يتم إرجاع MG4J، لكل فهرس، قائمة فواصل زمنية تلبية الاستعلام. يوفر هذا القاعدة للعديد من الهدافين عالية الدقة ولتنفيذ فعال للغاية للمشغلين المتطورين. يتم بناء الفواصل الزمنية في الوقت الخطي باستخدام خوارزميات بحث جديدة. - مشغلي معبرة. يذهب MG4J إلى أبعد من طراز حقيبة الكلمات، مما يوفر تنفيذا فعال لاستفسارات العبارات، والقيود القريبة، والاشتراك، ومجتمع استعلامات متعددة الفهرس. يمثل كل مشغل داخليا بواسطة كائن مجردة، حتى تتمكن من توصيل بناء الجملة المفضل لديك بسهولة. - الحقول الافتراضية. يدعم MG4J حقول الحقول الافتراضية التي تحتوي على نص مستند افتراضي مختلف؛ المثال النموذجي هو نص المرساة، والذي يجب أن يعزى إلى المستند المستهدف. - المرونة. يمكنك بناء مؤشرات أصغر بكثير عن طريق إسقاط مواقع المصطلح، أو حتى الأجل مهمات. الأمر متروك لك. يمكن اختيار عدة أنواع مختلفة من الرموز لتحقيق التوازن بين الكفاءة وحجم الفهرس. يمكن إعادة ترقيم الوثائق القادمة من مجموعة (على سبيل المثال، لتتناسب مع رتبة ثابتة أو تجربة مع تقنيات الفهرسة). - الانفتاح. توفر واجهات تحصيل المستندات / المصنع طريقة سهلة لتقديم تمثيل البيانات الخاص بك إلى MG4J، مما يجعلها نسيما لإعداد محرك بحث يستند إلى الويب الوصول إلى بياناتك مباشرة. يمكن استبدال كل عنصر على طول مسار القرار الاستعلام (المحللين، مواد المستندات، محركات الاستعلام، إلخ) بإصداراتك الخاصة. - المعالجة الموزعة. يمكن بناء المؤشرات للحصول على تقسيم مجموعة في عدة أجزاء، ومجتمعة في وقت لاحق. يتيح مزيج من المؤشرات مؤشرات غير متجاورة وحتى نفس المستند يمكن تقسيمه عبر مجموعات مختلفة (على سبيل المثال، عند فهرسة نص مرساة). - متعدد المبالغ. يمكن الاستعلام عن المؤشرات وسجلها بشكل متزامن. - تجمع. يمكن تجميع المؤشرات بشكل عام ووثيقة (ربما بعد التقسيم). نظام التجميع مفتوح تماما، وتقرير الاستراتيجيات المعرفة من قبل المستخدم كيفية دمج المستندات من مصادر مختلفة. تجعل هذه المعمارية هذه، على سبيل المثال، للتحميل في ذاكرة الوصول العشوائي جزء من فهرس يحتوي على مصطلحات تظهر بشكل متكرر في استعلامات المستخدم. متطلبات: fastutil. جال ما الجديد في هذا الإصدار: تحذير: تجديد ضخمة للنظام الفرعي لاعب المستندات. الآن يمكن لهذا الزوار إعادة البيانات، يشبه الكثير مثل QueryAterbuilderVisitor. كما أن لديها طريقة زيارة خاصة لمتعدد المهاجرين. سيكون عليك تكييف تطبيقاتك السابقة. تحذير: مطلوب حالات QueryParser لتوفير طريقة تحليل (MUTABLESTRING) وطرأين هروبين جديدين يمكن استخدامها لتحويل سلسلة إلى رمز تركي. هذه الميزة أساسية لتوليد الاستعلام التلقائي (بفضل Hugo Zaragoza لإشارة هذه المشكلة). تحذير: لجعل بعض الأشياء أسهل، لدينا الآن محامون مستندين واضحين يمثلون صحيحا وكافسا. يتطلب بناءهم مؤشر مرجعي (كان يحدث على النظور الذي كان يحدث مع المستندات المستندات. إذن يجب أن يتم تحديث أساليب GetInstance () لمعظم محاصرات المستندات، وتحتاج مثيلات الضربات المستندات إلى تنفيذ أساليب زيارة جديدة (). يتم إنشاؤه للمقتطفين من قبل الرموز #TRUE و #FALSE. تحذير: يستخدم فهرسة الحقول الافتراضية ذاكرة أقل بكثير، لكن الدفعات لديها الآن محتوى مختلف: أنها تمثل المراكز الفعلية في المستند الظاهري النهائي. تمثل أحجام كل دفعة الحجم المعروف لحظة افتراضية عند كتابة الدفعة. مع هذا التغيير، لم يعد لصق يتطلب المزيد من الذاكرة من السلسلة. تحذير: تتيح من فئة New RemopharpharpeDocumentator مزج نتائج من مؤشرات مختلفة مع المشغلين المودعين. نظرا لوجود عقدة استعلام REMAP جديدة، سيتعين تحديث جميع المستندات. تحذير: تمت إزالة جميع الفصول المستقلة. تحذير: يتم الآن محاذاة خيار Indexbuilder الآن للمسح الضوئي - فهو يحدد اسم المجموعة التي سيتم بناؤها في وقت الفهرسة. اعتاد أن يكون حجم المخزن المؤقت الجمع. فصول جديدة لبناء مجموعة المستندات الفعالة في وقت الفهرسة. أصبحت الهيكل الآن أيضا مفتوحة للغاية - يمكنك توصيل بناةكم. تعامل معاد هيكلة تماما التعامل مع الجمع والفئات الفرعية. ما لم تستخدم ترميز GoLomb، فلن تحتاج إلى تحميل الأحجام. هذا صحيح حتى على دفعات الحقول الافتراضية، كما لصق الآن بشكل افتراضي لا يرخص المواقف، بل تتوقع أن يتم تعيد ترقيمها بالفعل. يمكن الحصول على السلوك القديم عبر العلم. لقد انتقلنا إلى Jetty 6. تم إصلاح عدد قليل من المشكلات التي تعاني من سرعة عدم العثور على قوالب. معالجة ذاكرة جديدة أكثر ذكاء والتي يجب أن تكون قادرة على تجنب أخطاء خارج الذاكرة بالكامل. هناك أيضا حد كبير على عدد المصطلحات لكل دفعة يجب أن تساعد في جمع القمامة. إصلاح الخلل في إنشاء جمع: اعتدنا على توفير المصنع الأصلي، ولكن هذا خطأ حيث قد لا نقوم بفهرسة جميع الحقول. الآن نولد مصنع مناسب يحتوي فقط على الحقول المفهرسة. ميزة مهمة جديدة: قد يكون مؤشرات عالية الأداء الآن متغيرا كوفيا اعتمادا على تردد القائمة والكثافة. مؤشرات الآن Sport A.Posnumbits الملف الذي يسجل عدد البتات المستخدمة لتخزين المواقف. يتم استخدامه كإحصائيات أساسية لحساب الكم الصحيح. يمكنك طلب نسبة مئوية من الفهرس الذي سيتم استخدامه لتخطي الأبراج، وسيتم حساب الكم الصحيح لكل قائمة لك. هذه العملية تجريبية للغاية، لذلك ننظر دائما إلى. يتناسب الملفات للتحقق من أنك تستخدم في الواقع أكثر من النسبة المئوية المطلوبة. بشكل عام، يجب إعادة بناء المؤشرات القديمة قبل أن تكون قادرة على الجمع بينها في فهرس مع متغير الكم، ولكن بالنسبة إلى مؤشرات عالية الأداء، يمكن استخدام أداة CockEPosNumbsPositions لإضافة الملف المفقود. يستخدم تعيين الذاكرة من المؤشرات الآن النهج الجديد المتعدد المرسل المنفذ في Bytebufferinputstream. هذا يعني أنه يمكننا تعيين الخريطة في الذاكرة أساسا كل فهرس. بفضل Valentin Tablan و Ian Roberts لاقتراح هذا النهج. الآن نحن نتميز بتنفيذ وظيفة تصنيف BM25F للحكومة BM25F. zipdocumentcollection.getinstance () يجعل من الممكن تحميل مثيلات zipdoCumentCollection غير المستخدمة حتى لو لم تكن في الدليل الحالي. رموز رياضية جديدة UTF-8 للتزامن، وانفتاح، صحيح وكاذب. مشكلة ثابتة مع الكثير من الاتصالات مفتوحة عند استخدام JDBCDOCFORTCOLLECLETION. مفتاح جديد يخفف من مفتاح URI يجعل من الممكن طلب أحجام الأحجام في قائمة Elias-Fano المضغوطة. سيؤدي ذلك إلى إبطاء الوصول بواسطة أمرين من حجمها، ولكن قد يكون مفيدا للغاية عند لصق المؤشرات الكبيرة، لأن لصق يحتاج إلى تحميل كمية كبيرة من البيانات الحجم. مثيلات InterlyIndExitorator لم تعد المفروشات القائمة على الفهرس. كان هذا التغيير ضروريا لجعل من الممكن تشغيل خوارزميات الترتيب التي تتطلب ضبط الوزن أو المعرف حتى للمقطرين الفارغة. هذا يجب أن يسبب أي مشكلة. جميع المحامين المستندات لديهم الآن وزن مستقر. يمكن استخدام الوزن في بناء الجملة القياسي باستخدام الأقواس. لاحظ أن الأوزان في حد ذاته ليس لها معنى - الأمر متروك للدلاءات لاستخدامها. الآن خيار البيانات الوصفية فقط للجمع وينشئ تطبيقاته ملف الترددات. هذا مفيد للغاية لأنه يجعل من الممكن حساب الترددات المصطلح للمستندات الافتراضية التي تم الحصول عليها عن طريق تسليط جميع الحقول - وهو أمر ضروري للحساب الصحيح BM25F. تم إصلاح الخلل في قواعد اللغة: كانت الاستعلامات مثل "(أ))" قد تم تحليلها على أنها "(أ)" بسبب عدم وجود فحص ل EOF (بفضل Hugo Zaragoza للإبلاغ عن هذا الخطأ). سيقبل المحلل الآن أحرف Unicode 0x2227 و 0x2228 (الرموز الرياضية القياسية للتزامن وانتقصي) مقابل و أو أو، على التوالي. بعد بعض الاختبار TREC GOV2، تم تخفيض الإعدادات الافتراضية لمكافورة MaxPreanchor و MaxPostanchor في HTMLDOCFORTRAFITESTOR إلى 8 و 4 على التوالي. علة قديمة ثابتة في شبه دلامية؛ لم يتم استدعاء قراءات (0) بعد تقدير Numlongs، مما يؤدي إلى Eofexceptions. يمكن الآن ترميز مؤشرات المستندات في Unary. علة سيئة ثابتة في PartItionScly: لمؤشرات عالية الأداء، لم تتم كتابة مواقف المدى الأخير. httpfileserver لديه منفذ مستقر. هداف جديدة.getweights () طريقة للحصول على الأثقال. إصلاح الخلل في هداف TFIDF التي قد تسبب ساق. Query يقبل قائمة العناوين المنفصلة عبر الإنترنت، إلى جانب الكائن المتسلسل المعتاد.


إدارة غيغابايت ل Java برامج ذات صلة

libqrencode.

libqrencode هي مكتبة ج لترميز البيانات في رمز رمز الاستجابة السريعة. ...

237

تحميل