spaCy është një librari softuerësh me burim të hapur për përpunim të avancuar të gjuhës natyrore, e shkruar në gjuhët e programimit Python dhe Cython . [1] [2] Libraria është botuar nën licencën MIT dhe zhvilluesit kryesorë të saj janë Matthew Honnibal dhe Ines Montani, themeluesit e kompanisë së softuerit Explosion.

Ndryshe nga NLTK, e cila përdoret gjerësisht për mësimdhënie dhe kërkime akademike, spaCy fokusohet në ofrimin e softuerit për përdorim në prodhim. [3] [4] spaCy gjithashtu mbështet rrjedhat e punës të mësimit të thellë që lejojnë lidhjen e modeleve statistikore të trajnuara nga libraritë e njohura të mësimit të makinerive si TensorFlow, PyTorch ose MXNet përmes librarisë së saj të mësimit të makinës, Thinc. [5] [6] Duke përdorur Thinc për backend-in e tij, spaCy përmban modele të rrjetit nervor të thurur për etiketimin e pjesës së të folurit, shkoqitjen e varësisë, kategorizimin e tekstit dhe njohjen e entitetit të emërtuar (NER) . Modelet e parandërtuara të rrjetave nervore statistikore për të kryer këto detyra janë të gatshme në 23 gjuhë mes të tjerave anglisht, portugalisht, spanjisht, rusisht dhe kinezisht, dhe ekziston gjithashtu një model NER shumë-gjuhësh. Mbështetja shtesë për tokenizimin për më shumë se 65 gjuhë i lejon përdoruesit të trajnojnë modelet e personalizuara edhe në grupet e tyre të të dhënave. [7]

Karakteristikat kryesore

Redakto
  • Tokenizimi jo shkatërrues
  • Mbështetje për "Alpha tokenization" në mbi 65 gjuhë [8]
  • Mbështetje e integruar për përbërësit e pipave të trajnueshme si njohja e entitetit me emër, etiketimi i pjesës së të folurit, analizimi i varësisë, klasifikimi i tekstit, Lidhja e entitetit dhe më shumë
  • Modele statistikore për 19 gjuhë [9]
  • Mësimi me shumë detyra me transformatorë të paratrajnuar si BERT
  • Mbështetje për modelet me porosi në PyTorch, TensorFlow dhe korniza të tjera
  • Shpejtësia dhe saktësia e kohës së fundit [10]
  • Sistemi i trajnimit gati për prodhimin
  • Vizualizues të integruar për sintaksën dhe entitetet e emërtuara
  • Paketim i lehtë i modelit, vendosje dhe menaxhim i rrjedhës së punës

Zgjatime dhe vizualizues

Redakto
 
Vizualizimi i pemës së analizës së varësisë i krijuar me vizualizuesin displaCy

spaCy vjen me disa shtesa dhe vizualizime që janë të gatshme si librari falas, me burim të hapur :

  1. ^ Choi et al. (2015).
  2. ^ "Google's new artificial intelligence can't understand these sentences. Can you?". Washington Post. Marrë më 2016-12-18. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  3. ^ "Facts & Figures - spaCy". spacy.io (në anglisht). Marrë më 2020-04-04.
  4. ^ Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). "Multidisciplinary instruction with the Natural Language Toolkit" (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN 9781932432145. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  5. ^ "PyTorch, TensorFlow & MXNet". thinc.ai. Marrë më 2020-04-04. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  6. ^ "explosion/thinc". GitHub. Marrë më 2016-12-30. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  7. ^ "Models & Languages | spaCy Usage Documentation". spacy.io. Marrë më 2020-03-10. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  8. ^ "Models & Languages - spaCy". spacy.io (në anglisht). Marrë më 2021-02-08.
  9. ^ "Models & Languages | spaCy Usage Documentation". spacy.io (në anglisht). Marrë më 2021-02-08.
  10. ^ "Benchmarks | spaCy Usage Documentation". spacy.io (në anglisht). Marrë më 2021-02-08.
  11. ^ Trask et al. (2015). sense2vec - A Fast and Accurate Method for Word Sense Disambiguation In Neural Word Embeddings.