Tokenisation

The document contains a Python program that implements functions for word and sentence tokenization. The `tokenize_words_22011A6605` function processes text to extract words while handling punctuation and special characters, while the `tokenize_sentences_22011A6605` function uses regular expressions to split text into sentences. Example usage of both functions is provided at the end of the document.

Uploaded by

bathulapavanteja123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views2 pages

Tokenisation

Uploaded by

bathulapavanteja123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Python program for word and sentence tokenization

import re

def tokenize_words_22011A6605(text_22011A6605):
res_22011A6605 = []
for word_22011A6605 in text_22011A6605.replace('\n', ' ').split():
rds_22011A6605, w_22011A6605, vb_22011A6605 = [], "", ""

for i_22011A6605 in word_22011A6605:

if i_22011A6605 in "{[(<":
rds_22011A6605.append(i_22011A6605)
elif i_22011A6605.isalpha() or i_22011A6605 in "'":
w_22011A6605 += i_22011A6605
else:
if w_22011A6605:
rds_22011A6605.append("I" if w_22011A6605 == "I'm" else w_22011A6605)
w_22011A6605 = ""
if i_22011A6605 in "}])?!":
rds_22011A6605.append(i_22011A6605)
else:
vb_22011A6605 += i_22011A6605

if w_22011A6605:
rds_22011A6605.append("I" if w_22011A6605 == "I'm" else w_22011A6605)
if vb_22011A6605:
rds_22011A6605.append(vb_22011A6605)

res_22011A6605.extend(rds_22011A6605)
return res_22011A6605

def tokenize_sentences_22011A6605(text_22011A6605):
sentence_pattern_22011A6605 = r'([^.!?]+[.!?])'
sentences_22011A6605 = [Link](sentence_pattern_22011A6605, text_22011A6605,
[Link])
sentences_22011A6605 = [sent_22011A6605.strip() for sent_22011A6605 in
sentences_22011A6605]
return sentences_22011A6605

print(tokenize_words_22011A6605("Hello! How are you? I'm fine. Thanks for asking..."))

print(tokenize_sentences_22011A6605("Hello! How are you? I'm fine. Thanks for asking..."))
Output:

NLP Assignment1
No ratings yet
NLP Assignment1
1 page
1 ST
No ratings yet
1 ST
3 pages
NLP Lab Work
No ratings yet
NLP Lab Work
34 pages
PR 2
No ratings yet
PR 2
2 pages
NLP Lab Manual for CSE Students
No ratings yet
NLP Lab Manual for CSE Students
28 pages
Exercise 1
No ratings yet
Exercise 1
3 pages
NLP Practical Journal 2023-24
No ratings yet
NLP Practical Journal 2023-24
22 pages
NLP Pratical
No ratings yet
NLP Pratical
14 pages
NLP Practical Journal
No ratings yet
NLP Practical Journal
36 pages
NLP 02
No ratings yet
NLP 02
6 pages
NLP Smitpatel
No ratings yet
NLP Smitpatel
32 pages
NLP1 Prasen
No ratings yet
NLP1 Prasen
5 pages
Text Processing with NLTK in Python
No ratings yet
Text Processing with NLTK in Python
16 pages
Jal Patel NLP
No ratings yet
Jal Patel NLP
32 pages
NLP Exp1
No ratings yet
NLP Exp1
4 pages
Python NLP: Word & Sentence Tokenization
No ratings yet
Python NLP: Word & Sentence Tokenization
2 pages
Natural Language Processing Lab Manual
No ratings yet
Natural Language Processing Lab Manual
24 pages
20BCP112 - NLP Lab - LAB - Manual
No ratings yet
20BCP112 - NLP Lab - LAB - Manual
65 pages
Text Mining Basics
No ratings yet
Text Mining Basics
16 pages
NLP Tasks for MCA Students
No ratings yet
NLP Tasks for MCA Students
16 pages
NLP Experiment 2
No ratings yet
NLP Experiment 2
5 pages
NLP
No ratings yet
NLP
12 pages
NLP Lab File
No ratings yet
NLP Lab File
13 pages
H7 W5 NLP - Merged
No ratings yet
H7 W5 NLP - Merged
17 pages
NLP Techniques for Text Processing
No ratings yet
NLP Techniques for Text Processing
41 pages
Shubham Jade MSC It 31031420010 NLP Practical Journal
No ratings yet
Shubham Jade MSC It 31031420010 NLP Practical Journal
17 pages
Project
No ratings yet
Project
2 pages
NLP Core Using NLTK: Dr. Muhammad Nouman Durrani
No ratings yet
NLP Core Using NLTK: Dr. Muhammad Nouman Durrani
42 pages
NLP Lab Manual
No ratings yet
NLP Lab Manual
7 pages
NLP Lab Manual for CSE Students
No ratings yet
NLP Lab Manual for CSE Students
45 pages
Python Text Processing Techniques
No ratings yet
Python Text Processing Techniques
13 pages
NLP Lab1
No ratings yet
NLP Lab1
6 pages
3 B Morphology
No ratings yet
3 B Morphology
3 pages
Bling
No ratings yet
Bling
7 pages
J.K. Institute of Applied Physics and Technology: Natural Language Processing Assignment
No ratings yet
J.K. Institute of Applied Physics and Technology: Natural Language Processing Assignment
22 pages
7 Idf
No ratings yet
7 Idf
5 pages
Exp1 NLP
No ratings yet
Exp1 NLP
2 pages
AP19110010110 Lab Assignment-2 - Jupyter Notebook
No ratings yet
AP19110010110 Lab Assignment-2 - Jupyter Notebook
18 pages
NLP Day1
No ratings yet
NLP Day1
4 pages
Natural Langauage Processing (NLP) : Tokenization of Words
No ratings yet
Natural Langauage Processing (NLP) : Tokenization of Words
8 pages
TSA Lab Manual New
No ratings yet
TSA Lab Manual New
14 pages
Python Sentence Tokenization Methods
No ratings yet
Python Sentence Tokenization Methods
3 pages
Theory of Computation
No ratings yet
Theory of Computation
33 pages
Compiler Design Final
No ratings yet
Compiler Design Final
23 pages
SPL Lexer Implementation Guide
No ratings yet
SPL Lexer Implementation Guide
12 pages
2.2text Preprocessing Tokanization
No ratings yet
2.2text Preprocessing Tokanization
3 pages
NLP Lab Manual
No ratings yet
NLP Lab Manual
17 pages
Theory of Computation - Practical
No ratings yet
Theory of Computation - Practical
23 pages
NLP Lab Programs
No ratings yet
NLP Lab Programs
3 pages
SPCC Merged
No ratings yet
SPCC Merged
21 pages
Python Cơ Bản
No ratings yet
Python Cơ Bản
46 pages
Exp1 Ananya 66 C NLP
No ratings yet
Exp1 Ananya 66 C NLP
12 pages
Tokenizer
No ratings yet
Tokenizer
4 pages
A1 Compilers B22it031
No ratings yet
A1 Compilers B22it031
11 pages
Chapter 3
No ratings yet
Chapter 3
4 pages
Prolog Chatbot Program Guide
No ratings yet
Prolog Chatbot Program Guide
1 page
Ai&Ml Bai601 NLP Lab Manual
No ratings yet
Ai&Ml Bai601 NLP Lab Manual
48 pages
Tsa Ex-1
No ratings yet
Tsa Ex-1
2 pages
NLP Experiment 5
No ratings yet
NLP Experiment 5
3 pages
OS Record Pages 2
No ratings yet
OS Record Pages 2
37 pages
OS Record
No ratings yet
OS Record
1 page
Prolog Record
No ratings yet
Prolog Record
17 pages
Java Record
No ratings yet
Java Record
78 pages

Tokenisation

Uploaded by

Tokenisation

Uploaded by

Python program for word and sentence tokenization

for i_22011A6605 in word_22011A6605:

print(tokenize_words_22011A6605("Hello! How are you? I'm fine. Thanks for asking..."))

You might also like