src/lexer.py

import re

class Token:
    def __init__(self, type, value):
        self.type = type
        self.value = value

    def __repr__(self):
        return f'Token({self.type}, {self.value!r})'

class Lexer:
    def __init__(self, text):
        self.text = text
        self.pos = 0

    def error(self):
        raise Exception('Invalid character')

    def get_next_token(self):
        if self.pos > len(self.text) - 1:
            return Token('EOF', None)

        # Skip whitespace
        while self.pos < len(self.text) and self.text[self.pos].isspace():
            self.pos += 1

        if self.pos > len(self.text) - 1:
            return Token('EOF', None)

        current_char = self.text[self.pos]

        if current_char == '"':
            self.pos += 1
            string_end = self.text.find('"', self.pos)
            if string_end == -1:
                self.error()
            string = self.text[self.pos:string_end]
            self.pos = string_end + 1
            return Token('STRING', string)

        if current_char.isdigit():
            start_pos = self.pos
            while self.pos < len(self.text) and self.text[self.pos].isdigit():
                self.pos += 1
            return Token('INTEGER', int(self.text[start_pos:self.pos]))

        # Operators
        if current_char == '+':
            self.pos += 1
            return Token('PLUS', '+')
        if current_char == '-':
            self.pos += 1
            return Token('MINUS', '-')
        if current_char == '*':
            self.pos += 1
            return Token('MUL', '*')
        if current_char == '/':
            self.pos += 1
            return Token('DIV', '/')
        if current_char == '=':
            if self.pos + 1 < len(self.text) and self.text[self.pos + 1] == '=':
                self.pos += 2
                return Token('EQ', '==')
        if current_char == '!':
            if self.pos + 1 < len(self.text) and self.text[self.pos + 1] == '=':
                self.pos += 2
                return Token('NEQ', '!=')
        if current_char == '>':
            if self.pos + 1 < len(self.text) and self.text[self.pos + 1] == '=':
                self.pos += 2
                return Token('GTE', '>=')
            else:
                self.pos += 1
                return Token('GT', '>')
        if current_char == '<':
            if self.pos + 1 < len(self.text) and self.text[self.pos + 1] == '=':
                self.pos += 2
                return Token('LTE', '<=')
            else:
                self.pos += 1
                return Token('LT', '<')

        # Match keywords (longer ones first)
        if re.match(r'\bFemboy Feminine\b', self.text[self.pos:]):
            self.pos += len('Femboy Feminine')
            return Token('FEMBOY_FEMININE', 'Femboy Feminine')
        if re.match(r'\bUwU Boy\b', self.text[self.pos:]):
            self.pos += 7
            return Token('PRINT', 'UwU Boy')
        if re.match(r'\bAndrogyny\b', self.text[self.pos:]):
            self.pos += len('Androgyny')
            return Token('ANDROGYNY', 'Androgyny')
        if re.match(r'\bis\b', self.text[self.pos:]):
            self.pos += 2
            return Token('ASSIGN', 'is')
        if re.match(r'\bFemboycore\b', self.text[self.pos:]):
            self.pos += len('Femboycore')
            return Token('FEMBOYCORE', 'Femboycore')
        if re.match(r'\bPeriodt\b', self.text[self.pos:]):
            self.pos += len('Periodt')
            return Token('PERIODT', 'Periodt')

        # Match identifiers
        match = re.match(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b', self.text[self.pos:])
        if match:
            value = match.group(0)
            self.pos += len(value)
            return Token('ID', value)

        self.error()

    def tokenize(self):
        tokens = []
        while True:
            token = self.get_next_token()
            tokens.append(token)
            if token.type == 'EOF':
                break
        return tokens
Initial commit: Basic interpreter structure 2025-07-22 15:56:40 +02:00			`import re`

			`class Token:`
			`def __init__(self, type, value):`
			`self.type = type`
			`self.value = value`

			`def __repr__(self):`
			`return f'Token({self.type}, {self.value!r})'`

			`class Lexer:`
			`def __init__(self, text):`
			`self.text = text`
			`self.pos = 0`

			`def error(self):`
			`raise Exception('Invalid character')`

			`def get_next_token(self):`
			`if self.pos > len(self.text) - 1:`
			`return Token('EOF', None)`

feat: Implement variables 2025-07-22 16:06:04 +02:00			`# Skip whitespace`
			`while self.pos < len(self.text) and self.text[self.pos].isspace():`
Initial commit: Basic interpreter structure 2025-07-22 15:56:40 +02:00			`self.pos += 1`
feat: Implement variables 2025-07-22 16:06:04 +02:00
			`if self.pos > len(self.text) - 1:`
			`return Token('EOF', None)`

			`current_char = self.text[self.pos]`
Initial commit: Basic interpreter structure 2025-07-22 15:56:40 +02:00
			`if current_char == '"':`
			`self.pos += 1`
			`string_end = self.text.find('"', self.pos)`
			`if string_end == -1:`
			`self.error()`
			`string = self.text[self.pos:string_end]`
			`self.pos = string_end + 1`
			`return Token('STRING', string)`

feat: Add numbers and arithmetic operations 2025-07-22 16:12:23 +02:00			`if current_char.isdigit():`
			`start_pos = self.pos`
			`while self.pos < len(self.text) and self.text[self.pos].isdigit():`
			`self.pos += 1`
			`return Token('INTEGER', int(self.text[start_pos:self.pos]))`

feat: Add conditional logic (if/else) 2025-07-22 16:17:32 +02:00			`# Operators`
feat: Add numbers and arithmetic operations 2025-07-22 16:12:23 +02:00			`if current_char == '+':`
			`self.pos += 1`
			`return Token('PLUS', '+')`
			`if current_char == '-':`
			`self.pos += 1`
			`return Token('MINUS', '-')`
			`if current_char == '*':`
			`self.pos += 1`
			`return Token('MUL', '*')`
			`if current_char == '/':`
			`self.pos += 1`
			`return Token('DIV', '/')`
feat: Add conditional logic (if/else) 2025-07-22 16:17:32 +02:00			`if current_char == '=':`
			`if self.pos + 1 < len(self.text) and self.text[self.pos + 1] == '=':`
			`self.pos += 2`
			`return Token('EQ', '==')`
			`if current_char == '!':`
			`if self.pos + 1 < len(self.text) and self.text[self.pos + 1] == '=':`
			`self.pos += 2`
			`return Token('NEQ', '!=')`
			`if current_char == '>':`
			`if self.pos + 1 < len(self.text) and self.text[self.pos + 1] == '=':`
			`self.pos += 2`
			`return Token('GTE', '>=')`
			`else:`
			`self.pos += 1`
			`return Token('GT', '>')`
			`if current_char == '<':`
			`if self.pos + 1 < len(self.text) and self.text[self.pos + 1] == '=':`
			`self.pos += 2`
			`return Token('LTE', '<=')`
			`else:`
			`self.pos += 1`
			`return Token('LT', '<')`
feat: Add numbers and arithmetic operations 2025-07-22 16:12:23 +02:00
feat: Add conditional logic (if/else) 2025-07-22 16:17:32 +02:00			`# Match keywords (longer ones first)`
			`if re.match(r'\bFemboy Feminine\b', self.text[self.pos:]):`
			`self.pos += len('Femboy Feminine')`
			`return Token('FEMBOY_FEMININE', 'Femboy Feminine')`
Initial commit: Basic interpreter structure 2025-07-22 15:56:40 +02:00			`if re.match(r'\bUwU Boy\b', self.text[self.pos:]):`
			`self.pos += 7`
			`return Token('PRINT', 'UwU Boy')`
feat: Add conditional logic (if/else) 2025-07-22 16:17:32 +02:00			`if re.match(r'\bAndrogyny\b', self.text[self.pos:]):`
			`self.pos += len('Androgyny')`
			`return Token('ANDROGYNY', 'Androgyny')`
feat: Implement variables 2025-07-22 16:06:04 +02:00			`if re.match(r'\bis\b', self.text[self.pos:]):`
			`self.pos += 2`
			`return Token('ASSIGN', 'is')`
feat: Add conditional logic (if/else) 2025-07-22 16:17:32 +02:00			`if re.match(r'\bFemboycore\b', self.text[self.pos:]):`
			`self.pos += len('Femboycore')`
			`return Token('FEMBOYCORE', 'Femboycore')`
			`if re.match(r'\bPeriodt\b', self.text[self.pos:]):`
			`self.pos += len('Periodt')`
			`return Token('PERIODT', 'Periodt')`
feat: Implement variables 2025-07-22 16:06:04 +02:00
			`# Match identifiers`
			`match = re.match(r'\b[a-zA-Z_][a-zA-Z0-9_]*\b', self.text[self.pos:])`
			`if match:`
			`value = match.group(0)`
			`self.pos += len(value)`
			`return Token('ID', value)`
Initial commit: Basic interpreter structure 2025-07-22 15:56:40 +02:00
			`self.error()`

			`def tokenize(self):`
			`tokens = []`
			`while True:`
			`token = self.get_next_token()`
			`tokens.append(token)`
			`if token.type == 'EOF':`
			`break`
			`return tokens`