Srisin Transcriber

|

● Local Server Connected

📁 File Browser

media

Uploading…

Drop files here to upload

Transcribe Audio v3

📂 Stage 1: Input Preparation

MP3 File:

Upload via Google File API ?

ℹ️ Auto-Processing:

Audio duration, bitrate, sample rate auto-detected on file selection

Audio format validated before upload (MP3, size, integrity)

📐 Transcribe Time Range

Start: to End:

✂️ Divide Into Sections

Sections: Overlap: sec

Splits audio into equal-length segments, transcribes each sequentially, then concatenates SRT files.

🧠 Stage 2: Model & Prompt

Model: ?

Prompt Template: ?

Use System Instructions ?

Transcription Prompt: ?

Max Output Tokens: ?

Thinking Mode: ?

Custom Budget (tokens):

Generation Parameters

Temperature: 0.2 ?

Top-K: 40 ?

Top-P: 0.95 ?

⚡ Stage 3: Execution

Request Mode: ?

Retry on Failure ? Max retries:

Pre-Call Token Count ?

API Key: checking…

ℹ️ Auto-Processing:

Defensive JSON parsing on all Gemini responses (markdown fences, trailing commas handled)

SSE keep-alive heartbeat every 15s (prevents proxy timeout)

File API upload state verification (polls until ACTIVE, retries on FAILED)

Structured payload factory normalizes all API parameters

✅ Stage 4: Verification

Completeness Check ?

Auto-Continue if Incomplete ? Max passes:

Timing Validation ?

Thinking Token Warning ?

ℹ️ Auto-Processing:

Thinking token analysis — warns if thinking tokens exceed output tokens

SRT file saved with cost calculation and output statistics

API communication log (request/response pairs) saved to request folder

Estimated remaining: calculating...

📋 Batch Queue

📊 Status Dashboard

🔄 Continuation Progress

📡 Live Stream

📊 Transcription Report

📁 File Browser

media

Uploading…

Transcribe Audio

1. Select MP3 File:

2. Transcription Instruction Prompt:

3. Choose Google AI Language Model:

4. Request Mode:

Upload via Google File API (recommended for reliability)

📊 Status Dashboard

📡 Live Stream

📊 Transcription Report

Original: None

0/0 Corrections

Corrections: None

00:00:00,000

Speakers

00:00:00,000

00:00:00,000

⌨ Keyboard Shortcuts