Audio

Introduction

GravitexAI audio APIs fall into two groups:

OpenAI format: /v1/audio/speech (TTS), /v1/audio/transcriptions (STT), /v1/audio/translations — compatible with the OpenAI Audio API.
Gemini native format: POST /v1beta/models/{model}:generateContent with responseModalities: ["AUDIO"] and speechConfig (e.g. gemini-2.5-flash-preview-tts).

Base URL: https://api.gravitex.ai. For Gemini auth, see Gemini native format.

Authentication

string

required

Bearer Token, e.g. Bearer sk-xxxxxxxxxx (OpenAI and Gemini)

string

Optional for Gemini: x-goog-api-key: sk-xxxxxxxxxx

Request examples

OpenAI format
Gemini format

Text-to-speech
Transcription
Translation

POST /v1/audio/speech

curl -X POST "https://api.gravitex.ai/v1/audio/speech" \
  -H "Authorization: Bearer sk-xxxxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Hello from GravitexAI.",
    "voice": "alloy",
    "response_format": "mp3"
  }' \
  --output speech.mp3

POST /v1/audio/transcriptions

curl -X POST "https://api.gravitex.ai/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-xxxxxxxxxx" \
  -F file="@audio.mp3" \
  -F model="whisper-1"

POST /v1/audio/translations

curl -X POST "https://api.gravitex.ai/v1/audio/translations" \
  -H "Authorization: Bearer sk-xxxxxxxxxx" \
  -F file="@audio.mp3" \
  -F model="whisper-1"

POST /v1beta/models/{model}:generateContentReplace {model} with a TTS model ID and set audio output in generationConfig.

curl -X POST "https://api.gravitex.ai/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
  -H "Authorization: Bearer sk-xxxxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "parts": [
          {"text": "Say cheerfully: Have a wonderful day!"}
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {
          "prebuiltVoiceConfig": {
            "voiceName": "Kore"
          }
        }
      }
    }
  }'

Audio is returned in candidates[0].content.parts[0].inlineData (Base64, often PCM):

echo "<base64_data>" | base64 --decode > out.pcm

For multi-speaker setups, use speechConfig.multiSpeakerVoiceConfig — see Google speech generation.

Common parameters

OpenAI format

Speech

model: e.g. tts-1, tts-1-hd
input: Text to speak (max 4096 chars)
voice: alloy, echo, fable, onyx, nova, shimmer

Transcriptions / translations

file: Audio file (multipart)
model: e.g. whisper-1

Gemini format (TTS)

model (path): e.g. gemini-2.5-flash-preview-tts, gemini-2.5-pro-preview-tts
contents[].parts[].text: Text or style instructions
generationConfig.responseModalities: must include "AUDIO"
generationConfig.speechConfig.voiceConfig.prebuiltVoiceConfig.voiceName: e.g. Kore, Puck, Charon

Gemini audio is produced only via generateContent, not /v1/audio/*. See Gemini native format for full parameters.

API documentation

Chat & text

Safety & audio

Image Series

Video Series

Completions & Embeddings

Interface module

Introduction

Authentication

Request examples

Common parameters

OpenAI format

Gemini format (TTS)

​Introduction

​Authentication

​Request examples

​Common parameters

​OpenAI format

​Gemini format (TTS)

Introduction

Authentication

Request examples

Common parameters

OpenAI format

Gemini format (TTS)