Vad är funktionen substring() i R?

Innehåll

R:s funktion substring() är användbar för att förbereda data för analys. Den kan till exempel användas för att konvertera textdata till bättre strukturerade format.

Vad används funktionen R:s `substring()` till?

R:s substring() är en inbyggd funktion som väljer ut en del av en befintlig sträng. Den möjliggör en exakt definition av start- och slutindex så att du kan isolera den del av strängen som du behöver. Funktionen har en mängd olika användningsområden, från datarensning till att extrahera specifik information från ostrukturerade textdata. Du kan till exempel använda den för att extrahera postnummer från adresser eller datum från tidsstämplar.

substring() är flexibel i situationer som kräver finjusterad kontroll av positionen och längden på valda delsträngar. Metoden används ofta i dataanalyser och för att förbereda textdata för vidare bearbetning.

Vad är syntaxen för funktionen `substring()` i R?

substring() returnerar den del av strängen som har extraherats och tar följande parametrar:

substring(x, first, last)

x: Strängen som delsträngen ska extraheras från
first: Startindex (det första tecknet) för den delsträng du vill extrahera
last: Slutindex (det sista tecknet) för den delsträng du vill extrahera

Låt oss titta på ett exempel.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data

I det här exemplet väljer vi en delsträng från index 1 till index 4 i strängen "data analysis" och sparar den i variabeln result. Utmatningen blir "data".

Vilka är några praktiska användningsområden för R:s `substring()`?

När du bearbetar datamängder måste du ofta välja, manipulera eller extrahera vissa delar av strängar. Du kan använda funktionen substring() i R för att göra detta på olika sätt.

Extrahera tecken med `substring()`

Du kan spara index i variabler och sedan ange dem som argument i substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science

Det här exemplet visar vad substring() gör. En delsträng från position 6 till 12 valdes ut från den ursprungliga strängen "Data Science". Vi definierade variablerna start_index som startpunkt och end_index som slutpunkt. Utmatningen visar den extraherade delsträngen, i det här fallet "Science". Slutindexets värde 12 är inkluderande, vilket innebär att tecknet från position 12 ingår i delsträngen.

Manipulera strängar med funktionen `substring()` i R

Först skapar vi en dataram df som innehåller ID-nummer, ålder och yrke. Sedan använder vi funktionen substring() för att infoga ett mellanslag på andra positionen i varje sträng i ID-kolumnen.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)

I det här exemplet extraherar substring() den första siffran i varje tal (substring(df$ID, 1, 1) och resten av talsekvensen från och med den andra positionen (substring(df$ID, 2)). Därefter infogas ett mellanslag mellan dessa två delsträngar med hjälp av R paste. Resultatet visas i ID-kolumnen i dataramverket.

Resultatet ser ut som följer:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher

Vad är funk­tio­nen substring() i R?

Vad används funk­tio­nen R:s substring() till?

Vad är syntaxen för funk­tio­nen substring() i R?

Vilka är några praktiska an­vänd­nings­om­rå­den för R:s substring()?

Extrahera tecken med substring()

Ma­ni­pu­le­ra strängar med funk­tio­nen substring() i R